在各家大厂竞逐大模型的步伐中,近日才发布相关产品的蚂蚁集团无疑赶了个“晚集”。
9月8日,在上海举办的外滩大会上,蚂蚁集团正式发布金融大模型以及基于金融大模型能力的两款产品:C端智能金融助理“支小宝2.0”与B端智能业务助手“支小助”,从基础大模型走向产业大模型与产业应用。
而此时全国已有超过130家公司发布自己的大模型,百度“文心一言”、商汤科技“商量SenseChat”、腾讯“混元大模型”、华为“盘古大模型”等等都已通过国家网信办深度合成服务算法备案。
一直以来,拥有雄厚资金投入与数据基础的金融行业,被公认为大模型落地应用的前沿领域。然而,通用大模型的泛化能力似乎又与金融场景对“绝对精准”与“绝对安全”的要求背道而驰。
对于蚂蚁而言,AI大模型意味着什么?当蚂蚁集团参战开“卷”,为何选择垂直大模型产品?大模型在金融行业的产业化落地应用还有多远?
“AI是一个科技战略问题”“无论对金融行业,还是对蚂蚁自身,AI都是一个科技战略问题。”
蚂蚁集团副总裁王晓航告诉21世纪经济报道记者,今天的产业技术变革不是一蹴而就的,如果没有长期以来AI全栈布局与积累,很难把握住这一轮技术变革的先机,而蚂蚁很早就做好了准备。
2021年8月,斯坦福教授李飞飞与上百位AI科学家联名发表《基础模型的风险与机遇》,掀开学界对大模型的研究,而蚂蚁也由此开启了对大模型的内部实践研究,从支付宝开始探索百亿规模的AI模型。
“在这之后,我们慢慢探索出了大模型新的技术范式,即在预训练的基础上进行精调,当服务发生变化,基础模型不再需要重新训练,这大幅提高了我们工程的生产能力。”蚂蚁集团CTO何征宇提到,在2022年1月的一次公开演讲中,他就分享过大模型范式的探索。
21世纪经济报道记者了解到,2022年9月,蚂蚁集团内部开了一次战略性的会议,确立了集团整体AI的工程体系,必须围绕大模型来做整体的升级。
“今年3、4月份,相信所有中国科技企业都曾经过了一段焦虑期,最害怕睡觉,害怕刚一起床就发现有一个新的论文和产品要研究。”王晓航坦言,尽管大模型的涌现带来了各种各样的可能性,但这还是一个需要知识积累的技术,在扎实的AI全栈布局与巨大的资金投入下,大模型不会一夜之间颠覆某个行业。“这是一个持续、长期的过程。”他表示。
算力、数据、算法是推动大模型成长的“三驾马车”,蚂蚁的基础大模型在这三个层面都投入巨大。
算力层面,蚂蚁基础大模型平台具备万卡异构集群,其中千卡规模训练MFU可达到40%,集群有效训练时长占比达到90%以上;数据层面,除了全网通用语料与金融领域的优质语料,蚂蚁还注入了优质的研判分析数据,以及大规模知识工程所带来的超过270亿Token的知识量;模型层面,蚂蚁认为金融专属指令更能够代表大模型,解决特定金融任务的能力,其从真实场景中萃取了超过60万条以上的专属指令。
“大模型、生成式人工智能,是非常深刻的基础技术,就像电力在发明之初被运用于电灯与照明,但逐渐它会深入到人们生活的方方面面。”何征宇如是说。
金融全场景落地道阻且长在“百模大战”下,每家公司都面临着不同的商业路径选择。
一方面,通用大模型与垂直领域大模型的发展能力截然相反,前者强调通用的泛化能力,而后者强调精准与精确专业。另一方面,“百模大战”背后是大模型全产业链的发展,云平台、计算机硬件、底层基础大模型、大模型落地解决方案、大模型应用程序与服务都是这个赛道上的重要一环。
对此,蚂蚁集团选择的路径是“卷”专业不“卷”云厂商。
“我们不做裸模型的开放,不卷云厂商。”王晓航告诉记者,蚂蚁希望通过平台和产品来帮助金融机构解决关键问题。
何征宇向记者表示,如果要为金融机构提供精调的落地解决方案,首先需要大量算力的投入,其次需要大量清洗好的数据与大量专业技术人才,而如今市场上这些资源都非常紧缺。
“我认为这些技术红利不应该只垄断在大公司,或者大平台手中,应该尽快降低门槛,让大模型技术得到快速普及。”何征宇指出,蚂蚁希望提供端到端的产品,让不了解大模型技术的员工与普通人也可以享受到技术红利,实现技术普惠。
蚂蚁集团这次发布的产品有两款,分别是针对C端用户的智能金融助理“支小宝2.0”,以及服务B端金融机构的智能业务助手“支小助”。值得一提的是,蚂蚁的这个大模型有点“卷”,8月底,它已通过证券从业资格、保险从业资格、执业医师资格、执业药师资格等专业试题测试。
“在大模型时代,想象力非常重要,但我们认为更重要的是把技术转化为规模化产业价值的能力,这需要解决产业的真命题。”王晓航在演讲中说道。
如此看来,蚂蚁的大模型产品如果要覆盖金融产业链条各个复杂环节,道阻且长。
复旦大学计算机科学技术学院教授肖仰华指出,从根本上来说,金融领域是复杂且严肃的应用场景。“严肃”意味着准确性要求极高,合规性要求极高,而生成式AI天生具备“幻觉”,其“一本正经胡说八道”的能力与严肃的应用要求存在天然矛盾,这一矛盾需要技术的调和。而复杂的金融场景是系统性的,例如从源头来看,在数据合规、数据隔离、知识私有化等等问题都会限制大模型的效果发挥。
在金融系统的安全方面,浙江大学计算机学院教授、浙江大学人工智能研究所副所长郑小林也表示,模型训练过程中,许多非线性预算是需要进行警示的,如果误差经过一层层累积,可能会成为比较大的金融安全隐患,这一安全问题需要个人、平台、监管的全面关注。
“现在大模型技术在通用领域的门槛正在降低,但真正深入到专业领域,牵涉风险管理、决策研判等领域,还是停留在想象阶段。”王晓航表示,如今大模型在金融行业的应用还没有成熟,需要金融机构、金融科技公司共同将大模型的技术能力转化成产品,实现产业落地的能力还需要1-2年。