9月22日,由深圳数据交易所主办的“湾区数据沙龙-大模型语料数据推介会”在深圳举行。本次会议以线上+线下的方式同步召开,聚焦大模型训练数据供给问题,打通供需两侧产业资源,邀请了飞迪科技、数据堂、北京海天瑞声科技股份有限公司、网智天元科技集团股份有限公司、北京希尔贝壳科技有限公司、北京晴数智慧科技有限公司等业内数据商,针对大模型厂商现有市场需求展开了深入交流。
深圳数据交易所表示,语料数据是大模型训练的重要“燃料”,有助于大模型更好地适配实际的应用场景,实现人工智能赋能千行百业的愿景。业内人士普遍认为,高质量的语料对于大模型在各行各业的应用十分关键。
数据商聚焦垂直场景应用,关注数据安全合规
记者梳理发现,参与数据沙龙活动的六家数据商,均重点介绍了自家数据服务产品可与大模型相结合的垂直应用场景,显示出蓬勃发展的大模型为数据商带来的市场机遇。与此同时,基于数据产品的特殊性,参会数据商普遍强调自身在数据采集、清洗、标注等全过程的安全性与合规性。
飞迪科技是一家将内容数字化和AIGC技术深度运用于线上财富管理和买方服务领域的金融科技公司。其创始人CEO丘慧慧在会上表示,金融场景具有信息频次高、场景密度高、专业门槛高和容错率低这“三高一低”的特点,而用户普遍存在信息过载和缺少服务的困扰。公司通过积累和处理主流财经门户、政府监管机构、权威财经媒体等7类数据源的数据,实时生成一套对“有用”信息的发现、生产和分发机制。
丘慧慧以“股票问问”和“行业问问”等场景举例,当一个股票或者一个版块股价出现大幅下跌时,股民往往好奇下跌的原因。公司的产品能够从新闻门户、媒体报道、行情数据、公告研报、微博雪球等渠道,向用户提示最新的资讯与消息面情况,帮助用户理解分析股价异动的原因。
人工智能数据服务企业数据堂主要为人工智能及大数据领域公司提供高质量的训练数据集、数据采集与标注定制服务、标注平台部署等一体化数据解决方案。数据堂华南大区负责人彭颖岚向记者介绍,公司的数据产品为自有版权、清晰可靠,同时拥有成熟的质检体系,通过了业务合规的审核。“现在大模型越来越往垂直类发展,我们可以为智能驾驶、智能家居、新零售、游戏娱乐、智能客服等提供相关的大模型数据。”彭颖岚说。
晴数智慧大模型业务负责人乔天认为,2023年是数据产业高质量发展的元年,大模型对数据的质量要求更高,也给中文语料建设带来了一些挑战。乔天认为,目前中文数据集存在规模小、脏数据多,耦合产品的数据设计方案缺乏,高质量筛选体系匮乏等问题。乔天还表示,未来,数据的合规性价值将日益凸显,合规与否几乎决定着数据价值是“0”还是“1”;同时,数据的复杂度即工序越复杂,数据的价值也将越高。
大模型的火热让中文语料数据库的建设提速
行业的一个普遍共识是,高质量的行业知识库和训练数据是大模型实现赋能千行百业的制胜关键。
工业和信息化部电子第五研究所副所长王蕴辉在接受记者采访时曾表示,行业大模型对数据要求更高,主要体现在四个方面:一是更加专业,需要涵盖专业知识、术语、规则和逻辑,适应特定的需求和场景;二是更加稀缺,需从具体场景中采集数据,具有获取和整合难度;三是更加动态,需要不断进行更新扩充以适应行业的发展变化;四是更加敏感,行业大模型处理的往往是私人或带有商业机密性质的数据,需更加注重隐私保护和数据安全。
然而从目前的情况来看,虽然我国的数据资源丰富,但是由于数据挖掘不足,数据尚无法在市场上自由流通等因素,优质的中文数据集依然比较稀缺,成为阻碍大模型研发的重要因素。据媒体统计,ChatGPT的训练数据中,中文资料的比重不足千分之一,而英文资料占比超过92.6%。此外,加利福尼亚大学和谷歌的研究机构发现,目前机器学习和自然语言处理模型使用的数据集有50%是由12家顶级机构提供,其中10家为美国机构,1家为德国机构,只有1家机构来自中国,即香港中文大学。
正如乔天所说,2023年属数据产业高质量发展的元年,大模型的火热让中文语料数据库的建设大大提速。记者梳理发现,已经有多个地方的数据交易所和大模型研究机构,围绕中文语料库建设进行了一系列尝试和探索。
比如,为应对大模型发展对高质量、大规模、安全可信语料数据资源的需求,上海人工智能实验室联合中央广播电视总台、人民网、国家气象中心、中国科学技术信息研究所、上海报业集团、上海文广集团等10家单位联合发起成立了大模型语料数据联盟。今年8月14日,上海人工智能实验室宣布,联合语料数据联盟成员共同开源发布“书生·万卷”1.0多模态预训练语料。
据了解,“书生·万卷” 1.0目前包含文本数据集、图文数据集、视频数据集三部分,本次开源的数据总量超过2TB。集合语料数据联盟成员丰富的内容积累与上海AI实验室领先的数据处理能力等优势,“书生·万卷”将为学术界及产业界提供更符合主流中文价值对齐的高质量大模型多模态预训练语料。
在今年7月举行的2023全球数字经济大会上,首批“北京市人工智能大模型高质量数据集”发布。据了解,共有10家单位的18个高质量训练数据集入选,包括人民日报语料数据集、国家法律法规语料数据集,两会参政议政建言数据集、“科情头条”全球科技动态数据集,中国科学引文数据库数据集、科技文献挖掘语义标注数据集等,涵盖经济、政治、文化、社会、生态等不同领域,总规模超过500T。
8月28日,第二批北京市人工智能大模型高质量数据集发布,现场发布的16家单位41个数据集,涉及医学、生物、农业、金融、政务、互联网、智慧城市、自动驾驶、科技服务、商业分析、产业研究、市场营销等多个领域,数据总量规模约112TB,为通用大模型和行业大模型训练及应用落地提供坚实有力的保障。
数据是大模型的“燃料”,未来大模型的竞争无疑将更加依赖高质量的数据。相信,随着大模型在各个行业的应用不断走深,行业内对高质量数据集的渴求,将促进中文语料数据库的加速发展。