AI大模型的发展需要开源生态
9月6日,百川智能宣布正式开源微调后的Baichuan2-7B、Baichuan2-13B、Baichuan2-13B-Chat与其4bit量化版本,并且均为免费可商用。
今年4月,王小川在离开搜狗一年半后创办了百川智能,开启了新的创业征程。王小川说,百川智能刚成立时,原计划是今年三季度发布500亿规模参数的模型,四季度发布对标ChatGPT 3.5的模型,在明年一季度发布超级应用。
但在6月份,王小川看到中国市场存在做开源模型的需求。6月15日,百川智能发布国内首款开源可免费商用的70亿参数量大语言模型Baichuan-7B;7月11日,百川智能又发布了参数量130亿的大语言模型Baichuan-13B以及对话模型Baichuan-13B-Chat。
据王小川透露,Baichuan-7B、Baichuan-13B这两款开源大模型目前的下载量已经突破500万,其中近一个月的下载量突破了300万。除开发者之外,也有200多家企业申请部署开源大模型。
而百川智能这次发布的Baichuan2-7B和Baichuan2-13B,均基于2.6万亿高质量多语言数据进行训练,两个模型在数学、代码、安全、逻辑推理、语义理解等能力有显著提升。
其中,Baichuan2-13B相比上一代13B模型,数学能力提升49%,代码能力提升46%,安全能力提升37%,逻辑推理能力提升25%,语义理解能力提升15%。
王小川表示,Baichuan2-7B和Baichuan2-13B两个模型在MMLU、CMMLU、GSM8K等几大权威评估基准中,以绝对优势领先LLaMA2。其中,根据MMLU等多个权威英文评估基准评分,Baichuan2-7B以70亿的参数在英文主流任务上与130亿参数量的LLaMA2持平。
在国际市场,OpenAI和谷歌都选择了闭源来保证自家大模型的优势地位,而Meta率先走上了开源的道路。LLaMA开源后,迅速吸引了大量开发者,基于LLaMA开发的很多产品,也已经能够达到匹敌GPT3.5的性能。
但王小川指出,LLaMA的开源存在一些弊端,首先是如果用户超过7亿,就不提供开源支持,另外就是LLaMA开源仅适用于以英文为主的环境,如果开发者做的模型更多是使用中文场景,那也拿不到开源协议。
而百川智能想做的,就是弥补中国开源生态的短板,让中国开发者能够用上对中文场景更友好的开源模型。王小川说,“Baichuan2开源模型发布之后,用LLaMA2作为开源模型的时代就已经过去了。”
另外值得关注的是,百川智能这次在发布开源模型的同时,也公开了Baichuan 2的技术报告。该报告详细介绍了Baichuan 2 训练的全过程,包括数据处理、模型结构优化、Scaling law、过程指标等。这也是国内首次有公司选择公开这样的训练过程,它将帮助更多大模型学术机构、开发者和企业用户更深入了解大模型训练过程。
除了开源产品外,8月初,百川智能还发布了闭源大模型Baichuan-53B,这意味着百川智能已完成了“开源+闭源”大模型并行布局。8月31日,百川智能通过了《生成式人工智能服务管理暂行办法》备案,可以正式面向公众提供服务。