本报记者 李静 北京报道
9月6日,百川智能宣布正式开源微调后的Baichuan2-7B、Baichuan2-13B、Baichuan2-13B-Chat与其4bit量化版本,并且均为免费可商用。
据介绍,Baichuan2-7B-Base 和 Baichuan2-13B-Base,均基于 2.6万亿高质量多语言数据进行训练,在保留了上一代开源模型良好的生成与创作能力,流畅的多轮对话能力以及部署门槛较低等众多特性的基础上,两个模型在数学、代码、安全、逻辑推理、语义理解等能力有显著提升。其中Baichuan2-13B-Base相比上一代13B模型,数学能力提升49%,代码能力提升46%,安全能力提升37%,逻辑推理能力提升25%,语义理解能力提升15%。
百川智能自成立之初,就将通过开源方式助力中国大模型生态繁荣作为公司的重要发展方向。百川智能成立不到四个月,便相继发布了Baichuan-7B、Baichuan-13B两款开源免费可商用的中文大模型,以及一款搜索增强大模型Baichuan-53B,两款开源大模型在多个权威评测榜单均名列前茅,目前下载量超过500万次。
百川智能创始人兼CEO王小川还在会上透露了做开源大模型的始末。“百川智能在今年二季度成立,在做资本的筹备时,原本计划三季度发布500亿规模参数的模型,四季度发布对标ChatGPT3.5的模型,明年一季度发布超级应用。”王小川说道,“业务在实际执行过程中进展得很顺利,在二季度最后一个月,我们认为当时中国有一个需求,也是我们能做出一点贡献的地方,就是开源模型,所以成立公司之后就开始发布开源模型,但同时也兼顾了闭源大模型的训练。”
据介绍,百川智能本次开源的两个模型在各大评测榜单上的表现优秀,在MMLU、CMMLU、GSM8K等几大权威评估基准中,以绝对优势领先LLaMA2,相比其他同等参数量大模型,表现也十分亮眼,性能大幅度优于LLaMA2等同尺寸模型竞品。根据MMLU等多个权威英文评估基准评分 ,Baichuan2-7B以70亿的参数在英文主流任务上与130亿参数量的LLaMA2持平。
Baichuan2-7B和Baichuan2-13B不仅对学术研究完全开放,开发者也仅需邮件申请获得官方商用许可后,即可以免费商用。
王小川表示:“可以很自豪地说,当我发布Baichuan2之后,用LLaMA2作为一个开源模型的时代已经过去了,一方面LLaMA2本身能力没有那么好,另外一方面美国LLaMA协议中对中国不是很友好,我们现在可以提供比LLaMA更友好且能力更强的开源模型,希望能够帮助扶持中国整个生态的发展。”
另外值得关注的是,百川智能在发布会上宣布,公开Baichuan 2的技术报告。技术报告将详细介绍Baichuan 2 训练的全过程,包括数据处理、模型结构优化、Scaling law、过程指标等。
当前大部分开源模型在开源过程中只是对外公开自身的模型权重,很少提及训练细节,企业、研究机构、开发者们只能在开源模型的基础上做有限的微调,很难进行深入研究。而大模型训练包含海量高质量数据获取、大规模训练集群稳定训练、模型算法调优等多个环节。每个环节都需要大量人才、算力等资源的投入,从零到一完整训练一个模型的高昂成本,阻碍了学术界对大模型训练的深入研究。
(编辑:张靖超 校对 校对 陈丽)
领取专属 10元无门槛券
私享最新 技术干货