具备1，760亿个参数的语言模型BLOOM开源了

文章来源：企鹅号 - 十轮网科技

由AI创业公司Hugging Face主导并协调的BigScience项目于本周公布了成果，发布具备1,760亿个参数的大型语言模型BLOOM（BigScience Large Open-science Open-access Multilingual Language Model），其规模大过OpenAI GPT-3的1,750亿个参数，而且开放各界下载与访问。

BigScience项目是在去年5月正式启动，凭借来自全球60个国家、超过250个机构，以及超过1,000名研究人员的贡献，最后由法国超级计算机Jean Zay执行117天的训练，才于今年7月完成了BLOOM模型。

BLOOM模型可理解46种语言及13种程序语言，包含法文、西班牙文、越南文、中文或多种印度及非洲语言，大约只有超过30%的训练资料为英文，因此，现在用户只要选择一种语言，就能要求BLOOM撰写食谱、翻译或摘要，也能要求BLOOM撰写程序代码。

这是目前全球所开源的最大语言模型，而且尽可能地透明化，公开了所用来训练的资料，开发时曾面临的困境，以及评估其性能的方式。

不过，BLOOM模型也具备其它大型语言模型的缺点，可能藏匿了不准确或是有偏见的语言，但一来该项目采用新的《负责任AI许可》（Responsible AI License），避免被应用于诸如执法机构或医疗看护等高风险的领域，也禁止它被用来伤害、欺骗、剥削或冒充他人，二来Hugging Face认为开源将能让AI社群协助改善该模型。

当初OpenAI曾说不发布模型或程序代码的原因是担心模型遭到滥用，虽然BigScience项目激活了《负责任AI许可》，然而它只是个类似服务条款的协议，也无法令上的保护，或许还是难逃被滥用的命运，但Hugging Face认为，有一个良好的开源语言模型，将会替相关研究带来深远的影响。

发表于: 2022-07-142022-07-14 18:09:32
原文链接：https://kuaibao.qq.com/s/20220714A08NQK00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

具备1，760亿个参数的语言模型BLOOM开源了

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐