首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

具备1,760亿个参数的语言模型BLOOM开源了

由AI创业公司Hugging Face主导并协调的BigScience项目于本周公布了成果,发布具备1,760亿个参数的大型语言模型BLOOM(BigScience Large Open-science Open-access Multilingual Language Model),其规模大过OpenAI GPT-3的1,750亿个参数,而且开放各界下载与访问。

BigScience项目是在去年5月正式启动,凭借来自全球60个国家、超过250个机构,以及超过1,000名研究人员的贡献,最后由法国超级计算机Jean Zay执行117天的训练,才于今年7月完成了BLOOM模型。

BLOOM模型可理解46种语言及13种程序语言,包含法文、西班牙文、越南文、中文或多种印度及非洲语言,大约只有超过30%的训练资料为英文,因此,现在用户只要选择一种语言,就能要求BLOOM撰写食谱、翻译或摘要,也能要求BLOOM撰写程序代码。

这是目前全球所开源的最大语言模型,而且尽可能地透明化,公开了所用来训练的资料,开发时曾面临的困境,以及评估其性能的方式。

不过,BLOOM模型也具备其它大型语言模型的缺点,可能藏匿了不准确或是有偏见的语言,但一来该项目采用新的《负责任AI许可》(Responsible AI License),避免被应用于诸如执法机构或医疗看护等高风险的领域,也禁止它被用来伤害、欺骗、剥削或冒充他人,二来Hugging Face认为开源将能让AI社群协助改善该模型。

当初OpenAI曾说不发布模型或程序代码的原因是担心模型遭到滥用,虽然BigScience项目激活了《负责任AI许可》,然而它只是个类似服务条款的协议,也无法令上的保护,或许还是难逃被滥用的命运,但Hugging Face认为,有一个良好的开源语言模型,将会替相关研究带来深远的影响。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20220714A08NQK00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券