首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

马斯克抱怨 GPT-3 不够 Open,开源语言模型库来了你要不要学?

【编者按】一个名叫 EleutherAI 的团队开源了语言模型代码库 GPT-neo,利用 mesh-tensorflow 库扩展到完整的 GPT-3 尺寸,官方预计可能会更大,不过该模型的名字还没完全确定,或许叫 GPT-hahaha 也说不好。项目创建于 2020 年 7 月,最初是打算做一个 GPT-2 的复刻版,后来就打算做一个寨版 GPT-3 ,还一度遇到了 TPU 不够的情况。关注项目的热心网友 cue 了一下马斯克,称这个项目可以改名字叫做 realOpenAI。

作者 | 八宝粥

出品 | CSDN(id:CSDNnews)

工欲善其事,必先利其器,要搞大模型,先有大数据。

所以项目先是完成了一个语料数据仓库——Pile,数据大小为835 GB,通过 22 个数据集/语料仓库的组合,可以保证有效的泛化能力。团队希望能够和 GPT-3 相同的参数下表现出相当的性能,未来可能还会降低参数的数量级来减轻重量。高端的数据集,往往只需要最简单的烹饪方式处理办法。作者表示,通过对该数据集进行预训练,能够有效改善下游的评估性能。数据在手,天下我有!

而语言模型和 GPT-3 同样用到了自注意力模型,此外e还包括替代模型体系结构和线性注意实现,方便扩展到更大的模型大小和上下文长度,包括:1.局部注意力模型;2.专家混合模型;3.轴向位置嵌入模型;4.遮盖语言模型等。预训练的模型将在完成训练后发布。

GPT-3 这么强了,为什么还要重新造一个呢?因为 GPT-3 并不是 OpenAI 造出来的语言模型这么简单,它既不是开源的,也不是开放的,而是被微软签下了"独占协议"的模型,仅仅开放了 API 供大家使用而已,而且还能对使用者使用的方式进行管理。既然这样,其他厂家肯定就心有余悸,毕竟微软是嫡系,我们都是旁支,于是很多人就想着自己造一个能随时开的轮子。该团队的名字也挺有意思的,古希腊语 eleutheria 的意思是自由,跟 OpenAI 遥相呼应。

GPT-neo 同样基于 transformer,计划围绕 GPT 进行训练,初步计划是复制一个 GPT-3 那么大的模型并开源。当然,所有的版本也都会在博客当中同步。目前基于 mesh-Tensorflow (进行 TPU 训练)和 Deepspeed(进行 GPU 训练)。二者都可以实现 GPT-3+ 的大小,不过,由于缺少支持,团队目前还缺少 TPU 来训练 175b 的模型,幸运的是他们的 GPU 应该是管够的。不久之后,团队还会发布一个更小规模的模型,然后还会有 GPT-neox,就像 GPT-X 一样。

由于项目还没有完全完成,只是完成了部分文件和简单的训练展示,更新配置方案和 TPU 训练等还需要进一步的补充,并且由于数据集实在是太庞大了,以至于我们只能简单了解一下它的展示效果。

提问时间

团队成员也是玩的一手好梗,QA 里面有这样的问题:『这么大的模型你们打算怎么训练呢?』 结果人家回答:『我们申请了 TensorFlow 的研究云计划,我们的规划是“问问 Google 老哥能不能多给一点”。。。如果不给,再想想办法。QA 其他问题当中,依然不忘问各位大大有没有大量可访问的 TPU 和 GPU 可以用。。。

问:GPT-neo 是什么?

答:用于训练大量语言模型的代码库,我们计划开源,不过模型名字还没确定

问:像 Folding@Home 和 hivemind 这种分布式计算怎么办?

答:我们考虑了合并 GPU 进行训练,当前问题是 a.考虑到反向密集度和敏感度高,目前作用不大,而且混合专家系统的表现也不会很好;b.即使只考虑理论性能,获得足够贡献者达到更强的算力也不太现实;c.当前的方法无法抵御攻击者的攻击,否则就会出现较大的开销。简单来说,做到这一点并达到如此大的规模还没有解决,需要大数量的工作才能实现。如果您有相关方面的工作和经验,欢迎一起交流。

问:您训练的模型有多大?

答:写这篇问答的时候(2020-10.27),我们已经在许多配置下训练和很多模型,最大的 100B 参数。全部训练的话,我们最大的是 1.3B 参数,大概是 GPT-2XL 那么大,OpenWebText 是它的主体。不久我们还会在 Pile 和 Common Crawl上训练一组小的模型(Pile 和 Common Crawl 分别是两组数据集)。

问:模型怎么样?

答:不错哦!如果您感兴趣的话可以看看他们在 可爱的 Foomborad 上的的训练情况

问:有没有考虑过更有效的架构?

答:是的,我们在探索设计空间、线性缩放机制、专家混合和其他的设计。一般来说,我们发现全局和局部的混合对于性能的稳健型十分重要

问:GPT-neo 是免费软件吗?

答:它是一款基于 MIT 协议的开源软件

:模型是免费的吗?

答:我们还没有确定模型的许可类型

GitHub 项目页面当中,有详细的 TPU、GPU 以及 Colab 上运行的步骤,感兴趣的朋友也可以亲自尝试一下。

祝他们好运,希望不久的将来这个“寨版” GPT 也能在语言模型界发光。

【参考资料】

1.https://www.eleuther.ai/gpt-neo

2.https://github.com/EleutherAI/gpt-neo

3.https://github.com/tensorflow/mesh

4.https://kevinwatkins.github.io/foomboard/

5.https://arxiv.org/abs/2101.00027

6.https://arxiv.org/abs/2009.06857

程序员如何避免陷入“内卷”、选择什么技术最有前景,中国开发者现状与技术趋势究竟是什么样?快来参与「2020 中国开发者大调查」,更有丰富奖品送不停!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20210127A0652O00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券