马斯克抱怨 GPT-3 不够 Open，开源语言模型库来了你要不要学？

文章来源：企鹅号 - CSDN

【编者按】一个名叫 EleutherAI 的团队开源了语言模型代码库 GPT-neo，利用 mesh-tensorflow 库扩展到完整的 GPT-3 尺寸，官方预计可能会更大，不过该模型的名字还没完全确定，或许叫 GPT-hahaha 也说不好。项目创建于 2020 年 7 月，最初是打算做一个 GPT-2 的复刻版，后来就打算做一个寨版 GPT-3 ，还一度遇到了 TPU 不够的情况。关注项目的热心网友 cue 了一下马斯克，称这个项目可以改名字叫做 realOpenAI。

作者 | 八宝粥

出品 | CSDN(id：CSDNnews)

工欲善其事，必先利其器，要搞大模型，先有大数据。

所以项目先是完成了一个语料数据仓库——Pile，数据大小为835 GB，通过 22 个数据集/语料仓库的组合，可以保证有效的泛化能力。团队希望能够和 GPT-3 相同的参数下表现出相当的性能，未来可能还会降低参数的数量级来减轻重量。高端的数据集，往往只需要最简单的烹饪方式处理办法。作者表示，通过对该数据集进行预训练，能够有效改善下游的评估性能。数据在手，天下我有！

而语言模型和 GPT-3 同样用到了自注意力模型，此外e还包括替代模型体系结构和线性注意实现，方便扩展到更大的模型大小和上下文长度，包括：1.局部注意力模型；2.专家混合模型；3.轴向位置嵌入模型；4.遮盖语言模型等。预训练的模型将在完成训练后发布。

GPT-3 这么强了，为什么还要重新造一个呢？因为 GPT-3 并不是 OpenAI 造出来的语言模型这么简单，它既不是开源的，也不是开放的，而是被微软签下了"独占协议"的模型，仅仅开放了 API 供大家使用而已，而且还能对使用者使用的方式进行管理。既然这样，其他厂家肯定就心有余悸，毕竟微软是嫡系，我们都是旁支，于是很多人就想着自己造一个能随时开的轮子。该团队的名字也挺有意思的，古希腊语 eleutheria 的意思是自由，跟 OpenAI 遥相呼应。

GPT-neo 同样基于 transformer，计划围绕 GPT 进行训练，初步计划是复制一个 GPT-3 那么大的模型并开源。当然，所有的版本也都会在博客当中同步。目前基于 mesh-Tensorflow （进行 TPU 训练）和 Deepspeed（进行 GPU 训练）。二者都可以实现 GPT-3+ 的大小，不过，由于缺少支持，团队目前还缺少 TPU 来训练 175b 的模型，幸运的是他们的 GPU 应该是管够的。不久之后，团队还会发布一个更小规模的模型，然后还会有 GPT-neox，就像 GPT-X 一样。

由于项目还没有完全完成，只是完成了部分文件和简单的训练展示，更新配置方案和 TPU 训练等还需要进一步的补充，并且由于数据集实在是太庞大了，以至于我们只能简单了解一下它的展示效果。

提问时间

团队成员也是玩的一手好梗，QA 里面有这样的问题：『这么大的模型你们打算怎么训练呢？』结果人家回答：『我们申请了 TensorFlow 的研究云计划，我们的规划是“问问 Google 老哥能不能多给一点”。。。如果不给，再想想办法。QA 其他问题当中，依然不忘问各位大大有没有大量可访问的 TPU 和 GPU 可以用。。。

问：GPT-neo 是什么？

答：用于训练大量语言模型的代码库，我们计划开源，不过模型名字还没确定

问：像 Folding@Home 和 hivemind 这种分布式计算怎么办？

答：我们考虑了合并 GPU 进行训练，当前问题是 a.考虑到反向密集度和敏感度高，目前作用不大，而且混合专家系统的表现也不会很好；b.即使只考虑理论性能，获得足够贡献者达到更强的算力也不太现实；c.当前的方法无法抵御攻击者的攻击，否则就会出现较大的开销。简单来说，做到这一点并达到如此大的规模还没有解决，需要大数量的工作才能实现。如果您有相关方面的工作和经验，欢迎一起交流。

问：您训练的模型有多大？

答：写这篇问答的时候（2020-10.27），我们已经在许多配置下训练和很多模型，最大的 100B 参数。全部训练的话，我们最大的是 1.3B 参数，大概是 GPT-2XL 那么大，OpenWebText 是它的主体。不久我们还会在 Pile 和 Common Crawl上训练一组小的模型（Pile 和 Common Crawl 分别是两组数据集）。

问：模型怎么样？

答：不错哦！如果您感兴趣的话可以看看他们在可爱的 Foomborad 上的的训练情况

问：有没有考虑过更有效的架构？

答：是的，我们在探索设计空间、线性缩放机制、专家混合和其他的设计。一般来说，我们发现全局和局部的混合对于性能的稳健型十分重要

问：GPT-neo 是免费软件吗？

答：它是一款基于 MIT 协议的开源软件

问：模型是免费的吗？

答：我们还没有确定模型的许可类型

GitHub 项目页面当中，有详细的 TPU、GPU 以及 Colab 上运行的步骤，感兴趣的朋友也可以亲自尝试一下。

祝他们好运，希望不久的将来这个“寨版” GPT 也能在语言模型界发光。

【参考资料】

1.https://www.eleuther.ai/gpt-neo

2.https://github.com/EleutherAI/gpt-neo

3.https://github.com/tensorflow/mesh

4.https://kevinwatkins.github.io/foomboard/

5.https://arxiv.org/abs/2101.00027

6.https://arxiv.org/abs/2009.06857

程序员如何避免陷入“内卷”、选择什么技术最有前景，中国开发者现状与技术趋势究竟是什么样？快来参与「2020 中国开发者大调查」，更有丰富奖品送不停！

发表于: 2021-01-272021-01-27 13:08:34
原文链接：https://kuaibao.qq.com/s/20210127A0652O00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

马斯克抱怨 GPT-3 不够 Open，开源语言模型库来了你要不要学？

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐