前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【NLP】10000亿参数!英伟达用3072块A100训出史上最大最贵GPT!

【NLP】10000亿参数!英伟达用3072块A100训出史上最大最贵GPT!

作者头像
黄博的机器学习圈子
发布2021-04-16 12:34:45
1.4K0
发布2021-04-16 12:34:45
举报
文章被收录于专栏:机器学习初学者精选文章

卷友们好,我是rumor。

我直接好家伙。

午休摸鱼时打开Arxiv看每日更新,一下就被闪瞎了。

英伟达、斯坦福联合MSR,共同训出了10000亿参数的GPT,比1750亿的GPT3还高出了一个量级

重要的是,这个训练用了3072个A100,一个售价约10万人民币,我都不敢换算。

Anyway,人穷志不穷,训不起,论文我还看不起吗?

代码语言:javascript
复制
题目:Efficient Large-Scale Language Model Training on GPU Clusters
地址:https://arxiv.org/pdf/2104.04473.pdf
代码:https://github.com/nvidia/megatron-lm

这篇论文讲了啥

这篇文章其实很工程,主要延续威震天的一些策略,继续探索了更大模型的分布式训练。

数据并行的方法很多同学都知道,就是每个worker上都加载全量模型,计算完不同数据后汇总更新。但在训练大模型的过程中,因为参数量的增多,不可避免的得进行模型并行,也就是把不同的层或者tensor放在不同机器上,这就需要server、GPU之间进行更多通讯,而由于各种原因,各种成本(比如通信时间、同步时间)都会呈几倍增长,直接影响到训练速度。

所以,如何组合各个分布式训练方法,最大化训练吞吐、同时保持训练效果是训练大模型的难点之一。

经过努力,英伟达成功地让通信速度的增长接近线性,效率比DeepSpeed框架高出不少

遗憾的是,作者并没有展示这个语言模型的效果。

但从GPT3的成功来看,惊喜还是会有的,估计又要等到OpenAI来揭开了。

这样下去会被榨干吗

前段时间我一度觉得做更大更强的模型这条路是不可行的,一是以这种暴力方式训下去总有饱和的时候,二是即使浪费那么多资源训出来的模型在实际场景也用不上。

但我今天又有一些新的思考,虽然预见大transformer模型的表现可能会有饱和的一天,但目前并不知道这个天花板在哪里,说不定我们现在还在山脚或者山腰上,这些资金耗费巨大的预训练去探索上界还是有价值的。另外,GPT-3已经在一些场景上进行落地了,我甚至想能不能直接输入任务描述,让GPT-3给我输出一批训练数据,说不定也可以。

方向不同,各有千秋。不断突破现有模型的天花板是有价值的,做出性价比高的小模型也是有价值的。

代码语言:javascript
复制
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-04-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习初学者 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 这篇论文讲了啥
  • 这样下去会被榨干吗
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档