我们将通过对现有PyTorch transformer实现进行少量有针对性的修改来介绍一种高效的模型并行方法。最近,训练最大的神经语言模型已经成为提高NLP应用水平的最佳方法。然而,对于超过十亿个参数的模型,单个GPU没有足够的内存来匹配模型和训练参数,这就需要模型并行性来将参数分割到多个GPU上。我们将通过在512个gpu上使用8路模型并行和64路数据并行训练一个83亿个参数转换器语言模型来展示我们的方法,使其成为迄今为止训练的最大的基于转换器的语言模型。该模型建立了下游任务的最新技术成果。
https://developer.nvidia.com/gtc/2020/video/s21496收看视频(英文)
本文分享自 GPUS开发者 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!