[新知] 软硬件技术突破，微软建立拥有高达170亿个参数的语言产生模型

阿泽

发布于 2020-03-11 17:54:03

4490

“ 除了Nvidia的硬件技术支援，微软使用了DeepSpeed训练加速函式库与ZeRO记忆体最佳化方法，大幅提升模型训练效率。”

微软T-NLG模型的参数数量，远高于第二名模型的参数数量

微软发表最新语言产生模型T-NLG（Turing Natural Language Generation），该模型具有170亿个参数，远高于BERT与GPT-2等知名模型，在神经语言任务的表现上也都更好，为语言产生模型技术设立了一个新的标竿。目前微软向学术与研究人员释出T-NLG范例，展示其自由格式生成、问答以及总结等能力。

无论是Google的BERT模型抑或是OpenAI的GPT-2模型，皆具有几十亿个参数，已经大幅改善自然语言处理能力，而更好的自然语言生成能力，可以应用在各种应用程式上，协助作者撰写内容、总结文字或是改善数位助理的的使用者体验。过去的问答或是摘要系统，都是直接从文件中撷取现有内容，但是产生的结果通常不够自然或是不连贯，而借助语言产生模型，则能够产生更自然的结果。

微软提到，模型越大，预训练资料越多样化越全面，得到的结果也就越好，而且训练一个大型集中式的多任务模型，用在处理各种任务，比起为每种任务训练个别的模型更为有效率。因此微软建立了基于Transformer，有史以来最大的语言产生模型T-NLG，可生成单词以完成开放式的文字任务，除了补完不完整的句子之外，还可以回答问题与总结文件等。

而微软之所以可以产生这麽大的模型，是因为硬体和软体技术的突破。凡是超过13亿个参数的模型，都无法放进单个GPU，因此大型模型必须要可以分解成多个部分，并在多个GPU之间平行处理。微软使用Nvidia DGX-2配置，以InfiniBand连接加速GPU之间的通讯，并且使用Nvidia Megatron-LM框架，以张量切分（Tensor Slicing）技术分片模型到4个V100 GPU上。

另外，微软也运用DeepSpeed函式库以及ZeRO最佳化方法，使每个节点的批次处理大小能够增加4倍，降低模型平行化维度从16降至4，有效降低3倍训练时间。DeepSpeed是一个能够降低模型延迟，和提升预测效率的深度学习函式库，微软表示，DeepSpeed让他们使用更少的GPU训练大型模型。而ZeRO则是一种记忆体最佳化方法，用于训练拥有上兆参数的模型。

与其他模型相比，在标准语言任务WikiText-103量测指标困惑度的表现，T-NLG比OpenAI的GPT-2和Megatron都还要低，而LAMBADA的下一个单词预测精确度，也比另外两个模型表现还要好。T-NLG还能应付零次问答，也就是T-NLG模型不需要上下文，就能够直接给出问题的答案，而这完全仰赖预训练过程的知识来生成答案。

T-NLG能够像人类一样产生文件摘要，微软提到，自然语言处理产生摘要的方法有两种，一种是撷取文件中少量的句子，作为产生摘要的基础，另一种则是像人类一样，以抽象的方式产生摘要。而模型以抽象方式产生摘要的困难，在于缺乏监督式训练资料，但T-NLG的优势是非常了解文字，因此不需要太多监督式训练，就能胜任文字总结的工作。

T-NLG模型将被用在微软的各种服务上，包括总结文件和电子邮件，以节省用户的时间，也会被用于微软Office中，为用户提供写作协助，或是为文件产生常见问答，进一步T-NLG还将用在聊天机器人与数位助理上，用于协助提升销售与客户关係管理效率。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2020-03-07，如有侵权请联系 cloudcommunity@tencent.com 删除

NLP技术

本文分享自 Flink实战应用指南微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

NLP技术

登录后参与评论

0 条评论

热度

[新知] 软硬件技术突破，微软建立拥有高达170亿个参数的语言产生模型

[新知] 软硬件技术突破，微软建立拥有高达170亿个参数的语言产生模型

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐