前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >微软利用NV DGX-2训练了世界上最大的转换器语言模型

微软利用NV DGX-2训练了世界上最大的转换器语言模型

作者头像
GPUS Lady
发布2020-02-19 15:09:02
4960
发布2020-02-19 15:09:02
举报
文章被收录于专栏:GPUS开发者

微软今天宣布了对话式人工智能的突破,它使用NVIDIA DGX-2系统,基于170亿个参数,训练了最大的基于转换器的语言生成模型。

该模型名为Turing-NLG,是目前可用的最大的变压器模型,可以在一系列自然语言处理任务上实现最新的结果。

为此,该团队在NVIDIA DGX-2系统上训练了他们的模型,该系统由多个与InfiniBand互连的NVIDIA V100 Tensor Core GPU组成。

该模型旨在通过提问,对话代理和文档理解来协助自然语言处理(NLP)系统。

“更好的自然语言生成可以在多种应用程序中实现变革,例如协助作者撰写内容,通过汇总一长段文本来节省时间或改善数字助理的客户体验。

微软研究人员在博客Turing-NLG中指出:“ T-NLG之类的生成模型对于NLP任务很重要,因为我们的目标是在任何情况下都尽可能做到人类能够直接,准确且流畅地做出响应。” Microsoft的参数语言模型。

“以前,问题解答和摘要系统依赖于从文档中提取现有内容,这些内容可以作为备用答案或摘要,但它们通常看起来不自然或不连贯。借助T-NLG,我们可以自然地总结或回答有关个人文档或电子邮件主题的问题。”

同样在今天,Microsoft开源了DeepSpeed,它是一个深度学习库,可以帮助开发人员进行延迟和推理。

该库与cuDNN加速的PyTorch深度学习框架兼容,有助于提高规模,速度,成本和可用性,从而使开发人员可以训练具有多达1000亿个参数的模型。

在速度方面,使用具有高带宽互连的NVIDIA GPU,可以训练3-5倍地训练20至800亿个参数之间的模型。

“在具有低带宽互连的NVIDIA GPU群集上(没有NVIDIA NVLink或Infiniband),与仅将Megatron-LM用于具有15亿个参数的标准GPT-2模型相比,我们将吞吐量提高了3.75倍,”博客,ZeRO和DeepSpeed:新的系统优化功能可提供具有超过1000亿个参数的训练模型。“在具有高带宽互连的NVIDIA DGX-2群集上,对于20至800亿个参数的模型,我们的速度要快三到五倍。”

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-02-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 GPUS开发者 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档