首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

微软开源ONNX Runtime模型以加速Google BERT

微软人工智能研究院1月21日称计划开源BERT自然语言模型优化版本,该模型可以与ONNX Runtime 推理引擎配合使用。在为Bing搜索引擎提供语言表达功能时,Microsoft使用相同的模型来降低BERT的延迟。该模型“为Bing用户带来了最佳搜索体验” ,去年秋天发表的一篇论文中对该模型进行了详细介绍。

论文地址:https://azure.microsoft.com/en-us/blog/bing-delivers-its-largest-improvement-in-search-experience-using-azure-gpus/

公司发言人表示,这意味着开发人员可以使用ONNX Runtime和Nvidia V100 GPU大规模部署BERT,而延迟只有1.7毫秒,这样的性能表现过去只能在大型科技公司中实现。

2017年,微软与Facebook合作创建了ONNX,以推动跨AI硬件(如半导体)和软件(如机器学习框架)之间的互操作性。BERT优化工具增加了许多ONNX Runtime加速器,例如Nvidia TensorRT和英特尔OpenVINO。使用ONNX标准意味着优化后的模型可以与PyTorch,TensorFlow和其他流行的机器学习模型一起运行,这种改善是得益于Azure AI与微软 AI 研究院的合作。

“由于BERT模型主要由堆叠Transformer单元组成,因此我们通过将多个基本运算符的关键子图融合到CPU和GPU的单个内核(包括自注意力层、LayerNormalization和Gelu层)中来优化每个单元。微软高级项目经理Emma Ning在博客中称:“这大大减少了许多基本计算之间的内存复制。”

对于微软来说,这是其在自然语言领域取得的最新突破,但这并不是业界第一次尝试优化BERT。大约一年前,Microsoft AI研究人员还发布了MT-DNN,一款基于Transformer提升GLUE语言模型性能基准的模型。

一位业内人士称,通过使用像BERT和MT-DNN等基于Transformer的模型,使自然语言模型在文本生成等任务中表现更优越,是2019年AI取得的最大成就之一。

微软在其他自然语言开发上也取得了一定进展。在2019年温哥华NeurIPS上,微软和浙江大学联合发布了语音合成系统FastSpeech,与自回归的Transformer TTS相比,FastSpeech将梅尔谱的生成速度提高了近270倍,将端到端语音合成速度提高了38倍,单GPU上的语音合成速度达到了实时语音速度的30倍。 在2019年夏季,微软还推出了会话AI助手工具包Icecaps。

原文链接: https://venturebeat.com/2020/01/21/microsoft-open-sources-onnx-runtime-model-to-speed-up-googles-bert/

  • 发表于:
  • 本文为 InfoQ 中文站特供稿件
  • 首发地址https://www.infoq.cn/article/syj7NLbcyDAcvyp0ItFC
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券