微软人工智能研究院1月21日称计划开源BERT自然语言模型优化版本,该模型可以与ONNX Runtime 推理引擎配合使用。在为Bing搜索引擎提供语言表达功能时,Microsoft使用相同的模型来降低BERT的延迟。该模型“为Bing用户带来了最佳搜索体验” ,去年秋天发表的一篇论文中对该模型进行了详细介绍。
公司发言人表示,这意味着开发人员可以使用ONNX Runtime和Nvidia V100 GPU大规模部署BERT,而延迟只有1.7毫秒,这样的性能表现过去只能在大型科技公司中实现。
2017年,微软与Facebook合作创建了ONNX,以推动跨AI硬件(如半导体)和软件(如机器学习框架)之间的互操作性。BERT优化工具增加了许多ONNX Runtime加速器,例如Nvidia TensorRT和英特尔OpenVINO。使用ONNX标准意味着优化后的模型可以与PyTorch,TensorFlow和其他流行的机器学习模型一起运行,这种改善是得益于Azure AI与微软 AI 研究院的合作。
“由于BERT模型主要由堆叠Transformer单元组成,因此我们通过将多个基本运算符的关键子图融合到CPU和GPU的单个内核(包括自注意力层、LayerNormalization和Gelu层)中来优化每个单元。微软高级项目经理Emma Ning在博客中称:“这大大减少了许多基本计算之间的内存复制。”
对于微软来说,这是其在自然语言领域取得的最新突破,但这并不是业界第一次尝试优化BERT。大约一年前,Microsoft AI研究人员还发布了MT-DNN,一款基于Transformer提升GLUE语言模型性能基准的模型。
一位业内人士称,通过使用像BERT和MT-DNN等基于Transformer的模型,使自然语言模型在文本生成等任务中表现更优越,是2019年AI取得的最大成就之一。
微软在其他自然语言开发上也取得了一定进展。在2019年温哥华NeurIPS上,微软和浙江大学联合发布了语音合成系统FastSpeech,与自回归的Transformer TTS相比,FastSpeech将梅尔谱的生成速度提高了近270倍,将端到端语音合成速度提高了38倍,单GPU上的语音合成速度达到了实时语音速度的30倍。 在2019年夏季,微软还推出了会话AI助手工具包Icecaps。
领取专属 10元无门槛券
私享最新 技术干货