动态 | 谷歌语义理解框架SyntaxNet升级开启无数可能性

AI科技评论

发布于 2018-03-12 11:38:55

7500

发布于 2018-03-12 11:38:55

文章被收录于专栏：AI科技评论AI科技评论

在 AI 语义理解领域，谷歌一直不遗余力地进行研发投入。

对于普通用户而言，2015 年发布的基于深度神经网络的谷歌智能邮件回复，2016 年上线的神经机器翻译系统（GNMT），便源自于谷歌在该领域的研究成果。在消费级产品之外，谷歌还持续为 AI 开发者提供技术支持，不断推出新的开源工具。

去年夏天，针对语句的语法结构分析，谷歌开源了 SyntaxNet 神经网络框架，以及与之搭配英语分析预训练模型 Parsey McParseface。紧随其后，谷歌发布了针对其他 40 门语言的语法分析模型。并将它们命名为 Parsey's Cousins（即 “Parsey 的表兄妹们”）。对英语国家开发者而言，为英语之外的语言开发机器学习系统是一件相当不容易的事。现在，经过将近一年的努力，谷歌推出了 SyntaxNet 框架以及 Parsey 相关模型的升级版。

SyntaxNet 升级

就雷锋网所知，这是 SyntaxNet 自诞生以来的最重大升级。这建立在谷歌对各语言的语义理解研究基础之上。此次升级的核心是一项新技术：能对输入语句的多层表示进行很好的学习。具体来讲，它延伸了 TensorFlow，能对多层语言结构进行合成建模，还能够在语句或文件处理过程中，动态地生成神经网络架构。

举个例子，该升级使创建基于字母的模型（能学习把单独字母组合成词语），变得更加简单。该模型还能够学习到，不同词语在共同组成部分（共享的字母）方面存在联系。在另一方面，Parsey 和 Parsey’s Cousins 通过词语排序而运行。因此它们必须要对训练中的词语进行记忆，并依赖语境来决定“生词”（此前未记忆过的词语）的语法函数。

ParseySaurus

为了展示新版本 SyntaxNet 的强大之处，谷歌同时发布了新的预训练过的模型 ParseySaurus。ParseySaurus 模型，使用了上文提到的基于字母的输入表示。因此，它极大提升了预测新词语含义的能力。这是基于两个方面来实现：词汇的拼写和在语境中的使用方式。雷锋网了解到，ParseySaurus 的准确率远远超出 Parsey’s Cousins，错误率降低了 25%。由于语言的形态特性和其他属性，新模型在俄语、土耳其语、匈牙利语上的效果尤其好——这些语言中，同一个词汇有多种不同形态，其中许多形态从未在训练阶段出现过（即便是大型语料库）。

竞赛

你或许会对“基于字母的模型是不是语义识别的最佳选择”感到好奇。或者，是否有其他更好的技术。谷歌表示，新版本的谷歌 SyntaxNet 提供了许多全新可能性，比如 beam search 和不同的训练目标；但新 SyntaxNet 的能力不止于此。雷锋网消息，谷歌与布拉格大学（Charles University）合作，将在今年的 CoNLL 大会上举办多语言分解竞赛（multilingual parsing competition）。竞赛目标是为 45 种语言，开发出在现实环境下有良好表现的语义分解系统。

via google

本文参与腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2017-03-17，如有侵权请联系 cloudcommunity@tencent.com 删除

其他

本文分享自 AI科技评论微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体分享计划，欢迎热爱写作的你一起参与！

其他

登录后参与评论

0 条评论

热度