业界 | 谷歌发布语言处理框架SyntaxNet升级版,识别率提高25%

选自research.google

作者: David Weiss等

机器之心编译

参与:李泽南、晏奇

此项升级进一步扩展了 TensorFlow的功能,使这一框架可以进行多层次语言结构的联合建模,而且,它也让 TensorFlow 允许在一个句子或文档处理的过程中动态创建神经网络架构。

谷歌一直致力于改善文字内容的可读性,并已开发了多种工具供人们使用,从生成电子邮件回复到机器翻译,不一而足。去年夏天,谷歌开源了 SynataxNet,一个用于分析和理解语法结构的神经网络框架。它被应用在 TensorFlow 深度学习自然语言处理模型 Parsey McParseface 中——该模型是目前用于分析英语性能最佳的模型。很快谷歌又发布了作为 Parsey 扩展的另外 40 个语言的预训练模型(Parseys Cousins)。谷歌希望通过构建这些系统帮助整个社区,并消除语言隔阂。昨天,谷歌又开源了一些新模型。

SyntaxNet 升级

谷歌发布了 SyntaxNet 的一项重大升级内容。该公司宣称此项升级结合了其在多语种语言理解问题上几乎一年的研究成果,这项成果现已开放给任何感兴趣来搭建文本处理与理解系统的人。升级的核心是一项可以使得对输入语句的丰富变体进行学习成为可能的新技术。具体而言,此项升级扩展了 TensorFlow,使 TensorFlow 可以允许多层次语言结构的联合建模,而且,它也让 TensorFlow 允许在一个句子或文档处理的过程中动态创建神经网络架构。

例如,本次升级使得建立学习用各种字符组成单词的基于字符的模型变得更简单了(比如:把『c-a-t』 组合成 『cat』)。通过执行该过程,模型可以学习相互之间有关联的词,因为它们共享同样的部分(比如:『cats』 是 『cat』 的复数形式,它们共享了一个词干;『wildcat』是 『cat』 的一种)。同样的,Parsey 和 Parseys Cousins 是成系列结构的词汇。所以结果是,模型在训练中被强迫去记住它看见过的单词,并且主要基于语境来决定之前未见过单词的语法功能。

举个例子,看看下面这个句子(语法正确但无意义):

这句话最初是由 Andrew Ingraham 创造的,他曾解释道:「你不知道它在说什么,我也不知道。但我们假设它是英语,我们知道『doshes』被『gostak』给『distimmed』了,我们也知道一个『distimmer』的『doshes』是个『gostak』。」构词学和语法学中的系统模式允许我们猜测每个单词的语法功能——即使这些单词完全不知所云:我们知道『doshes』是『dosh』的复数(就像前面的『cats』一样),而『distim』是 distim 的第三人称单数形式。基于这种分析我们可以得出句子的整个结构,即使我们从未见过这些单词。

ParseySaurus

为了展示升级版 SyntaxNet 提供的新功能,谷歌发布了一套名为 ParseySaurus 的预训练模型。些模型使用上述基于字符的输入表示法,因此可以更好地根据它们的拼写以及上下文内容来预测新单词的含义。ParseySaurus 模型远比 Parseys Cousins 准确得多(减少了 25% 的错误),特别是对于构词复杂的语言如俄语;或黏着语,如日语、韩语和土耳其语。在这些语言中,每个单词可能存在几十种变体,并且在模型训练期间可能永远不会出现这些形式中的大多数——即使是在非常大的语料库中。

例如以下虚构俄语单句,和前面的例子一样,整句仍无意义,但单词的后缀让句子结构有了明确的解释:

即使谷歌的俄语 ParseySaurus 模型从来没有看到过这些单词,它仍可以通过检查构成每个单词的字符序列正确地分析句子。而且在分析时,系统可以解析出单词的多种属性(注意:这里比英语示例中多了一些形态特征)。以下是一个 ParseySaurus 模型分析单句的可视化分析图:

每个正方形代表神经网络中的一个节点,连线代表他们的连接。图左侧的「尾部」显示了将输入作为一个长字符串的模型,他们被间歇地传递到右侧,其中丰富的连接网络显示了将词组成短语并产生句法解析的模型。

相关链接:

SyntaxNet: Neural Models of Syntax

https://github.com/tensorflow/models/tree/master/syntaxnet

ParseySaurus

https://github.com/tensorflow/models/blob/master/syntaxnet/g3doc/conll2017/README.md

图 3 高清晰版

https://github.com/tensorflow/models/blob/master/syntaxnet/g3doc/full-trace-image.png

原文地址:https://research.googleblog.com/2017/03/an-upgrade-to-syntaxnet-new-models-and.html

机器之心编译,转载请联系本公众号获得授权。

✄------------------------------------------------

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-03-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏一名叫大蕉的程序员

社区发现有啥鸟用No.14

当当当,同学们说要听算法,那今天就说说算法,关于社区发现的一系列算法。 最近一段时间工作上使用到了社区发现,虽然只是小小一部分。但是呢,工作量还是不小的,在网上...

66570
来自专栏编程

2017年11月R新包推荐

一. 文档概述 11月份,在R官方(CRAN)共计发布了237个新包,本文选摘了40个R包,包含以下几个类别:计算方法、数据、数据科学、科学、社会科学、工具及可...

22680
来自专栏机器之心

学界 | DeepMind等机构提出「图网络」:面向关系推理

该论文作者之一,DeepMind 研究科学家 Oriol Vinyals 表示,该研究的代码也将在近期公开。

19300
来自专栏PPV课数据科学社区

非主流自然语言处理——遗忘算法系列(二):大规模语料词库生成

一、前言   本文介绍利用牛顿冷却模拟遗忘降噪,从大规模文本中无监督生成词库的方法。 二、词库生成     算法分析,先来考虑以下几个问题     问:目标是从...

404120
来自专栏媒矿工厂

基于机器学习技术的非迭代内容自适应分布式编码

分布式编码是缩短内容准备云工作流程的周转时间的一种有效方法。当前已经提出了内容自适应比特分配的策略以保证存储和传输的效率。但这些方法中的许多方法本质上倾向于...

18230
来自专栏AI黑科技工具箱

1.试水:可定制的数据预处理与如此简单的数据增强(上)

说实话,在我仔细研究了MXNet和Gluon是如何进行数据加载与数据增强的,不得不佩服DMLC真的很良心,提供了如此简单的接口和又方便又多样的数据处理工具库。

265100
来自专栏逍遥剑客的游戏开发

游戏中的战争迷雾

944110
来自专栏生信技能树

根据分组信息做差异分析- 这个一文不够的

通过前面的讲解,我们顺利的了解了GEO数据库以及如何下载其数据,得到我们想要的表达矩阵,也成功的使用了GSEA这个分析套路。 历史目录: 解读GEO数据存放规律...

1K60
来自专栏PPV课数据科学社区

基于scikit-learn的机器学习简介

基于scikit-learn的机器学习简介 作者:陆勤(专注机器学习研究和应用) 基于scikit-learn的机器学习简介,包括以下内容: 机器学习:问题集...

37080
来自专栏小小挖掘机

推荐系统实战-基于用户的协同过滤

1、数据集简介 MovieLens数据集包含多个用户对多部电影的评级数据,也包括电影元数据信息和用户属性信息。 这个数据集经常用来做推荐系统,机器学习算法的测试...

63160

扫码关注云+社区

领取腾讯云代金券