据投资资讯网VentureBeat (http://venturebeat.com/)报道,谷歌从2016年5月12日起开放SyntaxNet的源代码,作为谷歌TensorFlow开源机器学习资料库的一部分。SyntaxNet是一款自然语言理解(NLU)软件,可用于自动分析语句。本次公开包括训练新模型的代码,以及用于分析英语语言文本的预训练模型。
据谷歌称,这款分析器是全球最准确的解析器,可自动分辨单词词性,其准确率堪比人类语言学家。对于自然语言研究界而言,此举意义重大。
而这对谷歌也非常重要。VentureBeat于2016年5月在加州山景城的谷歌总部进行采访时,总部研究产品经理Dave Orr表示:“我们在内部评估技术的方式是很不一样的。我们并不太关注基准或者指标,而是更为关注技术对下游系统表现的影响。”
和TensorFlow一样,SyntaxNet也主要在C++环境中执行。现在,这项技术已经对外界开放,代码将得到外界人士的改善,这可以帮助谷歌寻找新的人才,改善谷歌产品。一般而言,语言分析与产品评价相关——例如应用评价、餐厅评价、购物评价等——还有互联网搜索和Android Marshmallow的Google Now On Tap特性。
谷歌研究团队主管Tania Bedrax-Weiss对VentureBeat表示:“这是非常重要的一步,因为语言有时候会很微妙,不能单从字面上理解,有时候需要语境信息。比如‘Crash’这个英语单词,它可能是撞车、应用程序崩溃,或者可能是有人很累,说‘我要崩溃了。’这些语境含义都很微妙,需要一些理解能力。我们可以开始对这些数据进行训练,看看能不能实现有意义的结果。”
Orr表示,谷歌已经证明,相比更为传统的机器学习方法,一种名为深度学习的人工智能对于语言理解更为实用。这种方法一般包括利用大量数据——例如谷歌搜索——对人工智能神经网络进行训练,然后让它们对新的数据进行推论。谷歌已经研究了图像识别和语音识别的深度学习,而现在又明显在语言理解领域取得了进展。确实,神经网络是SyntaxNet的关键,后者的研发代号就是“neurosis”(中文直译神经症)。