谷歌基于语义模型打造全新搜索方式——Talk to Books

AiTechYun

编辑:chux

在过去几年中,自然语言理解发展迅速,部分原因是词向量的发展,使得算法能够根据实际语言运用来了解字词间的关系。这些向量模型图基于等价、相似或关联性的思想和语言,将具有相似语义的短语映射到附近点。

去年,谷歌使用了分等级的语言向量模型来改进Gmail的智能回复功能。最近,研究者也一直在探索将这些方法推广到其他应用上去。

Semantic Experiences这一网站展示了两个例子,来说明这些新特性是怎样作用于应用程序的,而这样的结果是过去无法实现的。Talk to Books是一种搜索书籍的全新方式,从句子起步,而不是从作者或主题层面开始。Semantris是一种由机器学习技术支持的单词联想游戏,玩家可以在其中输入与给定提示相关的单词。谷歌还发布了Universal Sentence Encoder一文,更详细地描述了用于这些例子的模型。此外,谷歌为社区提供了一个预训练的语义TensorFlow模块,可以用自己的句子做试验,以及进行短语编码。

建模方法

该方法通过为更大的语言块(比如完整句子和小段落)创建向量,扩展了在向量空间中表达语言的理念。由于语言是由概念的层次结构组成的,所以研究者利用模块的层次结构来创建向量,并考虑到每个模块与不同时间尺度和序列相当的特性。关联词,同义词,反义词,部份-整体关系,以及其他类型关系,如果以正确的方式训练它们,提出正确的问题,它们都可以用向量空间语言模型来表示。这种方法在《用有效的自然语言反应进行智能回复》(Efficient Natural Language Response for Smart Reply)一文中有具体描述。

Talk to Books

Talk to Books这一方法提供了一种搜索书籍的全新方式。当做了陈述或是问了问题,这一工具会在书中找到回复的句子,而不依赖于关键字匹配。从某种意义上来说,与书籍对话并得到回应,你便能够知道自己有没有兴趣阅读这本书。

这一模型已接受了10亿次类似的对话训练,学会辨别如何做出合适的回应。一旦你问了问题(或者进行陈述),这一工具会在超过10万本书中搜索句子,基于语义含义在句子层面对你的输入做出反应,而且没有预定义的规则限制输入的内容和所得到的结果。

传统的关键词搜索可能不会出现结果,但这个功能是独一无二的,可以帮助你找到有趣的书,不过此功能仍有改进的空间。

例如,这个实验在句子层面上搜索(而不是如同Gmail的智能回复中那样是在段落层面),所以机器认为好的匹配句子,仍可能会是断章取义的结果。你可能会得到一些你并不想要的书和段落,或者段落被选中的原因并不明显。名声显著的书并不一定居于候选的前列,这个实验只考虑单个句子的匹配度。

然而这种方法的一个好处是,可以帮助人们发现意想不到的作者和标题,并以一种新颖和创新的方式发现书籍。

Semantris

单词联想游戏Semantris也是由此技术开发的。当你输入一个单词或短语时,游戏会在屏幕上列出所有的单词,根据你输入内容的反应好坏来评分。同样,同义词、反义词和相似概念在这个语义模型中都处于平行模式。

Arcade版本中的时间压力(如下所示)会迫使你输入单个单词作为提示。Blocks版本没有时间压力,可以尽情尝试输入短语和句子。你可以试验一下提示究竟可以晦涩难懂到什么程度。

Semantris Arcade

这些例子只是利用新工具进行经验思考和设计应用程序的几种可能的方法。其他有潜力的应用包括:分类、语义相似性、语义群集、白名单应用(在可供替代的选项中选取合适的回应)、语义研究(例如Talk to Books方法)。

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2018-04-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI研习社

5 年提速 500 倍,英伟达 GPU 创纪录突破与技术有哪些?

AI 研习社按,2017 年 5 月,在 GTC 2017 上,英伟达 CEO 黄仁勋发布 Volta 架构 Tesla V100,它被称为史上最快 GPU 加...

1084
来自专栏量化投资与机器学习

还是不靠谱!多维LSTM网络预测比特币价格【机器学习应用区块链系列二】

量化投资与机器学习 为中国的量化投资事业贡献一份我们的力量! ? 公众号今天为大家带来机器学习应用区块链系列的第二篇文章。 这篇文章的作者是公众号之前推过一位...

7098
来自专栏钱塘大数据

一文看懂数据可视化:从编程工具到可视化表现方式

新媒体管家 说到可视化,就不得不说一下大数据,毕竟可视化是解决大数据的一种高效的手段,而如今人人都在谈论大数据,大数据 ≠ 有数据 ≠ 数据量大, 离谱的是,如...

42210
来自专栏翻译

那些流行的深度学习库

现在深度学习非常热门,而深度学习的库也如雨后春笋般涌现出来。

21510
来自专栏原创

Python与R的争锋:大数据初学者该怎样选?

在当下,人工智能的浪潮席卷而来。从AlphaGo、无人驾驶技术、人脸识别、语音对话,到商城推荐系统,金融业的风控,量化运营、用户洞察、企业征信、智能投顾等,人工...

4579
来自专栏量子位

当你的深度学习模型走进死胡同,问问自己这5个问题

安妮 编译自 Semantics3官方博客 量子位 出品 | 公众号 QbitAI ? 深度学习是一项庞大又复杂的工程,在建立深度学习模型时,走进死胡同被迫从头...

3954
来自专栏机器之心

资源 | 《深度学习》中译版读书笔记:GitHub项目等你来Fork&Commit

3815
来自专栏机器学习算法与理论

城市计算

空间层次: 划分街道 不同区域 城市的区域、街道等这些地理信息里都蕴藏着明确的多层次的语义信息

2483
来自专栏PPV课数据科学社区

【学习】怎样分析样本调研数据

从一个群体样本中获取群体的整体特征是许多研究设计和统计方法发展的基础。根据数据收集的算法、调研问题的类型和调研的目标,分析样本调研数据的方法各不相同。这篇文章会...

4187
来自专栏量子位

Google发布神经机器翻译教程,带你从零开始搭建NMT系统

李林 编译自 Google Research Blog 量子位 报道 | 公众号 QbitAI ? 想自己在TensorFlow上搭神经机器翻译(NMT)模型?...

4478

扫码关注云+社区

领取腾讯云代金券