谷歌发大招:搜索全面AI化,不用关键词就能轻松“撩书”

新智元报道

来源:Google Research

【新智元导读】昨天,谷歌发布“Talk to Books”(撩书??)和一个名为Semantris的游戏。这两项都是基于自然语言文本理解,用户能够凭语义而非关键词来实现搜索功能。这些创新来源于“在向量空间中表示语言”想法的延伸,以及词向量模型的发展。

未来的搜索,可能不需要输入关键词,直接表达想法就好。

谷歌昨晚放出大招:上线Semantic Experiences(语义体验)网站,网站有两项特殊功能,一个是“Talk to Books”(撩书??),一个是名为Semantris的语义联想游戏。

这两个大招都是基于自然语言文本理解,用户能够凭语义而非关键词来实现搜索功能。

过去几年里,自然语言理解(Natural language understanding)有了很大发展,部分原因是词向量(word vectors)的发展使得算法能够根据实际语言使用的例子来理解单词之间的关系。这些向量模型根据概念和语言之间的等价性、相似性或相关性将语义上相似的短语映射到相近的点。去年,谷歌已经使用语言的分层向量模型(hierarchical vector models)改进了Gmail的智能回复。

当“Talk to Books”时,只需要输入模糊的词汇,算法模型会在超过10万本书中搜索对应的每一个句子,以查找最有可能在对话中匹配的书籍,摆脱了以往通过书名或作者的搜索方式。

“Semantris”是一个单词语义联想游戏,当输入单词时,游戏会对屏幕中所有单词进行评分,简单有趣。

这篇博客由著名的未来学家、谷歌研究的工程总监Ray Kurzweil和产品经理Rachel Bernstein发布,博客地址:

https://research.googleblog.com/2018/04/introducing-semantic-experiences-with.html?m=1

游戏试玩地址:

https://research.google.com/semantris/

谷歌还公开了论文“Universal Sentence Encoder”,论文中详细描述了这些示例所使用的模型。此外,谷歌Semantic Experiences网站还在TensorFlow平台上提供了一个预先训练好的模型供其他研究人员进行实验。

不用关键词,轻松去“撩书”

“Talk to Books”可以让用户与用机器学习训练的算法进行对话,该算法可以从人写的文本中找到相关段落的答案。

“撩书”的方法很简单:你只要输入一句话,这句话可以是一个陈述句或一个疑问句,然后而“Talk to Books”会在书中找到相应的句子,完全不依赖于关键字匹配。

比如,问“为什么天空是蓝色的?”你会得到很多不同的答案,这些答案都是在清晰的文本中显示出来的,并且显示来自于关于这个主题的书籍。

这种做法改变了以往使用标准的谷歌关键词搜索的方式,并且也不需要必须点击链接并解析文章或网页。

此外,“Talk to Books”的Web界面非常整洁、完美(更没有竞价排名的医疗小广告)。

Kurzweil和Berstein说,这个模型接受了10亿次类似的训练,比如对句子进行分析,并学会识别出好的反应可能是什么样的。“一旦你问了你的问题(或者做了一个陈述),这些工具就会在超过10万本书中搜索所有的句子,找出那些根据句子层面的语义含义对你的输入做出反应的句子。你输入的和你得到的结果之间的关系没有预先定义的规则。

不过,“Talk to Books”并不是最完美的。TheVerge报道称,这个工具更适合回答原始的事实问题,而在处理复杂的地缘政治问题或现代文化和历史重要性的话题时表现不佳。

但是作为一个简单的Web工具,谷歌表示,这个技术能帮助改进像Gmail智能回复这样的产品,而且与书籍对话是一种以自然语义的方式搜索Web的有趣方式。更重要的是,它让我们意识到,当人工智能真正成熟到可以处理几乎所有我们抛出的问题时,未来的界面会是什么样子。

Semantris:开脑洞、发散思维的小游戏

跟“撩书”一起推出的是一款叫做Semantris的游戏,它主要测试用户单词联想能力。

举个例子,如果你把“床”(Bed)这个单词放在一个10个单词的最上面,你可能会把“睡眠”(Sleep)作为一种反应。Semantris将对这10个单词进行排序,并根据它认为床与睡眠之间的语义关系与列表中的其他单词之间的关系进行比较,最后还可以打分。

应该指出的是,很多谷歌实验也是公司收集用户数据的方法,通过给用户提供丰富的关于文字关系的信息,有助于信息技术的发展。这似乎是Semantris的案例,但无论如何,游戏是测试你自己能力的一种有趣的方式,看看软件如何判断单词之间的联系。

此外,你也可以玩一个类似tetris的游戏,它可以让你输入文字来清除屏幕上的文字块,根据你自己的假设,软件可以在彩色方块上的文字和你输入的答案之间的文字之间画出什么关联。

建模方法

谷歌使用的方法是“在向量空间中表示语言”这一想法的延伸,方法是为更大的语言块(如完整句子和小段落)创建向量。由于语言是由概念层次组成的,我们使用一个模块层级结构创建向量,每个模块考虑与不同时间尺度的序列对应的特征。如果以正确的方式训练,然后提出正确的“问题”,那么就可以用向量空间语言模型来表示相关性、同义词、反义词、部分整体关系、同形异义词以及其他许多类型的关系。谷歌在论文“Efficient Natural Language Response for Smart Reply”中描述了这种方法。

论文:

Universal Sentence Encoder:https://arxiv.org/abs/1803.11175

Efficient Natural Language Response for Smart Reply:https://arxiv.org/abs/1705.00652

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2018-04-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

全球最大的3D数据集公开了!标记好的10800张全景图 | 附论文

原作:Matt Bell 安妮 编译自 Hacker Noon 量子位 出品 | 公众号 QbitAI 你一定不想错过这个全球最大的公开3D数据集。 本文作者为...

70340
来自专栏AI科技评论

学界 | 伯克利 DeepMimic:虚拟特技演员的基本修养

「运动控制问题已经成为强化学习的基准,而深度强化学习的方法可以很高效的处理控制和运动等问题。然而,使用深度强化学习训练的目标对象也经常会出现不自然动作、异常抖动...

32140
来自专栏企鹅号快讯

Google工程师:谷歌翻译在几个月内效果明显提升的秘诀

编辑|Vincent,Emily 近日,一位网友在知乎提问:谷歌翻译这几个月的进化速度突然加快是什么原因?问题链接: https://www.zhihu.com...

214100
来自专栏EAWorld

AIDevOps离我们有多远?

本文目录: 一、写在前面 二、AIDevOps,未来已来 三、AIDevOps的方法 四、学术界的研究启示 五、距离AIDevOps还有多远? 六、参考文献 一...

44360
来自专栏数据派THU

数据变金矿:一文读懂序列模型(附用例)

众所周知,人工神经网络(ANN)的设计思路是模仿人脑结构。但是直到10年前,ANN和人类大脑之间唯一的共同点是对实体的命名方式(例如神经元)。由于预测能力较弱并...

9810
来自专栏IT大咖说

游戏AI领域,机器人技术的研究与应用

内容来源:2018 年1月5日,深奇智慧联合创始人高扬在“2018移动技术创新大会”进行《游戏机器人的研究与应用》演讲分享。IT 大咖说(微信id:itdaka...

26470
来自专栏PPV课数据科学社区

机器学习算法速查卡-带表情包

虽然我以前也曾提到过这件事,因为我真的很爱表情包。我花了很多时间与朋友和家人聊天,表情包是必不可少的,否则在屏幕上看起来就会很平淡。? 我喜欢的另一件事是数据科...

402120
来自专栏量子位

大手笔!YouTube放出史上最大已标注视频数据集

以下内容来自Google Research Blog,量子位编译 ? 当今机器学习中最具挑战性的研究领域之一,是使计算机能够理解一个场景是什么。例如,虽然人类知...

258100
来自专栏AI科技评论

清华大学柯沛:闲聊对话中的句式控制 | AI研习社65期大讲堂

AI 科技评论按:在闲聊对话领域,对话策略研究是近几年的热门话题,实现对话策略需要引入一些要素,让聊天机器人变得更加拟人化,以便能跟用户更好地交互。来自清华大学...

11720
来自专栏IT派

量子机器学习入门科普:解读量子力学和机器学习的共生关系

IT派 - {技术青年圈} 持续关注互联网、大数据、人工智能领域 原作:Reena Shaw 安妮 编译自 KDnuggets 量子位 出品 | 公众号 Qb...

42560

扫码关注云+社区

领取腾讯云代金券