专栏首页大数据文摘业界 | 谷歌AI上线“与书籍对话”项目,从10w+本书中搜索你要的答案

业界 | 谷歌AI上线“与书籍对话”项目,从10w+本书中搜索你要的答案

大数据文摘作品

编译:魏子敏、蒋宝尚

在使用日常语言与计算机交谈时,计算机如何理解我们?

谷歌的方法是利用数十亿条对话来直接告诉人工智能,真正的人类对话是什么样的。

而书籍,可能是人类完整语句最大的汇聚地。

谷歌AI的Talk to Books项目昨日上线,旨在通过搜索挖掘这片人类完整语句的宝藏。

网站链接:

https://research.google.com/semanticexperiences/about.html

在Talk to Books中,当你输入一个问题或一个陈述时,谷歌的模型会查看超过10万本书籍中的每个句子,以查找最有可能在对话中出现的答案。响应句子会以粗体显示,并附带一些关于上下文的句子旁边的文字。

让我们看一个谷歌给出的案例:

文摘菌当然也自己做了一下尝试,输入:AI会比人类更聪明吗?谷歌给出了以下的答案,出现在第一位的答案来自Kevin Gurney的《神经网络入门》,相关度非常之高,而排在第二位第三位的分别是偏生物科学和语言学的两本书,点击可以直接进入谷歌图书,定位到相关语句。

在谷歌官方发布的介绍文章中,其表示虽然这一应用有一个搜索框,但它的目标和底层技术与传统的搜索体验完全不同。这只是一个研究演示,它使人工智能能够找到用户输入可能有反应的语句,而不是一个涉及标准质量信号的广泛精细工具。

您可能需要充分使用才能更好地发掘其价值。而谷歌也表示,在这个实验中,其实没有考虑这本书是权威的还是只是论题。该模型只是查看每个句子与查询配对的情况。有时它会发现错过标记的回答或完全脱离情境。

此外,谷歌强调,直接问出完整的句子会比输入关键词或者短语获得更好地结果,而这一点与传统的搜索引擎有根本不同。

对于开发人员来说,谷歌也提供了更详细的技术细节来供探索。

专门的开发者页面:

https://research.google.com/semanticexperiences/for-developers.html

开发人员可以深入了解技术并将其用于自己的应用程序。

谷歌称:“我们很高兴与社区分享这些模型,以了解可以与他们一起构建的其他模型。我们知道我们展示的仅仅是一个开始......”

以下是谷歌给技术人员写出的技术细节,大数据文摘编译如下:

训练模型

我们上面分享的模型主要是通过对自然语言输入以及反馈进行训练。训练过程中使用了各种半监督数据源,在这种情况下,半监督通常是一个语句和一个实际后续语句的实际共存。

这些模型使用英语语言样本对数据进行了训练,但是其他语言也可以使用相同的方法。

最简单的例子是使用多句文本(例如报纸文章)中的下一个句子。从Q/A数据集中输入:“今晚你为什么不去吃晚餐?”其配对答复是:“对不起,我不能去。”数据集中的真对是作为正面例子给出的。随机配对的输入/回复提供了反面的例子:“为什么你今晚不来吃饭呢?”其配对答复是“大都会队赢了三场比赛”。

另外,半监督只是一种基于事实的方法,即句子或短语在一段训练数据中同时发生。使用各种数据源(问答数据库、报纸文章中的下一个句子对),模型可以在多个维度(句法一致性、一般语义相似性或一致性、主题一致性甚至某些知识一致性)上学习短语或句子的适当配对。

通过学习区分正确短语对,系统学会了用500维实数向量来表示自然语言语法、语义。输入长度是可变,但是有效性随着输入长度的增长而下降。这些向量可用于语义相似任务、Q/A任务、自然语言建议任务等。

使用模型

TensorFlow最近发布了TFHub,TF-Hub是一个可以共享机器学习专业知识的平台,里面包含在可重用资源中打包的机器学习专业知识,特别是在预先训练的模块中的技能。

在这个平台上,可以找到和下载类似于这些应用程序的模型。这里提供了几个教程,包括语义相似和文本分类。

Universal Sentence Encoder模型与我们在Talk to Books和Semantris中使用的非常相似,尽管这些应用程序正在使用双编码器方法,以最大限度地提高响应相关性,而Universal Sentence Encoder是一种单一的编码器。

关于语言理解模型中的偏误

语言理解模型使用数以十亿计的例子来了解这个世界。语言理解模型的进步可以推动这个社会的社交应用的发展。也可以反映人类的认知偏见。因此仔细的设计对于使用这些模型至关重要。

在Semantris中,我们展示的单词列表是手工整理的。在可能的范围内,我们排除了我们认为不适合的主题,从而可以轻松地将它们作为输入进行补充。在“Talk to Books”中,虽然我们不能手动审核10万册书籍中的每个句子,但我们使用的是一种流行度衡量标准,可以增加专业出版社出版的图书的比例。

当然,还有其他措施可以采取。例如,敏感话题分类器可以确定何时输入或输出的素材是不合理的。我们建议在使用这些模型构建最终用户应用程序时,采取减少偏见的措施。

对于这里展示的AI实验项目,我们没有采取减轻偏见的措施。实验过程表明了AI的全部能力和弱点。在过程中可能会发现冒犯性关联。鼓励您使用反馈工具报告冒犯性关联,以便改进未来的模型。

我们还没有(也可能永远不会)有一个完整的解决方案来识别和减轻不需要的关联。正如Caliskan等人在他们最近的论文《自动从语言语料中导出的语义包含类似于人类的偏见》中指出,这些关联深深地缠绕在自然语言数据中。

本文分享自微信公众号 - 大数据文摘(BigDataDigest),作者:文摘菌

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-04-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 竞赛老陪跑怎么办?来自一位Kaggle比赛失败者的含泪总结

    Kaggle比赛应该是数据竞赛中公认含金量最高的那个。每场比赛,参加的队伍至少上千人,也并非每次都次都能脱引而出,一不小心就要陪跑。

    大数据文摘
  • AI如何更好地协助人类,我们从美食游戏中得到了一些启发

    然而AI的陪练系统通常会根据其进步而增加训练难度。在自我博弈的训练中,有时,AI要学会左右互搏,有时,AI要和其他AI一起玩以方便各自提升。

    大数据文摘
  • 「赫曼方格」视错觉怎么破?

    大数据文摘
  • 混合线性模型学习笔记4

    这个小节主要是介绍混合线性模型的理论知识,包括固定因子的显著性检验(Wald),随机因子的检验(LRT),固定因子的效应值(BLUE),随机因子的效应值(BLU...

    邓飞
  • 在 BizTalk Server 2004 SP2 中存档和清除 BizTalk 跟踪数据库

    在 Biztalk Server 2004 SP2 中存档和清除 Biztalk 跟踪数据库 发布日期: 2006年09月19日 小结:本白皮书介绍如何配置 B...

    阿新
  • SAP HANA神话(3):心黑胆肥的SAP

    花开两枝,讲完黯然神伤的Michael和他可怜的卖不掉的H-store,我们来看看SAP的葫芦里卖的什么药。以事后诸葛亮的态度来说,SAP演出了一场大戏,从研发...

    用户1564362
  • Vue中组件

    然后由于后面的template会生成一个临时的dom,会把前面el关联的整个标签变成template中的内容

    小小咸鱼YwY
  • python趣味玩法

    Always make a total effort, even when the odds are against you.

    小闫同学啊
  • SAP Cloud for Customer Sales Order Requested Date的业务含义和实现

    我们在创建Sales order销售订单时,需要指定一个RequestedDate:

    Jerry Wang
  • 动态跟踪分析Nginx-工具介绍篇

    之前写过一篇文章Nginx调试必备,介绍了几种调试Nginx的工具,包括echo、lua、njs,这些工具,都只是方便输出或者打印日志输出一些变量等,方便运维人...

    李俊鹏

扫码关注云+社区

领取腾讯云代金券