专栏首页机器之心谷歌搜索用上BERT,10%搜索结果将改善

谷歌搜索用上BERT,10%搜索结果将改善

选自谷歌博客

作者:Pandu Nayak

机器之心编译

如何让搜索引擎呈现用户想要的结果是困扰谷歌工程师的一大难题。最近,谷歌宣布,他们的搜索引擎用上了强大的 BERT 预训练模型,可以让搜索引擎结合语境理解用户的搜索意图,甚至能理解一些不起眼的介词在搜索语句中的重要含义。有了 BERT 的加持,用户能在谷歌中搜到相关性更强的结果。

为什么谷歌搜索要用 BERT?

「如果要让我说出一条这些年学到的东西,那我会说『人类的好奇心是永无止境的』,」在谷歌搜索部门工作了 15 年的搜索副总裁在谷歌博客中写道。谷歌每天的搜索量多达数十亿,其中有 15% 是从未见过的,所以必须构建一些方法来应对这些无法预料的查询。

用户在搜索的时候往往很难确定一个最好的查询组合:我们不知道用哪些词,也不知道怎么拼。因为有时他们打开搜索引擎就是为了学习的,所以查到结果之前未必具备相应的知识。

搜索的核心是理解语言。搜索引擎的使命是弄清楚用户的搜索意图并从网上找到有用信息,无论查询语句中的单词如何拼写或组合。复杂或会话性的查询通常很难处理。人们会输入他们以为搜索引擎可以理解的问题,但其实他们用的方式并非他们在现实中自然而然使用的方式。

为了解决这些问题,谷歌的研究人员决定在搜索引擎中引入更加强大的自然语言处理模型——BERT。

BERT 对于搜索引擎有何作用?

去年,谷歌开源了用于自然语言处理的预训练模型——BERT 。一经推出,BERT 就刷新了 11 项 NLP 任务的 SOTA 记录,登顶 GLUE 基准排行榜。虽然榜首早已易主,但后续的很多 NLP 模型都是基于 BERT 的改进。其影响力可见一斑。

BERT 的突破基于谷歌在 Transformer 架构上的成功。Transformer 处理一个句子中与所有其他单词相关的单词,而不是按顺序逐个处理。基于此,BERT 模型就可以借助某个单词前后的词来考虑其所处的完整语境,这对于理解查询语句背后的意图非常有用。

但只有软件方面的成功还不够。用 BERT 构建的模型非常复杂,超出了传统硬件的能力范畴。因此,谷歌选择使用最新的 Cloud TPU 结果来提供搜索结果,以达到更好的效果。

用上 BERT 意味着什么?

BERT 在谷歌搜索中的应用体现在排名和精选摘要(featured snippet)两个方面。将 BERT 应用于搜索排名之后,谷歌宣称它可以帮助搜索引擎更好地理解美国(英文)10% 的搜索。谷歌表示,随着时间的推移,他们还会将结果扩展至更多语言和地区。

用上 BERT 之后,对于比较长、会话性比较强的查询,或者在「for」、「to」等介词比较重要的语句中,谷歌搜索引擎将能够理解查询语句中词的上下文。用户可以用更加自然的方式进行搜索。

为了启用这些改进,谷歌进行了大量测试,以确保这些改变更加有用。以下是一些评估示例,可以证明 BERT 在理解意图方面的强大能力。

在以下示例中,用户搜索的语句是「2019 brazil traveler to usa need a visa」。在这个句子中,「to」及其与其他单词的关系对于理解句子含义非常重要。这是一个巴西人要去美国旅游的事件,而不是一个美国人去巴西旅游。在此之前,谷歌的搜索算法无法理解这种连接词的重要性,所以会返回美国公民去巴西旅游的结果。在 BERT 的帮助下,搜索引擎将能够理解搜索语句的核心含义,知道「to」这种简单词在句子中发挥的重要作用,因此能够返回相关性更强的结果。

我们来看另一个搜索语句「do estheticians stand a lot at work」。用上 BERT 之前,谷歌搜索引擎用的是匹配关键词的方法,用搜索结果中的「stand-alone」匹配查询语句中的「stand」。但根据语境,「stand」在搜索语句中的含义并非如此。但 BERT 能够理解此处的「stand」是与工作相关的一种身体素质要求,因此会给出更加有用的答案。

下面还有一些例子,从中可以看出,BERT 能够帮助帮助我们掌握语言的细微含义,这些是计算机理解不了的。

能用上 BERT 的不止英语搜索

谷歌表示,他们会将 BERT 应用到全球各种语言的搜索中。这种模型的一大特点就是能将从一种语言中学到的东西应用到其他语言中。因此,他们可以将从英语中得到的改进模型应用于其他语言。

他们还用 BERT 改进了 20 多个国家的精选摘要,在韩语、印地语、葡萄牙语中取得了显著进展。

搜索问题,永无止境

无论你想要搜索什么东西,无论你使用哪种语言,谷歌希望人们都可以使用最自然的方式进行搜索。但即使是 BERT 加持,谷歌搜索或许仍然无法让人能够获得 100% 完美的结果。未来,谷歌仍会持续改进自己的搜索系统。

原文链接:https://blog.google/products/search/search-language-understanding-bert

本文分享自微信公众号 - 机器之心(almosthuman2014)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-10-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 内存用量1/20,速度加快80倍,腾讯QQ提出全新BERT蒸馏框架,未来将开源

    BERT 已经被验证是解决口语化短文本语义量化的极为有效的工具,对于口语化人机交互系统如 FAQ、语音助手等产品意义重大。但受限于模型的高复杂度和高计算量,其产...

    机器之心
  • 红楼梦、法律,BERT 已有如此多的神奇应用

    2019 年 5 月 ACM 图灵大会上,朱松纯教授(加州大学洛杉矶分校)与沈向洋博士(微软全球执行副总裁)在谈到「人工智能时代的道路选择」这个话题时,沈向洋博...

    机器之心
  • ACL 2019提前看:预训练语言模型的最新探索

    ACL,英文全称是 The Association for Computational Linguistics,中文全称是国际计算语言学协会。ACL 于 196...

    机器之心
  • 7.Go-用户信息和系统文件/目录

     MkDirAll:如果文件夹已经存在,不报错,保留原文件,如果父目录不存在帮助创建

    zhang_derek
  • 干货 :谷歌电影票房预测模型探究

    谷歌公布了一项重要研究成果–电影票房预测模型。该模型能够提前一个月预测电影上映首周的票房收入,准确度高达94%。这在业内引起了强烈讨论,不少内人士认为该模型非常...

    小莹莹
  • 对于注册中心,ZooKeeper、Eureka 哪个更合适?

    Eureka本身是Netflix开源的一款提供服务注册和发现的产品,并且提供了相应的Java封装。在它的实现中,节点之间相互平等,部分注册中心的节点挂掉也不会对...

    芋道源码
  • 浅谈 InnoDB 事务

    “傲是对付敌人的武器,特别是对弱小对手的一种气势压制,这种武器也有使用场景,不应常用。尽量看清自己,尽量看清大势,并不是你本人有多牛,只不过你有这个机会站在那个...

    搬砖俱乐部
  • 关掉可穿戴部门后,英特尔还将调整自动驾驶业务

    作者 | DavidZh 上周,国外媒体 The Information 援引知情人消息称,英特尔将关掉 Vaunt 智能眼镜所在的可穿戴产品团队。 这一消息随...

    AI科技大本营
  • Gentoo虚拟机安装教程

    Gentoo是一个非常著名的发行版,在Linux高手中非常流行。之前我也是被Gentoo的威名震慑了,所以一直没有尝试安装,最近感觉可以尝试一下了。所以今天来看...

    乐百川
  • 域名Whois 查询系统,基于ThinkPHP+Mysql

    基于Thinkphp+mysql 开发的,后台管理Whois服务器信息,还有域名查询记录,有效的缓存查询记录 域名查询了第一次就会缓存到数据库里面,如果有数据库...

    Alone88

扫码关注云+社区

领取腾讯云代金券

玩转腾讯云 有奖征文活动