谷歌搜索用上BERT，10%搜索结果将改善

机器之心

发布于 2019-10-30 15:43:40

1.5K0

发布于 2019-10-30 15:43:40

文章被收录于专栏：机器之心机器之心

选自谷歌博客

作者：Pandu Nayak

机器之心编译

如何让搜索引擎呈现用户想要的结果是困扰谷歌工程师的一大难题。最近，谷歌宣布，他们的搜索引擎用上了强大的 BERT 预训练模型，可以让搜索引擎结合语境理解用户的搜索意图，甚至能理解一些不起眼的介词在搜索语句中的重要含义。有了 BERT 的加持，用户能在谷歌中搜到相关性更强的结果。

为什么谷歌搜索要用 BERT？

「如果要让我说出一条这些年学到的东西，那我会说『人类的好奇心是永无止境的』，」在谷歌搜索部门工作了 15 年的搜索副总裁在谷歌博客中写道。谷歌每天的搜索量多达数十亿，其中有 15% 是从未见过的，所以必须构建一些方法来应对这些无法预料的查询。

用户在搜索的时候往往很难确定一个最好的查询组合：我们不知道用哪些词，也不知道怎么拼。因为有时他们打开搜索引擎就是为了学习的，所以查到结果之前未必具备相应的知识。

搜索的核心是理解语言。搜索引擎的使命是弄清楚用户的搜索意图并从网上找到有用信息，无论查询语句中的单词如何拼写或组合。复杂或会话性的查询通常很难处理。人们会输入他们以为搜索引擎可以理解的问题，但其实他们用的方式并非他们在现实中自然而然使用的方式。

为了解决这些问题，谷歌的研究人员决定在搜索引擎中引入更加强大的自然语言处理模型——BERT。

BERT 对于搜索引擎有何作用？

去年，谷歌开源了用于自然语言处理的预训练模型——BERT 。一经推出，BERT 就刷新了 11 项 NLP 任务的 SOTA 记录，登顶 GLUE 基准排行榜。虽然榜首早已易主，但后续的很多 NLP 模型都是基于 BERT 的改进。其影响力可见一斑。

BERT 的突破基于谷歌在 Transformer 架构上的成功。Transformer 处理一个句子中与所有其他单词相关的单词，而不是按顺序逐个处理。基于此，BERT 模型就可以借助某个单词前后的词来考虑其所处的完整语境，这对于理解查询语句背后的意图非常有用。

但只有软件方面的成功还不够。用 BERT 构建的模型非常复杂，超出了传统硬件的能力范畴。因此，谷歌选择使用最新的 Cloud TPU 结果来提供搜索结果，以达到更好的效果。

用上 BERT 意味着什么？

BERT 在谷歌搜索中的应用体现在排名和精选摘要（featured snippet）两个方面。将 BERT 应用于搜索排名之后，谷歌宣称它可以帮助搜索引擎更好地理解美国（英文）10% 的搜索。谷歌表示，随着时间的推移，他们还会将结果扩展至更多语言和地区。

用上 BERT 之后，对于比较长、会话性比较强的查询，或者在「for」、「to」等介词比较重要的语句中，谷歌搜索引擎将能够理解查询语句中词的上下文。用户可以用更加自然的方式进行搜索。

为了启用这些改进，谷歌进行了大量测试，以确保这些改变更加有用。以下是一些评估示例，可以证明 BERT 在理解意图方面的强大能力。

在以下示例中，用户搜索的语句是「2019 brazil traveler to usa need a visa」。在这个句子中，「to」及其与其他单词的关系对于理解句子含义非常重要。这是一个巴西人要去美国旅游的事件，而不是一个美国人去巴西旅游。在此之前，谷歌的搜索算法无法理解这种连接词的重要性，所以会返回美国公民去巴西旅游的结果。在 BERT 的帮助下，搜索引擎将能够理解搜索语句的核心含义，知道「to」这种简单词在句子中发挥的重要作用，因此能够返回相关性更强的结果。

我们来看另一个搜索语句「do estheticians stand a lot at work」。用上 BERT 之前，谷歌搜索引擎用的是匹配关键词的方法，用搜索结果中的「stand-alone」匹配查询语句中的「stand」。但根据语境，「stand」在搜索语句中的含义并非如此。但 BERT 能够理解此处的「stand」是与工作相关的一种身体素质要求，因此会给出更加有用的答案。