机器学习在搜索引擎中的应用:你需要知道的一切

在搜索引擎优化中,了解你正在优化的搜索引擎是非常重要的,你需要了解:1、搜索引擎是如何爬行和索引网站的;2、搜索引擎把用户的意图作为排名的一个因素;3、搜索算法的工作原理;另一个需要了解的重要领域就是机器学习

“机器学习”这个术语非常流行,但是机器学习是如何影响搜索引擎以及搜索引擎优化的呢?

1

什么是机器学习

如果没有理解机器学习的真正含义,要理解搜索引擎是如何利用机器学习是很困难的。在我们结合实例解释之前,让我们先从机器学习的定义开始(由斯坦福大学为coursera提供的课程描述):

“机器学习是一门让计算机不被明确编程的情况下采取行动的科学。”

机器学习与人工智能的差异

机器学习跟人工智能(AI)并不完全相同,但是在应用方面,两者的界限开始变得有点模糊。正如上面提到的,机器学习是让计算机根据信息得出结论但没有专门编程从而完成所述任务的科学。另一方面,人工智能是创造系统背后的科学,这些系统要么拥有,要么似乎拥有类似人类的智商,以类似的方式处理信息。

一个机器学习很好的例子就是设置一台机器,通过大量的数据来概述肿瘤的大小和位置,而无需编程。该机器将列出已知的良性和恶性肿瘤。有了这个,我们就可以要求系统来为未来的肿瘤患者制作一个预测模型,并根据分析的数据提前判断肿瘤发生的几率。这是纯粹的数学算法。

2

机器学习和搜索引擎

现在,搜索引擎(以及大多数科学家)正在推动机器学习的发展。Google有个关于机器学习的免费课程,让其机器学习框架TensorFlow开源,并且在其硬件方面做了巨大的投入。基本上,这是未来的发展趋势。

但是通过在Googleplex上的学习,我们不可能例举(甚至是了解)机器学习的所有应用领域,让我们来看下机器学习应用的例子,Rankbrain和对垃圾邮件的拦截。

RankBrain是一个Google机器学习系统的名称,主要作用是,当用户通过Google发起检索请求时,RankBrain会对该检索词进行“翻译”和“理解”。

Rankbrain利用机器学习来:

1、理解什么时候关键词是同义词,什么时候不是同义词。

2、指示算法的其他部分生成正确的搜索引擎结果页面(SERP)。在第一次迭代中,RankBrain对Google以前从未遇到过的查询进行了测试。

垃圾邮件

如果你使用Gmail,或者是其他任何邮箱,你也会看到机器学习在发挥作用。根据Google的数据,现在机器学习屏蔽了99.9%的垃圾邮件和钓鱼邮件,而判断错误的几率只有0.05%。他们使用的是同样的核心技术——给机器学习系统一些数据,然后让机器学习起作用。如果可能的话,在所有的排列中进行人工编程,可以在垃圾邮件过滤中获得99.9%的成功率,并且可以动态地对新技术进行调整,这会是一项繁重的任务。当人工操作的时候,他们有97%的成功率,1%的错误率(意思是1%的真实信息被发送到垃圾箱中——如果邮件很重要的话这样是不能接受的)。

进入机器学习——使用一些你可以确定是垃圾邮件的邮件来设置,利用垃圾邮件的相似点来建立模型,输入一些新的邮件,如果成功筛选垃圾邮件的话,给予它一个奖励,随着时间的增加(不会花太多时间),它将学习更多的信号并且比人类反应得更快。

设置机器学习来观察用户与新电子邮件结构的交互,当它获知正在使用新的垃圾邮件技术时,将其添加已有的邮件中,筛选出的不仅仅是那些垃圾邮件,而是使用与垃圾邮件文件夹类似的技术的电子邮件。

3

机器学习是如何运作的

1、给系统一组已知的数据。也就是说,一组具有大量变量的数据,这些变量连接到一个正确或错误的结果。这是用来训练系统并给它一个起点。基本上,系统现在知道如何根据过去的数据来识别和权衡,从而产生一个正确的结果。

2、设立成功奖励机制。一旦系统与开始的数据条件一致,它就被输入新的数据,但是没有已知的正确的或错误的结果。系统不知道新实体的关系,也不知道电子邮件是否是垃圾邮件。当它筛选正确时,它会得到奖励,虽然很显然不是奖励它一个巧克力棒。一个例子是给系统一个奖励值,目标是达到尽可能高的数字。每次它筛选出正确的答案,这个分数就会增加。

3、一旦成功指标足够高,超过现有系统或达到另一个阈值,机器学习系统就可以集成到整个算法中。这个模型被称为监督学习,如果我的猜测是对的,那么它就是大多数Google算法实现中使用的模型。

4、机器学习的另一个模型是无监督模型。在这个模型中,系统不会被告知它要搜索什么,而是简单地指示通过相似的特性(包含的实体、关键字、关系、作者等)将实体(图像、文章等)分组到组中。

4

为什么机器学习很重要

如果你试图了解为什么和如何设置搜索结果页面以及为什么页面在它们所处的位置排名,理解什么是机器学习将是至关重要的。理解一个算法是一回事,这是很重要的一点,但理解这些因素加权的系统是同等重要的。

发掘有可能成功的内容,并且不断开发这些内容。注意那些Google认为可能满足用户意图的内容(post、图片、新闻、视频、购物、feature snippet等),并努力提供这些内容。

机器学习就像是一个Google工程师坐在每一个搜索者的后面,调整他们看到的东西和他们看待东西的方式,然后再发送给他们的设备。但更好的是,这个工程师与其他学习全球规则的工程师紧密相连。

(编译/全球搜 小呆)

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180809G1NLRI00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券