AI算法入驻Google搜索引擎,词条再冷也可手到擒来!

互联网的能力是强大的,它几乎囊括了一切我们日常生活中想要获得的信息,但有时候因搜索词条过于冷门而找不到信息时,大多数人也只能双手摊开,表达自己的无奈。在这个bug的前提下,搜索引擎人工智能化成为目前不可阻挡的趋势。

日前,搜索引擎巨头Google在自家搜索引擎中引入一种名为RankBrain的基于人工智能技术开发的算法,以优化搜索引擎的网页排名。具体是怎么操作的呢?

网页排名操作步骤

一般来讲,搜索引擎的网页排名基本分为4个步骤:

爬行抓取:搜索引擎蜘蛛(一个能够在网上发现新网页并抓文件的程序)从已知的数据库出发,像正常用户的浏览器一样访问网页并抓取文件。另外,蜘蛛还会爬行跟踪网页中的链接以访问更多的网页,再重复以上抓取过程。

索引:这些页面文件被蜘蛛抓取后,将会被进行分解、分析,并以巨大表格的形式存入数据库。其中,网页文字内容,关键词出现的位置、字体、颜色、加粗、斜体等相关信息都有相应记录。

搜索词处理:用户在搜索框内输入关键词并单击“搜索”按钮后,搜索引擎程序即对搜索词进行处理,如中文特有的分词处理,判断是否需要启动整合搜索、是否有错别字等情况。

排序:在上述三个步骤完成后,根据搜索词,搜索引擎将会从索引数据库中找出所有包含搜索词的网页,然后根据排名算法计算出哪些网页应该排在前面,最后按照一定格式返回到"搜索"页面。

网页排名影响因素

在网页排名关键中,网页的排名先后受到诸多因素的影响,就拿Google的排名公式来看:Google分数=(相关关键词分数X0.3)+(域名权重X0.25)+(外链分数X0.25)+(用户数据X0.1)+(内容质量分数X0.1)+(人工加分)–(自动或人工降分)。

从公式中我们可以看出,针对搜索引擎网页排名,最为直观的影响因素就有6个,分别是关键词、域名权重、外链分数、用户数据、内容质量以及人工干预,而在这6大因素下面,又有着各自其他的小因素,例如在用户数据这一块上,搜索引擎就要考虑到搜索引擎结果页面(SERPs)的点击率、用户在网页上呆的时间、域名或URL搜索量、访问量及其他Google可以监测到的数据(工具条、GA之类)等4个小因素,至于这4个因素下面还有多少其他的小小因素,这就不得而知了。

RankBrian的工作原理

搜索引擎网页排名的的基本工作原理已大概知晓,虽然搜索引擎的数据库很强大,但仍然会有一丝瑕疵的存在,比如冷门关键词的相关搜索。由于关键词的逻辑排列以及固定词汇等因素,搜索引擎给出的信息难免会有局限性,从而不能正确或全面得对关键词进行理解,以给出用户所需要的信息。

Google在搜索引擎中引入的RankBrain算法,其目的就在于优化搜索引擎的网页排名。目前,在 Google 用来决定网页排名的数百个因素中,RankBrain的重要性已经位居第三。

而在冷门词条搜索方面,RankBrain算法也确实有效的给出了一个解决方案。通过RankBrian,Google可以对这部分冷门词条进行分析和重新匹配,从而使得搜索结果更加准确。举个例子:在 Google 中输入“best flower shop in Los Angeles”一类冷门的搜索,RankBrian会通过语义分析和词库联想,识别出搜索关键词的重点意义。比如这句话,RankBrian就会判别出其与搜索频率更高的“best LA flower shops”比较像,然后给出后者的搜索结果。

从RankBrian的工作原理可以看出,其最为关键的人工智能技术就是“语义理解”,只要将这部分做好,那么在将来,哪怕是再冷门、再繁琐的搜索词条,Google都能给予用户最准确的信息反馈。

据悉,早在2015年年初,Google就逐渐推出了RankBrain,但也仅限于一部分搜索结果。目前,Google已将该算法应用于每天每一次的搜索中,每天提供的搜索服务多达55多亿次。

原文发布于微信公众号 - 镁客网(im2maker)

原文发表时间:2016-06-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据杂谈

Python爬取自己微信好友信息,并制作好友签名词云

本文参考教程来自微信公众号【Alfred在纽西兰】,文章如下: 《一件有趣的事: 爬了爬自己的微信朋友》 根据原作者的思路以及代码,爬取自己的微信好友信息并制...

3225
来自专栏PPV课数据科学社区

用户行为数据可视化——行为序列图

引子: 作为一名网站的用户研究工作人员,我曾经碰到过以下问题: 深知服务器日志是一座金矿,但不知道该从哪里开始分析? 辛辛苦苦盯着电脑一天,看了1000+条...

6228
来自专栏程序员的知识天地

Python那么火,到底能用来做什么?

像Django和Flask这样基于Python的Web框架最近在web开发中变得非常流行。

1001
来自专栏互联网技术栈

数据仓库模型说明

数据仓库的建设是一个过程,而不是一个项目。在这个过程中我们需要形成自己的规范,以方便管理和维护。在数据仓库的建设过程中,不仅会面临着公司业务迅速发展,业务系统迭...

3673
来自专栏CDA数据分析师

这4件事带你走出深陷的数据分析迷宫

通过真实世界中的实例,我们将共同通过种种错误的数据分析方式总结出正确的技巧与诀窍。 相信每位朋友都遇到过这样的情况:将来自各类渠道的数据收集起来,通过A/B测试...

2126
来自专栏phodal

如何为技术博客设计一个推荐系统(中):基于 Google 搜索的半自动推荐

与统计学相比,基于内容来向用户推荐相似的内容,往往更容易获得。对于推荐来说,则有两种方式: 手动推荐 自动推荐 (PS:我承认,这句话说了等于没说。) 如下图所...

2526
来自专栏hotqin888的专栏

MeritMs价值和成果管理系统完善成果分析

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/hotqin888/article/det...

894
来自专栏IT技术精选文摘

使用Kafka在生产环境中构建和部署可扩展的机器学习

1627
来自专栏瞎说开发那些事

RPA与AI认知--Microsoft Text Analysis

2246
来自专栏后端技术探索

Uber工程技术栈(三):看曾经的独角兽背后用了哪些技术

Argos是我们的内部异常检测工具,负责分析进来的度量指标,并基于历史数据,将它们与预测模型进行比对,从而确定当前数据是不是在预期范围内。

882

扫码关注云+社区

领取腾讯云代金券