前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >百度一下,背后可不只是简单的一下(下篇)

百度一下,背后可不只是简单的一下(下篇)

作者头像
张叔叔讲互联网
发布2018-10-29 16:27:45
4930
发布2018-10-29 16:27:45
举报

上篇文章中我们讲到百度通过大量的爬虫从网络上爬取到了海量的信息,这其中涉及到两个网页A和网页B,网页A中介绍的是赵丽颖和冯绍峰结婚的事情,网页B中介绍的是赵丽颖的新电影《张叔叔的美好时光》。类比词典中目录的作用,百度会针对网页A和网页B构建专属的索引。当搜索“赵丽颖和冯绍峰啥时候结婚的”,百度会对搜索内容先进行分词,解析出了“赵丽颖、冯绍峰、结婚、时候”,然后通过查询索引找到了最符合查询条件的网页A,然后把结果返回给了搜索者。

很自然会想到的问题:当搜索“赵丽颖”的时候,网页A和网页B都满足条件,返回给搜索者的时候,A和B的顺序如何决定的?这篇文章张叔叔就带大家来揭开它的神秘面纱。

先来思考一个问题,如果网页A重点介绍的是赵丽颖和冯绍峰结婚的消息,还附属介绍了赵丽颖的前任们、代表作等娱乐消息;网页B重点介绍的是赵丽颖的新电影《张叔叔的美好时光》,介绍了电影的导演、演员阵容、内容介绍、上映时间等。如果你现在化身百度的服务器,当用户搜索“赵丽颖”的时候,你更想把哪个网页放到前面让用户看到?

张叔叔掐指一算,你会优先把网页A返回给用户。扪心自问一下,是怎么样的思考过程让你最终选择把A放到前面的?其实是网页内容的重点左右了你的选择,很明显网页A更加偏重介绍赵丽颖这位美女明星,而网页B的介绍重点是电影《张叔叔的美好时光》。如果此处你都抓不住内容重点,说明你们语文老师可能之前是教体育的。同样的,百度在对返回结果进行排序的时候也会考虑哪一个网页与搜索内容“赵丽颖”更相关,百度服务器只会计算,是不会像我们这样思考的,它们是如何计算出来的呢?

给大家介绍一种主流的计算方法:TF-IDF,英文全称term frequency–inverse document frequency,千万不要被这复杂的词汇吓到,有叔叔在,一切且可理解。先把它翻译成中文就是词频-文档频率,词频就是在一个网页中这个词出现的次数,比如网页A中“赵丽颖”出现了10次,在网页B中“赵丽颖”出现了3次,从这个角度来看,是不是网页A更与“赵丽颖”有关了呢。

仅仅依赖词频来判断是不够的,比如有个思维比较另类的同学搜索“的”这个字,因为“的”是一个比较常见的字,那么网页A和网页B中包含“的”的数目就差别不大了,很难判断哪个网页更加偏重“的”。由于“的”的普遍性,也就没有办法展现出哪个网页更符合搜索结果。如果所有网页中都包含“赵丽颖”,网页A和B也就不会那么突出了。那如何体现词语的特殊性呢,于是引入了IDF(文档频率),如果所有文档中都有这个词,那说明大家都有,这个词也就不重要了;如果就几个文档中有这个词,说明这个词在这几篇文档中地位很重要。这个时候再次回忆一下童年,是不是所有小朋友家都有的玩具往往被扔到角落里面,你就独爱那个别人家没有的玩具。

百度就是根据词频-文档频率这个思路,最终算出来网页A比网页B更加满足搜索请求“赵丽颖”(现实中比这个复杂多了喔)。到此为止,是不是对于百度一下背后发生了什么有了一个比较清晰的认识了?

大家经常听到“竞价排名”这个词,这个是什么意思呢?张叔叔先给大家科普一下,据统计表明,绝大多数人只会点击搜索结果的前几个。这个对于商家来说诱惑力很大,如果商家的网站在搜索结果中越是靠前,那么被点击的概率越大,直接导致自己的销量越大。比如有两家卖冰箱的公司A和B,为了让自己的排名比较靠前,A公司就花钱买了百度关键词“冰箱”的排名,当用户搜索“冰箱”的时候,A就会排在B前面,这就造成了很多用户去点击和购买A公司的冰箱。

友情提示:现在百度不是完全按照钱多钱少来确定排名,也会综合考虑其他因素。

如果你或者爸爸妈妈使用了百度APP,你会发现百度每天都会给你推送你喜欢的新闻,那这个是怎么做到的?其实和叔叔之前的文章《当妈妈在淘宝的时候,都发生了什么?》中淘宝通过搜集你妈妈的行为记录来推荐购买其他商品一样,百度也会搜集你平时的搜索和浏览记录,然后就可以分析出你的爱好,之后就能推荐你喜欢的东西了!

百度一下背后的故事有一定的难度喔,希望大家能够仔细思考,下次再百度的时候你就明白这背后的逻辑了!

【张叔叔科普数据】

2018年6月,百度APP日活超过1.5亿,这个只是每天使用百度APP的用户量。不可否认,几乎每天使用电脑的人都或多或少使用百度,这个数量几乎等于中国网民的数量。如果网民每天平均使用三次百度的话,那就会产生百亿级别的搜索请求。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-10-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 张叔叔讲互联网 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档