搜索简史

现在的同学很难想象没有搜索引擎的日子,国内的百度,国外的Google,Bing基本成为互联网的唯一入口,上网的第一件事是搜索一下。

回想整个互联网,关于信息获取,可以分为这么几个阶段:

1)门户网站

20世纪末的时候大家还玩的是门户网站。全世界出名的网站就那么几个,国外Yahoo,国内Sina/搜狐/网易。大家上个网需要记住这些网站的域名,然后输入。当时网站和内容都特别少,其实也就只能看看简单的新闻。

2)分类导航

随着网站的越来越多,记住域名这种事情难度太高。所以要yahoo 是世界上第一家提供分类导航的网站。分类导航能产生也是顺其自然的事情,电话薄/地址导航类的书籍,几十年过去了,现在仍能在美国还有提供。

就是这么一种简单的方式,让Yahoo占领了整个互联网世界,同时Yahoo的华人老板杨致远也让华人津津乐道谈论了好多年。

由网吧管理员李兴平99年创建的hao123也只作了一个类似的一个分类导航简单的事情,最后04年作价上亿卖给百度。所以说信息获取,信息导航的价值和空间要多大有多大。

3)搜索引擎

Yahoo随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录,但是总算是萌芽。

真正的搜索引擎诞生也同时诞生了一家至今仍能是霸主的公司Google。说到Google一开始更多的是创始人Larry page的博士生作业。让Google成名的是,Larry研究的算法page rank。

为什么这个算法特别重要? 用户搜索的目的就是想获得答案和获取最佳信息。而互联网上各种信息良莠不齐,谁排在前,谁排在后面就显得很重要了,直接影响用户的搜索感受。那能不能像Yahoo一样通过人工录入呢,答案是否定的,在互联网信息爆炸的今天通过人工的方式基本不可能。所以Google想了一个巧妙的方法,根据网页之间相互超链接的来计算相关性。具体的方法是:

PageRank通过网络浩瀚的超链接关系来确定一个页面的等级。Google把从A页面到B页面的链接解释为A页面给B页面投票,Google根据投票来源(甚至来源的来源,即链接到A页面的页面)和投票目标的等级来决定新的等级。简单的说,一个高等级的页面可以使其他低等级页面的等级提升。

方法说的玄乎,简单来理解就是被链接的次数越多,越重要就会排在前面。这样用户使用Google搜索出来的相关性会大大增强,准确率大大提高。

现在国内的百度,国外的Google,Bing基本都是这套技术。

搜索引擎的出现也让搜索成为一门技术。相关的研究方兴未艾!下面简单的说一说搜索技术当前发展和趋势。

1)page rank 到 learning to rank

从page rank通过链接来判断,还是不能完全解决问题,所以大家又尝试用机器学习训练的方式来解决搜索的排名,对语义的理解,learning to rank一直是搜索技术研究等热点。

2)通用搜索到垂直搜索

Google/百度做的都是通用搜索,更多的是解决文本信息的问题,通用的算法很难解决所有的问题。比如音乐,视频不能简单通过链接来分析,还有正版,盗版等一系列问题,所以产生了很多垂直搜索等技术。

3)从信息到知识

搜索核心是获取信息,大家在研究等同时发现,信息里面隐藏了大量的知识,如果搜索的时候能直接返回知识,从而相当于给搜索的人直接返回更想要的答案。知识要用到的关键技术就是知识图谱。

4)大搜索

大搜索的概念可以到百度文科里面下载《大搜索技术白皮书》看看。

http://wenku.baidu.com/view/4f42bded58fafab069dc02da.html?from=search

这个是防洪墙之父方滨兴院士15年主持的一个技术项目提出的一个概念:“面向泛在网络空间的智慧搜索”。这个看起来玄乎,简单说一下关键两点:

1)搜索范围变大,除了互联网之外,未来的物联网也能搜索。

2)搜索更智能,不是简单的关键字匹配,是包含意图理解,知识综合,最后返回的结果也不全是简单的链接,而是用户最终要的答案,比如,搜索机票,最后返回的结果是帮用户把全部行程安排好。

方教授搞防火墙,搞得名声不太好,但是大搜索的概念还是挺准确的。

总代来说,搜索还是门复杂的技术,未来研究等空间很大。我辈一起努力吧!

原文发布于微信公众号 - 大数据和云计算技术(jiezhu2007)

原文发表时间:2016-11-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏云计算D1net

如何在开发生命周期之初改善软件质量

先人一步的企业正开始采用安全编程方法和工具,在软件开发生命周期的早期阶段处理安全问题。MaaS360 by Fiberlink公司的信息安全官David Lin...

3185
来自专栏云计算D1net

导致云应用死亡的三大致命原因

将数据和应用迁移到云端的机构数目越来越多,但是与此同时失败的数目也在增长。以下是三种云应用死亡的致命原因。 所以你想要将你的应用和数据移到云上吗?你认真地做了核...

34614
来自专栏PPV课数据科学社区

【工具】Excel,SPSS和QlikView等数据可视化产品选型指南

大数据的核心不是“大”,也不是“数据”,而是蕴含在其中的商业价值。作为挖掘数据背后潜在价值的重要手段,商业智能和分析平台成为大数据部署中的 关键环...

3006
来自专栏SAP梦心的SAP分享

【SAP业务模式】之ICS(二):基础数据

      讲完业务,计划在前台做一下ICS的基本操作,不过在操作之前,得先建立好基本的基础数据。       1、首先创建接单公司LEON,对应工厂是ADA;...

1939
来自专栏java一日一条

你在编程的时候浪费了多少时间?

如果你正在阅读这篇文章,那么你很有可能和我一样,也是程序员。无论你是自由职业者还是合同工,时间是你最宝贵的资源之一。

461
来自专栏喔家ArchiSelf

当技术成为一种情怀

时间回溯到2016年, 最初出于挖人的险恶用心,进入了一个名叫“中生代技术”的技术群。本以为和自己加入的诸多技术群类似,没想到在这里发现了一群有趣的人,一群热爱...

703
来自专栏我的小碗汤

一款全网音乐神器推荐给大家

突然发现自己很久没有听音乐了,之前对纯音乐和泰勒歌曲喜欢入迷的我,由于工作忙的原因,都很少打开网易云音乐静静品味音乐带来的美感。

782
来自专栏刘望舒

开发人员的奋斗目标

作为开发人员或者其他技术人员,从一个新手变成一个熟手之后,就觉得自己应该差不多了,对于再度前进的方向会变得迷茫。很多开发人员缺乏稍微长远一点的规划,比如,问及开...

3576
来自专栏灯塔大数据

洞察|淘宝大数据之路:回顾这些年淘宝大数据所经历过的故事

2003年至今淘宝网从零开始飞速发展,走过了13个年头,支撑淘宝业务野蛮式生长背后是一套不断完善的技术平台,淘宝大数据平台,就是其中非常重要的一个组成部分,承...

4305
来自专栏腾讯云技术沙龙

Serverless+SCF=打倒服务器,解放程序员

在很多外行人的眼里,程序员就是神一样的存在。他们全年996,节假日无休,不仅Java、PHP、C++要样样精通,还要会修电脑修音响修手机,做前端要懂运维,做后台...

1932

扫码关注云+社区