专栏首页Python进阶之路西瓜书习题详解 机器学习能在互联网搜索的哪些环节起什么作用?

西瓜书习题详解 机器学习能在互联网搜索的哪些环节起什么作用?

看完了西瓜书的第一章,课后习题有这个问题。我先将这个问题定义为:机器学习在搜索引擎上的应用

维基百科:搜索引擎(英语:Search Engine)是一种信息检索系统,旨在协助搜索存储在计算机系统中的信息。

1. 搜索引擎

我们先得明白搜索引擎都干了啥,然后看哪些部分可以用机器学习来提高用户体验的,下图出自:第 1 章 搜索引擎是如何工作的

构成搜索引擎的全部要素

1、文档管理器:存储作为检索对象的文档。当查询到相匹配的文档时,会取出该文档的一部分作为摘要。 2、索引构建器:从检索对象的文本文档中构建文本的索引。 3、索引管理器:管理带有索引结构的数据,索引结构是一种用于进行高速检索的数据结构。 4、索引检索器:利用用户的查询进行文本检索,并根据某种规则进行排序并将结果返回给应用。

除了以上的组建除外,一个完整的搜索引擎还包括:爬虫、搜索排序系统。

2. 机器学习对搜索引擎可进行哪些优化

根据搜索引擎的结构,我们可以进行以下的机器学习优化

  1. 文档管理器:生成更精准的摘要。本质就是文档摘要的自动生成,涉及神经网络、NLP。
  2. 索引构建器:索引构建已很成熟,但我发现仍有学者将机器学习应用于这部分,主要是用机器学习算法代替标准哈希函数,但效果还不太好。
  3. 索引管理器:暂无。
  4. 索引检索器:这里涉及查询与文本间的匹配,以及搜索结果的排序,也是直接面向用户的部分。

综上分析,我们主要来看索引检索器的部分,这部分可以有哪些优化呢:

  1. 搜索引擎直接给出搜索的答案:这里用到神经网络,它可以通过分析大量数据从而完成特定的任务,如从相关网页中获取长句子和段落,然后给出有关问题答案的信息。
  1. 直接进行图片、视频(等多元数据)的搜索:图片识别如今已经是常见的技术了,那直接从视频中提出信息呢?谷歌推出Video Intelligence API,不仅可以从视频中提取特定的信息,还能总结视频的脉络、记录视频中的场景,从而对视频进行准确的分类。
  2. 更精准的网页排序(也可成为「精准营销」的部分):如使用神经网络、决策树等为基础的网页排序算法:RankNet, LambdaRank 和 LambdaMART。2015年,谷歌推出RankBrain,它可以选择最适合当前搜索类型的结果,相当于为每个搜索都提供个性化的算法组合。
  3. 对用户行为进行综合分析(如历史搜索数据、点击模式、身份信息等进行结构化信息整合):更多使用在电子商务的搜索系统中。这在电商网站中的使用,应该是很流行的。
  4. 对话式智能交互搜索:如 Baidu 的语音搜索、利用 Siri 进行搜索又或者是 Google Assistant 等。涉及自然语言处理、知识图谱及神经网络等内容。
  1. 对垃圾网站和广告网页的筛选(模式识别):这部分可以用 Outlier 的检测来实现,尤其对以前的标题党,或者以前针对算法进行 SEO 的网站进行甄别。

最理想的模型应该是:搜索引擎**成为一个具备不断自我学习和改善的系统。**也就是将机器学习应用于搜索引擎的所有方面,一个全自动化的搜索引擎系统。

3. 目前的难点有哪些呢?

  1. 搜索引擎是否真正第理解自然语言查询词及文档的意义,还不得知。
  2. 仍需要大量的人工对相关数据进行标记,尤其需要大量的语言学家进行这方面的工作。
  3. 跨语言搜索精确度的问题,当然这部分也是机器学习能够改善的部分。
  4. 其他的自然语言遇到的问题,例如歧义等,讲到底还是语意的理解
本文参与 腾讯云自媒体分享计划 ,欢迎热爱写作的你一起参与!
本文分享自作者个人站点/博客:https://blog.csdn.net/fyfugoyfa复制
如有侵权,请联系 yunjia_community@tencent.com 删除。
登录 后参与评论
0 条评论

相关文章

  • Machine Learning哪家强 强化学习So Strong

    博士毕业于电子科技大学,美国西北大学访问学者,现执教于河南工业大学。中国计算机协会(CCF)会员,CCF YOCSEF郑州2018—2019年度副主席,ACM/...

    用户1682855
  • 周志华西瓜书详细公式推导,Datawhale开源pumpkin-book项目

    如果让你推荐两本国内机器学习的入门经典作,你会推荐哪些呢?相信大家同我一样,非李航的《统计学习方法》和周志华的《机器学习》莫属。

    机器之心
  • 周志华:人工智能研究最主要是靠人的聪明才智

    新智元
  • 校招| C++ 后台开发学习路线

    之前一直没写的原因在于自己觉得自己懂得太少,还没成为一个大佬,还没成为一个精通某个领域的专家,怎么能教别人如何学习呢?

    C语言与CPP编程
  • 周志华:深度学习很有用,但过度追捧就有危险了

    周志华教授是蜚声国内外的机器学习专家,也是本届中国人工智能大会的主席之一。他的《机器学习》2016年1月出版之后,迅速成为这个领域的一本权威教材,在一年半的时间...

    AI科技大本营
  • 独家 | 周志华:深度学习很有用,但过度追捧就有危险了

    采访 | 孟岩 导读 周志华教授是蜚声国内外的机器学习专家,也是本届中国人工智能大会的主席之一。他的《机器学习》2016年1月出版之后,迅速成为这个领域的一本权...

    AI科技大本营
  • 简单粗暴地入门机器学习

    有很多小伙伴问过我零基础要怎么入门机器学习或者人工智能,今天来提炼一下,方便志同道合的朋友们参考。 记得我刚入此山洞准备修炼的时候,就 Google 了好多这类...

    杨熹
  • 机器学习从入门到出家

    一个2010年入坑的后台如何转向做算法和机器学习的历程和感悟,附录一个书单。希望对于大家在摸索深度学习的入门路径过程中有帮助。

    张红林
  • 我是这样入门“机器学习”的

    大三的时候学过一门“人工智能导论”的课,只记得课里有一些回溯和图搜索的算法,具体细节全忘了。

    叶锦鲤
  • 从春招到秋招,算法工程师养成记(阿里+腾讯+其他)

    自我介绍 大家好,我是老班长,一名老牛油(至于多老呢?我基本是第一批关注牛客网的同学,我加牛客网qq1群的时候,群里只有400多人(现在估计10多个群了吧),那...

    牛客网
  • 两年,从月入4K到40K,从来不是努力工作,而是不断跳槽

    这两年期间,经历了4次跳槽,学习→工作实践→跳槽,是我登上每一节楼梯的方式。当然,跳槽的前提是你新学的知识+工作经验,能让面试官觉得你值得这份工作。

    磐创AI
  • 深度学习驱动智能搜索引擎,RankBrain革了SEO的命

    【新智元导读】想在谷歌或百度等搜索结果中排名靠前,除了广告(给钱),你还可以选择SEO(搜索引擎优化):让网站符合算法的规则,提升在搜索引擎内的自然排名。但去年...

    新智元
  • 这是机器学习算法工程师最好的时代!

    对人工智能而言,2017是不平凡的一年: AlphaGo再胜人类 腾讯宣布进军AI 百度无人驾驶汽车上五环 AI教育要从娃娃抓起 寒武纪成全球AI芯片首个独角兽...

    昱良
  • 别再提程序员应届年薪20万了,人工智能已经年薪60万了!

    对人工智能而言,2017是不平凡的一年: AlphaGo再胜人类 腾讯宣布进军AI 百度无人驾驶汽车上五环 AI教育要从娃娃抓起 寒武纪成全球AI芯片首个独角兽...

    朱晓霞
  • JAVA学习方式横向对比,哪款最适合你?

    这些问题,我相信是加我的或者没有加我的,或者是大家心中都有的问题,再总结下来,其实就是

    微笑的小小刀
  • 塔荐 | 机器学习与人工智能学习资源大放送合集

    ? 我经常在 TopLanguage 讨论组上推荐一些书籍,也经常问里面的牛人们搜罗一些有关的资料,人工智能、机器学习、自然语言处理、知识发现(特别地,数据挖...

    灯塔大数据
  • 一份完整的数据科学竞赛指南!

    ‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍“听过很多道理,却依然过不好一生;看过很多分享,却依然做不好比赛。”

    Datawhale
  • 算法工程师:非科班机器学习工程师养成计划虐心面试实录一点人生经验

    这是一篇不太专业的算法工程师面经,希望能给非科班想要从事机器学习工作的同学或学弟学妹一些建议,同时也回馈给予我很大帮助的牛客网。目前拿到的offer有:网易、三...

    牛客网
  • 少儿编程,凉了?

    既然传说中AI、BI、CI的玩意这么火热,那要是再不让自家孩子们去学两天岂不是就要输在起跑线上了?

    AiTechYun

扫码关注云+社区

领取腾讯云代金券