看完了西瓜书的第一章,课后习题有这个问题。我先将这个问题定义为:机器学习在搜索引擎上的应用。
我们先得明白搜索引擎都干了啥,然后看哪些部分可以用机器学习来提高用户体验的,下图出自:第 1 章 搜索引擎是如何工作的
构成搜索引擎的全部要素
1、文档管理器:存储作为检索对象的文档。当查询到相匹配的文档时,会取出该文档的一部分作为摘要。 2、索引构建器:从检索对象的文本文档中构建文本的索引。 3、索引管理器:管理带有索引结构的数据,索引结构是一种用于进行高速检索的数据结构。 4、索引检索器:利用用户的查询进行文本检索,并根据某种规则进行排序并将结果返回给应用。
除了以上的组建除外,一个完整的搜索引擎还包括:爬虫、搜索排序系统。
根据搜索引擎的结构,我们可以进行以下的机器学习优化
综上分析,我们主要来看索引检索器的部分,这部分可以有哪些优化呢:
最理想的模型应该是:搜索引擎**成为一个具备不断自我学习和改善的系统。**也就是将机器学习应用于搜索引擎的所有方面,一个全自动化的搜索引擎系统。