,使用Solr构建的应用程序可以提供高性能,但是非常复杂
Solr可以和Hadoop一起使用:由于Hadoop处理大量数据,Solr可以从大的数据源中找到所需信息....的所有功能
RESTful API: 要与Solr通信,可以使用RESTful服务与Solr通信,可以使用XML,JSON,CSV等格式的文件作为输入文档,并以相同的文件格式获取结果
全文搜索: Solr...有助于在网上定位信息
用户可以通过以关键字或短语的形式将查询传递到搜索引擎中来搜索信息,然后搜索引擎搜索其数据库并向用户返回相关链接
搜索引擎组件
搜索引擎有三个组件:
Web爬虫: 一个收集网络信息的软件组件...数据库: Web上的所有信息都存储在数据库中,包含大量的Web资源
搜索接口: 这个组件是用户和数据库之间的接口,帮助用户搜索数据库
搜索引擎工作流程
获取原始内容: 任何搜索应用程序的第一步是收集要进行搜索的目标内容...即根据观测到的数据(标注好的语料)对模型参数进行估计.即 训练
在分词阶段再通过模型计算各种分词出现的概率,将概率最大的分词结果作为最终结果
常见的序列标注模型:HMM,CRF
基于统计及机器学习的分词方式优点