前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >搜索引擎solr和elasticsearch

搜索引擎solr和elasticsearch

作者头像
全栈程序员站长
发布于 2021-04-07 03:21:58
发布于 2021-04-07 03:21:58
7550
举报

刚开始接触搜索引擎,网上收集了一些资料,在这里整理了一下分享给大家。

一、关于搜索引擎

搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。

一个搜索引擎由搜索器 、索引器 、检索器 和用户接口 四个部分组成。搜索器的功能是在互联网 中漫游,发现和搜集信息。索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档 以及生成文档库的索引表。检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。

——以上文字百度百科(点击我跳转到对应页面),更多相关搜索引擎介绍请看该文章,如全文搜索引擎、目录索引类搜索引擎、元搜索引擎的区别。

二、Lucene

solr和elasticsearch都是基于Lucene实现的,因此这里有必要对Lucene进行介绍。

Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。Lucene是一套用于全文检索和搜寻的开源程式库,由Apache软件基金会支持和提供。Lucene提供了一个简单却强大的应用程式接口,能够做全文索引和搜寻。在Java开发环境里Lucene是一个成熟的免费开源工具。就其本身而言,Lucene是当前以及最近几年最受欢迎的免费Java信息检索程序库。人们经常提到信息检索程序库,虽然与搜索引擎有关,但不应该将信息检索程序库与搜索引擎相混淆。

Lucene是一个全文检索引擎的架构。那什么是全文搜索引擎?

全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度(Baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。

从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的7家引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。

三、solr

Solr是一个基于Lucene的Java搜索引擎服务器。Solr 提供了层面搜索、命中醒目显示并且支持多种输出格式(包括 XML/XSLT 和 JSON 格式)。它易于安装和配置,而且附带了一个基于 HTTP 的管理界面。Solr已经在众多大型的网站中使用,较为成熟和稳定。Solr 包装并扩展了 Lucene,所以Solr的基本上沿用了Lucene的相关术语。更重要的是,Solr 创建的索引与 Lucene 搜索引擎库完全兼容。通过对Solr 进行适当的配置,某些情况下可能需要进行编码,Solr 可以阅读和使用构建到其他 Lucene 应用程序中的索引。此外,很多 Lucene 工具(如Nutch、 Luke)也可以使用Solr 创建的索引。

介绍性文字过多,很多东西实际操作过就会好理解很多,这里推荐一篇不错的入门文章:Solr开发文档

书籍推荐一本不错的书籍:《Lucene In Action》有中文版的

四、elasticsearch

Elasticsearch是一个基于Apache Lucene(TM)的开源搜索引擎。无论在开源还是专有领域,Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。

但是,Lucene只是一个库。想要使用它,你必须使用Java来作为开发语言并将其直接集成到你的应用中,更糟糕的是,Lucene非常复杂,你需要深入了解检索的相关知识来理解它是如何工作的。

Elasticsearch也使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能,但是它的目的是通过简单的RESTful API来隐藏Lucene的复杂性,从而让全文搜索变得简单。

因为博主后面主要了解学习elasticsearch,因此对elasticsearch有更多的学习资料推荐。

两篇网页版教程,十分全面: http://es.xiaoleilu.com/010_Intro/10_Installing_ES.html http://udn.yyuap.com/doc/mastering-elasticsearch/chapter-5/54_README.html

安装插件: http://blog.csdn.net/wenqisun/article/details/47952199

一篇非常不错的文章(必看): http://www.aboutyun.com/thread-17078-1-1.html

Elastic中文社区:http://elasticsearch.cn/

elasticsearch 集群搭建(建议选择比较低版本搭建): http://my.oschina.net/xiaohui249/blog/228748

五类Elasticsearch扩展性插件推荐: http://cloud.51cto.com/art/201505/476450.htm

五、solr和elasticsearch比较

Elasticsearch 与 Solr 的比较总结

二者安装都很简单;

Solr 利用 Zookeeper 进行分布式管理,而 Elasticsearch 自身带有分布式协调管理功能;

Solr 支持更多格式的数据,而 Elasticsearch 仅支持json文件格式;

Solr 官方提供的功能更多,而 Elasticsearch 本身更注重于核心功能,高级功能多有第三方插件提供;

Solr 在传统的搜索应用中表现好于 Elasticsearch,但在处理实时搜索应用时效率明显低于 Elasticsearch。

Solr 是传统搜索应用的有力解决方案,但 Elasticsearch 更适用于新兴的实时搜索应用。

两者对比更详细介绍请看如下文章: http://www.cnblogs.com/chowmin/articles/4629220.html

发布者:全栈程序员栈长,转转请注明出处:https://javaforall.cn/2275.html原文链接:

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2020年11月12日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
elasticSearch学习(一)
Elaticsearch,简称为es, es是一个开源的高扩展的分布式全文检索引擎,它可以近乎实时的存储、检 索数据;本身扩展性很好,可以扩展到上百台服务器,处理PB级别(大数据时代)的数据。es也使用 Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能,但是它的目的是通过简单的RESTful API来隐藏Lucene的复杂性,从而让全文搜索变得简单。
崔笑颜
2020/08/06
5470
Lucene&Solr&ElasticSearch-面试题
Lucene是apache下的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎。官网地址:https://lucene.apache.org/
java思维导图
2019/12/05
2.1K0
Elasticsearch 概述
Google,百度类的网站搜索,它们都是根据网页中的关键字生成索引,我们在搜索的时 候输入关键字,它们会将该关键字即索引匹配到的所有网页返回;还有常见的项目中应用日志的搜索等等。对于这些非结构化的数据文本,关系型数据库搜索不是能很好的支持。 一般传统数据库,全文检索都实现的很鸡肋,因为一般也没人用数据库存文本字段。进行全文检索需要扫描整个表,如果数据量大的话即使对 SQL 的语法优化,也收效甚微。建 立了索引,但是维护起来也很麻烦,对于 insert 和 update 操作都会重新构建索引。 基于以上原因可以分析得出,在一些生产环境中,使用常规的搜索方式,性能是非常差 的:
兮动人
2021/06/11
3880
Elasticsearch 概述
初识 ElasticSearch,一个上天下地的搜索引擎 No.158
我想跟大家先讲这么一个故事。在2017年,我有幸参与到ElasticSearch 的创始人 Shay Banon 的现场分享。Shay Banon 在谈及当年接触 Lucene 并开发 Elasticsearch 的初衷的时候, Shay Banon 认为自己参与 Lucene 完全是一种偶然。
大蕉
2019/09/04
9720
初识 ElasticSearch,一个上天下地的搜索引擎 No.158
ElasticSearch7.6入门学习
笔记记录 B站狂神说Java的ElasticSearch课程:https://www.bilibili.com/video/BV17a4y1x7zq
Vincent-yuan
2022/05/06
1.4K0
ElasticSearch7.6入门学习
面试之Solr&Elasticsearch[通俗易懂]
优点: 1.Elasticsearch是分布式的。不需要其他组件,分发是实时的,被叫做”Push replication”。 2.Elasticsearch 完全支持 Apache Lucene 的接近实时的搜索。 3.处理多租户(multitenancy)不需要特殊配置,而Solr则需要更多的高级设置。 4.Elasticsearch 采用 Gateway 的概念,使得完备份更加简单。 5.各节点组成对等的网络结构,某些节点出现故障时会自动分配其他节点代替其进行工作。 缺点:
全栈程序员站长
2022/08/04
2.1K0
搜索引擎
在现在互联网如日中天的时代,即使你不是互联网行业的人,你也一定会用过谷歌或者百度。因为他们已经影响了我们生活的方方面面,为我们提供了很多的便利。那么在互联网行业的人我们除了使用它们,我们还迫切地想知道它们到底是怎么实现的。
吉林乌拉
2020/11/13
1.3K0
Elasticsearch分布式搜索引擎
Elaticsearch,简称为es, es是一个开源的高扩展的分布式全文检索引擎,它可以近乎实时的存储、检索数据;本身扩展性很好,可以扩展到上百台服务器,处理PB级别的数据。es也使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能,但是它的目的是通过简单的RESTful API来隐藏Lucene的复杂性,从而让全文搜索变得简单。
暴躁的程序猿
2022/03/24
3610
Elasticsearch分布式搜索引擎
从 0 到 1 学习 elasticsearch ,这一篇就够了!(建议收藏)
之前一直想花点时间写一篇 elasticsearch 的保姆级教程,于是,趁着年假的几天时间加上周末的一些时间,我产出了自认为算是非常详细的,基于目前最新版本的elasticsearch7.11教程。不管是新手上路,还是秋名山老司机,都建议收藏一下,希望看完对您有所帮助!如果可以,记得一键三连!
大数据梦想家
2021/04/14
1.7K0
从 0 到 1 学习 elasticsearch ,这一篇就够了!(建议收藏)
9个基于Java的搜索引擎框架 转
在这个信息相当繁杂的互联网时代,我们已经学会了如何利用搜索引擎这个强大的利器来找寻目标信息,比如你会在Google上搜索情人节如何讨女朋友欢心,你也会在百度上寻找正规的整容医疗机构(尽管有很大一部分广告骗子)。那么如果在你自己开发的网站系统中需要能让用户搜索一些重要的信息,并且能以结构化的结果展现给用户,下面分享的这9款Java搜索引擎框架或许就可以帮助到你了。
wuweixiang
2018/08/14
4.1K0
搜索引擎选择 Elasticsearch与Solr
一、Elasticsearch简介 Elasticsearch是一个实时的分布式搜索和分析引擎。它可以帮助你用前所未有的速度去处理大规模数据。它可以用于全文搜索,结构化搜索以及分析,当然你也可以将这三者进行组合。Elasticsearch是一个建立在全文搜索引擎 Apache Lucene™ 基础上的搜索引擎,可以说Lucene是当今最先进,最高效的全功能开源搜索引擎框架。但是Lucene只是一个框架,要充分利用它的功能,需要使用JAVA,并且在程序中集成Lucene。需要很多的学习了解,才能明白它是如何运行的,Lucene确实非常复杂。Elasticsearch使用Lucene作为内部引擎,但是在使用它做全文搜索时,只需要使用统一开发好的API即可,而不需要了解其背后复杂的Lucene的运行原理。 当然Elasticsearch并不仅仅是Lucene这么简单,它不但包括了全文搜索功能,还可以进行以下工作: (1)分布式实时文件存储,并将每一个字段都编入索引,使其可以被搜索。 (2)实时分析的分布式搜索引擎。 (3)可以扩展到上百台服务器,处理PB级别的结构化或非结构化数据。Elasticsearch的优缺点: 优点 Elasticsearch是分布式的。不需要其他组件,分发是实时的,被叫做”Push replication”。 Elasticsearch 完全支持 Apache Lucene 的接近实时的搜索。 处理多租户(multitenancy)不需要特殊配置,而Solr则需要更多的高级设置。 Elasticsearch 采用 Gateway 的概念,使得完备份更加简单。 各节点组成对等的网络结构,某些节点出现故障时会自动分配其他节点代替其进行工作。 缺点 只有一名开发者(当前Elasticsearch GitHub组织已经不只如此,已经有了相当活跃的维护者) 还不够自动(不适合当前新的Index Warmup API) 二、Solr简介 Solr(读作“solar”)是Apache Lucene项目的开源企业搜索平台。其主要功能包括全文检索、命中标示、分面搜索、动态聚类、数据库集成,以及富文本(如Word、PDF)的处理。Solr是高度可扩展的,并提供了分布式搜索和索引复制。Solr是最流行的企业级搜索引擎,Solr4 还增加了NoSQL支持。 Solr是用Java编写、运行在Servlet容器(如 Apache Tomcat 或Jetty)的一个独立的全文搜索服务器。Solr采用了 Lucene Java 搜索库为核心的全文索引和搜索,并具有类似REST的HTTP/XML和JSON的API。Solr强大的外部配置功能使得无需进行Java编码,便可对其进行调整以适应多种类型的应用程序。Solr有一个插件架构,以支持更多的高级定制。 Solr的优缺点 优点 Solr有一个更大、更成熟的用户、开发和贡献者社区。 支持添加多种格式的索引,如:HTML、PDF、微软 Office 系列软件格式以及 JSON、XML、CSV 等纯文本格式。 Solr比较成熟、稳定。 不考虑建索引的同时进行搜索,速度更快。 缺点 建立索引时,搜索效率下降,实时索引搜索效率不高。 三、Elasticsearch与Solr的比较 当单纯的对已有数据进行搜索时,Solr更快。
用户7353950
2022/06/23
9340
搜索引擎选择 Elasticsearch与Solr
ElasticSearch基础概念
下图红色勾选的是我们前面的系列详解的,除此之外你可以看到搜索库ElasticSearch在前十名内:
Linux运维技术之路
2024/02/29
1510
ElasticSearch基础概念
开源搜索引擎排名第一,Elasticsearch是如何做到的?
随着移动互联网、物联网、云计算等信息技术蓬勃发展,数据量呈爆炸式增长。如今我们可以轻易得从海量数据里找到想要的信息,离不开搜索引擎技术的帮助。
腾讯云开发者
2020/08/28
1.6K0
Hi,Java工程师:关于全文搜索引擎,这篇文章不得不看!
最近项目组安排了一个任务,项目中用到了基于 Solr 的全文搜索,但是该 Solr 搜索云项目不稳定,经常查询不出来数据,需要手动全量同步。
用户1093975
2019/01/23
1.7K0
Hi,Java工程师:关于全文搜索引擎,这篇文章不得不看!
javaScript中的搜索引擎:Elasticsearch与Solr
在现代Web应用中,搜索引擎是提升用户体验、优化信息检索的关键技术。在JavaScript开发领域的话,Elasticsearch和Solr是两款广受欢迎的搜索引擎。
iwhao
2024/07/07
2010
【搜索引擎:Elasticsearch】从0了解ES,整合springboot,京东搜索实战
SQL : like %冷环渊% 但是数据量一旦变大了,就会变慢,这个时候用索引, 也是只能快一些
冷环渊
2022/04/17
1.1K0
【搜索引擎:Elasticsearch】从0了解ES,整合springboot,京东搜索实战
全文搜索引擎Elasticsearch,这篇文章给讲透了
由于近期在公司内部做了一次分享,所以本篇主要是基于之前的博文的一个总结,希望通过这篇文章能让读者大致了解Elasticsearch是做什么的以及它的使用和基本原理。
大数据技术架构
2019/08/16
9.9K3
全文搜索引擎Elasticsearch,这篇文章给讲透了
ElasticSearch(7.2.2)-常用的搜索引擎
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
cwl_java
2019/10/30
5390
科普向 | Lucene,Solr,Elasticsearch之间的区别和联系
最近有幸研究到了这块领域的内容,而我本人也对于这块非常的感兴趣,所以打算写一篇文章记录一下…
大数据梦想家
2021/01/27
3K0
科普向 | Lucene,Solr,Elasticsearch之间的区别和联系
后端技术杂谈4:Elasticsearch与solr入门实践
本系列文章将整理到我在GitHub上的《Java面试指南》仓库,更多精彩内容请到我的仓库里查看
Java技术江湖
2019/12/09
1.2K0
后端技术杂谈4:Elasticsearch与solr入门实践
相关推荐
elasticSearch学习(一)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文