SolrCloud

SolrCloud简介

什么是SolrCloud

SolrCloud(solr 云)是 Solr 提供的分布式搜索方案,当你需要大规模,容错,分布式索引和检索能力时使用 SolrCloud。当一个系统的索引数据量少的时候是不需要使用 SolrCloud的,当索引量很大,搜索请求并发很高,这时需要使用 SolrCloud 来满足这些需求。

SolrCloud 是基于 Solr 和Zookeeper的分布式搜索方案,它的主要思想是使用 Zookeeper作为集群的配置信息中心。

它有几个特色功能:

1)集中式的配置信息

2)自动容错

3)近实时搜索

4)查询时自动负载均衡

SolrCloud系统架构

【1】物理结构

三个 Solr 实例( 每个实例包括两个 Core),组成一个 SolrCloud。

【2】逻辑结构

索引集合包括两个 Shard(shard1 和 shard2),shard1 和 shard2 分别由三个 Core 组成,其中一个 Leader 两个 Replication,Leader 是由 zookeeper 选举产生,zookeeper 控制每个shard上三个 Core 的索引数据一致,解决高可用问题。

用户发起索引请求分别从 shard1 和 shard2 上获取,解决高并发问题。

(1)Collection

Collection 在 SolrCloud 集群中是一个逻辑意义上的完整的索引结构。它常常被划分为一个或多个 Shard(分片),它们使用相同的配置信息。

比如:针对商品信息搜索可以创建一个 collection。

collection=shard1+shard2+....+shardX

(2) Core

每个 Core 是 Solr 中一个独立运行单位,提供 索引和搜索服务。一个 shard 需要由一个Core 或多个 Core 组成。由于 collection 由多个 shard 组成所以 collection 一般由多个 core 组成。

(3)Master 或 Slave

Master 是 master-slave 结构中的主结点(通常说主服务器),Slave 是 master-slave 结构中的从结点(通常说从服务器或备服务器)。同一个 Shard 下 master 和 slave 存储的数据是一致的,这是为了达到高可用目的。

(4)Shard

Collection 的逻辑分片。每个 Shard 被化成一个或者多个 replication,通过选举确定哪个是 Leader。

搭建SolrCloud

搭建要求

Zookeeper 作为集群的管理工具

1、集群管理:容错、负载均衡。

2、配置文件的集中管理

3、集群的入口

需要实现 zookeeper 高可用,需要搭建zookeeper集群。建议是奇数节点。需要三个 zookeeper 服务器。

搭建 solr 集群需要 7 台服务器(搭建伪分布式,建议虚拟机的内存 1G 以上):

需要三个 zookeeper 节点

需要四个 tomcat 节点。

准备工作

环境准备

CentOS-6.5-i386-bin-DVD1.iso

jdk-7u72-linux-i586.tar.gz

apache-tomcat-7.0.47.tar.gz

zookeeper-3.4.6.tar.gz

solr-4.10.3.tgz

步骤:

(1)搭建Zookeeper集群(我们在上一小节已经完成)

(2)将已经部署完solr 的tomcat的上传到linux

(3)在linux中创建文件夹 /usr/local/solr-cloud 创建4个tomcat实例

[root@localhost ~]# mkdir /usr/local/solr-cloud [root@localhost ~]# cp -r tomcat-solr /usr/local/solr-cloud/tomcat-1 [root@localhost ~]# cp -r tomcat-solr /usr/local/solr-cloud/tomcat-2 [root@localhost ~]# cp -r tomcat-solr /usr/local/solr-cloud/tomcat-3 [root@localhost ~]# cp -r tomcat-solr /usr/local/solr-cloud/tomcat-4

(4)将本地的solrhome上传到linux

(5)在linux中创建文件夹 /usr/local/solrhomes ,将solrhome复制4份

[root@localhost ~]# mkdir /usr/local/solrhomes [root@localhost ~]# cp -r solrhome /usr/local/solrhomes/solrhome-1 [root@localhost ~]# cp -r solrhome /usr/local/solrhomes/solrhome-2 [root@localhost ~]# cp -r solrhome /usr/local/solrhomes/solrhome-3 [root@localhost ~]# cp -r solrhome /usr/local/solrhomes/solrhome-4

(6)修改每个solr的 web.xml 文件, 关联solrhome

<env-entry> <env-entry-name>solr/home</env-entry-name> <env-entry-value>/usr/local/solrhomes/solrhome-1</env-entry-value> <env-entry-type>java.lang.String</env-entry-type> </env-entry>

(7)修改每个tomcat的原运行端口8085 8080 8009 ,分别为

8185 8180 8109

8285 8280 8209

8385 8380 8309

8485 8480 8409

------ 知识点小贴士 ------8005端口是用来关闭TOMCAT服务的端口。  8080端口,负责建立HTTP连接。在通过浏览器访问Tomcat服务器的Web应用时,使用的就是这个连接器。8009端口,负责和其他的HTTP服务器建立连接。在把Tomcat与其他HTTP服务器集成时,就需要用到这个连接器。

配置集群

(1)修改每个 tomcat实例 bin 目录下的 catalina.sh 文件

把此配置添加到catalina.sh中( 第234行 ) :

JAVA_OPTS="-DzkHost=192.168.25.140:2181,192.168.25.140:2182,192.168.25.140:2183"

JAVA_OPTS ,顾名思义,是用来设置JVM相关运行参数的变量 . 此配置用于在tomcat启动时找到 zookeeper集群。

(2)配置 solrCloud 相关的配置。每个 solrhome 下都有一个 solr.xml,把其中的 ip 及端口号配置好(是对应的tomcat的IP和端口)。

solrhomes/solrhome-1/solr.xml

<solrcloud>

    <str name="host">192.168.25.140</str>

    <int name="hostPort">8180</int>

    <str name="hostContext">${hostContext:solr}</str>

    <int name="zkClientTimeout">${zkClientTimeout:30000}</int>

    <bool name="genericCoreNodeNames">${genericCoreNodeNames:true}</bool>

  </solrcloud>

solrhomes/solrhome-2/solr.xml

 <solrcloud>

    <str name="host">192.168.25.140</str>

    <int name="hostPort">8280</int>

    <str name="hostContext">${hostContext:solr}</str>

    <int name="zkClientTimeout">${zkClientTimeout:30000}</int>

    <bool name="genericCoreNodeNames">${genericCoreNodeNames:true}</bool>

  </solrcloud>

solrhomes/solrhome-3/solr.xml

 <solrcloud>

    <str name="host">192.168.25.140</str>

    <int name="hostPort">8380</int>

    <str name="hostContext">${hostContext:solr}</str>

    <int name="zkClientTimeout">${zkClientTimeout:30000}</int>

    <bool name="genericCoreNodeNames">${genericCoreNodeNames:true}</bool>

  </solrcloud>

solrhomes/solrhome-4/solr.xml

 <solrcloud>

    <str name="host">192.168.25.140</str>

    <int name="hostPort">8480</int>

    <str name="hostContext">${hostContext:solr}</str>

    <int name="zkClientTimeout">${zkClientTimeout:30000}</int>

    <bool name="genericCoreNodeNames">${genericCoreNodeNames:true}</bool>

  </solrcloud>

(3)让 zookeeper 统一管理配置文件。需要把 solrhome下collection1/conf 目录上传到zookeeper。上传任意 solrhome 中的配置文件即可。

我们需要使用solr给我们提供的工具上传配置文件:

solr-4.10.3/example/scripts/cloud-scripts/zkcli.sh

将solr-4.10.3压缩包上传到linux,解压,然后进入solr-4.10.3/example/scripts/cloud-scripts目录 ,执行下列命令

./zkcli.sh -zkhost 192.168.25.140:2181,192.168.25.140:2182,192.168.25.140:2183 -cmd upconfig-confdir /usr/local/solrhomes/solrhome-1/collection1/conf -confname myconf

参数解释

-zkhost :指定zookeeper地址列表

-cmd :指定命令。upconfig 为上传配置的命令

-confdir : 配置文件所在目录

-confname : 配置名称

启动集群

(1)启动每个 tomcat 实例。要保证 zookeeper 集群是启动状态。

---- 知识点小贴士 -----如果你想让某个文件夹下都可以执行,使用以下命令实现chmod -R 777 solr-cloud

(2)访问集群

地址栏输入 http://192.168.25.140:8180/solr ,可以看到Solr集群版的界面

下图表示的是,一个主节点 ,三个从节点。

SpringDataSolr连接SolrCloud

在SolrJ中提供一个叫做CloudSolrServer的类,它是SolrServer的子类,用于连接solrCloud

它的构造参数就是zookeeper的地址列表,另外它要求要指定defaultCollection属性(默认的 collection名称)

我们现在修改springDataSolrDemo工程的配置文件 ,把原来的solr-server注销,替换为CloudSolrServer .指定构造参数为地址列表,设置默认 collection名称

<!-- solr服务器地址

<solr:solr-server id="solrServer" url="http://192.168.25.129:8080/solr" />

 -->

<bean id="solrServer" class="org.apache.solr.client.solrj.impl.CloudSolrServer">

<constructor-arg value="192.168.25.140:2181,192.168.25.140:2182,192.168.25.140:2183" />

<property name="defaultCollection" value="collection1"></property>

</bean>

分片配置

(1)创建新的 Collection 进行分片处理。

在浏览器输入以下地址,可以按照我们的要求 创建新的Collection

http://192.168.25.140:8180/solr/admin/collections?action=CREATE&name=collection2&numShards=2&replicationFactor=2

参数:

name:将被创建的集合的名字 numShards:集合创建时需要创建逻辑碎片的个数 replicationFactor:分片的副本数。

看到这个提示表示成功

(1)删除不用的 Collection。执行以下命令

http://192.168.25.140:8480/solr/admin/collections?action=DELETE&name=collection1

模拟集群异常测试

(1)停止第一个tomcat节点,看查询是否能正常工作 -- 能!因为还有从节点

(2)停止第三个tomcat节点,看看查询能够正常工作 -- 不能,因为整个一片数据全没了,无法正常工作。

(3)恢复第三个tomcat节点,看看能否正常工作。恢复时间会比较长,大概2分半到3分钟之间。请耐心等待。

本文分享自微信公众号 - 一点博客(xiaochen_182),作者:晨彬

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-07-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 61条面向对象设计的经验原则

    你不必严格遵守这些原则,违背它们也不会被处以宗教刑罚。但你应当把这些原则看成警铃,若违背了其中的一条,那么警铃就会响起。   (1)所有...

    一点博客
  • Linux-简介篇

    什么是Linux Unix Unix是一个强大的多用户、多任务操作系统。 于1969年在AT&T的贝尔实验室开发。 UNIX的商标权由国际开放标准组织(The ...

    一点博客
  • Spark-计算引擎

    Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分...

    一点博客
  • Golang URL解析

    Golang URL解析 今天利用课余时间看了一下Go语言的URL解析,于是就实践了一下,为了大家一起学习交流,故贴出来和大家一起分享,如有什么错误,请各位大神...

    李海彬
  • java动态编译类文件并加载到内存中

      如果你想在动态编译并加载了class后,能够用hibernate的数据访问接口以面向对象的方式来操作该class类,请参考这篇博文-http://www.c...

    程序员一一涤生
  • 《Monkey Java》课程4.2之面向对象基础3

    GitOPEN
  • 腾讯云服务器计费模式包年包月和按量付费区别对比

    阿里云CVM云服务器计费模式分为包年包月和按量付费两种方式,腾讯云百科分享包年包月、按量付费区别对比:

    上云小秘书
  • SDP(9):MongoDB-Scala - data access and modeling

        MongoDB是一种文件型数据库,对数据格式没有硬性要求,所以可以实现灵活多变的数据存储和读取。MongoDB又是一种分布式数据库,与传统关系数据库不同...

    用户1150956
  • 《研发运营安全白皮书(2020年)》深度解读:全生命周期安全体系将是未来趋势

    日前,《研发运营安全白皮书(2020年)》(以下简称“白皮书”)在中国信息通信研究院、中国通信标准化协会联合主办的可信云线上峰会上正式发布。该白皮书是由中国信息...

    腾讯安全
  • Python自省与反射

    自省就是面向对象的语言所写的程序在运行时,所能知道对象的类型.简单一句就是运行时能够获得对象的类型.比如type(),dir(),getattr(),hasat...

    宇宙之一粟

扫码关注云+社区

领取腾讯云代金券