前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Redis进阶:哨兵集群

Redis进阶:哨兵集群

作者头像
云飞扬
发布2022-03-24 10:30:02
2800
发布2022-03-24 10:30:02
举报
文章被收录于专栏:星汉技术星汉技术

Redis进阶:哨兵集群

1.哨兵模式

测试主从结构的高可用失败,单独使用主从复制,只能做到数据的备份,无法使任何一个从节点在主节点宕机后启动为主节点继续提供服务,redis中提供主从高可用的技术为哨兵模式。

也就是说,哨兵模式是针对主从模式进行高可用,哨兵模式是基于主从复制模式的。

1.1.哨兵进程的工作原理

在redis中可以启动哨兵的进程,将某一个主从结构配置到哨兵,让哨兵来管理当前的主从结构。

同一个主从结构可以由多个哨兵进程管理(便于选举),在监控主从结构时,所有的哨兵进程会调用info命令查看当前的主从状态,一旦发现返回的结果中master宕机,所有的哨兵进程会进行选举的操作(过半选举),选出替代主节点执行服务的从节点,执行命令将从节点变换成主节点,继续提供服务。

结构如下图:

哨兵进程启动之后,会自动加载主节点下挂接的从节点,调用info命令查看到的从节点信息,哨兵监听过程使用的是底层RPC通信协议。

最终的哨兵高可用集群模式如下图:

可以调用测试代码,执行代码逻辑,操作sentinel。

1.2.选举机制

哨兵集群中,监控管理主从结构的哨兵个数最好是奇数个。

集群选举容忍度:

2个哨兵存在的时候,为了达到过半原则,可以允许几个宕机?

  • 2个哨兵的选举容忍度0
  • 3个哨兵的选举容忍度1。
  • 4个哨兵的选举容忍度1。
  • 5个哨兵的选举容忍度2。
  • 6个哨兵的选举容忍度2。

由上述得出结论:2n和2n-1个集群的选举容忍度相同,为了节省资源,最好配置奇数个哨兵集群。

2.安装哨兵集群

哨兵集群是基于Redis的主从集群而来的,所以要进行哨兵集群的安装,需要先安装Redis的主从集群。

2.1.安装主从复制

参看前一章节。

2.2.哨兵配置操作步骤

哨兵的配置文件所在的目录为Redis的HOME的根下。

/redis-6.2.6/sentinel.conf

在这个配置文件中,配置主从的关系,主节点信息。

规划两个配置文件,一个使用默认的26379端口,另外一个使用26380端口。

1.1.1.移动文件

将此配置文件从HOME目录移动到和命令所在的同一目录。

代码语言:javascript
复制
[root@lk7 bin]# cp /home/software/redis-6.2.6/sentinel.conf /usr/local/bin/
1.1.2.修改配置文件

修改启动哨兵的配置文件sentinel.conf,内容如下:

  • P15:bind需要注释掉ip信息不要绑定,当前配置文件默认是注释的。
  • P17:安全配置protected-mode no注释去掉,配置为no。
  • P21:端口,默认端口26379。
  • p26:是否开启后台运行,这个需要和日志路径配合使用,如果指定了日志文件路径则开启后台运行,如果没有指定,则不开启,yes为开启后台运行,no为不开启后台运行。
  • p31:pid存放位置,这个一般使用默认即可。
  • p36:日志文件名,默认日志不保存。此项如果配置了,哨兵的监控信息就不会在屏幕上展示了。
  • p65:日志文件存放路径,不存在需要手动创建,不然启动会报错。
  • P84:主节点信息,sentinel monitor mymaster 127.0.0.1 6379 2修改监听主从的挂接配置
    • sentinel monitor mymaster 127.0.0.1 6379 2
    • sentinel monitor :开始监听主从结构中的主节点。
    • mymaster:监听当前主从结构的代号,可以自定义。
    • ip:主节点所在的ip(使用内网地址),如果哨兵和主从节点在同一个机器,不要使用127.0.0.1,会造成代码访问失效。
    • port:主节点端口号。
    • 2 : 哨兵的工作单位数量最小值,需要修改成1。
  • P225:失败重新选举,选举新主节点失败时的时间延迟(第二轮选举和第一轮选举的时间间隔)
    • sentinel failover-timeout mymaster 10000
    • 当前哨兵集群对某一个事件的选举如果不成立,将会根据这里配置的时间毫秒数进行多轮选举,直到最终结果出现。

例如:

代码语言:javascript
复制
 15 # bind 127.0.0.1 192.168.1.1

 17 protected-mode no

 21 port 26379

 26 daemonize yes

 31 pidfile /var/run/redis-sentinel.pid

 36 logfile "sentinel01.log"

 65 dir "/tmp/redis"

 84 sentinel monitor mymaster 127.0.0.1 6381 2

224 # Default is 3 minutes.
225 sentinel failover-timeout mymaster 10000
1.1.3.复制配置文件

将配置好的sentinel.conf文件复制2个。

代码语言:javascript
复制
[root@lk7 bin]# cp sentinel.conf sentinel01.conf 
[root@lk7 bin]# cp sentinel.conf sentinel02.conf 
[root@lk7 bin]# vim sentinel02.conf 

将sentinel02.conf的端口号改为26380。

2.3.启动哨兵进程

启动哨兵进程,开启监听主从结构,命令如下:

代码语言:javascript
复制
redis-sentinel 启动文件

操作如下:

代码语言:javascript
复制
[root@lk7 bin]# redis-sentinel sentinel01.conf 
[root@lk7 bin]# tail -f /tmp/redis/sentinel01.log
4063:X 12 Feb 2022 20:53:10.020 # oO0OoO0OoO0Oo Redis is starting oO0OoO0OoO0Oo
4063:X 12 Feb 2022 20:53:10.021 # Redis version=6.2.6, bits=64, commit=00000000, modified=0, pid=4063, just started
4063:X 12 Feb 2022 20:53:10.021 # Configuration loaded
4063:X 12 Feb 2022 20:53:10.021 * Increased maximum number of open files to 10032 (it was originally set to 1024).
4063:X 12 Feb 2022 20:53:10.021 * monotonic clock: POSIX clock_gettime
                _._                                                  
           _.-``__ ''-._                                             
      _.-``    `.  `_.  ''-._           Redis 6.2.6 (00000000/0) 64 bit
  .-`` .-```.  ```\/    _.,_ ''-._                                  
 (    '      ,       .-`  | `,    )     Running in sentinel mode
 |`-._`-...-` __...-.``-._|'` _.-'|     Port: 26379
 |    `-._   `._    /     _.-'    |     PID: 4063
  `-._    `-._  `-./  _.-'    _.-'                                   
 |`-._`-._    `-.__.-'    _.-'_.-'|                                  
 |    `-._`-._        _.-'_.-'    |           https://redis.io       
  `-._    `-._`-.__.-'_.-'    _.-'                                   
 |`-._`-._    `-.__.-'    _.-'_.-'|                                  
 |    `-._`-._        _.-'_.-'    |                                  
  `-._    `-._`-.__.-'_.-'    _.-'                                   
      `-._    `-.__.-'    _.-'                                       
          `-._        _.-'                                           
              `-.__.-'                                               

4063:X 12 Feb 2022 20:53:10.021 # WARNING: The TCP backlog setting of 511 cannot be enforced because /proc/sys/net/core/somaxconn is set to the lower value of 128.
4063:X 12 Feb 2022 20:53:10.022 # Sentinel ID is 110f88ebe35298d2a07ace06d18a29468fb36ad3
4063:X 12 Feb 2022 20:53:10.022 # +monitor master mymaster 127.0.0.1 6381 quorum 2
4063:X 12 Feb 2022 20:53:10.023 * +slave slave 192.168.106.171:6383 192.168.106.171 6383 @ mymaster 127.0.0.1 6381
4063:X 12 Feb 2022 20:53:10.024 * +slave slave 192.168.106.171:6382 192.168.106.171 6382 @ mymaster 127.0.0.1 6381
4063:X 12 Feb 2022 20:53:18.130 * +sentinel sentinel 89ac1bb631eb8ccfc9c854478dfa9114073ec760 192.168.106.171 26380 @ mymaster 127.0.0.1 6381
4063:X 12 Feb 2022 20:53:18.134 * +sentinel-address-switch master mymaster 127.0.0.1 6381 ip 127.0.0.1 port 26380 for 89ac1bb631eb8ccfc9c854478dfa9114073ec760
4063:X 12 Feb 2022 20:53:18.135 * +sentinel-address-switch master mymaster 127.0.0.1 6381 ip 192.168.106.171 port 26380 for 89ac1bb631eb8ccfc9c854478dfa9114073ec760
4063:X 12 Feb 2022 20:53:18.136 * +sentinel-address-switch master mymaster 127.0.0.1 6381 ip 127.0.0.1 port 26380 for 89ac1bb631eb8ccfc9c854478dfa9114073ec760
4063:X 12 Feb 2022 20:53:20.173 * +fix-slave-config slave 192.168.106.171:6383 192.168.106.171 6383 @ mymaster 127.0.0.1 6381
4063:X 12 Feb 2022 20:53:20.173 * +fix-slave-config slave 192.168.106.171:6382 192.168.106.171 6382 @ mymaster 127.0.0.1 6381

2.4.测试

kill掉主节点进程,查看哨兵能否启动高可用。

代码语言:javascript
复制
[root@lk7 ~]# ps -ef | grep redis
root       2150      1  0 20:16 ?        00:00:01 redis-server *:6382
root       2159      1  0 20:16 ?        00:00:01 redis-server *:6383
root    3648   2380  0 20:45 pts/1    00:00:00 redis-sentinel *:26379 [sentinel]
root    3843   3302  0 20:49 pts/2    00:00:00 redis-sentinel *:26380 [sentinel]
root       3887      1  0 20:49 ?        00:00:00 redis-server *:6381
root       3918   3460  0 20:50 pts/3    00:00:00 grep --color=auto redis
[root@lk7 ~]# kill 3648
[root@lk7 ~]# ps -ef | grep redis
root       2150      1  0 20:16 ?        00:00:01 redis-server *:6382
root       2159      1  0 20:16 ?        00:00:01 redis-server *:6383
root       3887      1  0 20:49 ?        00:00:00 redis-server *:6381
root    4073   3302  0 20:53 pts/2    00:00:00 redis-sentinel *:26380 [sentinel]
root    4171   2380  0 20:55 pts/1    00:00:00 redis-sentinel *:26379 [sentinel]
root       4190   3460  0 20:55 pts/3    00:00:00 grep --color=auto redis

观察哨兵监视信息,看到如下信息:

代码语言:javascript
复制
4171:X 12 Feb 2022 20:58:27.242 * +switch-master mymaster 192.168.106.171 6382 127.0.0.1 6382
4171:X 12 Feb 2022 20:58:27.242 * +slave slave 192.168.106.171:6383 192.168.106.171 6383 @ mymaster 127.0.0.1 6382
4171:X 12 Feb 2022 20:58:27.242 * +slave slave 127.0.0.1:6381 127.0.0.1 6381 @ mymaster 127.0.0.1 6382
4171:X 12 Feb 2022 20:58:27.243 * +slave slave 127.0.0.1:6383 127.0.0.1 6383 @ mymaster 127.0.0.1 6382
4171:X 12 Feb 2022 20:58:27.243 * +slave slave 192.168.106.171:6382 192.168.106.171 6382 @ mymaster 127.0.0.1 6382

上述记录将6382端口的节点选为了主节点。

将宕机的主节点重启,启动后发现哨兵将重启的主节点转化成从节点提供主从服务。

代码语言:javascript
复制
[root@lk7 ~]# redis-server /usr/local/bin/master01.conf 
[root@lk7 ~]# ps -ef | grep redis
root       2150      1  0 20:16 ?        00:00:02 redis-server *:6382
root       2159      1  0 20:16 ?        00:00:02 redis-server *:6383
root       4073   3302  0 20:53 pts/2    00:00:02 redis-sentinel *:26380 [sentinel]
root       4171   2380  0 20:55 pts/1    00:00:02 redis-sentinel *:26379 [sentinel]
root       4428      1  0 21:00 ?        00:00:00 redis-server *:6381
root       4437   3460  0 21:00 pts/3    00:00:00 grep --color=auto redis
[root@lk7 ~]# redis-cli -p 6381
127.0.0.1:6381> info replication
# Replication
role:master
connected_slaves:0
master_failover_state:no-failover
master_replid:e36b191a8ef04ed4b0a2d0d86ec48e4997e9bfc3
master_replid2:0000000000000000000000000000000000000000
master_repl_offset:0
second_repl_offset:-1
repl_backlog_active:0
repl_backlog_size:1048576
repl_backlog_first_byte_offset:0
repl_backlog_histlen:0
127.0.0.1:6381> info replication
# Replication
role:master
connected_slaves:0
master_failover_state:no-failover
master_replid:e36b191a8ef04ed4b0a2d0d86ec48e4997e9bfc3
master_replid2:0000000000000000000000000000000000000000
master_repl_offset:0
second_repl_offset:-1
repl_backlog_active:0
repl_backlog_size:1048576
repl_backlog_first_byte_offset:0
repl_backlog_histlen:0
127.0.0.1:6381> info replication
Error: Server closed the connection
127.0.0.1:6381> info replication
# Replication
role:slave
master_host:127.0.0.1
master_port:6382
master_link_status:up
master_last_io_seconds_ago:0
master_sync_in_progress:0
slave_read_repl_offset:26334
slave_repl_offset:26334
slave_priority:100
slave_read_only:1
replica_announced:1
connected_slaves:0
master_failover_state:no-failover
master_replid:d70d2186f2a5559546c77ec55e16abeaebb80532
master_replid2:0000000000000000000000000000000000000000
master_repl_offset:26334
second_repl_offset:-1
repl_backlog_active:1
repl_backlog_size:1048576
repl_backlog_first_byte_offset:25210
repl_backlog_histlen:1125
127.0.0.1:6381> 

宕机掉一个哨兵,当两个哨兵管理主从时,一个宕机,导致另一个的选举没有过半无法生效,quorum由此也可得出:最好启动奇数个哨兵,保证每次至少有过半的哨兵选举成功。

2.5.关闭哨兵进程

关闭服务的命令如下:

代码语言:javascript
复制
redis-cli -h hostname -p port shutdown

例如:

代码语言:javascript
复制
[root@lk7 bin]# redis-cli -p 26379 shutdown
[root@lk7 bin]# redis-cli -p 26380 shutdown

3.重启哨兵

哨兵在停机后如何重新开启?

3.1.启动主从

先启动3个主从节点

代码语言:javascript
复制
redis-server master01.conf
redis-server slave01.conf
redis-server slave02.conf

3.2.检查主从关系

然后检查主从关系,分别登录每一个节点调用info replication查看。

代码语言:javascript
复制
127.0.0.1:6383> info replication
# Replication
role:slave
master_host:127.0.0.1
master_port:6382
master_link_status:down
master_last_io_seconds_ago:-1
master_sync_in_progress:0
slave_read_repl_offset:55841
slave_repl_offset:55841
master_link_down_since_seconds:22
slave_priority:100
slave_read_only:1
replica_announced:1
connected_slaves:0
master_failover_state:no-failover
master_replid:31a6a3ecb08ff59eef2ccfd54dbf852563f73af6
master_replid2:3cee5b80db5a2a3954302ad119be2b74673f7a10
master_repl_offset:55841
second_repl_offset:52892
repl_backlog_active:1
repl_backlog_size:1048576
repl_backlog_first_byte_offset:47736
repl_backlog_histlen:8106

此时主节点已经是6382端口了,将没有挂接的重新挂接主从

代码语言:javascript
复制
slaveof 192.168.106.171 6382

3.3.检查哨兵配置文件

然后查看sentinel配置文件中配置的地址和端口是否和上面看到的Info信息一致。

如果哨兵配置文件和主从结构一致则不需要修改直接启动。

不一致,需要修改为相同的信息,如下:

代码语言:javascript
复制
sentinel monitor mymaster 127.0.0.1 6382 2

如果端口和启动的主从不一致,将端口修改后,把最后的配置内容删除,如下:

代码语言:javascript
复制
# Generated by CONFIG REWRITE
user default on nopass sanitize-payload ~* &* +@all
sentinel myid 110f88ebe35298d2a07ace06d18a29468fb36ad3
sentinel config-epoch mymaster 15
sentinel leader-epoch mymaster 15
sentinel current-epoch 15
sentinel known-replica mymaster 127.0.0.1 6381
sentinel known-replica mymaster 127.0.0.1 6383
sentinel known-sentinel mymaster 192.168.106.171 26380 89ac1bb631eb8ccfc9c854478dfa9114073ec760
sentinel known-replica mymaster 192.168.106.171 6381
sentinel known-replica mymaster 192.168.106.171 6383
sentinel known-replica mymaster 192.168.106.171 6382

然后保存。

3.4.启动哨兵

启动哨兵:

代码语言:javascript
复制
redis-sentinel sentinel01.conf
redis-sentinel sentinel02.conf

3.5.状态检查

完成启动之后,主从master一直处于down状态。

代码语言:javascript
复制
[root@lk7 ~]# redis-cli -p 6383
127.0.0.1:6383> info replication
# Replication
role:slave
master_host:127.0.0.1
master_port:6383
master_link_status:down
master_last_io_seconds_ago:-1
master_sync_in_progress:0
slave_read_repl_offset:300720
slave_repl_offset:300720
master_link_down_since_seconds:-1
slave_priority:100
slave_read_only:1
replica_announced:1
connected_slaves:0
master_failover_state:no-failover
master_replid:98a5592593e5ce29a73982989eb57c1c03a9075d
master_replid2:8da7c2e0cc7626594adf7ef3a60c0aef75f46f18
master_repl_offset:300720
second_repl_offset:297918
repl_backlog_active:1
repl_backlog_size:1048576
repl_backlog_first_byte_offset:292880
repl_backlog_histlen:7841
127.0.0.1:6383> 

哨兵一直对主节点进行切换,节点都是正常启动的,但是在主从的状态中,主节点一直是down状态。

哨兵一直对主节点进行选举,但是恢复不了master结点的up状态。

读数据都没有问题,但是不能进行写操作。

请遇到过这种问题的大神给个解答,谢谢!

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2022/02/13 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Redis进阶:哨兵集群
    • 1.哨兵模式
      • 1.1.哨兵进程的工作原理
      • 1.2.选举机制
    • 2.安装哨兵集群
      • 2.1.安装主从复制
      • 2.2.哨兵配置操作步骤
      • 2.3.启动哨兵进程
      • 2.4.测试
      • 2.5.关闭哨兵进程
    • 3.重启哨兵
      • 3.1.启动主从
      • 3.2.检查主从关系
      • 3.3.检查哨兵配置文件
      • 3.4.启动哨兵
      • 3.5.状态检查
相关产品与服务
云数据库 Redis
腾讯云数据库 Redis(TencentDB for Redis)是腾讯云打造的兼容 Redis 协议的缓存和存储服务。丰富的数据结构能帮助您完成不同类型的业务场景开发。支持主从热备,提供自动容灾切换、数据备份、故障迁移、实例监控、在线扩容、数据回档等全套的数据库服务。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档