解决Redis 延迟故障

症状

前一段时间redis客户端在使用php connect 连接redis 的经常报一个redis server went away 等信息。

排查

首先想到的想到的是reids超时设置的问题,timeout、tcp-keepalive、以及php的default_socket_timeout时间

 127.0.0.1:6381> CONFIG GET *  17) "timeout"
  18) "0"
  19) "tcp-keepalive"
  20) "0"

 vim  xxx/php_path/php.ini
 default_socket_timeout = 300

注意这个socket时间不能改成0 要是0的话你会悲剧的。

测试 不解决还是ent away

php改 pconnect不解决。好吧,这个诡异的问题已经越来越严重了。

 # vmstat  1 3
 procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu------
  r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st  0  0      0 6022256 383340 10371320    0    0     0    25    0    0  0  0 100  0  0
  0  0      0 6022380 383340 10371368    0    0     0   116 6401 3463  0  0 100  0  0
  0  0      0 6022380 383340 10371368    0    0     0    16 5880 3022  0  0 100  0  0

 # iostat -x -k 1                    
 Linux 2.6.18-308.el5 (yq-bbsrqueue1)    12/24/2015

 avg-cpu:  %user   %nice %system %iowait  %steal   %idle            0.07    0.00    0.05    0.00    0.00   99.87

 Device:         rrqm/s   wrqm/s   r/s   w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await  svctm  %util
 cciss/c0d0        0.00     2.52  0.00  0.51     0.20    12.12    48.39     0.00    0.47   0.25   0.01
 cciss/c0d0p1      0.00     2.52  0.00  0.51     0.20    12.12    48.39     0.00    0.47   0.25   0.01
 cciss/c0d1        0.00    91.90  0.00  3.32     0.44   380.88   229.15     0.03    9.40   0.19   0.06
 cciss/c0d1p1      0.00    91.90  0.00  3.32     0.44   380.88   229.15     0.03    9.40   0.19   0.06

好吧检查网络 没问题…

哪还有什么能造成延迟呢? AOF 和硬盘I/O操作延迟、数据过期造成的延迟、redis看门狗的延迟

从iostat上来看aof基本不会造成这方面的延迟可以排除掉

key过期: 好吧我们看看文档

  Latency generated by expires
 Redis evict expired keys in two ways:
 One lazy way expires a key when it is requested by a command, but it is found to be already expired.
 One active way expires a few keys every 100 milliseconds.

就是说有两种方式: lazy 在key被请求的时候才检查是否过期 active 每0.1秒进行一次过期检查 好吧问问拍黄片的哥哥是否有大面积过期的key。咨询木有。

那找找看门狗吧

 127.0.0.1:6381> config get watchdog
 (empty list or set)

木有….

难道就真的没有办法了嘛 (当时没有抓包)苦恼的只能看配置 看日志找问题了

那就在重新浏览配置吧

能出问题的配置项只有: timeout tcp-keepalive tcp-backlog maxclients

查看一下当前的连接数 :

 # redis-stat host 10.xx.xxx.xxx port 6381                        
 ------- data ------ --------------------- load -------------------- - child -
 keys       mem      clients blocked requests            connections          
 4325509    2.00G    25      0       526898898 (+526898898) 100841471   
 4325510    2.00G    14      0       526899989 (+1091)   100841670   
 4325511    2.00G    20      0       526901583 (+1594)   100841933   
 4325509    2.00G    16      0       526903336 (+1753)   100842128   
 4325511    2.00G    9       0       526904748 (+1412)   100842328

出问题的timeout tcp-keepalive 。 哪还有什么地址配置的呢? sysctl 那查看一下 tcp方面的配置 主要是时间和队列长度的

net.ipv4.tcp_fin_timeout = 30net.ipv4.tcp_keepalive_time = 150net.ipv4.tcp_max_tw_buckets = 20000

那只能改一下这俩个试试了

解决方案

测试解决

最后改成 net.ipv4.tcp_fin_timeout = 60 最后这个问题应该是应用层和内核层 连接时间不匹配导致的。 内核层超时断开了,应用层以为还能用,请求就过不去,只能再重新走一遍,就会间接性延迟。

可惜当时没有抓包。

http://www.redis.io/topics/latency 官方文档

原文发布于微信公众号 - 马哥Linux运维(magedu-Linux)

原文发表时间:2016-02-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏FreeBuf

初探伪装在Office宏里的反弹Shell

通常的钓鱼邮件场景中office的安全问题一直都受到关注,恶意宏文档制作简单,兼容性强,并且攻击成本较小,所以整体占比较大。但是使用恶意宏进行攻击,往往需要用户...

13520
来自专栏沈唁志

在Ubuntu 16.04上安装Roundcube

Roundcube是一个基于网络的IMAP电子邮件客户端,提供类似于谷歌Gmail的用户界面。它是用PHP编写的服务器端应用程序,旨在访问电子邮件服务器或服务。...

62710
来自专栏木头编程 - moTzxx

ThinkPHP5.1 配置Nginx/Apache下的 URL重写

49120
来自专栏.Net移动开发

关于发布IOS的方法(本人亲身经历折腾很久终于成功)

前情提要:这位.NET程序员兄弟使用Smobiler开发了一个APP,尽管Smobiler云平台已经最大限度的简化了iOS应用的打包操作,但仍绕不开苹果公司强制...

16910
来自专栏Python专栏

用python来更改小伙伴的windows开机密码,不给10块不给开机

28760
来自专栏Java架构沉思录

Linux常用Shell脚本知多少

在运维中,尤其是linux运维,都知道脚本的重要性,脚本会让我们的 运维事半功倍,所以学会写脚本是我们每个linux运维必须学会的一门功课,这里收藏linux运...

16010
来自专栏前端萌媛的成长之路

一波webpack

20040
来自专栏互扯程序

Linux常用Shell脚本,值得学习及收藏

在运维中,尤其是linux运维,都知道脚本的重要性,脚本会让我们的 运维事半功倍,所以学会写脚本是我们每个linux运维必须学会的一门功课,这里收藏linux运...

25510
来自专栏FreeBuf

利用PowerShell Empire实现Word文档DDE攻击控制

? 近期,有安全人员发现了一种DynamicData Exchange (DDE)协议绕过MSWord和MSExcel宏限制,不需使用MSWord和MSExc...

27480
来自专栏张戈的专栏

WordPress前端html代码压缩优化,附对应知更鸟主题压缩报错的解决方案

今天,逛松果博客的时候,看到了他分享的《wordpress 通过代码压缩网页》一文,让我想起了其实张戈博客之前也用过这个功能,当时是在 WP 迷博客看到的纯代码...

39160

扫码关注云+社区

领取腾讯云代金券