专栏首页坚毅的PHPHBase 异步查询导致的死锁和zookeeper通信中断问题追踪与总结[非技术]

HBase 异步查询导致的死锁和zookeeper通信中断问题追踪与总结[非技术]

机房T和机房Y共十台前端机,Y机房请求量是T的两倍,主要用于数据查询,开始问题是Y机房tomcat 相继僵死

1) tomcat僵死处理步骤

a 检查代码,发现read through后,没有把DB数据写到缓存,增加回写代码;但单台机器每秒请求也就几十条,HBase压力很小,最终发现无效。

b 检查代码,认为跟运行几个月的动态代码在HBase使用上完全一致,所以认为业务代码层没有问题;打印堆栈信息,认为是HBase client端发现资源等待死锁的问题

c 下载0.94.2 patch,分析认为其解决了死锁问题,更新jar包部署。

第二周发现tomcat 日志疯狂报Interrupted错误,进程没有僵死,但有大量查询超时,达100秒,firelog每3分钟单台5000+慢查询

2) 超时处理步骤

a 认为0.94.2没有能解决问题,只是避免了死锁,但会导致Interrupted异常;使用liwei打的0.94.2的patch包上线,发现启动失败,未果(jar包中缺少版本信息,无法启动)

b 比较两个机房差异,认为Y机房网络有问题,ping HBase资源测试没有发现问题,晚上停掉T机房3台服务器,负载全在剩余两台上,达到请求量的平衡;当天晚即发现T机房也出现异常及大量超时;网络问题排除

c 第二天由于产品压力,召集开发和DBA封闭解决问题。启动tcpcopy环境做测试,尽快重现问题。计划了四个方案 

  1. 0.94.0 打patch上线

  2. tcpcopy测试0.94.2 Interrupt问题

  3.线程池去掉timeout,即不使用异步;使用后台线程2分钟检查一次HBase client的zookeeper watcher,看能否得到数据,出现问题则重新设置zookeeper;设置retry number为3次,避免重试10次,每次时间加倍导致超长查询

  4.升级zookeeper jar版本

   尝试到第三个版本终于正常,10点上线,十一点无状况,部门人员观察到2点,没有问题,第二天的数据统计99.92%请求200ms以下。通过规避异步timeout任务,不和HBase的默认异步调用发生冲突,从而解决了问题,需要从根本上做研究,彻底了解清楚原理。

总结一下,在四个方面处理有问题,需要改进

1. 网络问题  没有及早做不同机房的流量压力测试,tcpcopy测试

2. 代码逻辑问题;因为动态运行了几个月没问题,新代码跟旧代码读取部分没有差异,因此错误排除了自身问题,将问题归结于HBase client 代码。

3. 问题评估:没有评估出问题严重性,超时比率,导致最终服务恶化。

4. 人力投入问题:应早投入人力分析处理,而不是出现完全无法支撑,高层都投诉的情况下才召集处理。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 简单可行的code review规则

    曾经有一段垃圾代码放在我的面前,我没有拒绝,等我真正开始接手的时候我才后悔莫及,程序员最痛苦的事莫过于此!

    财主刀刀
  • mysql 高并发更新计数问题

    问题:功能为链接的点击计数,其他两个计数更新 还有两个内容表的插入,只插入链接对应的id,分4个库,共128个表,mysql每天有5000万次插入和5000万次...

    财主刀刀
  • list comprehensions

    2011-10-07 列表解析 python很优雅的东西,今天从cookbook稍微深的理解下它,举例: >>> multi = [[0] * 5] * 3 ...

    财主刀刀
  • C++、Python、Rust、Scala 构建编译器的差异性究竟有多大?

    我在滑铁卢大学的最后一个学期选了CS444:编译原理这门课程,课程项目是编写一个编译器,将Java语言的子集编译成x86代码,三人结组,语言自由选择。

    Python猫
  • 什么样的代码叫好代码?

    代码的本质还要在机器上运行,好的代码不单单的纯粹的简单的几个字符的问题,好的代码不仅仅是排版上或者语法上好看,还要能经过产品的测试验证,这是评判代码好坏的最准确...

    程序员互动联盟
  • 跃迁:从技术到管理的硅谷路径

    2.“你不能每次都给答案,你应该试着用引导的方式让对方学会自己找答案” 3.从给答案到做引导:

    硬核项目经理
  • 编程与写作

    王小波广为人知的身份是作家,而他在写小说之前是一个相当优秀的程序员。他应该是程序员中最会写作,作家中最懂编程的人。

    章鱼喵
  • Java静态代码块执行方法和顺序

    休辞醉倒
  • 优秀程序员的 18 大法则

    优秀程序员的 18 大法则 经过多年的积累,我发现,下面这些基本的指导法则,可以帮助我成为一个更加高效的程序员。 程序设计法则,与设计和工程的原理密切相关。下面...

    用户1289394
  • 感悟1

    转眼间已经毕业3年了,从13年工作算起也算是工作5年多了,期间做过android、 flex 、c#、前端偏js、Java、半运维。最终还是选择了曾经最讨厌的J...

    日薪月亿

扫码关注云+社区

领取腾讯云代金券