首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Regionserver频繁挂掉故障处理实践

导语: 近期腾讯云的一家大客户频繁出现HBase regionserver 挂掉,影响业务正常使用。通过调整堆栈大小、gc优化、超时时间等都无法解决该问题。...但是,regionserver 还是出现了挂掉的情况,只是比之前有改善。因此通过优化堆栈以及gc,并不能完全解决该问题。...三、分析故障原因 既然通过优化hbase本身无法解决regionserver频繁挂掉的原因,那就必须将分析扩大到hbase相关的进程。与hbase密切相关的是zookeeper。...总结原因: (1)gc时间过长,超过40秒的maxSessionTimeout时间,使得zk认为regionserver已经挂掉dead; (2)zk返回dead region到master,master...经过调整zk的tickTime为6秒,相应的zookeeper.session.timeout为120秒,最终解决regionserver 频繁挂掉的故障。

7.2K71
您找到你想要的搜索结果了吗?
是的
没有找到

KafkaController分析8-broker挂掉Kafka源码分析-汇总

在实际应用中broker可能因为机器,硬件,网络,进程自身等原因挂掉; 本章我们来看下一个broker挂掉后整个kafka集群会发生什么事情。...---- 挂掉的broker不是集群的Controller 在Kafka集群建立过程分析和KafkaController分析6-Replica状态机我们讲过,KafkaController组件中的ReplicaStateMachine...返回了当前的broker列表信息; val deadBrokerIds = controllerContext.liveOrShuttingDownBrokerIds -- curBrokerIds获取到当前挂掉的...更新KafkaControllerContext.liveBrokers; 回调KafkaController.onBrokerFailure(deadBrokerIds.toSeq); Broker挂掉的逻辑处理...KafkacontrollerContext.partitionLeadershipInfo(这里面保存着当前所有topic的各个partition的leader相关信息),筛选出所有leader为当前挂掉

66110
领券