首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

HBase案例 | 20000个分区导致HBase集群宕机事故处理

这是几个月前遇到的一次HBase集群宕机事件,今天重新整理下事故分析报告。...事故现场 项目上大数据平台拥有一个10个节点的HBase集群,主要业务表有十几张,每张表创建的时候做了包含10个region的预分区,并使这些分区均匀分布在了不同regionserver上。...宕机日志 集群宕机后第一时间做了日志检查,希望通过日志分析定位到问题再做处理。...集群regionserver写hdfs发生了异常,最终导致了这次宕机。...宕机处理 检查HBase参数配置,并参考宕机时的报错信息,参数上做了一些调整,如下 1、dfs.datanode.max.transfer.threads datanode传输数据的最大线程数,之前的名称是

2.1K10
您找到你想要的搜索结果了吗?
是的
没有找到

谷歌、AWS宕机事故频发,热闹看完该学会什么?

谷歌这一个事故就用掉了超过 80% 的故障预算,而亚马逊则远远超标了。...这是亚马逊公司文化的一部分,每次故障之后,他们都能够非常好地对事故做总结。 ? 根据我对云计算和事故处理的一些经验,给大家简单分析一下亚马逊的事故报告。...整个过程跟我 2017 年在 AWS 经历过的事故有点相似,后续会再展开详细讲一下。 然后我们归纳一些共同的点。...故障分享 下面我简单讲一下我在亚马逊 AWS 工作时经历过的一个可靠性事故。...它首先有的是一个生产维度的数据监控,数据监控就是在生产数据库里面直接拿出来,如果数据跌停了,那肯定是非常大的问题,所以从业务到产品都觉得数据非常关键,一开始认为这个维度非常重要,但是它有一些问题。

30620

B站宕机事故复盘:2021.07.13 我们是这样崩的

优化改进 此事故不管是技术侧还是管理侧都有很多优化改进。此处我们只列举当时制定的技术侧核心优化改进方向。 1....故障演练 本次事故中,业务多活流量调度、新建源站速度、CDN 切量速度 & 回源超时机制均不符合预期。...应急响应 B 站一直没有 NOC/ 技术支持团队,在出现紧急事故时,故障响应、故障通报、故障协同都是由负责故障处理的 SRE 同学来承担。如果是普通事故还好,如果是重大事故,信息同步根本来不及。...总     结 此次事故发生时,B 站挂了迅速登上全网热搜,作为技术人员,身上的压力可想而知。事故已经发生,我们能做的就是深刻反思,吸取教训,总结经验,砥砺前行。...此篇作为“713 事故”系列之第一篇,向大家简要介绍了故障产生的诱因、根因、处理过程、优化改进。后续文章会详细介绍“713 事故”后我们是如何执行优化落地的,敬请期待。

2K20

透过谷歌宕机事故看存储运维三大重要趋势!

近日,谷歌又出现大面积瘫痪事件,导致全球范围内多款Google服务崩溃,这已经是谷歌近半年第三次出现大规模宕机事件,堪称上演宕机“帽子戏法”。 ? 回顾此次宕机事件,谷歌在出现宕机之后的反应倒是挺快。...再来看看此次宕机事件的“元凶”--“internal storage quota issue”,谷歌后续的一份初步调查报告中称:此次宕机的原因是“我们的自动配额管理系统出现了问题,降低了谷歌中央身份管理系统的容量...难道之前大部分媒体报道的“磁盘写满”宕机原因都是错的?亦或是“磁盘写满”是表象,“自动配额管理”才是诱因?...带着好奇心,大数据在线小编找到了资深存储专家李工,请他详细分析了此次谷歌宕机事件背后的大瓜。 ? 请教完大神之后,小编对数据中心当前运维情况进行了一番调研。...假设客户能够提前预知阵列或存储池,甚至是更细粒度对象的容量变化趋势,那么容量配额不足导致服务宕机的发生可能性则会大大降低。

41710

日活上百万时,腾讯产品如何提前规避服务器宕机风险?

众所周知,优异的应用性能是良好用户体验的坚实基础,而服务器响应缓慢、卡顿、崩溃的产品,即便设计再精美也无法留住用户的心。...2017年2月28日,百度就和用户们开了一个不大不小的玩笑,从当天的20点54分到21点24分左右,百度搜索整整宕机了30分钟,众多网友戏言那30分钟成为了百度最有存在感的30分钟,但是从后来百度的公关文章中...某国外知名游戏在上线之初冲击到iOS免费榜第二名的时候,因为没有做好应对大量玩家涌入的准备,服务器卡死、宕机,闪退让玩家失望选择离开,下载排名一度下降到475,通过两个月的服务器优化才挽回局面。...这样的例子有很多,随着重度游戏,重度产品越来越多,产品越来越重视服务器性能的优化。本文将结合腾讯WeTest团队为腾讯游戏及产品进行服务器压测的经验,分享一些方法和思路。...以上内容也是根据腾讯产品无数次的压测总结下来的一些经验,腾讯WeTest团队也希望通过“压测大师“这类产品,不断简化服务器压测的过程,提升压测人员的工作效率。

1.6K00

日活上百万时,腾讯产品如何提前规避服务器宕机风险?

众所周知,优异的应用性能是良好用户体验的坚实基础,而服务器响应缓慢、卡顿、崩溃的产品,即便设计再精美也无法留住用户的心。...无独有偶,今日头条也在今年的1月出现了宕机现象,系统超过30分钟未响应,头条号的编辑后台也无法进入,这些现象,均给用户带来了很大的困扰,而且用户体量越大,影响的波及面就越广,不仅影响用户口碑,也影响产品收入...某国外知名游戏在上线之初冲击到iOS免费榜第二名的时候,因为没有做好应对大量玩家涌入的准备,服务器卡死、宕机,闪退让玩家失望选择离开,下载排名一度下降到475,通过两个月的服务器优化才挽回局面。...这样的例子有很多,随着重度游戏,重度产品越来越多,产品越来越重视服务器性能的优化。本文将结合腾讯WeTest团队为腾讯游戏及产品进行服务器压测的经验,分享一些方法和思路。...以上内容也是根据腾讯产品无数次的压测总结下来的一些经验,腾讯WeTest团队也希望通过“压测大师“这类产品,不断简化服务器压测的过程,提升压测人员的工作效率。

78720

企业如何防止服务器宕机

服务器作为数据和网站的载体,其安全性和稳定性非常重要,但如今很多企业的服务器经常出现死机(即宕机)的状况,给企业业务带来很大影响。 为什么服务器宕机? 1....服务器内存耗尽 服务器服务每个请求都需要消耗内存,请求越多内存消耗量越大。一旦网站数据超出服务器空间限制,或者用户访问量过大,造成资源耗尽,都会导致服务器宕机。 2....服务器机房环境所致 客观原因,如机房断电、机房温度过高,都可能导致服务器宕机。 3....遭到DDoS攻击 服务器遭到恶意DDoS攻击,攻击者利用DDoS对你的服务器短时间内发起大量请求,使服务器空间消耗殆尽,造成服务器宕机。...一旦出现宕机,及时联系服务器商解决问题; 4. 接入高防服务。如果服务器遭到DDoS攻击,那么仅靠日常防护显然是不够的,即便换备用服务器,同样会遭受攻击。

3.9K40

使产品发生运营事故的概率大幅的降低 ?

2017.3.31, 深圳, Ken Fang 我们是否有轻量级、可视化的工程实践、工具、架构模式, 可使产品发生运营事故的概率能大幅的降低?...@ 真正了解产品架构能力的极限:经由产品级敏捷的 “运营环境板”, 设计出在运营环境下的 “产品集成测试用例”。而经由各种不同的产品集成测试用例的组合, 形成产品的 “探索性测试的测试场景”。...由执行产品探索性测试的各个的测试场景, 便可总结出产品的架构能力的极限。...@ 设计可自动保护, 可自动回复产品的 Circuit Breaker: 由产品架构能力的极限, 设计 Circuit Breaker 自动保护、自动回复的场景(参数)。...@ 当然, 最最最重要的是:团队成员是否有 “产品质量” 的意识、素养与文化。 我们真的已经找到了工程实践、工具、架构模式, 而可大幅的降低产品发生运营事故的概率。 欢迎你来试试。 ? ?

43560

网易游戏全线产品崩溃原因:温度过高部分服务器过热宕机,干冰降温解决

2021年11月3日晚,网易游戏众多产品崩了。《#网易游戏崩了#、全线产品受影响:包括阴阳师、第五人格、绝对演绎、光遇手游、倩女幽魂等》。...网易游戏旗下产品@永劫无间 当日晚间发微博称:20点20分前后,官网版不能登录,Steam正常,正在游戏中的玩家也没有收到影响,咄咄怪事。马上机房传来报警,温度过高。部分服务器过热宕机。...空调重新开机也没有解决问题,涉及到的游戏太多了也无处借服务器,无路可走,怎么办! 这时候有个技术大哥,估计小时候积累了丰富的偷玩游戏的经验,不知道从哪里变出了干冰,放在服务器上。...咱因为之前测试积累了丰富的炸服经验,战斗服务器和登录是分开的,Steam的登录和官网也是分开的,已经登录的玩家和Steam都不受影响,姑且苟住了。 网易服务器,比贴符更有用的,是干冰。

1K20

Linux 入门到宕机 4 - 服务器连接

前言 经过前面的铺垫,相信你对服务器应该有了一定的了解。现在我们可以尝试登陆服务器,一起来探索新世界吧。 准备 这里只介绍 Win 环境的电脑如何登陆(因为手里没有 Mac 设备)。...下载 Xshell 软件,这是 SSH 连接工具,也就是服务器远程连接的软件 下载地址 创建连接 打开 Xshell 软件 点击文件 点击新建 在连接中填写服务器名称、协议(默认就是 SSH)、主机(...最后选中自己的服务器点击连接。 第一条命令 服务器操作全部依靠键盘,所以刚开始会觉得很奇怪。接下来我们输入第一行代码,这是最简单的程序。 # 输入完了回车 echo Hello World!...# 来一场,真男人-俄罗斯方块 # 下载脚本 wget http://zxx.sh/file/bash/game.sh # 运行脚本 bash game.sh 总结 本篇文章介绍了如何连接服务器,并成功执行了脚本...接下来我会介绍服务器常用命令,类似 win 上的编辑文件,创建文件夹,删除文件夹等操作。

1.6K30

Linux 入门到宕机 2 - 购买服务器

购买服务器 2020 年 10 月 21 日・Linux 专栏 前言 如果你第一次学习使用,请不要急着买服务器,因为买回来大概率要吃灰。你可以在看完学习完一些教程以后再选择一款便宜的服务器上手。...服务器选购的坑非常多,如果你啥都不懂就去百度搜索《适合小白的服务器》一定是一堆高佣金的 Aff 在等着你。所以购买服务器之前,你务必先了解一下服务器的配置。...服务器配置 服务器的配置包括要选择地区、CPU、内存、硬盘、宽带、流量、系统这些配置,我们一个一个展开说。 地区 地区选择需要注意两个点:域名备案、延迟。...如果你的服务器在美国那么理论上一条消息最快也要 100 多毫秒才能到达,这是物理层面的限制无法突破。所以如果想降低服务器的访问延迟就可以选择离自己近一点的地区。...流量是购买服务器最贵的一个环节,所以按你自己的需求购买,够用就行。 系统 服务器可以安装 Linux 系统,也可以安装 windows 系统。这要看你具体需求是什么,要拿服务器做什么用。

2.5K20

服务器宕机,Redis如何恢复数据?

前言 Redis作为内存型的数据库,虽然很快,依然有着很大的隐患,一旦服务器宕机重启,内存中数据还会存在吗? 很容易想到的一个方案是从后台数据恢复这些数据,如果数据量很小,这倒是一个可行的方案。...但是AOF日志也有潜在的风险,分析如下: 由于是写后日志,如果在命令执行成功之后,在日志未写入磁盘之前服务器突然宕机,那重启恢复数据的时候,这部分的数据肯定在日志文件中不存在了,那么将会丢失。...快照只是记录某一时刻的数据,一旦时间隔离很久,则服务器一旦宕机,则会丢失那段时间的数据。...比如在T1时间做了一次快照,在T1+t时又做了一次快照,如果在t这个时间段内服务器突然宕机了,则快照中只保存了T1时刻的快照,在t时间段内的数据修改未被记录(丢失)。...由于两次快照之间是存在间隔的,一旦服务器宕机,则会丢失两次间隔时刻的数据,Redis4.0开始使用AOF日志记录两次快照之间执行的命令(AOF和RDB混合使用)。

28220

TiDB 集群服务器宕机怎么办?

TiDB集群某台服务器宕机怎么办? 今天在线上遇到了一个TiDB服务器宕机的问题。这里总结下。...01 场景描述 TiDB集群中,某一台服务器宕机,这台服务器上部署的集群组件有PD、TiKV、TiDB。 宕机之后,服务器SSH不通了,其他机器无法登陆上去。...02 服务器宕机处理方法 正确的姿势是应该先使用scale-in来缩容这个TiDB节点。 你可能会说服务器宕机了,SSH肯定不通了,缩容不会报错吗?...正确的处理方法如下: 这种情况下,需要借助scale-in操作里面的--force参数来将这个节点强制下线,因为节点宕机之后已经无法修复了。...针对这个服务器,分别执行完TiKV、TiDB、PD的scale-in操作之后,可以发现再次使用display命令查看,标志Down 状态的节点就彻底下掉了。

2.5K10

服务器宕机了,怎么办?

还有些或是猎奇,或是谋私的个人和组织,在制造着千奇百怪,匪夷所思的数据包及操作流程来试探你的服务器。这些都曾是我在服务器宕机后向老板开脱的理由。...当WOW终于来到中国时,我一边欣喜着终于可以在艾泽拉斯的大陆上自由翱翔,一边却咒骂着9C的破服务器,动不动就宕机。...服务器宕机后都发生了些什么? 显然的,宕机后玩家会骂,就像我在玩WOW时那样,骂游戏公司,骂老板,骂GM。非常抱歉,我们可爱的玩家们似乎并不清楚,这个时候最该骂的其实是我们这些程序员们。...一个最简单也最有效的做法是为每一台服务器都配备物理冗余,同步更新冗余服务器上的状态,当宕机发生时,立即将处理切换到后备服务器上。...其实我们想要的只是尽可能的让服务器进程不要宕机,如果实在是没有办法,就尽可能的让宕机后的玩家损失比较小,不需要我们做大量的工作去做善后处理。 很简单的需求,似乎我们纠缠的有些过头了。

3.6K10

Java服务器宕机解决方法论

1.1 定义 向服务器的请求都没有响应或者响应非常缓慢 前端界面的崩溃并非宕机 1.2 分类 进程闪退 内部崩溃 外部终止 线程锁死或者无限等待 内存溢出 下面分别进行详解 2 进程闪退 2.1...,这时如果Tomcat需要大于12G的内存就很容易发生该错误,直接宕机!...解决方案 减少Xmx值使得所有的综合不超过服务器物理内存 调整 Xms=Xmx 服务器不要运行其他不必要的东西 配置一部分swap空间(虚拟内存) 2.2 外部终止 如果找不到"hs_err_pid"开头的文件那么...2.2.2 SSH注销 检查/var/log/auth.log,/var/log/secure或者对应日期的文件,检查宕机的时间点有没有 ? 时间吻合,那么宕机原因即可确认。...Z公司找到了公司A(200人)来这里 就占用了200个工位 (类比报表一次查询) 公司A是一个大的对象,每个人就是 类比最小的单元格,每个小团队也是一个对象,个人被小团队引用,小团队又被更上级的比如产品

2K42

服务器宕机了,Kafka 消息会丢失吗?

这里所说的某些情况,从严重程度依次为:Kafka 宕机服务器宕机、机房地震、城市毁灭、地球毁灭。不要觉得树哥在危言耸听,如果你的服务器部署在乌克兰的首都,那是不是就会遭遇城市毁灭的风险了?...如果你的应用是金融类型或者国民级别的应用,那么你需要考虑机房地震以上级别的可靠性级别,否则一般考虑到服务器宕机这个维度就可以了。...我想大多数同学的应用可靠性,可能都只需要考虑到服务器宕机级别,因此后续的考虑也仅限于这个级别。...在这种情况下,如果 Leader 分片所在服务器发生宕机,那么这些已经发送的数据会丢失。...如果服务器宕机了,即使我们设置了每来一条消息就写入一次磁盘,那么也有可能在写入 PageCache 后、写入磁盘前这个关键点,服务器发生宕机

2.1K31

Linux 入门到宕机 3 - 服务器面板使用

前言 如果你看完了上一篇文章,你可能要开始买服务器了。然鹅看完之前的教程,你根本连服务器都不会连接。所以我们在服务商买完服务器,首先要做的事情一般就是登录服务器面板。...对服务器进行一些初始化操作才能连接服务器。 初始化操作 这里以 Ucloud 为例,假设我们购买了他们的服务器。...接下来我们需要先重置服务器密码,再重启服务器。 ---- 这里我们就可以拿着 IP 密码登录服务器了。如果没有特殊说明的话,服务器的登录账户都是 root。服务器默认的登录端口是 22。...因为我们服务器是在公网使用的,所以也就是所有人都可以访问到我们的服务器,包括黑客和攻击者。所以我们必须保证服务器的安全,设置一些防火墙。...服务器崩溃、被人入侵种木马、系统无法开机等等问题。我们都可以通过使用服务器面板的重装系统功能进行服务器的系统还原。对应的就是我们 windows 的重装电脑,同时会把服务器上所有东西都删掉。

1.5K20

产品迭代过程中的问题或事故复盘分析方法

产品的迭代和更新中,会遇到各种各样的问题或事故,为了避免同样的问题和事故再次发生,对相关的问题或事故进行及时复盘分析,总结经验,防止再次发生。...通过这样的分析思路可以找到问题深层次的根本原因和事故的漏洞。并制定相应的解决方案防止问题或事故再次发生。...; how:描述事故是怎么解决的; How much:描述事故造成了多少收入、用户损失(可量化的范围); 第二步:提问(为什么—为什么分析):为什么这个问题会发生?...识别并确认导致当前问题或事故的直接原因。如果原因是可见的,验证它。如果原因不可见,考虑潜在原因并核实最可能的原因。依据事实确认直接原因可以问: 这个问题或事故为什么发生?...我能看见问题或事故的直接原因吗? 如果不能,还有什么潜在原因? 怎么核实可能的潜在原因? 怎么确认是否是直接原因? 检验回答的原因是否是导致事故的根本原因,如果不是重复上一步骤。

67830
领券