首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

实践真知:一则内存导致的集群故障

故障概述 某天晚上,我方收到行方请求协助分析某数据库两节点RAC数据库问题,问题描述如下: 该 数据库版本为11.2.0.3,该版本中ASM内存管理机制有所变化,导致ASM实例对共享内存的需求加大,由于该数据库...ASM实例共享内存设置过小,导致ASM实例间歇性出现ORA-4031共享池无法分配连续内存空间。...故障分析 从节点2 alert_+ASM2.log日志中看到,12月7日 18:01:50在节点2修改ASM实例内存参数,并于18:04:33重启节点2 ASM实例。...故障总结 由于本次ASM内存参数调整,首先更改并重启节点2集群,在此过程中节点1 ASM实例遭遇严重的ORA-4031错误,导致CRSD进程异常,从而引发节点1集群状态异常。...在Oracle 11.2.0.3/11.2.0.4中如果ASM实例使用的内存小于1536M,将可能导致ASM内存实例遭遇ORA-4031问题,Oracle官方推荐的ASM实例内存参数配置如下: ?

95850

服务器内存故障预测居然可以这样做!

​ 作者:vivo 互联网服务器团队- Hao Chan随着互联网业务的快速发展,基础设施的可用性也越来越受到业界的关注。内存发生故障故障率高、频次多、影响大,这些对于上层业务而言都是不能接受的。...然而硬件故障一直以来都是一种普遍存在的现象,由于硬件故障而造成的损失往往是巨大的。在服务器各个部件中,除硬盘故障以外,内存故障是第二大常见的硬件故障类型。...并且服务器内存的数量众多,vivo的内存数量达到40w+条,内存故障造成的最严重的后果是会直接导致系统崩溃,服务器宕机,这些对于上层业务而言都是不能接受的。...EDAC在vivo服务器全量上线过程以来,累计提前发现450+ case的内存CE问题,服务器的宕机数量明显减少。...对满足报修标准服务器业务进行迁移,并更换相应的内存条,避免服务器突然宕机导致业务的不稳定,甚至因此造成的损失。

17.5K20
您找到你想要的搜索结果了吗?
是的
没有找到

故障没有根,别再找了

在《故障复盘的简洁框架-黄金三问》这篇文章里,我把故障原因分为了两类:触发原因和深层原因。 这里我并没有提到根或根本原因,理由就是我们原本所认为的根可能往往不止一个,可能会有多个。...我举个比较容易理解的例子: 比如我们有一台服务器宕机了,上面跑的的MySQL服务也挂了,影响了上层业务访问,花了30分钟才解决,被定性为故障。 那这个故障的根是什么呢?...有的人可能会说是服务器宕机引起的,服务器问题是根。 有人会说上层数据库没做高可用,数据库问题是根。 也有人会说业务层面没做功能降级,到时业务不可用,业务架构问题是根。...(这个点后面单独写篇文章分享) 但是如果我们换个角度,不把根唯一化,而是系统化的看根,我把它们叫做深层原因,同时把找原因的目标放到改进上去,就完全不一样了。...深层原因3:MySQL的主从切换不生效,是因为不同品牌的服务器有特殊配置导致,这个要定期做切换演练,同时每新增一个品牌服务器,要做适配性验证。

52930

QAPM新内存分析专家,帮你分析内存问题根

背景 QAPM原有Hprof分析是基于开源项目LeakCanary的shark Andoroid Extension,这里仅有针对安卓内存泄露部分,同时包含了一个极其简陋的内存触顶分析模块,只能根据一定规则获取极少的信息...原生方案的缺陷 原生的内存触顶方案的最致命缺陷在于:能够为技术人员提供的信息太少了,老版本的内存触顶所给出的个例中仅有简单的问题条目以及次数罗列,没有更多的信息出现。...初期的测试中,我们都是使用的较为简单的hprof文件,在新索引体系下没有任何内存与时间消耗问题,但在对真实业务hprof分析时发现了高内存占用与高时间消耗。...建立索引后高内存占用问题,我们做了与内存相关的性能分析,最终确认了是错误的代理体系设计导致了对象的增多,GC压力也随之增加。...新内存分析 vs.

1.4K41

内存占用过高,缓存不释放导致死机处理方案

故障现象: 1、某分行部署的某台服务器内存占用过高,导致死机; 2、代码层面检查暂未发现问题,服务器硬重启持续一段时间后(3-5天)再次占满。...当时是一切正常的,今有DB2进程占用18%,在正常范围内; 在crontab 中发现有两个脚本每天14点进行FTP批量数据传输,找到相应的传输文件存放目录发现每天传输的文件达到30多个G,由此可判断这就是故障之根本...,FTP传输文件,会缓存到内存中,服务器内存也只有32G,FTP传输导致缓存被占满,Linux不能自动清理缓存导致死机。...Linux内存中缓存占用的空间是可以自动释放的,现在缓存占用了整个内存导致死机,肯定是没有自动释放缓存。 解决方法: 设定Linux内存参数,始终留出一块空间,以避免缓存不释放导致死机。...方案一: 可手动清理页文件缓存,但是需手动执行; echo 1 > /pron/sys/vm/drop_caches 方案二: 我们采用的方法是设定内存最低剩余内存,不让缓存占满 1.使用root

3.9K30

Kubernetes限制内存配置引发的错误

今天对一个pod进行内存资源调整后, 一直卡在ContainerCreating的状态, 执行describe命令查看该 Pod 详细信息后发现如下 。...2.另一种情况是 pod 内的进程给自己设置了可用内存, 比如 jvm 内存限制设置为2G, pod Limit 设置为6G, 此时由于程序的原因导致内存使用超过2G 时, 也会引发 oom kill。...这两种内存溢出的 kill 区别是第一种原因直接显示在 pod 的 Event 里; 第二种你在 Event 里找不到, 在宿主机的 dmesg 里面可以找到 invoked oom-killer 的日志...这里显示内存 Limit 为300m, 实际上是因为在创建资源时, 写的是 300m,资源单位为(CPU-单位m、内存-单位Mi) 理论上来说, 按照之前的经验, 此种情况(实际使用内存超过 Limit...内存的情况)应该属于第一种, 会在 Event 里显示的由于 OOMkilled 原因导致 Terminated 状态.

17.8K30

服务器故障邮件报警

说到服务器硬件监测,用得最多的自然是Zabbix和prometheus,可是对于一般用户来说,部署要求比较高,而且也没有必要。...只是监测服务器硬件故障,并且发生问题的时候,以邮件形式告警,那么服务器自带的功能就足以。 比如戴尔服务器的idrac,配置硬件故障的邮件告警就非常简单。...如上图所示,首先填写邮件发送服务器的地址,其次就是填写发件人邮件地址,然后就是SMTP端口号,采用SSL协议的话,端口号就填写465;最后填写用户名和密码,就是发件人的邮件账号和密码。...收件人邮件地址,当然也需要填写,不然故障报给谁呢?然后可以“发送”测试邮件,一般都是秒收,如果没收到,就检查SMTP配置。...我比较关注系统运行状况和存储,尤其是存储,重要的数据都在硬盘里面呢,其他硬件故障,相对来说,没那么重要,电源坏了,可以换,内存坏个一两条,也无伤大雅。硬盘要是坏了,那就损失大了。

19330

故障分析| Redis 故障诊断及常用运维命令—内存

作者:任仲禹 爱可生 DBA 团队成员,擅长故障分析和性能优化,文章相关技术问题,欢迎大家一起讨论。...⼀种是 Redis 使用内存超出 OS 物理内存,OS 将 Redis 进程杀死。 另⼀种是 Redis 使用内存超过 maxmemory 参数配置,引发 Redis Server 层 OOM。...OOM 是 Redis 最常见的内存故障,它影响很大: 故障发生时,进程并不会退出,能读但无法写入。...检查内存使用情况,发生 OOM 状态时 used_memory ⼀定会大于 maxmemory。 ? 检查数据对象内存和其它内存使用情况如下图: ?...很好理解,根据上面测试可知数据达到⼀定规模后,需消耗额外的元数据、缓存内存,Redis 最终将超过 maxmemory 而 OOM。 是否客户端输入缓冲区有问题?

1.1K20

MySQL内存溢出问题:故障排除指南

在本文中,我将向您展示如何使用新版本的MySQL(5.7+),以及如何更容易地解决 MySQL内存分配中出现的问题。 故障排除从来都不是一项有趣的任务,尤其是像这种MySQL因为内存不足而崩溃的故障。...有了新版本的MySQL(5.7+)和performance_schema,一切都不同了,我们可以更轻松地对MySQL内存分配进行故障排除。 在本文中,我将向您展示如何使用它。...服务器上运行有其他进程在分配RAM。例如:它可以是某种应用程序(Java、Python、PHP)、web服务器,甚至是备份(即mysqldump)等。当问题的根源被确定后,就可以直接修复了。...MySQL中的内存泄漏。这是最坏的情况,我们才需要进行故障排除。...从哪里开始对MySQL内存泄漏进行故障排除 下面是我们可以从下面步骤开始((假设它是一个Linux服务器)): 第1部分:Linux操作系统和配置检查 1.

5.8K20

美国多个机场网络攻击发生故障,和俄罗斯有关?

Bleeping Computer 网站披露,亲俄黑客组织 “KillNet ”声称对美国几个主要机场网站进行了分布式拒绝服务(DDoS)攻击,海量垃圾请求淹没了承载机场网站的服务器,导致部分旅客无法获得其预定航班的更新信息...据悉,受此次网络攻击事件影响,包括亚特兰大市哈茨菲尔德-杰克逊国际机场和洛杉矶国际机场在内的十余个机场的网站出现故障(这两个也是美国最繁忙的机场)。...KillNet“盯上了”西方国家 此前,KillNet 组织曾将罗马尼亚和意大利等站在乌克兰一边的国家作为主要攻击目标,其 “子集团 ”Legion也类似原因攻击了了挪威和立陶宛等国重要实体机构。

55420

故障分析 | 租户 memstore 内存满问题排查

如果冻结功能正常,租户 memstore 占用内存到达 major_freeze_trigger 之后,就会先冻结、然后转储该租户下的 MemTable,转储完成的 MemTable 占用的内存会从 active_memstore_used...,该 MemTable 所属租户 memstore 已占用内存。...因为租户 memstore 占用内存达到 freeze_trigger_percentage 对应的内存上限之后,会触发租户级别的转储,也就是该租户下的所有 MemTable 都会进行转储。...如果是 OB 2.2.x 版本,可以通过以下 SQL 查询已冻结但未释放内存的 MemTable,是否因为存在活跃事务,导致转储调度异常,内存无法释放。...如果确认了转储调度正常,转储过程也正常,但是已冻结的 MemTable 内存却没有释放,那再确认下是否因为 MemTable 的引用计数异常,导致内存无法释放。

88040
领券