故障概述 某天晚上,我方收到行方请求协助分析某数据库两节点RAC数据库问题,问题描述如下: 该 数据库版本为11.2.0.3,该版本中ASM内存管理机制有所变化,导致ASM实例对共享内存的需求加大,由于该数据库...ASM实例共享内存设置过小,导致ASM实例间歇性出现ORA-4031共享池无法分配连续内存空间。...故障分析 从节点2 alert_+ASM2.log日志中看到,12月7日 18:01:50在节点2修改ASM实例内存参数,并于18:04:33重启节点2 ASM实例。...故障总结 由于本次ASM内存参数调整,首先更改并重启节点2集群,在此过程中节点1 ASM实例遭遇严重的ORA-4031错误,导致CRSD进程异常,从而引发节点1集群状态异常。...在Oracle 11.2.0.3/11.2.0.4中如果ASM实例使用的内存小于1536M,将可能导致ASM内存实例遭遇ORA-4031问题,Oracle官方推荐的ASM实例内存参数配置如下: ?
作者:vivo 互联网服务器团队- Hao Chan随着互联网业务的快速发展,基础设施的可用性也越来越受到业界的关注。内存发生故障的故障率高、频次多、影响大,这些对于上层业务而言都是不能接受的。...然而硬件故障一直以来都是一种普遍存在的现象,由于硬件故障而造成的损失往往是巨大的。在服务器各个部件中,除硬盘故障以外,内存故障是第二大常见的硬件故障类型。...并且服务器内存的数量众多,vivo的内存数量达到40w+条,内存故障造成的最严重的后果是会直接导致系统崩溃,服务器宕机,这些对于上层业务而言都是不能接受的。...EDAC在vivo服务器全量上线过程以来,累计提前发现450+ case的内存CE问题,服务器的宕机数量明显减少。...对满足报修标准服务器业务进行迁移,并更换相应的内存条,避免因服务器突然宕机导致业务的不稳定,甚至因此造成的损失。
在《故障复盘的简洁框架-黄金三问》这篇文章里,我把故障原因分为了两类:触发原因和深层原因。 这里我并没有提到根因或根本原因,理由就是我们原本所认为的根因可能往往不止一个,可能会有多个。...我举个比较容易理解的例子: 比如我们有一台服务器宕机了,上面跑的的MySQL服务也挂了,影响了上层业务访问,花了30分钟才解决,被定性为故障。 那这个故障的根因是什么呢?...有的人可能会说是服务器宕机引起的,服务器问题是根因。 有人会说上层数据库没做高可用,数据库问题是根因。 也有人会说业务层面没做功能降级,到时业务不可用,业务架构问题是根因。...(这个点后面单独写篇文章分享) 但是如果我们换个角度,不把根因唯一化,而是系统化的看根因,我把它们叫做深层原因,同时把找原因的目标放到改进上去,就完全不一样了。...深层原因3:MySQL的主从切换不生效,是因为不同品牌的服务器有特殊配置导致,这个要定期做切换演练,同时每新增一个品牌服务器,要做适配性验证。
随着虚拟化,Redis,BDB内存数据库等应用的普及,现在越来越多的服务器配置了大容量内存,拿DELL的R620来说在配置双路CPU下,其24个内存插槽,支持的内存高达960GB。...对于ECC,REG这些带有纠错功能的内存故障检测是一件很头疼的事情,出现故障,还是可以连续运行几个月甚至几年,但如果运气不好,随时都会挂掉,好在linux中提供了一个edac-utils 内存纠错诊断工具...,可以用来检查服务器内存潜在的故障。...即可得出A4内存出现潜在故障,接下来联系供应商进行更换即可。...参考: http://www.cokll.com/archives/14/ http://server.51cto.com/News-568227.htm 服务器常见故障的判断与维修 (
从实现机制来看,主要有以下风险: IO 压力 当触发 truncate 操作后,需要在短时间由数据库线程将文件 unlink 或 truncate,如果被处理的文件很大,服务器的 IO 压力可能会影响正常的数据库请求...内存并发 在执行 truncate、drop 的过程中,由于需要对内存的数据进行清理,特别是对 LRU 和 flush_LRU 进行扫描,并释放对应的数据块。
,这些key为null的Entry的value就会一直存在一条强引用链:Thread Ref -> Thread -> ThreaLocalMap -> Entry -> value永远无法回收,造成内存泄漏...但是,我们的value却不能回收,而这块value永远不会被访问到了,所以存在着内存泄露。因为存在一条从current thread连接过来的强引用。...7、但是这些被动的预防措施并不能保证不会内存泄漏: a、使用static的ThreadLocal,延长ThreadLocal的生命周期,可能导致内存泄漏; b、分配只用了ThreadLocal又不再调用...get()、set()、remove()方法,那么可能导致内存泄漏,因为这块内存会一直存在; 以下是源码: /** * The entries in this hash map extend WeakReference
Copyright: 采用 知识共享署名4.0 国际许可协议进行许可 Links: https://lixj.fun/archives/记录一下因localstorage引发的故障
系统的故障诊断是一个一步一步排除可能疑点最后找到问题所在的过程。今天测者和你一起学习JVM内存的故障排查方法。...用来跟踪Java 内存的使用情况,NMT可以追踪到堆内内存、code区域、通过unsafe.allocateMemory和DirectByteBuffer申请的内存,NMT不能跟踪C代码的申请的堆外内存的情况...,因此有些时候需要配合操作系统级的内存检测工具使用。...、打印虚拟内存映射、打印由呼叫站点聚合的内存使用情况 baseline 创建内存快照,以比较不同时间的内存差异 summary.diff 打印自上次baseline到现在的内存差异,显示汇总信息 detail.diff...,因此可以怀疑存在内存泄露问题。
背景 QAPM原有Hprof分析是基于开源项目LeakCanary的shark Andoroid Extension,这里仅有针对安卓内存泄露部分,同时包含了一个极其简陋的内存触顶分析模块,只能根据一定规则获取极少的信息...原生方案的缺陷 原生的内存触顶方案的最致命缺陷在于:能够为技术人员提供的信息太少了,老版本的内存触顶所给出的个例中仅有简单的问题条目以及次数罗列,没有更多的信息出现。...初期的测试中,我们都是使用的较为简单的hprof文件,在新索引体系下没有任何内存与时间消耗问题,但在对真实业务hprof分析时发现了高内存占用与高时间消耗。...建立索引后高内存占用问题,我们做了与内存相关的性能分析,最终确认了是错误的代理体系设计导致了对象的增多,GC压力也随之增加。...新内存分析 vs.
故障现象: 1、某分行部署的某台服务器内存占用过高,导致死机; 2、代码层面检查暂未发现问题,服务器硬重启持续一段时间后(3-5天)再次占满。...当时是一切正常的,今有DB2进程占用18%,在正常范围内; 在crontab 中发现有两个脚本每天14点进行FTP批量数据传输,找到相应的传输文件存放目录发现每天传输的文件达到30多个G,由此可判断这就是故障之根本...,FTP传输文件,会缓存到内存中,服务器内存也只有32G,FTP传输导致缓存被占满,Linux不能自动清理缓存导致死机。...Linux内存中缓存占用的空间是可以自动释放的,现在缓存占用了整个内存导致死机,肯定是没有自动释放缓存。 解决方法: 设定Linux内存参数,始终留出一块空间,以避免缓存不释放导致死机。...方案一: 可手动清理页文件缓存,但是需手动执行; echo 1 > /pron/sys/vm/drop_caches 方案二: 我们采用的方法是设定内存最低剩余内存,不让缓存占满 1.使用root
今天对一个pod进行内存资源调整后, 一直卡在ContainerCreating的状态, 执行describe命令查看该 Pod 详细信息后发现如下 。...2.另一种情况是 pod 内的进程给自己设置了可用内存, 比如 jvm 内存限制设置为2G, pod Limit 设置为6G, 此时由于程序的原因导致内存使用超过2G 时, 也会引发 oom kill。...这两种内存溢出的 kill 区别是第一种原因直接显示在 pod 的 Event 里; 第二种你在 Event 里找不到, 在宿主机的 dmesg 里面可以找到 invoked oom-killer 的日志...这里显示内存 Limit 为300m, 实际上是因为在创建资源时, 写的是 300m,资源单位为(CPU-单位m、内存-单位Mi) 理论上来说, 按照之前的经验, 此种情况(实际使用内存超过 Limit...内存的情况)应该属于第一种, 会在 Event 里显示的由于 OOMkilled 原因导致 Terminated 状态.
提示glibc版本有问题,然后打算升级,glibc.结果把/lib64/libc.so.6 给替换了,造成Linux ssh无法远程登录,bash命令无法执行。
现象 监控告警某台机器空闲内存低于10%,执行top命令,按内存降序排序,部分输出如下: [root@mysql-slaver ~]# top top - 13:45:43 up 1835 days,...MySQL、Redis,总计约18.2G,其他进程占用内存都比较低,buff/cache 内存中只有3G是有效的,剩余8G内存去哪里?...,和shared占用内存一致,内存都消耗到哪些子目录了?...0,18 0t0 621086290 /run/systemd/sessions/243335.ref [root@MySQL-slaver ~]# 解决 个人觉得可选解决方案如下: 1、服务器上主要服务为...innodb_buffer_pool_size使用内存,释放一部分内存给操作系统,等Redis迁移了再做机器重启处理。
于是我找经理申请亲自来带他,为了帮助小伙子快速成长,我给他分了一个需求,这不需求刚上线几天就出网上问题了后台监控服务发现内存一直在缓慢上升,初步怀疑是内存泄露。
说到服务器硬件监测,用得最多的自然是Zabbix和prometheus,可是对于一般用户来说,部署要求比较高,而且也没有必要。...只是监测服务器硬件故障,并且发生问题的时候,以邮件形式告警,那么服务器自带的功能就足以。 比如戴尔服务器的idrac,配置硬件故障的邮件告警就非常简单。...如上图所示,首先填写邮件发送服务器的地址,其次就是填写发件人邮件地址,然后就是SMTP端口号,采用SSL协议的话,端口号就填写465;最后填写用户名和密码,就是发件人的邮件账号和密码。...收件人邮件地址,当然也需要填写,不然故障报给谁呢?然后可以“发送”测试邮件,一般都是秒收,如果没收到,就检查SMTP配置。...我比较关注系统运行状况和存储,尤其是存储,重要的数据都在硬盘里面呢,其他硬件故障,相对来说,没那么重要,电源坏了,可以换,内存坏个一两条,也无伤大雅。硬盘要是坏了,那就损失大了。
作者:任仲禹 爱可生 DBA 团队成员,擅长故障分析和性能优化,文章相关技术问题,欢迎大家一起讨论。...⼀种是因 Redis 使用内存超出 OS 物理内存,OS 将 Redis 进程杀死。 另⼀种是 Redis 使用内存超过 maxmemory 参数配置,引发 Redis Server 层 OOM。...OOM 是 Redis 最常见的内存故障,它影响很大: 故障发生时,进程并不会退出,能读但无法写入。...检查内存使用情况,发生 OOM 状态时 used_memory ⼀定会大于 maxmemory。 ? 检查数据对象内存和其它内存使用情况如下图: ?...很好理解,根据上面测试可知数据达到⼀定规模后,因需消耗额外的元数据、缓存内存,Redis 最终将超过 maxmemory 而 OOM。 是否客户端输入缓冲区有问题?
在本文中,我将向您展示如何使用新版本的MySQL(5.7+),以及如何更容易地解决 MySQL内存分配中出现的问题。 故障排除从来都不是一项有趣的任务,尤其是像这种MySQL因为内存不足而崩溃的故障。...有了新版本的MySQL(5.7+)和performance_schema,一切都不同了,我们可以更轻松地对MySQL内存分配进行故障排除。 在本文中,我将向您展示如何使用它。...服务器上运行有其他进程在分配RAM。例如:它可以是某种应用程序(Java、Python、PHP)、web服务器,甚至是备份(即mysqldump)等。当问题的根源被确定后,就可以直接修复了。...MySQL中的内存泄漏。这是最坏的情况,我们才需要进行故障排除。...从哪里开始对MySQL内存泄漏进行故障排除 下面是我们可以从下面步骤开始((假设它是一个Linux服务器)): 第1部分:Linux操作系统和配置检查 1.
Bleeping Computer 网站披露,亲俄黑客组织 “KillNet ”声称对美国几个主要机场网站进行了分布式拒绝服务(DDoS)攻击,海量垃圾请求淹没了承载机场网站的服务器,导致部分旅客无法获得其预定航班的更新信息...据悉,受此次网络攻击事件影响,包括亚特兰大市哈茨菲尔德-杰克逊国际机场和洛杉矶国际机场在内的十余个机场的网站出现故障(这两个也是美国最繁忙的机场)。...KillNet“盯上了”西方国家 此前,KillNet 组织曾将罗马尼亚和意大利等站在乌克兰一边的国家作为主要攻击目标,其 “子集团 ”Legion也因类似原因攻击了了挪威和立陶宛等国重要实体机构。
2021年12月24日,9:37分腾讯云发布《【故障通知】北京二区云服务异常》的公告。 据了解,因电力系统问题造成本次故障。
如果冻结功能正常,租户 memstore 占用内存到达 major_freeze_trigger 之后,就会先冻结、然后转储该租户下的 MemTable,转储完成的 MemTable 占用的内存会从 active_memstore_used...,该 MemTable 所属租户 memstore 已占用内存。...因为租户 memstore 占用内存达到 freeze_trigger_percentage 对应的内存上限之后,会触发租户级别的转储,也就是该租户下的所有 MemTable 都会进行转储。...如果是 OB 2.2.x 版本,可以通过以下 SQL 查询已冻结但未释放内存的 MemTable,是否因为存在活跃事务,导致转储调度异常,内存无法释放。...如果确认了转储调度正常,转储过程也正常,但是已冻结的 MemTable 内存却没有释放,那再确认下是否因为 MemTable 的引用计数异常,导致内存无法释放。
领取专属 10元无门槛券
手把手带您无忧上云