首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

服务器内存故障预测居然可以这样做!

​ 作者:vivo 互联网服务器团队- Hao Chan随着互联网业务的快速发展,基础设施的可用性也越来越受到业界的关注。内存发生故障故障率高、频次多、影响大,这些对于上层业务而言都是不能接受的。...然而硬件故障一直以来都是一种普遍存在的现象,由于硬件故障而造成的损失往往是巨大的。在服务器各个部件中,除硬盘故障以外,内存故障是第二大常见的硬件故障类型。...并且服务器内存的数量众多,vivo的内存数量达到40w+条,内存故障造成的最严重的后果是会直接导致系统崩溃,服务器宕机,这些对于上层业务而言都是不能接受的。...EDAC在vivo服务器全量上线过程以来,累计提前发现450+ case的内存CE问题,服务器的宕机数量明显减少。...对满足报修标准服务器业务进行迁移,并更换相应的内存条,避免因服务器突然宕机导致业务的不稳定,甚至因此造成的损失。

17.5K20

Micron 256 GB DDR5-8800 MCR DIMM:适用于大型服务器的大型内存

美光本周宣布,它已经开始对其 256 GB multiplexer combined (MCR) DIMM 进行采样,这是该公司迄今为止容量最大的内存模块。...使用这些DIMM 可以使数据中心计算机具有3TB或6TB的内存,达到 DDR5-8800 的数据速率。...除了宣布这些DIMM的样品外,美光还在 NVIDIA 的 GTC 会议上展示了它们,服务器供应商和客户都在为下一代 AI 加速器构建新服务器。...MCR DIMM 是dual-rank内存模块,具有专用buffer ,允许两个rank同时运行。...虽然 MCR DIMM 使内存DIMM 比常规 RDIMM 稍微复杂一些,但它们在不增加所涉及的内存模块数量的情况下提高了内存子系统的性能和容量,这使得构建服务器主板变得更加容易。

16510
您找到你想要的搜索结果了吗?
是的
没有找到

如何构建 “先发制人”的远程管控系统(--内存篇章)

作为数据中心发生的三大硬件故障之一,内存故障直接影响服务器的可靠性。此外,内存故障可能会产生毁灭性的影响,如何给数据中心运营商提供未来中断的足够早的警告,以便采取先发制人的行动?...分析实时内存运行状况数据和避免内存故障的能力最终会为客户带来更好的体验。对于在线服务平台和云服务提供商这样的组织来说尤其如此,它们严重依赖于服务器硬件的可靠性、可用性和可维护性。...通过在其数据中心部署内存故障预测解决方案并将其集成到现有管理系统中,IT员工可以分析其服务器内存故障,减少停机时间,并改进其当前的双列直插式内存模块(DIMM)更换策略。...这种内存故障预测解决方案使用机器学习来分析服务器内存错误,直至DIMM、存储组、列、行和单元级别,以生成每个DIMM内存运行状况得分。...当服务器在特定内存区域中出现突发错误时,将检查DIMM运行状况评估模型(DHAM),以评估是否需要修改受影响的DIMM的运行状况得分。如果是这样,则相应地更改分数并将其传递给基板管理控制器(BMC)。

86540

DELL服务器基础运维操作与错误处理

[TOC] 0x00 前言简述 描述:本文主要记录了DELL服务器相关运维操作与配置,及其故障的解决; DELL服务器产品命名规则 R:Rack,机架式服务器 T:Tower,塔式服务器 M:Modular...intel平台,双路服务器用的内存只能是FB-DIMM ECC AMD平台,双路服务器只能上REG ECC 执行效率不同 单路服务器:单路服务器单线程,执行效率更低。...;系统处于恢复模式 12:系统资源配置错误 13:内存配置错误 14:系统板出现故障 23:硬盘驱动器故障 24:视频可能出现故障 34:内存故障 123 :其他故障 134:系统板资源和/或系统板硬件可能出现故障...戴尔认证的 DIMM 将自动执行此纠正在极少数情况下,当 SEL 日志中记录一个可纠正内存错误后,服务器可能会重新启动。...➃ 运行内存测试以确认故障。 ➄ 如果确认硬件故障,请关注公众号“戴尔中国服务”联系我们更换故障内存

12.1K42

DELL服务器基础运维操作与错误处理

intel平台,双路服务器用的内存只能是FB-DIMM ECC AMD平台,双路服务器只能上REG ECC 执行效率不同 单路服务器:单路服务器单线程,执行效率更低。...2:扩充卡可能出现故障 3:处理器可能出现故障 4:已检测到 BIOS 校验和故障;系统处于恢复模式 12:系统资源配置错误 13:内存配置错误 14:系统板出现故障 23:硬盘驱动器故障 24...:视频可能出现故障 34:内存故障 123 :其他故障 134:系统板资源和/或系统板硬件可能出现故障。...戴尔认证的 DIMM 将自动执行此纠正在极少数情况下,当 SEL 日志中记录一个可纠正内存错误后,服务器可能会重新启动。...➃ 运行内存测试以确认故障。 ➄ 如果确认硬件故障,请关注公众号“戴尔中国服务”联系我们更换故障内存

4.5K20

服务器故障邮件报警

说到服务器硬件监测,用得最多的自然是Zabbix和prometheus,可是对于一般用户来说,部署要求比较高,而且也没有必要。...只是监测服务器硬件故障,并且发生问题的时候,以邮件形式告警,那么服务器自带的功能就足以。 比如戴尔服务器的idrac,配置硬件故障的邮件告警就非常简单。...如上图所示,首先填写邮件发送服务器的地址,其次就是填写发件人邮件地址,然后就是SMTP端口号,采用SSL协议的话,端口号就填写465;最后填写用户名和密码,就是发件人的邮件账号和密码。...收件人邮件地址,当然也需要填写,不然故障报给谁呢?然后可以“发送”测试邮件,一般都是秒收,如果没收到,就检查SMTP配置。...我比较关注系统运行状况和存储,尤其是存储,重要的数据都在硬盘里面呢,其他硬件故障,相对来说,没那么重要,电源坏了,可以换,内存坏个一两条,也无伤大雅。硬盘要是坏了,那就损失大了。

19630

MySQL内存溢出问题:故障排除指南

在本文中,我将向您展示如何使用新版本的MySQL(5.7+),以及如何更容易地解决 MySQL内存分配中出现的问题。 故障排除从来都不是一项有趣的任务,尤其是像这种MySQL因为内存不足而崩溃的故障。...有了新版本的MySQL(5.7+)和performance_schema,一切都不同了,我们可以更轻松地对MySQL内存分配进行故障排除。 在本文中,我将向您展示如何使用它。...服务器上运行有其他进程在分配RAM。例如:它可以是某种应用程序(Java、Python、PHP)、web服务器,甚至是备份(即mysqldump)等。当问题的根源被确定后,就可以直接修复了。...MySQL中的内存泄漏。这是最坏的情况,我们才需要进行故障排除。...从哪里开始对MySQL内存泄漏进行故障排除 下面是我们可以从下面步骤开始((假设它是一个Linux服务器)): 第1部分:Linux操作系统和配置检查 1.

5.8K20

故障分析 | 租户 memstore 内存满问题排查

如果冻结功能正常,租户 memstore 占用内存到达 major_freeze_trigger 之后,就会先冻结、然后转储该租户下的 MemTable,转储完成的 MemTable 占用的内存会从 active_memstore_used...,该 MemTable 所属租户 memstore 已占用内存。...因为租户 memstore 占用内存达到 freeze_trigger_percentage 对应的内存上限之后,会触发租户级别的转储,也就是该租户下的所有 MemTable 都会进行转储。...如果是 OB 2.2.x 版本,可以通过以下 SQL 查询已冻结但未释放内存的 MemTable,是否因为存在活跃事务,导致转储调度异常,内存无法释放。...如果确认了转储调度正常,转储过程也正常,但是已冻结的 MemTable 内存却没有释放,那再确认下是否因为 MemTable 的引用计数异常,导致内存无法释放。

88740

服务器硬盘故障预测实践

理论上服役时间越长的服务器发生故障的几率也将越大,从腾讯全网服务器的统计结果也表明服务器老龄化的加剧,故障概率会加速上升,特别是使用年份超过4年的设备故障率将出现陡升的情况,显而易见高故障率的老龄化设备将对现网业务造成巨大的影响...我们的服务器使用年限超过5年后,硬盘故障率都是非常高。 ? 于是乎,想快速有效的降低服务器故障的影响,核心就在于降低硬盘故障的影响。...或许这些服务器配置信息能给出一些统计结果,我们想要的是即将故障的硬盘,而不是这些差异性不大的各个集合的整体故障率。...为了支持我们提供了运营模型设置,主要包括服务器类型,上架年限,服务器健康度,业务模块,预测比,坏块比,性能参数等,系统会根据这个设置表,对满足其中任意一条规则的预测故障盘,自动发起故障流程。...成功预测的硬盘故障数量,粗略估算已覆盖SATA硬盘故障数的50%左右,进而促使5年以上服务器对业务影响的硬件整体故障率也下降了0.5%。

13.1K90

RAS(一)介绍

此消彼长下,硬件问题占比逐年突显,比如硬件故障导致服务器异常或宕机问题已逐步成为云服务器Top1问题。 RAS定义 服务器硬件稳定性,主要体现在RAS上。...RAS故障处理流程 以Intel服务器为例, 1.Intel服务器内存发生CE故障后,硬件触发CMCI中断,执行OS注册的中断处理函数; 2.该函数调用EDAC驱动代码,读取MCA状态寄存器来获取硬件故障信息...用户可以通过查看该文件了解此服务器是否发生过硬件故障以及故障发生的时间、硬件信息、是否恢复等关键信息; RAS硬件故障举例 如下是x86服务器注入内存CE故障的日志,EDAC驱动会打印故障发生所在的硬件...(Memory)、Addr、Processor、类型(CE)、memory channel/dimm等信息。...1422553404 SOCKET 0 APIC 0[22716.616173] EDAC MC3: 1 CE memory read error on CPU_SrcID#0_Channel#0_DIMM

75620

Kubernetes 触发 OOMKilled(内存杀手)如何排除故障

1写在前面 ---- 简单整一下 k8s 中 Pod 故障 OOMKilled 的原因以及诊断 博文内容涉及: k8s OOMKilled 分类: 宿主节点行为 / K8s Cgroups 行为 什么是...Killed 通过上下内存信息可以发现,当分配1000M内存时,宿主机用户使用内存增加了1000M,可用内存为117M,当申请内存为2000M时,超出宿主机可用内存,bigmem 2000M命令所在进程直接被...这可以帮助您确定哪些容器消耗了太多内存并触发了 OOMKilled 错误。 使用内存性能分析器:使用 pprof 等内存性能分析器来识别可能导致内存过度使用的内存泄漏或低效代码。...需要调试应用程序以解决内存泄漏的原因。 节点过载 — 这意味着 Pod 使用的总内存大于可用的总节点内存。通过纵向扩展来增加节点的可用内存,或将 Pod 移动到具有更多可用内存的节点。...(指定的最小内存),但低于其内存限制 使用超过其内存限制的 Pod 要点 为避免 OOMKilled 错误,建议监控 Kubernetes Pod 和容器中的内存使用情况,设置资源限制以防止容器消耗过多内存

66520

线上应用故障排查之二:高内存占用

前一篇介绍了线上应用故障排查之一:高CPU占用,这篇主要分析高内存占用故障的排查。...,以及在实际计算机系统中将变量存储到内存和从内存取出变量这样的低层细节。...现在以一个实际的例子分析内存占用的故障排查。 通过top命令,发现PID为9004的Java进程一直占用比较高的内存不释放(24.7%),出现高内存占用的故障。...想起上一篇线上应用故障排查之一:高CPU占用介绍的PS命令,能否找到具体是哪个的线程呢?...特别是占用了大量内存的int数组,需要仔细检查相关代码。 最后,总结下排查内存故障的方法和技巧有哪些: 1、top命令:Linux命令。可以查看实时的内存使用情况。

1.2K30

Java内存故障?只是因为你不够帅!

本文是关于Java故障排查的,属上篇。 为了保证文章的流畅性,我决定一口气把它写完。因为相关方面的培训做的多了,就不需要在写的时候参考资料、翻源代码。掐指一算,本文一个小时没花掉,但篇幅已经较长了。...1.内存里都有啥 2.操作系统内存 3.JVM内存划分 4.一图解千愁,jvm内存从来没有这么简单过!...一部分是物理内存,指的是我们插的那根内存条;另一部分就是使用磁盘模拟的虚拟内存,在Linux通常称做swap分区。所以,可用内存 = 物理内存 + 虚拟内存。...本地内存:其他的内存占用空间 ?...6.垃圾回收器 内存问题有两种模式,一种是内存溢出,一种是内存泄漏。 内存溢出 OutOfMemoryError,简称OOM,堆是最常见的情况,堆外内存排查困难。

64722

DELL R710 服务器内存排错

DELL R710 服务器内存排错 dmidecode - DMI table decoder 通过dmidecode可以得知,有点像windows下的资源管理器 man dmidecode 可以得到详细的介绍和使用方法...可以在linux下获取有关硬件方面的信息输出的信息包括 BIOS、系统、主板、处理器、内存、缓存等,rhel5版本自动安装了这软件 今天查看内存突然发现内存大小少了8G(本来应该是8个8G的),要是以前我会找...DELL工程师来检查时那根坏了,再更换之,DELL工程师一般是重启服务器再BIOS自检时找出那一条坏了。...A1-A9,B1-B9 18个通道,其中A1-A8上插了内存条,据我所知,服务器内存条是三通道,这种插发并不是DELL推荐插法, 这个后续我会提供DELL服务器内存插法图,其中A6上面看不到内存信息,而其他的有...R710内存插法: X-表示安装内存, NA表示不安装内存.

11.3K20

HP服务器Linux下hpacucli常用命令

HP服务器官方管理工具hpacucli,通过该工具可以查看HP服务器的Raid状态是否正常(如果Raid卡出问题,会影响数据的读写速度),服务器硬盘是否正常(如果硬盘坏掉,严重的情况会丢失数据),服务器电源是否有故障等信息...HP服务器官方管理工具hpasmcli,通过该工具可以很详细查看服务器CPU,内存,处理器,电源等的温度信息。...CPU,内存,处理器,电源等的温度信息 [[email protected] ~]# hpasmcli -s ‘show’  查看类似于help的帮助信息,监控的时候要重点关注 DIMM(内存)、FANS...[[email protected] ~]# hpasmcli -s ‘show’ Invalid Arguments SHOW ASR SHOW BOOT SHOW DIMM [ SPD ]...95C/203F #7        CPU#2                30C/86F    95C/203F [[email protected] ~]# hpasmcli -s ‘show dimm

3K60
领券