首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

服务器内存故障预测居然可以这样做!

​ 作者:vivo 互联网服务器团队- Hao Chan随着互联网业务的快速发展,基础设施的可用性也越来越受到业界的关注。内存发生故障故障率高、频次多、影响大,这些对于上层业务而言都是不能接受的。...然而硬件故障一直以来都是一种普遍存在的现象,由于硬件故障而造成的损失往往是巨大的。在服务器各个部件中,除硬盘故障以外,内存故障是第二大常见的硬件故障类型。...并且服务器内存的数量众多,vivo的内存数量达到40w+条,内存故障造成的最严重的后果是会直接导致系统崩溃,服务器宕机,这些对于上层业务而言都是不能接受的。...EDAC在vivo服务器全量上线过程以来,累计提前发现450+ case的内存CE问题,服务器的宕机数量明显减少。...对满足报修标准服务器业务进行迁移,并更换相应的内存条,避免因服务器突然宕机导致业务的不稳定,甚至因此造成的损失。

17.8K20

内存故障分析 原

随着虚拟化,Redis,BDB内存数据库等应用的普及,现在越来越多的服务器配置了大容量内存,拿DELL的R620来说在配置双路CPU下,其24个内存插槽,支持的内存高达960GB。...对于ECC,REG这些带有纠错功能的内存故障检测是一件很头疼的事情,出现故障,还是可以连续运行几个月甚至几年,但如果运气不好,随时都会挂掉,好在linux中提供了一个edac-utils 内存纠错诊断工具...,可以用来检查服务器内存潜在的故障。...在使用edac-utils 工具之前,需要先了解服务器的硬件架构,以DELL R620为例,(其它如HP DL360P G8,IBM X3650 M4 机型都使用了 E5-2600 系列CPU,C600...即可得出A4内存出现潜在故障,接下来联系供应商进行更换即可。

2.4K30
您找到你想要的搜索结果了吗?
是的
没有找到

IBM Power7 服务器 Hypervisor 内存使用情况研究

下图是 IBM Power7 服务器的硬件架构逻辑图。从图中可以看出,Hypervisor 位于服务器硬件之上,分区之下。IBM PowerVM 产品是基于 Hypervisor 层的。...图 1.IBM Power7 服务器硬件逻辑架构 ?...IBM Power 服务器中保留内存的区域 IBM Power 服务器中,Hypervisor 会保留一部分内存,这部分内存分为三部分,它们分别是: 用于系统管理的区域、用于分区页面表(Partition...IBM Power7 服务器 Hypervisor 内存使用 Hypervisor 预留内存的大小通常与分区的数量以及分区设置的最大内存有关。在下面的内容中,将通过实验手段验证相关因素的关系。...然后,输入 vtmenu, 找出这台 P770 对应的编号,为了避免泄露 IBM 公司机密,序列号部分被擦除: ? 从上图可以看出,我们使用的服务器对应的编号是 40.

4.6K60

IBM X3850 X6服务器增加内存条插法

摘要 IBM System x3850 X6服务器是一款基于虚拟化、数据库和计算机密集型计算的模块化设计的机架型服务器。...1.看图System x3850 X6 IBM System x3850 X6服务器是一款基于虚拟化、数据库和计算机密集型计算的模块化设计的机架型服务器。...001.jpg 正面图 222.jpg 背面图 2.内存插装顺序 每个计算模块上内存插槽安装内存的顺序如下表: 333.jpg 444.jpg 3.内存插装实例1 一台X3850 X6服务器...插入方法: 这种情况在每个计算模块上插入8条,每个计算模块单面插入4条,内存插入顺序如下: 555.jpg 4.内存插装实例2 一台X3850 X6服务器,准备装入32条两种不同品牌容量为8GB的DDR3...内存,基中16条为海力士,另外16条为三星。

12.5K61

2017国外10大云故障盘点:亚马逊、Facebook、IBM

下面是盘点出的2017年国外10大云故障,提醒人们,这个快速成熟的行业,其出色运营的风险比以往任何时候都要高: IBM,1月26日 今年年初,IBM云的可信度受到打击,当时客户用于访问Bluemix云基础设施的一个管理门户出现数小时的故障...这次故障主要原因是,一位员工在维护流程中将一个数据库目录从错误的数据库服务器中删除导致的。...AWS,2月28日 这是一次震动整个业界的故障事件。...调查显示,该员工使用既定的步骤,试图关闭少量托管了计费流程子系统的服务器。...相反,意外的命令导致更大范围服务器处于脱机状态,其中包括为服务器提供特定数据存储所需的一个子系统,以及另一个分配新存储的子系统。

1.3K40

服务器故障邮件报警

说到服务器硬件监测,用得最多的自然是Zabbix和prometheus,可是对于一般用户来说,部署要求比较高,而且也没有必要。...只是监测服务器硬件故障,并且发生问题的时候,以邮件形式告警,那么服务器自带的功能就足以。 比如戴尔服务器的idrac,配置硬件故障的邮件告警就非常简单。...如上图所示,首先填写邮件发送服务器的地址,其次就是填写发件人邮件地址,然后就是SMTP端口号,采用SSL协议的话,端口号就填写465;最后填写用户名和密码,就是发件人的邮件账号和密码。...收件人邮件地址,当然也需要填写,不然故障报给谁呢?然后可以“发送”测试邮件,一般都是秒收,如果没收到,就检查SMTP配置。...我比较关注系统运行状况和存储,尤其是存储,重要的数据都在硬盘里面呢,其他硬件故障,相对来说,没那么重要,电源坏了,可以换,内存坏个一两条,也无伤大雅。硬盘要是坏了,那就损失大了。

22230

ibm服务器如何装系统_ibm引导盘安装系统步骤

小编了解到ibm服务器系统安装的方法是有别于安装其他品牌的服务器和台式机,而ibm笔记本一键启动u盘的快捷键是:F12;下面小编就把ibm服务器系统安装的方法讲解给大家听。...首先需要准备的工具:两个大于4G的U盘,一个用来刻录IBM的官方引导镜像,一个用来刻录2008系统的镜像;软件方面,需要一个软碟通(UItralISO)软件。...(上图是软件的图标,下图是软件打开的页面) 1、打开软件后插入U盘,在软件的右上角选择文件—-打开—–选择我们下载好的IBM官方引导镜像。 2、打开镜像后 软件会读取到镜像内的一些系统文件。...;U盘的朋友在这一步选择退出后,服务器会重启,这时候拔掉你的引导U盘,把之前做好的系统镜像的U盘插上,这时候服务器还是默认从U盘启动,等服务器从U盘成功启动后也同样进入了安装系统的界面。)...以上就是ibm服务器系统安装的具体教程,有需要的小伙伴们可以按照步骤去进行安装,希望能帮助到大家。 版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。

9.2K10

MySQL内存溢出问题:故障排除指南

在本文中,我将向您展示如何使用新版本的MySQL(5.7+),以及如何更容易地解决 MySQL内存分配中出现的问题。 故障排除从来都不是一项有趣的任务,尤其是像这种MySQL因为内存不足而崩溃的故障。...有了新版本的MySQL(5.7+)和performance_schema,一切都不同了,我们可以更轻松地对MySQL内存分配进行故障排除。 在本文中,我将向您展示如何使用它。...服务器上运行有其他进程在分配RAM。例如:它可以是某种应用程序(Java、Python、PHP)、web服务器,甚至是备份(即mysqldump)等。当问题的根源被确定后,就可以直接修复了。...MySQL中的内存泄漏。这是最坏的情况,我们才需要进行故障排除。...从哪里开始对MySQL内存泄漏进行故障排除 下面是我们可以从下面步骤开始((假设它是一个Linux服务器)): 第1部分:Linux操作系统和配置检查 1.

5.9K20

服务器硬盘故障预测实践

理论上服役时间越长的服务器发生故障的几率也将越大,从腾讯全网服务器的统计结果也表明服务器老龄化的加剧,故障概率会加速上升,特别是使用年份超过4年的设备故障率将出现陡升的情况,显而易见高故障率的老龄化设备将对现网业务造成巨大的影响...我们的服务器使用年限超过5年后,硬盘故障率都是非常高。 ? 于是乎,想快速有效的降低服务器故障的影响,核心就在于降低硬盘故障的影响。...或许这些服务器配置信息能给出一些统计结果,我们想要的是即将故障的硬盘,而不是这些差异性不大的各个集合的整体故障率。...为了支持我们提供了运营模型设置,主要包括服务器类型,上架年限,服务器健康度,业务模块,预测比,坏块比,性能参数等,系统会根据这个设置表,对满足其中任意一条规则的预测故障盘,自动发起故障流程。...成功预测的硬盘故障数量,粗略估算已覆盖SATA硬盘故障数的50%左右,进而促使5年以上服务器对业务影响的硬件整体故障率也下降了0.5%。

13.3K90

故障分析 | 租户 memstore 内存满问题排查

如果冻结功能正常,租户 memstore 占用内存到达 major_freeze_trigger 之后,就会先冻结、然后转储该租户下的 MemTable,转储完成的 MemTable 占用的内存会从 active_memstore_used...,该 MemTable 所属租户 memstore 已占用内存。...因为租户 memstore 占用内存达到 freeze_trigger_percentage 对应的内存上限之后,会触发租户级别的转储,也就是该租户下的所有 MemTable 都会进行转储。...如果是 OB 2.2.x 版本,可以通过以下 SQL 查询已冻结但未释放内存的 MemTable,是否因为存在活跃事务,导致转储调度异常,内存无法释放。...如果确认了转储调度正常,转储过程也正常,但是已冻结的 MemTable 内存却没有释放,那再确认下是否因为 MemTable 的引用计数异常,导致内存无法释放。

91940

IBM 3650服务器崩溃数据恢复案例

IBM 3650服务器中共有5块 SAS 300GB 磁盘组成一组RAID5磁盘阵列,存储划分为一个LUN、3个分区,第一个分区存放的是windows 2003系统,第二个分区用于存储 SQL Server...【数据初检及恢复过程】 服务器数据恢复工程师首先对RAID磁盘阵列进行初检,发现该服务器中的0号磁盘和4号磁盘出现物理故障离线导致RAID崩溃。...1.把服务器中所有磁盘脱离RAID环境,将所有磁盘连接在安全存储中,使用只读方式对所有数据进行分析。...3.数据恢复中心的硬件恢复工程师配合服务器数据恢复团队对硬盘进行硬件修复,(此过程需要数据恢复设备)。...原服务器上的三个分区均能正常识别,并能看见所有的文件。 5.恢复出重要的SQL SERVER 数据库文件,并附加到 SQL SERVER 上进行验证和查看,数据库数据正常。

3K30

Kubernetes 触发 OOMKilled(内存杀手)如何排除故障

1写在前面 ---- 简单整一下 k8s 中 Pod 故障 OOMKilled 的原因以及诊断 博文内容涉及: k8s OOMKilled 分类: 宿主节点行为 / K8s Cgroups 行为 什么是...Killed 通过上下内存信息可以发现,当分配1000M内存时,宿主机用户使用内存增加了1000M,可用内存为117M,当申请内存为2000M时,超出宿主机可用内存,bigmem 2000M命令所在进程直接被...这可以帮助您确定哪些容器消耗了太多内存并触发了 OOMKilled 错误。 使用内存性能分析器:使用 pprof 等内存性能分析器来识别可能导致内存过度使用的内存泄漏或低效代码。...需要调试应用程序以解决内存泄漏的原因。 节点过载 — 这意味着 Pod 使用的总内存大于可用的总节点内存。通过纵向扩展来增加节点的可用内存,或将 Pod 移动到具有更多可用内存的节点。...(指定的最小内存),但低于其内存限制 使用超过其内存限制的 Pod 要点 为避免 OOMKilled 错误,建议监控 Kubernetes Pod 和容器中的内存使用情况,设置资源限制以防止容器消耗过多内存

90720

Java内存故障?只是因为你不够帅!

本文是关于Java故障排查的,属上篇。 为了保证文章的流畅性,我决定一口气把它写完。因为相关方面的培训做的多了,就不需要在写的时候参考资料、翻源代码。掐指一算,本文一个小时没花掉,但篇幅已经较长了。...1.内存里都有啥 2.操作系统内存 3.JVM内存划分 4.一图解千愁,jvm内存从来没有这么简单过!...一部分是物理内存,指的是我们插的那根内存条;另一部分就是使用磁盘模拟的虚拟内存,在Linux通常称做swap分区。所以,可用内存 = 物理内存 + 虚拟内存。...本地内存:其他的内存占用空间 ?...6.垃圾回收器 内存问题有两种模式,一种是内存溢出,一种是内存泄漏。 内存溢出 OutOfMemoryError,简称OOM,堆是最常见的情况,堆外内存排查困难。

65722

线上应用故障排查之二:高内存占用

前一篇介绍了线上应用故障排查之一:高CPU占用,这篇主要分析高内存占用故障的排查。...,以及在实际计算机系统中将变量存储到内存和从内存取出变量这样的低层细节。...现在以一个实际的例子分析内存占用的故障排查。 通过top命令,发现PID为9004的Java进程一直占用比较高的内存不释放(24.7%),出现高内存占用的故障。...想起上一篇线上应用故障排查之一:高CPU占用介绍的PS命令,能否找到具体是哪个的线程呢?...特别是占用了大量内存的int数组,需要仔细检查相关代码。 最后,总结下排查内存故障的方法和技巧有哪些: 1、top命令:Linux命令。可以查看实时的内存使用情况。

1.2K30

服务器内存监测

而对于程序员而言,如何避免内存泄漏也是一门学问,倘若不加以控制,那么无论多大的内存都会有消耗殆尽的那天。...本文当然不是研究如何分析内存泄漏的产生原因与解决方案,而是在此之前的一步,通过简单的内存监测方式来预测内存泄漏的 潜在可能性 或者 偶发性 等。...我这边需要监测 系统内存 与 jvm堆内存 ,最终的结果会展示各个时间点的内存情况,所以需要一个时间类,表示每个切片的时间点。...timeMarkInterval是存储定时器id的,在销毁之前释放定时器;physicMemory和heapMemory获取图表div节点,用于echarts节点获取;systemInfo则会存储定时从服务器拉取到的数据...由图可见我这个系统堆内存通常消耗不到一百兆,后续可以将堆内存设定的再小一些,以提供给其它服务使用。总体内存是稳定状态,达到一定值会自动回收垃圾,占用率不会逐步提高,是个可控的系统。

13620
领券