首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

服务器内存故障预测居然可以这样做!

​ 作者:vivo 互联网服务器团队- Hao Chan随着互联网业务的快速发展,基础设施的可用性也越来越受到业界的关注。内存发生故障故障率高、频次多、影响大,这些对于上层业务而言都是不能接受的。...然而硬件故障一直以来都是一种普遍存在的现象,由于硬件故障而造成的损失往往是巨大的。在服务器各个部件中,除硬盘故障以外,内存故障是第二大常见的硬件故障类型。...并且服务器内存的数量众多,vivo的内存数量达到40w+条,内存故障造成的最严重的后果是会直接导致系统崩溃,服务器宕机,这些对于上层业务而言都是不能接受的。...EDAC在vivo服务器全量上线过程以来,累计提前发现450+ case的内存CE问题,服务器的宕机数量明显减少。...对满足报修标准服务器业务进行迁移,并更换相应的内存条,避免因服务器突然宕机导致业务的不稳定,甚至因此造成的损失。

17.8K20

IBM Power7 服务器 Hypervisor 内存使用情况研究

下图是 IBM Power7 服务器的硬件架构逻辑图。从图中可以看出,Hypervisor 位于服务器硬件之上,分区之下。IBM PowerVM 产品是基于 Hypervisor 层的。...图 1.IBM Power7 服务器硬件逻辑架构 ?...IBM Power 服务器中保留内存的区域 IBM Power 服务器中,Hypervisor 会保留一部分内存,这部分内存分为三部分,它们分别是: 用于系统管理的区域、用于分区页面表(Partition...IBM Power7 服务器 Hypervisor 内存使用 Hypervisor 预留内存的大小通常与分区的数量以及分区设置的最大内存有关。在下面的内容中,将通过实验手段验证相关因素的关系。...然后,输入 vtmenu, 找出这台 P770 对应的编号,为了避免泄露 IBM 公司机密,序列号部分被擦除: ? 从上图可以看出,我们使用的服务器对应的编号是 40.

4.6K60
您找到你想要的搜索结果了吗?
是的
没有找到

IBM X3850 X6服务器增加内存条插法

摘要 IBM System x3850 X6服务器是一款基于虚拟化、数据库和计算机密集型计算的模块化设计的机架型服务器。...1.看图System x3850 X6 IBM System x3850 X6服务器是一款基于虚拟化、数据库和计算机密集型计算的模块化设计的机架型服务器。...001.jpg 正面图 222.jpg 背面图 2.内存插装顺序 每个计算模块上内存插槽安装内存的顺序如下表: 333.jpg 444.jpg 3.内存插装实例1 一台X3850 X6服务器...插入方法: 这种情况在每个计算模块上插入8条,每个计算模块单面插入4条,内存插入顺序如下: 555.jpg 4.内存插装实例2 一台X3850 X6服务器,准备装入32条两种不同品牌容量为8GB的DDR3...内存,基中16条为海力士,另外16条为三星。

12.5K61

为什么服务器内存硬件上的黑色颗粒这么多?

之前有位读者问我为什么服务器内存上有这么多的颗粒,今天我专门就这个话题成文一篇作为回复。 各位从事服务器端开发的同学天天都在开发代码,代码都需要内存。确实了解一下服务器内存硬件是挺有有必要的。...所以我特地找来了一个服务器内存条来。下图是一个 32 GB 服务器内存条的正面和反面图。 可见服务器内存上有很多的黑色颗粒,相比下面的台式机内存颗粒要多很多。...今天我们就专门写一篇文章来给大家解释为什么服务器内存中颗粒更多的原因。...因此总的来说,服务器对稳定性的要求极高,不允许比特翻转错误发生。 ECC 是一种内存专用的技术。...这样单条内存的容量可以做到更大一些。 原因3:LRDIMM 数据信号缓存 另外还有就是对于大内存服务器,可能 RDIMM 提供的单条内存容量还不够,还需要更大。

9910

云桌面学习室服务器内存怎么选择?为什么要选择一个内存大的?

云桌面学习室服务器内存是云桌面必不可少的一个配置,它将会直接影响云桌面的速度,它的内存越大,它使用起来也会更加的方便。...在购买云桌面学习室服务器是一定要看好它的内存,如果你选择的云桌面内存太小,那么操作起来也会很不顺畅。且随着你使用的时间越来越长,它就是越卡。 云桌面学习室服务器内存怎么选择?...通常来说,云桌面服务器内存都是1G往上,不过在选择的时候也要根据自己的需求来选择。...为什么要选择一个内存大的? 云桌面学习室服务器内存就相当于我们手机的内存一样,当然是内存越大,下载的东西也就越多。如果内存太小,不仅自己玩的不开心,还会造成手机的卡顿和闪退。...不过也不要选择太大的,选择的内存过大,可能会造成云服务器资源的浪费。 大数据时代,以后云桌面肯定会在很多方面发挥作用。而云桌面学习室服务器内存无疑是其中最重要的一个点,所以好好选择也是很重要的。

13.2K50

说说云计算时代,运维人员会踩到哪些坑?

5.考虑到安全性问题,大多数企业都会选择混合云,选择IBM的云,稳定但贵,您比较看好哪些云服务提供商?为什么? 下面就来看看运维的小伙伴们都是怎么回答的?...如果是托管类的直接找云服务商去看 如果是私有云就要慢慢找原因了 5.考虑到安全性问题,大多数企业都会选择混合云,选择IBM的云,稳定但贵,您比较看好哪些云服务提供商?为什么?...没有办法的 5.考虑到安全性问题,大多数企业都会选择混合云,选择IBM的云,稳定但贵,您比较看好哪些云服务提供商?为什么? 我还是考虑自建云平台。作为互联网公司。...5.考虑到安全性问题,大多数企业都会选择混合云,选择IBM的云,稳定但贵,您比较看好哪些云服务提供商?为什么? 国内嘛,估计以后微软云和阿里云前景更好一些。...5.考虑到安全性问题,大多数企业都会选择混合云,选择IBM的云,稳定但贵,您比较看好哪些云服务提供商?为什么?

1.8K40

墨菲定律:一个参数Drop_caches导致集群数据库实例崩溃

李真旭@killdb Oracle ACE,云和恩墨技术专家 个人博客:www.killdb.com 在墨菲定律里,我们知道,有可能发生的故障就一定会发生,哪怕需要诸多因素的叠加才可能满足那复杂的先决条件...alert log 我们可以发现 RAC 集群的节点2实例被强行终止掉了,如下是详细的告警日志信息: 从上面的日志来看,在2:03分就开始报错 ORA-00600,一直持续到2:39分,lmd0 进程开始同样的错误...-600 [KGHLKREM1] On Linux Using Parameter drop_cache On hugepages Configuration (1070812.1) 的描述来看,此次故障跟文档描述基本上一致...我坚持认为客户环境上肯定进行了强制的内存回收,但是客户说他们没有进行任何人为操作,不过经过我检查发现确实有一个 crontab 脚本。 那么为什么主机上会部署这样的脚本呢?...sysctl -w vm.swappiness=40 (老版本的 linux 是设置 vm.pagecache 参数) 关于 linux cache 的一些知识请参考: http://www.ibm.com

1.3K70

IBM中国思变 Cognos源码授权卖给元年为哪般?

T客汇官网:tikehui.com 撰文 | 人称T客 窦悦怡 自从将PC业务出售给联想起就开启了IBM的售卖之旅,随后相继出售了服务器业务,芯片业务,IBM 把 Informix 数据库“卖给”南大通用...可就在前在两天,IBM又将Cognos源码授权卖给了元年科技,有人说IBM一直在出售非核心业务,为转型为一家认知计算和云平台的公司而努力。 ? IBM为什么一直卖、卖、卖?...但显然云计算和认知计算暂时并没有成为IBM营收主角,连华尔街的分析师也认为IBM瞄准新趋势是好事儿,但并不代表一定能够使得年过百岁的IBM重焕生机,IBM在云市场的份额不足10%,认知计算领域目前财一直没有对外透露...所以,IBM想要如何让财务状况有新起色,又能在新业务发展上能够并驾齐驱,只能通过授权源码和出售相关业务才能实现真正意义上的转型目标。 IBM为什么要将Cognos源码授权给元年科技?...第三,可能跟国家的政策环境有关,2017年6月1日,网络安全法发布第三十七条就明确表示,关键信息基础设施的运营者在中华人民共和国境内运营中收集和产生的个人信息和重要数据应当在境内存储。

1.6K30

勿谈大,且看Bloomberg的中数据处理平台

时至今日,高核心数、SSD以及海量内存已并不稀奇,但是当下的大数据平台(通过搭建商用服务器集群)却并不能完全利用这些硬件的优势,存在的挑战也不可谓不大。...这也是为什么要托管备用的region服务器以应对故障——如果请求发送到每个服务器,其中一个服务器在1分钟或者更多的时间内没有反应,很明显这个服务器已经出现问题,一个服务器产生故障将拖累集群中所有作业的处理时间...每台主机上5个region服务器将提升到160毫秒。但是如果每台主机上的region服务器提升到10个时,响应时间反而会提高,为什么?...继续上文的话题,增加region服务器数量降低性能给我们留下的谜题:为什么响应时间在开始时有改善,而随后则会变得更糟糕?...既然在垃圾回收过程中所有的服务器都会被冻结,那么为什么不让这些region服务器同时做垃圾回收?这种情况下,请求将需要更多的时间,但是毫无疑问的是,在处理的过程中,没有region服务器会做垃圾回收。

3.2K60

Linux Bug: free cache 导致数据库实例crash

通过如下是alert log我们可以发现RAC集群的节点2实例被强行终止掉了,如下是详细的告警日志信息: 从上面的日志来看,在2:03分就开始报错ORA-00600,一直持续到2:39分,lmd0进程开始同样的错误...-600 [KGHLKREM1] On Linux Using Parameter drop_cache On hugepages Configuration (1070812.1) 的描述来看,此次故障跟文档描述基本上一致...我坚持认为客户环境上肯定进行了强制的内存回收,但是客户说他们没有进行任何人为操作,不过经过我检查发现确实有一个crontab脚本。 那么为什么主机上会部署这样的脚本呢?...我们可以看到,整个主机物理内存为128G,而Oracle SGA+pga 才40g,另外将近90G的内存都是fs cache所消耗。...vm.vfs_cache_pressure=200 sysctl -w vm.swappiness=40 (老版本的linux是设置vm.pagecache参数) 关于linux cache的一些知识请参考: http://www.ibm.com

2.1K60

应用业务偶尔500错误的原因定位

公有云的云存储团队,内核团队介入调查,发现除了内存波动大,IO下降较快2点迹象外,没有其他的发现, 公有云技术团队同时在排查其他方面的因素。...为了避免误判,于是分析目标主机10.205.1.26的其他监控指标, 发现ping和内存使用率的监控指标图均显示正常,未出现像网络接口流量图那样存在大量缺失的情况,说明故障时刻,ping和其他的cpu监控项的数据收集是正常的...至于salt-minion的Max open files为什么是默认值:4096?...运维分析故障时间段的nginx的日志和应用服务器的网络状态,通过分析nginx日志,发现响应耗时超过3s以上的请求均来自user模块login。...在分析nginx日志 和监控数据的过程中,发现nginx的user模块的访问日志在故障时间段出现499, 同时user模块所在的服务器的TCP监控指标close-wait在故障时间段大幅上升。

1.7K30

亚马逊,谷歌,微软最新财报出炉,谁是最赚钱的科技公司?

2016年第四季度财营收数据对比 2016年第四季度财报业绩成长率数据对比 云计算成为最抢眼的业绩助推器 纵观五大科技巨头的财,云计算和软件服务成为财中被重点提及的业务,也是业绩成长当之无愧的领头羊...微软2016-2017股价走势 IBM IBM显示,第四季度营收为217.70亿美元,低于去年同期的220.59亿美元。在这一季度里,IBM的营收额继续下降,利润率继续缩水。...即便如此,瞄准新趋势并不代表一定能够使得年过百岁的IBM重焕生机。 IBM2016-2017股价走势 英特尔 财显示,英特尔第四季度营收比去年同期增长10%。...英特尔的销售额增长超过预期,主要推动力来自于数据中心服务器的处理器订单大增,而数据中心服务器正是该公司处理云计算业务的核心机器。 2016年,英特尔的云计算销售额增长了30%。...从净利润来看,英特尔在云计算方面的投入也十分巨大,个人电脑的微处理器和大型数据中心的服务器的投入,造成了四季度净利润较去年同比下跌1%。

55520

经验分享(1) -- 奇怪的connect reset by peer

分享个一年前的故障处理. 故障现象: 应用程序的某个功能偶尔"connect reset by peer" (我最初看见的现象就是这个......) 这个故障其实还满常见的....关键是只是这一个功能这个错, 其它应用的功能都是正常的. 总不可能是数据库的问题吧, 查看数据库 AWR, 稳得不行... 完全没得问题....web应用服务器的错是"connect reset by peer", 应用服务器不可能瞎报错啊, 故把问题锁定在了 应用服务器和客户端之间. 2....为什么要丢新的连接,而不是丢最旧的连接? 估计是想让用户觉得是网络问题吧. 听说后面是把负载的连接生命周期调短了. 应用也都恢复正常了. 6....后续 虽然问题是解决了, 但是对于这个现象, 还是没能解释为什么只有这个功能不行? 这个功能也没有新开连接啊.搞不懂....

5.2K40

IT资源运维监控管理平台主要监控了什么?

当IT资源出现故障或性能下降时,会导致应用宕机或性能下降,进而影响企业业务产出。...资源监控就是对那些可能影响IT资源服务能力的各种技术性能参数进行全面监控,以便提前发现问题隐患并预警,帮助企业将故障消灭于萌芽状态之中。...图片2.服务器       系统的服务器监控从多个方面对服务器硬件资源和操作系统进行监控管理,监控内容包括非法登录监测、存储空间监测、CPU负载监测、物理内存监测、交换区空间监测、IO负载监测、集群状态监测...支持IBM AIX、HP-UX、Solaris、Windows、Linux、Red Hat、CentOS等多种操作系统及IBM、HP、Lenovo等服务器设备。...系统的中间件监控从可用性、性能、占用资源、安全事件和异常错误等几个方面对中间件进行全方位监测,如Apache监测内容包括服务进程监测、负载监测、请求监测、闲置监测、内存使用情况监测和数据库连接监测等信息

2K30

联想与SAP HANA联姻 暗战Oracle?

SAP为什么要选择与联想合作?而不是华为或者浪潮呢?合作后将剑指何方? 取得运营权的意味着什么?...如果以游戏市场的中国运营权来分析,会包括更新,补丁,装在经营者的服务器端,以及在中国市场拥有绝对的定价权,销售权,售后等一系列的运营服务。...为什么不选择华为而选择联想呢?...可能很多人都会认为SAP HANA选择联想并非明智之举,从联想的财中可以看出,联想的数据中心业务收入明显低于大家的预期,用失望二字来形容不足为过,联想急切希望通过于SAP HANA的联姻,为联想数据中心带来业绩上的提升和利好...比如,浪潮与思科联手成立合资公司,IBM Cognos将源代码授权给元年等合作,都有这样战略的考虑。

1.1K40

服务器无法安装系统以及整个公司不能上网的排查和解决

今天有两客户来求助,一家是H3C服务器无法安装Centos系统,另外一家是网络故障,不能上网。 盼着H3C服务器早上送到,下午就能跑现场解决网络故障了。...可是,服务器到了11点半才到,赶紧开机看看什么情况,一是内存错误,提示可能无法被操作系统识别;二是提示磁盘阵列配置错误。...拔下内存条,金手指擦干净,插在我们的服务器上,经测试,没毛病,能进系统,插回去,没再报错,重新配置RAID,顺利安装系统,收钱交差。 慌忙赶往另外一个同行的客户,检查网络问题。...,所以这两台虚拟服务器,肯定不是10.20.2.10,果断放弃这两台虚拟服务器,应该与本次故障无关。...终于打开DNS服务管理器,好显眼的红叉,重启DNS服务,当然没用,一堆错,再看系统日志,不仅是DNS各种报错,还有DC故障。 Dcdiag检查DC,发现问题、解决问题,并重启活动目录相关服务。

21330
领券