在IDC数据中心和云服务基础设施中,硬件发生故障的问题一直是一种普遍现象,而故障造成的经济损失是每个IDC都无法承受的。
内存故障
内存故障是当今发生在IDC中最严重的硬件问题之一。
一旦内存出现问题,对系统就会造成十分严重的影响,包括服务器的安全性、可靠性和稳定性。内存故障是由多种因素引起的,其中包括操作、使用环境、制造时带有的缺陷等。
尽管国内基于普遍接受的技术,诸如纠错码和可纠正错误,基于阈值的预测性故障分析(PFA))可克服双列直插式内存模块的一些可纠正错误,但它们具有可靠性、成本、性能和覆盖范围等方面的潜在问题,可能导致服务器性能下降,甚至导致服务器判断无法再接收访问信息因此出现拒绝服务。此外,可纠正错误和ECC无法辅助发现问题。
纠正这些潜在问题,只能依靠服务器的稳定性、可靠性、安全性和可维护性。这时候,就需要服务器和IDC背后所承担的IDC服务商要具备一定资质、规模以及技术涵养。
早期我们在如何判断一家IDC服务商是否正规的时候,讲述了其判断方式一共有三种。
那么如何判断技术性呢?
(一)在搜索相关公司官网后,一般都会有资格认证
(二)在企业查询软件上也可以通过经营信息和知识产权来查看
在中特合作的一个相关案例中,基于算法的调整测试,将内存故障出现的可能性直接降低到最小化、更换内存模块,扩展了相关内存支持,将内存故障后发生的停止服务时间减少了四倍。
在与美团合作的类似案例研究中,检测发现由于内存故障所致使的服务器问题减少了百分之五十。通过集成到五里界BGP数据中心云服务器上监控服务器内存模块的运行状况,分析IDC数据中心管理软件统计得到的数据,能够为每个DRAM模块生成预测分数,然后采取适当的措施来维护其SLA并提高服务器的运作效率。
借助这种新型技术,中特在与国内领先的IDC服务商网盾合作中,通过BMC、BIOS和安全解决方案为IDC云服务器基础架构提供保护和管理,并扩展到整个IDC行业。
在记录到错误后,将错误记录在BIOS上,然后将某些元数据信息传递到BMC固件。然后,BMC固件将获取此元数据,并通过Intel MFP引擎运行,以计算内存模块的运行状况得分。当检测到新的错误时,网盾解决方案将跟踪每个内存模块的运行状况评分,并公开结果供系统管理员进行分析。
网盾默认实现在BUI的Web UI中提供当前的内存模块运行状况得分信息,并通过遵循DMTF Redfish标准的RESTful API公开相同的内存运行状况得分信息。
RESTful API可轻松与现有IDC数据中心管理软件集成。但是,对于那些不太愿意与自己的软件集成的IDC数据中心,网盾提供了一个称为AMI Composer的数据管理工具,该工具开发为完全符合Intel Rack Scale Design和DMTF Redfish标准,它将汇总所有信息并通过一个基于Web的仪表板。
领取专属 10元无门槛券
私享最新 技术干货