数据中心假负载验证测试之道

1什么是数据中心假负载验证测试

众所周知,购车前我们都会有试驾环节,通过试驾我们可以验证和评估车辆的品质。同样的,在新建数据中心基础设施交付前,也需要通过假负载模拟服务器运行对数据中心基础设施进行全方位测试,亦即试运行。假负载验证测试通常会产生大量的测试费用,并延长项目交付工期;经测算,2万台服务器规模数据中心的假负载验证测试将耗时近1个月,测试费用更是高达几十~上百万元。

在海外,数据中心假负载验证测试已经得到广泛应用;而国内在这方面起步较晚,但随着国内数据中心产业快速发展,越来越多的企业开始重视数据中心假负载验证测试。

2一定要进行假负载验证测试么

答案是肯定的。假负载验证测试耗时长、费用高是不争的事实。然而近年来行业内新建数据中心却广泛引入假负载验证测试环节,这是为什么呢?我们先看两个案例。

案例

故障情况

故障原因

1

某数据中心市电中断柴油发电机启动后,输出开关未自动合闸,导致末端负载无法加载。

柴发配电输出控制转换开关虚接,自动合闸失效。

2

某数据中心冷水机组出现故障后,开启备用冷水机组运行几分钟后自动停机。

冷冻水系统管道上旁路阀门未正确关闭,导致机组启动不久后自动保护停机。

诸如上述故障,在新建数据中心投产前通过假负载验证测试是可以及时发现和规避的。同时,假负载验证测试的成本是可以预见的,而如果带风险投入运营后故障产生的损失将难以用金钱衡量,投产后的整改难度和成本也将显著增加。

3假负载验证测试的内容

据统计,数据中心常见故障主要有四类原因:

图1 IDC故障原因

因此,数据中心假负载验证测试主要从以下几个方面对数据中心基础设施进行验证。

(1)

设备质量验证

数据中心基础设施覆盖面极为广泛,即使质量过关的设备经过运输、安装均可能产生诸多隐患;此外,设备是否符合数据中心设计要求也需要在此环节控制。例如某数据中心测试发现PDU上联交流开关到货为3相开关,与设计的单相开关不一致,这将显著增加单相PDU跳闸的影响范围;某数据中心测试发现管道阀门螺栓未按设计要求采用防锈蚀材料,出现严重锈蚀情况,将可能影响后续管道运营和维护。

图2 某数据中心管道阀门锈蚀

(2)

施工工艺验证

设备安装是数据中心建设中最为繁重的施工部分。诸如焊接、螺栓连接、绝缘保护、保温层保护等诸多细节都可能成为数据中心的薄弱环节,因此对施工工艺要求较高。以低压配电柜为例,电缆螺栓连接力矩不足,可能产生抖动、集聚热量从而引起绝缘损坏,威胁设备运行,甚至引发火灾;而管道焊接出现虚焊,可能导致机房运行期间出现暖通管道爆管的风险,严重威胁数据中心的运行。

图3 某数据中心低压配电柜内电器元器件虚接

(3)

系统可用性验证

新建数据中心投产,就要求其各个系统均可持续稳定运行,我们需要验证各系统功能是否符合设计要求。例如高压细水雾消防系统,需要验证当模拟触发消防系统后,消防系统能否正常触发;同时尤其需要关注高压细水雾实际工作效果是否以雾状充满机房空间。

图4 某数据中心高压细水雾系统测试

(4)

系统可靠性验证

系统可用性满足了数据中心正常运行的基本情况,于此同时我们仍需要验证各系统的可靠性。如群控系统,能否实现冷机平滑加机、减机;当市电异常时,各级电动阀、设备是否保持设定的运行状态等。而配电系统双路市电切换、市电与柴油发电机组投切逻辑也必须进行实际投切验证。

(5)

系统可维护性验证

数据中心基础设施生命周期中,运营阶段长达10年以上,因此系统的可维护性是至关重要的。除此以外,可维护性还要求测试团队协助梳理数据中心基础设施各系统常见故障场景,配合运营团队开展模拟演练,进而形成维护指导手册,从而规避人为误操作引起的故障。

4假负载验证测试的重要性与意义

假负载验证测试,作为新建数据中心投产前的一次全面检查和考验,已经得到越来越多行业人士的认可和支持。腾讯数据中心已经为假负载验证测试制定了详细的标准,且在新建数据中心项目中作为不可或缺的关键项目环节。该环节的引入对于项目、运营、以及数据中心生命周期管理都具有非常重要的作用。

图5 IDC假负载测试在数据中心生命周期管理中的作用

对项目而言,假负载验证测试作为数据中心建设项目交付物的最后把关环节,是对整体项目交付质量的最后保障。在这个阶段,无论设计、施工、设备等埋下的隐患都可以通过最小的代价实施整改,从而规避项目系统性风险。

在运营人员眼中,新建数据中心充满了诸多不稳定因素,需要提前排除系统中潜伏的隐患;同时运营人员必须尽早熟悉数据中心各个系统的架构,梳理并建立各系统运维规范,开展故障应急演练,从而达到数据中心运营的基本要求。而事实证明,运营人员参与假负载验证测试是实现上述要求的最佳途径。

长期以来,数据中心规划、建设、运营无法形成闭环一直困扰着我们。当机房投入运营后,前期遗留问题的整改难度显著增加,甚至由于业务无法中断而长期带病运行,只能期望在下一个新项目中规避同类问题。当引入假负载验证测试后,便可实现数据中心项目内闭环。

图6 IDC假负载测试引入后数据中心项目的闭环

结语:本次访谈仅仅揭开了数据中心假负载验证测试的冰山一角,然而其重要性可见一斑。接下来我们将陆续为大家带来数据中心假负载验证测试的实战系列文章,感谢您的关注和支持。

版权声明:本文为腾讯数据中心原创,欢迎转载,转载需保持原文(包括标题、导语、正文、图片、数据以及文尾的二维码、版权声明等全部内容)完整。版权均属“深圳市腾讯计算机系统有限公司”所有,未经官方授权,不得使用。

原文发布于微信公众号 - 腾讯数据中心(Tencent_IDC)

原文发表时间:2015-12-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏HaHack

我在平安的两年

2185
来自专栏黑白安全

USRP从入门到追踪飞机飞行轨迹

USRP是数款流行的SDR硬件中功能和应用都相对成熟的一款产品,从WIFI协议、ZigBee协议、RFID协议、GSM通信系统、LTE 4G通信系统到飞机通信、...

1514
来自专栏大数据钻研

2018最具就业前景的7大编程语言,Java、Python和JavaScript?

2018 年即将到来,Coding Dojo(编码道场)近期发布了 2018 最具就业前景的 7 大编程语言。该公司分析了来自 Indeed 的 25 门编程语...

4757
来自专栏腾讯移动品质中心TMQ的专栏

由全民吃鸡引发的网游加速学习总结

不论你是或不是一个游戏玩家,最近吃鸡类游戏的火热度可见一斑。而我所在的项目团队要来干这件大事了,因为我们要实现PC端网游加速这回事,第一个目标就是绝地求生。

3.2K12
来自专栏钱塘大数据

【干货】冲击年薪百万,11 大编程语言薪资排行榜

有这样一个问题,使用空格和使用 Tab 的程序员谁挣得更多? 你别说,还真有人做了统计: ? 图1:根据 2017 年 Developer Survey 调查 ...

42111
来自专栏开源项目

企业代码安全知多少?这些是你应该了解的…

企业代码安全问题 代码是企业的信息化核心资产,是开发团队智慧的结晶,如何安放才更可靠? 代码管理系统,自建?选择云平台?有哪些需要考量的因素? 希望这一篇,能...

2635
来自专栏花叔的专栏

解读,有微信关系链数据的小游戏开测了

先明确一点:小游戏是小程序的一个子集,它只是用了不同的技术框架,账号体系还是小程序体系,今天的文章是给不懂技术的同学看的,当然,懂技术不大了解流程的同学也可以看...

55414
来自专栏云计算

云的安全问题(第2部分):从哪里开始

上周,我们发布了帮助公司改善安全状况的最佳实践系列的第1节。安全不再仅仅是安全专家的领域,公司中的每个人,不论其角色如何,都应该秉承践行安全最佳实践的观念。

19610
来自专栏竹清助手

推送通知策略分析

好的消息推送三要素:timely、personal、actionable。消息推送对用户留存率与活跃度至关重要。用户愿意打开消息推送,是对你的 App ...

1152
来自专栏姬小光

用完我即走,何日君再来?

而作为开发者,最令人兴奋的莫过于可以以最小的成本,最快的速度上线一个自己想要的产品了。不过,作为个人开发者,如果没有公司资质的话,限制还是很多的。比如许多类目的...

793

扫码关注云+社区