数据中心假负载验证测试之道

1什么是数据中心假负载验证测试

众所周知,购车前我们都会有试驾环节,通过试驾我们可以验证和评估车辆的品质。同样的,在新建数据中心基础设施交付前,也需要通过假负载模拟服务器运行对数据中心基础设施进行全方位测试,亦即试运行。假负载验证测试通常会产生大量的测试费用,并延长项目交付工期;经测算,2万台服务器规模数据中心的假负载验证测试将耗时近1个月,测试费用更是高达几十~上百万元。

在海外,数据中心假负载验证测试已经得到广泛应用;而国内在这方面起步较晚,但随着国内数据中心产业快速发展,越来越多的企业开始重视数据中心假负载验证测试。

2一定要进行假负载验证测试么

答案是肯定的。假负载验证测试耗时长、费用高是不争的事实。然而近年来行业内新建数据中心却广泛引入假负载验证测试环节,这是为什么呢?我们先看两个案例。

案例

故障情况

故障原因

1

某数据中心市电中断柴油发电机启动后,输出开关未自动合闸,导致末端负载无法加载。

柴发配电输出控制转换开关虚接,自动合闸失效。

2

某数据中心冷水机组出现故障后,开启备用冷水机组运行几分钟后自动停机。

冷冻水系统管道上旁路阀门未正确关闭,导致机组启动不久后自动保护停机。

诸如上述故障,在新建数据中心投产前通过假负载验证测试是可以及时发现和规避的。同时,假负载验证测试的成本是可以预见的,而如果带风险投入运营后故障产生的损失将难以用金钱衡量,投产后的整改难度和成本也将显著增加。

3假负载验证测试的内容

据统计,数据中心常见故障主要有四类原因:

图1 IDC故障原因

因此,数据中心假负载验证测试主要从以下几个方面对数据中心基础设施进行验证。

(1)设备质量验证

数据中心基础设施覆盖面极为广泛,即使质量过关的设备经过运输、安装均可能产生诸多隐患;此外,设备是否符合数据中心设计要求也需要在此环节控制。例如某数据中心测试发现PDU上联交流开关到货为3相开关,与设计的单相开关不一致,这将显著增加单相PDU跳闸的影响范围;某数据中心测试发现管道阀门螺栓未按设计要求采用防锈蚀材料,出现严重锈蚀情况,将可能影响后续管道运营和维护。

图2 某数据中心管道阀门锈蚀

(2)施工工艺验证

设备安装是数据中心建设中最为繁重的施工部分。诸如焊接、螺栓连接、绝缘保护、保温层保护等诸多细节都可能成为数据中心的薄弱环节,因此对施工工艺要求较高。以低压配电柜为例,电缆螺栓连接力矩不足,可能产生抖动、集聚热量从而引起绝缘损坏,威胁设备运行,甚至引发火灾;而管道焊接出现虚焊,可能导致机房运行期间出现暖通管道爆管的风险,严重威胁数据中心的运行。

图3 某数据中心低压配电柜内电器元器件虚接

(3)系统可用性验证

新建数据中心投产,就要求其各个系统均可持续稳定运行,我们需要验证各系统功能是否符合设计要求。例如高压细水雾消防系统,需要验证当模拟触发消防系统后,消防系统能否正常触发;同时尤其需要关注高压细水雾实际工作效果是否以雾状充满机房空间。

图4 某数据中心高压细水雾系统测试

(4)系统可靠性验证

系统可用性满足了数据中心正常运行的基本情况,于此同时我们仍需要验证各系统的可靠性。如群控系统,能否实现冷机平滑加机、减机;当市电异常时,各级电动阀、设备是否保持设定的运行状态等。而配电系统双路市电切换、市电与柴油发电机组投切逻辑也必须进行实际投切验证。

(5)系统可维护性验证

数据中心基础设施生命周期中,运营阶段长达10年以上,因此系统的可维护性是至关重要的。除此以外,可维护性还要求测试团队协助梳理数据中心基础设施各系统常见故障场景,配合运营团队开展模拟演练,进而形成维护指导手册,从而规避人为误操作引起的故障。

4假负载验证测试的重要性与意义

假负载验证测试,作为新建数据中心投产前的一次全面检查和考验,已经得到越来越多行业人士的认可和支持。腾讯数据中心已经为假负载验证测试制定了详细的标准,且在新建数据中心项目中作为不可或缺的关键项目环节。该环节的引入对于项目、运营、以及数据中心生命周期管理都具有非常重要的作用。

图5 IDC假负载测试在数据中心生命周期管理中的作用

对项目而言,假负载验证测试作为数据中心建设项目交付物的最后把关环节,是对整体项目交付质量的最后保障。在这个阶段,无论设计、施工、设备等埋下的隐患都可以通过最小的代价实施整改,从而规避项目系统性风险。

在运营人员眼中,新建数据中心充满了诸多不稳定因素,需要提前排除系统中潜伏的隐患;同时运营人员必须尽早熟悉数据中心各个系统的架构,梳理并建立各系统运维规范,开展故障应急演练,从而达到数据中心运营的基本要求。而事实证明,运营人员参与假负载验证测试是实现上述要求的最佳途径。

长期以来,数据中心规划、建设、运营无法形成闭环一直困扰着我们。当机房投入运营后,前期遗留问题的整改难度显著增加,甚至由于业务无法中断而长期带病运行,只能期望在下一个新项目中规避同类问题。当引入假负载验证测试后,便可实现数据中心项目内闭环。

图6 IDC假负载测试引入后数据中心项目的闭环

结语

本次访谈仅仅揭开了数据中心假负载验证测试的冰山一角,然而其重要性可见一斑。接下来我们将陆续为大家带来数据中心假负载验证测试的实战系列文章,感谢您的关注和支持。

文章转载自: 腾讯数据中心

原文发布于微信公众号 - 腾讯大讲堂(TX_DJT)

原文发表时间:2016-02-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏互联网数据官iCDO

如何及为何要建立一个受欢迎的Facebook群组

译者:Amber 审校:Nic 本文长度为4781字,预估阅读时间8分钟。 摘要:本文通过解析作者自身建立网站并成功吸引众多Facebook自然访问流量的经验...

5187
来自专栏开源项目

企业代码安全知多少?这些是你应该了解的…

企业代码安全问题 代码是企业的信息化核心资产,是开发团队智慧的结晶,如何安放才更可靠? 代码管理系统,自建?选择云平台?有哪些需要考量的因素? 希望这一篇,能...

2615
来自专栏腾讯移动品质中心TMQ的专栏

由全民吃鸡引发的网游加速学习总结

不论你是或不是一个游戏玩家,最近吃鸡类游戏的火热度可见一斑。而我所在的项目团队要来干这件大事了,因为我们要实现PC端网游加速这回事,第一个目标就是绝地求生。

3.1K12
来自专栏黑白安全

USRP从入门到追踪飞机飞行轨迹

USRP是数款流行的SDR硬件中功能和应用都相对成熟的一款产品,从WIFI协议、ZigBee协议、RFID协议、GSM通信系统、LTE 4G通信系统到飞机通信、...

1514
来自专栏Seebug漏洞平台

期待已久,ZoomEye 网络空间搜索引擎第四版强势发布!

ZoomEye | 钟馗之眼,网络空间搜索引擎。探索一切,纵观一切!进行全球的漏洞感知与预警! ZoomEye 于2013年7月1日正式上线!一直到2016年,...

5406
来自专栏花叔的专栏

解读,有微信关系链数据的小游戏开测了

先明确一点:小游戏是小程序的一个子集,它只是用了不同的技术框架,账号体系还是小程序体系,今天的文章是给不懂技术的同学看的,当然,懂技术不大了解流程的同学也可以看...

55214
来自专栏腾讯技术工程官方号的专栏

TEG Cheers | 腾讯技术工程运维技术沙龙精彩回顾(内置现场视频)

941
来自专栏重庆的技术分享区

使用物联网网关将“物联网”连接到云

原文地址:https://internetofthingsagenda.techtarget.com/feature/Using-an-IoT-gateway-...

4426
来自专栏Wordpress专用主机|主题模板|必备插件

国外十大WORDPRESS主题商城 你想要的WP模板都在这里!

对于想用Wordpress建站的朋友来说,找到一款适合的主题模板是最难的。绝大部分WP站长都不具备开发主题的能力,而国内的模板少之又少,万一和别人雷同,更是尴尬...

8927
来自专栏竹清助手

推送通知策略分析

好的消息推送三要素:timely、personal、actionable。消息推送对用户留存率与活跃度至关重要。用户愿意打开消息推送,是对你的 App ...

1152

扫码关注云+社区