数据中心假负载验证测试实战指导方案

前言

数据中心作为一个由多个系统高度结合的复杂工程,在基础设施建设全部完成,各系统调试结束后,就具备了开展假负载验证测试的基本条件。一场规模宏大的数据中心规划、建设的质量检测就此拉开了帷幕。

一 数据中心假负载验证测试前提条件

1

完成数据中心各系统建设、调试

开展假负载测试要求项目团队确认各系统已经按要求完成建设、调试工作,亦即数据中心各系统已经达到投产前的各项设计要求及开展运行的基本条件。

2

建立验证测试项目团队

项目团队成员

职责分工

项目经理(项目团队,含监理)

组织开展验证测试,推动测试问题整改

第三方测试公司

准备测试资源,按计划开展验证测试,及问题项复测

数据中心运营团队

熟悉数据中心系统,从运营角度把关验证测试,梳理运维手册

设备厂商和建设总包单位

配合开展验证测试,及测试问题整改

3

确认最终测试方案

通常在项目招标环节将加入测试要求,并与各方初步确认假负载验证测试方案。在数据中心各系统具备基本运行条件后,各方仍需根据项目建设实际情况,梳理数据中心系统架构及设计要求,并确认最终测试方案。

4

假负载验证测试工具

磨刀不误砍柴工。测试前,必须对测试工具进行严格的检查,以确保验证测试的准确性和可靠性。通常由第三方测试公司提供测试工具合格报告,同时现场抽查测试工具是否正常和准确。

4.1 假负载

为了尽可能模拟机房实际运行情况,通常采用机架式假负载。机架式假负载由发热电阻和散热风扇及控制电路组成。每台功率4-6KW ,每台分1-1.5KW可调;可高度模拟服务器的电热转换效率和散热风量,提供完整配电链路的压力测试和制冷系统热负荷的模拟测试。

图1 机架式假负载

4.2 测试工具(仪器、仪表等)

假负载测试期间主要使用的仪表有热成像仪、电能质量分析仪等。

图2 测试仪器、仪表

二 假负载验证测试

1

空载测试

空载测试是指,第三方测试公司对各系统实施目视检查、通电检查及单机开机测试,确认各系统是否具备带载测试的条件。

(1) 各系统目视检查:核实各系统设备型号规格,并对其外观、标识、安装方式、线缆连接、接地方式以及运维模式等进行详细的梳理和排查。

(2) 各系统空载测试参数采集:对各系统进行通电检查,确保各系统空载运行参数是否正常。例如,配电系统需要关注末端电压(线电压、相电压、零地电压)是否正常等。

2

半载测试

半载测试是指按照设计容量的50%加载假负载,用以检验配电系统、制冷系统是否可以正常带载运行,初步确认是否具备满载测试的条件。

在半载测试过程中,可以初步验证各系统设备是否具备各项设计功能。同时,可以根据半载运行情况初步排除部分系统隐患,为满载测试做准备。例如,根据配电系统各级连接点温升初步排查系统配电系统设备容量、质量、施工工艺是否合格;根据制冷系统各节点温升、压强以及设备运行参数初步确认制冷系统是否正常。

3

满载测试

当半载测试正常后,就可以按照设计容量进行100%带载测试。在满载测试环节,需要验证配电系统、制冷系统各级设备容量是否满足设计需求;需要验证配电系统、制冷系统各级设备运行性能是否符合设计规范;需要验证群控系统、动环系统、管控系统是否准确满足设计要求。

图3 MDC满载测试

以微模块满载测试为例,我们主要关注:

微模块满载测试

测试项

关键设备

测试内容

1

列头柜

满载性能测试,电量参数采集

2

PDU

零地电压测试、热成像仪扫描

3

HVDC

加载性能测试、热成像仪扫描

4

电池

放电测试、热成像仪扫描

5

末端空调

加载性能测试,0-100%负荷下的性能参数采集;冗余性测试;热成像仪扫描

以蓄冷罐测试为例,在满载测试期间,需要验证蓄冷罐放冷时间是否符合运营需求,放冷模式是否符合设计要求。

图4 蓄冷罐放冷测试

除了满载测试,有条件的情况下,我们还推荐开展过载测试。例如,对柴发系统进行短时110%带载测试。

4

BA群控系统测试

BA群控系统测试,主要验证冷机系统是否能按照设计要求自动执行:停电自保持、来电自启、加减机及故障跳转等功能。另外,还要关注主机、水泵、冷却塔开关机时间、顺序是否符合设计要求。

图5 群控DDC测试

5

故障测试及监控测试(动环及管控)

满载测试期间,实际已经涵盖了各系统设备功能测试、性能测试。动环系统、管控系统、群控系统能够达到机房正常运行期间的各项要求。我们仍需要验证发生常见运维故障时,配电系统、空调系统的冗余性;同时验证群控系统的可靠性,以及动环、管控系统故障告警的准确性。

常见故障测试场景

测试项

设备

故障场景

验证

1

冷水系统

模拟冷机、水泵、冷却塔、末端精密空调故障等

验证系统群控系统可靠性,验证冷水系统冗余性。

2

配电系统

模拟低压柜故障、列头柜跳闸、PDU故障等

验证动环系统、管控系统可靠性,验证配电系统冗余性。

3

柴发系统

模拟市电停电故障,或带载时一台柴发故障

验证柴发启动逻辑及冗余备份功能。

4

消防系统

模拟火警

验证消防设备报警功能及联动功能。

【注】消防系统,通常由消防局抽验,对于未抽中的情况我们仍推荐邀请消防局进行验收。假负载测试期间,主要测试消防设备报警及联动功能。

图6 群控系统效果图

6

极限温升测试

极限温升测试主要是模拟满载运行状态下,中断测试单元制冷,采集测试单元温升情况以及达到极限温度所需的时长;之后再恢复制冷,采集测试单元内温度变化情况以及恢复至正常运行温度所需时长。以采用水冷+MDC(微模块)的数据中心为例,通常有两种测试方案:

水冷微模块数据中心极限温升测试方案

方案

最小测试单元

测试方法

1

一个MDC

在整个机房满载运行情况下,中断一个MDC的冷冻水供水,采集并记录该MDC温度变化情况以及达到极限温度的时长;再恢复其冷冻水供水,采集并记录该MDC温度变化情况以及恢复至温度的时长。

2

一个机房单元

在整个机房满载运行情况下,中断整个机房单元的冷冻水供水,采集并记录该机房单元温度变化情况以及达到极限温度的时长;再恢复其冷冻水供水,采集并记录该机房单元温度变化情况以及恢复至温度的时长。

通常,我们先对单个MDC开展极限温升测试,在有条件的情况下再对整个机房单元进行整体极限温升测试。这些数据将为数据中心运营团队制定应急保障策略提供最为直观的参考,具有十分重要的意义。

7

系统联调测试

在完成上述验证测试环节后,数据中心各系统独立运行的可靠性已经得到了初步的验证。然而我们仍需要关注系统之间的联动关系,这就是系统联调测试的不可或缺之处。系统联调测试主要是通过模拟满载运行下,验证市电中断后各系统能否正常运行。

测试项

场景

系统联调测试要求

1

模拟满载运行时,一路市电中断

另一路市电是否可以顺利承载整个机房负载;配电系统、制冷系统是否能够正常运行。

2

模拟满载运行时,两路市电中断

柴发系统能否顺利带载整个机房负载;配电系统、制冷系统是否能够正常运行。

图7 系统联调测试

三 结束语

数据中心假负载验证测试,为新建数据中心提供了一次真刀真枪的试运行,将前期各环节遗留的隐患尽可能暴露出来,可以最大限度降低后续运营风险。

后续我们将为大家带来数据中心假负载验证测试过程中各类问题的分析,敬请期待。

版权声明:本文为腾讯数据中心原创,欢迎转载,转载需保持原文(包括标题、导语、正文、图片、数据以及文尾的二维码、版权声明等全部内容)完整。版权均属“深圳市腾讯计算机系统有限公司”所有,未经官方授权,不得使用。

原文发布于微信公众号 - 腾讯数据中心(Tencent_IDC)

原文发表时间:2016-01-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏zhangdd.com

必看,运维还要懂这么多?

听说你精通运维?Apache、Nginx、tomcat、vmstat、iftop、awk、sed、sar、iostat、LVS、HA-proxy、MHA、Zoo...

1213
来自专栏鹅厂网事

腾讯网络应对闰秒危机之最佳实践

"鹅厂网事"由深圳市腾讯计算机系统有限公司技术工程事业群网络平台部运营,我们希望与业界各位志同道合的伙伴交流切磋最新的网络、服务器行业动态信息,同时分享腾讯在网...

2455
来自专栏架构师小秘圈

揭秘大型网站架构进化之路

丁浪,非著名架构师。关注高并发、高可用的架构设计,对系统服务化、分库分表、性能调优等方面有深入研究和丰富实践经验。热衷于技术研究和分享。 声明:版权归丁浪作者本...

4545
来自专栏Golang语言社区

手游页游和端游的服务端的架构与区别

类型1:卡牌、跑酷等弱交互服务端 卡牌跑酷类因为交互弱,玩家和玩家之间不需要实时面对面PK,打一下对方的离线数据,计算下排行榜,买卖下道具即可,所以实现往往使...

54411
来自专栏腾讯云技术沙龙

李晓慧: 如何利用MongoDB打造TOP榜小程序

大家好,我叫李晓慧,我没有一页PPT介绍自己,我就自己简单说一下,我以前是一个开发,我感觉很孤独,因为开发的女生很少,我转过两次组,然后一开始做C++开发,后来...

33310
来自专栏花叔的专栏

解读小程序用户信息授权机制的变动,为官方点赞

话说,有同学又问我为什么没有去解读微信小程序最新发布的特性。实在不好意思,最近花叔有点儿忙,所以就耽误了。 但这变动的意义其实比我们想象中大,所以虽然晚了点,还...

9597
来自专栏编程直播室

编程直播室第二期:CadLib 授权机制研究与实现注意

2578
来自专栏智能计算时代

[云计算架构:Dynamics ] 多租户 或多实例 ?

Dynamics 365(在线)为您提供了隔离Dynamics 365数据和用户访问权限的选项。 对于大多数公司而言,在订阅中添加和使用多个实例可提供正确的功能...

2092
来自专栏SDNLAB

如何确保uCPE零接触部署

服务提供商正在努力用在通用客户端设备(uCPE)的标准平台上运行的软件来替换客户端设备(CPE)。他们还希望尽量减少在供应链和客户现场建立uCPE所需的步骤。在...

912
来自专栏BestSDK

如果你的APP没有这些漏洞,就说明成功了

用户卸载你的app的原因有时候很简单,也许是你的app经常突然崩溃,或者是app界面设计得不够直观,或者是用户需要填写的个人资料过多。 这是用户体验冲突的3个例...

2774

扫码关注云+社区

领取腾讯云代金券