在《碟中谍5》中有这样一个场景:一座位于摩洛哥的数据中心被直接“泡”在了水里,为了让自己的技术支持班吉·邓恩通过一个需要步态识别的走廊,阿汤哥纵身一跃,跳入了漩涡之中,顺着水流就被推入了计算机中枢,从而黑掉了安保系统……
这部电影的上映时间是2015年,场景看似科幻,但其实就在同一年,阿里云已经开始进行浸没式液冷技术的概念验证。
所谓浸没式液冷,就是将布满密密麻麻红黄色线头的服务器浸泡在水一样的液体里,只是这些液体并不是普通的水,而是特殊的绝缘冷却液,服务器运算中产生的热量被冷却液吸收后,再进入外循环冷却。
数据中心的能耗大致由通信及网络设备、供电配电系统、照明及辅助设备和冷却系统组成,其中冷却部分的能耗约占数据中心总能耗的40%左右。
以往由于风冷成本低、部署简单,一直被广泛使用。但近年来,随着高密度计算兴起,芯片、服务器性能和单机柜功率密度持续提升,浸没式液冷开始受到青睐。
以阿里云在杭州的云数据中心为例,作为国内规模最大的全浸没液冷集群,整体节能超70%,年均PUE低至1.09。相比传统数据中心,每年可以省电7000万度,相当于西湖周边所有路灯连续点亮8年的耗电量。
尤其是今年2月,我国“东数西算”工程正式全面启动。其中,提出了三个发展方向:绿色节能、算力调度、安全可靠。绿色节能被放在了优先位置。
“无论从政策角度、市场需求还是技术成熟度来讲,均标志着数据中心进入‘液冷时代’。”中国电子节能技术协会秘书长吕天文此前在2022数据中心液冷技术研讨会上说道。
数据中心的概念起源于20世纪50年代末,当时美国航空公司与IBM合作,创建了一个属于美国Sabre公司的乘客预定系统,使其主要商业领域的这一部分变得自动化。
不过,早期的数据中心还只能靠几台大型主机完成本地数据计算,不仅不能做分布式运算,也无法对外提供服务。直到90年代中期,互联网出现并对市场产生了巨大影响。随着公司对互联网业务应用的支撑需求,数据中心作为一种服务模式为大多数公司所接受。
2010年以后,随着云计算技术的兴起,云数据中心又逐渐走进了大家的视线。与之前相比,云数据中心的基础设备更加规模化、标准化和智能化,建设成本更低、承载的业务更多。
回顾数据中心发展历史不难发现:数据逐渐成为了新型生产要素,对于生产力发展的重要性在不断提升。
在我国,自2020年数据中心被纳入“新基建”以来,各地数字化相关产业发展浪潮愈发风起云涌。在日前举办的世界5G大会Tech-Talk2022前瞻论坛上,国家信息中心信息化和产业发展部主任单志广表示,全国国家数据中心集群建设中,2022年新开工项目25个,投资超过1900亿元。
不过,数据中心的繁荣,也带来了一系列问题,比如需要占用更多的场所、增加能耗等等。在首届“东数西算”粤港澳大湾区(广东)算力产业大会上,南方科技大学清洁能源研究院院长、澳大利亚国家工程院外籍院士刘科在大会现场表示,飞速增加的数据中心带来了飞速增加的能源消耗,截至2020年底,中国数据中心耗电量已经突破2000亿千瓦时,能耗占全国总用电量的2.7%,预计2022年耗电量将达到2700亿千瓦时。
这一能耗量之所以引人关注,可以从一组对比数字看出端倪。截至2020年12月31日24时,三峡电站2020年全年累计生产清洁电能1118亿千瓦时。也就是说,2020年数据中心一年的耗电量相当于当年两个三峡电站的发电量。
宏观的能耗数字凸显了问题的急迫性,而细微的能耗环节则让摸清能耗来源以及寻找解决方案更加有的放矢。
众所周知,数据中心的载体是一个个IT设备,而所有IT设备的计算能力是由芯片来决定。从目前来看,整个服务器的主流芯片的功耗是不断增长的,甚至在最近几年出现了一个斜率相当大的上升。随着服务器芯片的功率从100W、200W增长到350W、400W,服务器的功耗会有一个翻倍的增长,这就决定单机柜功率密度从最早的4KW、6KW增长到15KW到20KW。
不久前,在2022英特尔中国数据中心合作伙伴技术峰会上,英特尔数据中心平台技术与架构部中国区总经理王飞透露,2025年英特尔预计有50亿颗CPU核心投入运营。这就意味着,一方面算力的发展在支撑着数据中心、数据经济和全球经济的发展;但另一方面,这也会给全球经济的可持续发展,以及数据中心的节能减碳带来更多挑战。他介绍说,2030年数字中心将消耗全球3%-6%的电能。
显然,在这样的趋势下,传统的风冷方式已经无法满足数据中心的散热和制冷需求。“目前,风冷技术仍然被大规模使用。随着我们对风冷技术的不断增强,比如说增加它的体积、面积、热管技术和各种先进技术,以及在数据中心级跟机架级和节点上做各种优化,数据中心的PUE也可以降到1.2左右。 但之后我们也发现,即使有这么多的优化,仍然有高达20%的能耗浪费在数据中心的散热和维护上面,另外还要加上系统风扇的能耗。这对于减碳目标来说,仍然不够理想。”王飞说道。
一边是数据中心革新能效的自我驱动,另一边,随着双碳目标的确定,从中央到地方,均将限制高PUE写入政策,对数据中心的监管更加严格。
什么是PUE?PUE是数据中心总能耗与IT设备能耗的比值,基准是2,数值越接近1代表其用能效率越高。一般来说,对数据中心的的评价指标主要有三个,分别是PUE(电能利用效率)、可再生能源结构比例以及碳排放量。其中,PUE是主要的政策抓手。
6月,工信部等六部门联合印发《工业能效提升行动计划》,该计划中指出:到2025年,新建大型、超大型数据中心电能利用效率优于1.3。
过去数据中心作为地方政府的经济抓手,广受欢迎。近几年,各大一线城市已经纷纷对数据中心的节能指标做出了严格的要求。
北京在《北京市新增产业的禁止和限制目录(2018年版)》中明确规定,全市禁止新建和扩建PUE大于1.4的数据中心。上海在《上海市推进新一代信息基础设施建设助力提升城市能级和核心竞争力三年行动计划(2018-2020年)》中指出,新建数据中心PUE要限制在1.3以下。
相比之下,深圳则最为严格。在《深圳市发展和改革委员会关于数据中心节能审查有关事项的通知》中强调,只有PUE低于1.25的数据中心才可以享受新增能源消费量40%以上的支持。
从地方政府态度不难看出,GDP产值固然重要,但更重要的还是单位能耗的GDP产值要上升。对于身处其中的企业来说,既然传统风冷逐渐无法满足数据中心散热需求,那就必须找到一种合适的技术,完成经济效益和发展效益的平衡。
早在2015年,正在做云计算以及推广的阿里云意识到算力的迅速增长对未来的挑战。这个挑战不光是芯片本身的散热问题,同时也有数据中心能耗大幅度增长的问题。
“当时我们就认为未来一定需要找到一种合适的技术,做到充分释放计算的潜能,同时也可以做到可持续发展。”阿里云服务器研发资深技术专家钟杨帆在2022英特尔中国数据中心合作伙伴技术峰会说道。
当时,液冷的概念刚刚出现不久。于是,阿里找到英特尔开始共同投入研究液冷技术。“当时也是一个摸索,我们对市面上所有液冷的方向和技术都做了探索和实践,包括冷板的技术,两相、单相的技术,也做了一些样机和试验。”钟杨帆说道。
作为技术服务商,英特尔围绕浸入式液冷所面临的材料兼容性、电气信号完整性、芯片散热特性、服务器系统散热特性、服务器及机柜结构设计等课题,从处理器定制和服务器系统开发与优化着手,突破芯片功耗墙功耗和冷却两大影响算力提升的关键问题,使得液冷服务器在阿里云数据中心从实验逐渐发展到大规模部署。且英特尔对液冷技术的研究不仅于CPU,对FPGA等部件在液冷条件下的兼容性验证也有相关的研究。
2016年,阿里云首发了浸没式液冷系统。2017年后不断扩大规模,2018年建成首个互联网行业最大规模浸没式液冷服务器集群,开启了浸没式液冷的正式商用。2020年,阿里云又投产了首个5A级绿色液冷IDC。
从2015年探索开始,至今7年的时间,阿里云为何会从众多的实验路线中选定浸没式液冷路线?
与传统的风冷服务器相比,液冷技术一方面存在能效上的优势。因为它有更好的热捕获能力,对于浸没式液冷来说,甚至可以达到100%的热捕获能力。据钟杨帆介绍,在液冷技术的加持之下,阿里云的浸没式液冷数据中心的PUE甚至可以降到1.09左右。而传统风冷的年均PUE则是1.5,相比之下,能耗下降了34.6%。
另外,随着整个数据中心能耗的提高,能源或者热能的回收再利用也成为一个非常重要的话题。对于数据中心来说,在理论上它产生的热能都可以被回收再利用,如果可以做到比较好的热能捕获,就可以回收再利用,甚至销售由这些热能转化的能源,而液冷技术恰恰可以更好地支持热能的捕获和回收再利用。
除此之外,由于液冷的热传导效率比传统的风冷要高很多,因此能突破传统风冷制冷能力的瓶颈,从而让单机柜功力密度提升了很多。钟杨帆介绍说,传统风冷技术下,单机柜一般是10KW左右的散热能力,但采用全浸没液冷技术可以做到100KW以上。
再加上浸没式液冷数据中心在地域上并不“挑剔”,具有更强的普适性,因此布局难度有所降低。在浸没式液冷技术下,设备处于较低温度运行,再加上取消风扇后没有了震动,设备的可靠性进一步提升,噪音进一步减少。阿里云通过实际的运行实验发现,浸没液冷技术能够让设备的故障率下降50%。
根据MordorIntelligence的报告,2020年全球数据中心浸没式液冷市场的整体规模为2.97亿美元,预计到2026年将达到7.03亿美元,期间复合年增长率为15.27%。
数据中心浸没式液冷技术发展迅速,优势也显而易见,能突破散热瓶颈,实现更优能效比,但真正应用的企业并不多,即使是在数据中心领域有着非常大技术投资的互联网巨头,也没有真正规模化应用这项技术。这就意味着浸没式液冷技术的研发就像行走在“无人区”,前面没有领路人,很多技术方向都是需要摸索,也就不得不面临技术难度、成本偏高、缺乏标准化,还有腐蚀、漏液等问题。
浸没式液冷技术的原理是用液体去代替空气进行换热,它同传统的风冷技术相比,革命性的地方不只是散热方式的变化,还会涉及到整个数据中心的生态,服务器、网络设备、监控乃至数据中心整体设计都将被改变和重新定义。“比如不导电的液体有很多种,哪种液体能够满足长期演进和长期使用?RD设备放在液体中是否能够长期稳定工作?甚至如何运维等等。”钟杨帆说道。
为此,阿里云联合了全球数十家合作伙伴,从芯片到服务器整机到机柜再到数据中心等多个供应商。比如芯片的重要合作伙伴是英特尔,其第三代英特尓®至强®可扩展处理器、以及高性能可编程芯片FPGA等产品都需要在浸没液冷系统中高效并可靠地运行。通过联合供应商联合研究开发验证,一点点地迭代部署来发现问题,解决问题,从而实现规模化部署。
处于行业初期,供应链、生产链并不健全导致标准也缺失,比如业界对液冷材料兼容性、液冷产品材料选型、浸没液冷机柜和服务器结构、光模块等均没有规范标准。“如果没有标准,特别是行业标准,就没有规模经济,就很难降低成本,也就很难做到复用去支持可循环经济的产业链的发展。”王飞说道。
为了推动行业标准发展,阿里云先是在去年与中国信通院云计算与大数据研究所、OPPO共同发起“浸没液冷智算产业发展论坛”,并在今年5月举办的第一届浸没液冷智算产业发展论坛上,发布了新的浸没式液冷技术的三大技术标准和两项白皮书。
英特尔则是发起成立了绿色数据中心技术创新论坛,集合20家ICT产业上下游厂商,横跨多个领域,覆盖整个数据中心产业链。该论坛的成立,旨在通过技术创新和产业合作,加速数据中心运营模式的绿色转型,推动数据中心节能减排、可持续发展,支撑数字基础设施建设、碳中和计算,实现碳达峰、碳中和的“双碳”目标。
另外,对新技术的引入、研发等存在成本。浸没式液冷系统的部署成本不仅包含液冷设备罐体和冷却液的价格以及后续的维护成本,还包括泵、换热器、过滤器、传感器等一系列用来满足液冷系统设计实践的其它设施的改造和维护成本。尤其是对于那些已按照风冷系统建设完成的数据中心来说,改造成本往往是巨大的。据了解,当前由于浸没式比起传统方式初期投入构建成本高,大约都有几倍的价差。
为了解决成本高昂的问题,据TomsHardware报道,英特尔持续研发浸没式液冷散热解决方案,让数据中心更多地采用浸没式液冷散热,同时不需要耗费大量资金设计定制解决方案,这将大幅度降低成本及碳排放。
任何技术在发展初期,具体发展道路都是曲折的、迂回的,伴随着数据中心节能减碳的需要与高密度数据中心的发展,政策驱动、巨头出手,数据中心浸没式液冷正进入大规模商用加速道。(本文首发钛媒体app 作者|韩敬娴)
头图片来源:intel
领取专属 10元无门槛券
私享最新 技术干货