前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >融合开放,数以智用——第九届腾讯数据中心分享日在广东清远举行

融合开放,数以智用——第九届腾讯数据中心分享日在广东清远举行

作者头像
腾讯数据中心
发布2023-05-04 11:40:08
9530
发布2023-05-04 11:40:08
举报
文章被收录于专栏:腾讯数据中心腾讯数据中心

4月20日~21日,第九届腾讯数据中心分享日暨腾讯数据中心开放日在广东清远举行。此次分享日聚焦“融合开放,数以智用”的主题,邀请21家省市运营商和14家IDC合作伙伴共同参会,深度介绍腾讯数据中心运营技术和体系建设的最新探索和实践。次日,与会嘉宾共同参观了腾讯清远第四代T-block数据中心园区。

    4月20日,腾讯数据中心分享日

过去十余年,在信息化和数字化浪潮下,数据中心行业经历了持续高速的发展。数据中心建设规模、建设模式、系统架构、设施设备各方面都取得了持续创新与突破。腾讯数据中心历经20余年四代数据中心技术的发展,在华北、华东、华南、西南建立了以T-block为核心技术的超大规模云数据中心园区和集群布局。

与此同时,腾讯数据中心始终致力于数据中心运行维护、运营保障的探索与实践,在全国范围内,积极推进与各运营商、IDC合作伙伴共同开展联合运营,探索联合运营最佳实践。本次腾讯数据中心分享日,通过六个专题分享,聚焦数据中心基础设施运营安全保障。

融合开放,固本强基——腾讯数据中心健康度评估体系

腾讯数据中心运营技术负责人张海涛深度介绍了腾讯数据中心健康度评估体系,通过系统架构、设施设备、运营体系、运行维护、节能优化等多个维度建立一种通用、标准、客观、可持续的数据中心综合情况评估体系,对每一个数据中心进行画像。数据中心健康度评估作为联合运营的重要举措,可以助力数据中心运营管理水平的提升,帮助现场发现并消除机房潜在风险,最终为客户提供更加安全、稳定、优质的服务。

融合开放,全准精快——腾讯数据中心FOC集中化运营实践

腾讯数据中心服务台负责人王嵩介绍了腾讯数据中心集中化运营的发展、现状和未来规划。同时分享了与运营商、IDC合作伙伴携手共建联合监控运营体系的方法和实践经验,针对集中化监控运营面临的老大难问题——监控覆盖不全、数据质量不够准、告警风暴难处理、告警质量不够好,提出了全、准、精、快的监控运营诉求。倡导建立和完善深度联合运营机制,推动集中监控和实操工单联动,共同保障数据中心基础设施运营安全、稳定和高效。

融合开放,节能先行——南方高温高湿环境下数据中心节能案例分享

来自深圳联通的动力维护专家余杰,以联通-腾讯深汕合作数据中心PUE优化项目为例,系统的介绍了南方高温高湿环境下数据中心节能优化的实战经验。深圳联通与腾讯联合运营团队,通过数据中心能耗分析、不同模组对标分析,在确保数据中心运营安全的前提下,对冷水主机、冷却塔、水泵、末端空调、BA群控、气流组织等进行靶向控制,取得突出成果——深汕2#楼连续三年PUE低于1.25,且呈逐年降低趋势,并获得国家绿色数据中心、国资委“碳达峰碳中和”典型案例二等奖等多个奖项。

融合开放,行稳致远——万国数据的数据中心运营实践分享

“99.9999%,百万分之一的概率;死守必失,最好的防守是进攻”,万国数据设计及运营副总裁梅义,从生存法则、发展内核、终极一战三个维度阐述了万国数据“以终为始,持续推动IDC从工程产品走向工厂产品,快速迭代OS内核管控能力,安全运营,使命必达”的运营管理理念。

同时他分享了万国数据-腾讯多年来,全国多区域的深度联合运营实践。在监控对接方面,双方充分信任,腾讯数据中心服务台与万国数据零报系统对接,实现了告警、事件、变更的联动响应;联合运营上精诚协作,日常运行维护、变更、演练、节假日重保、告警与事件响应方面深度互动。通过开展高危设备联合巡检,数据中心健康度评估,发挥双方的人员、技术优势,实现1+1>2的合作共赢;同时,在保障运营安全的基础上也保持极致追求,共同推进节能优化探索,2019年深圳光明数据中心获评ODCC运行类5A绿色数据中心。

数以智用,节能无忧——基于AIOps的AI节能开放架构

腾讯数据中心智维研发Tech Lead杨朴介绍了,一站式数据中心AIOps运营平台,该平台基于“可知、可靠、可控”的人工智能理念,融合物理机理和数据驱动构建可知制冷系统模型,并通过安全沙箱和白盒逻辑设计,确保AI总在暖通专家设定的边界内寻优和可靠控制。同时针对AI+BA控制系统的潜在失效模式制定40多个“What-If”的演练场景和应急预案,确保运营专家总是处于对暖通系统的掌控地位。

AIOps在华南两个MDC模组全自动安全运行2300多个小时,在原PUE1.28已经比较低的基础上,AI节能实现平均制冷效率再提升12%。实践证明当AI模型预测精度突然下降时,现场排查出皮带松动或过滤网堵塞等风险隐患。我们将在下阶段推出AIOps评估系统动态可靠性能力实现预测性维护,并创新提出融合模式序列和动态仿真探索可解释的AI。最后展望开源数据集与开放仿真平台,建设AI节能开放架构标准,推动AI节能模型成熟度评估。

数以智用,低码驱动——FRE线上化运营实践及GPU机房运营浅析

腾讯数据中心运营自动化推进负责人熊操指出,随着数据中心规模和体量的不断提升,数据中心对安全、可靠、智能、高效的要求也越来越高,腾讯将数据中心运维工程师全面升级为FRE(Facility Reliability Engineering, 基础设施可靠性工程师)。基于腾讯智维、Dc-ops、业务开发的三层开发模式下,FRE自行设计、开发、自部署、优化各种运营流程和工具,大幅提升了业务的线上化进度和现场工作效率。在日常工作中,FRE通过将运营经验沉淀到代码中,开发了一系列的机器人、工具、流程,提升数据中心经理信息获取、事务推进、人员管理的效率。在巡检和维护上,FRE针对现场的实际情况,自行优化和开发了线上化的系统和功能,提升了巡检、维护落地的质量和效率。

同时,因为等AI应用的应用落地带来的GPU服务器部署需求增长。腾讯数据中心针对GPU服务器高价值、高功耗、高重量、高噪音、高定制等特点,分享了腾讯数据中心的应对策略和保障方案。

4月21日,腾讯数据中心开放日

嘉宾参观T-block园区

2020年7月,腾讯清远云数据中心正式开服,该园区是腾讯清远百万服务器集群的首个开服园区,也是腾讯第四代数据中心技术T-block在全国试点后的首次大规模建设投产。

嘉宾参观腾讯GIOC

2022年12月,腾讯全球基础设施运营中心(Global Infrastructure Operation Center,简称GIOC)在深圳腾讯滨海大厦和清远清新数据中心揭牌投运,以两地双中心的架构支撑腾讯网络、服务器、基础设施集中监控和运营。

嘉宾参观腾讯实训基地

腾讯清新实训基地由IT实训室、基础设施实训室组成,主要配置T-block、TMDC、腾讯自研服务器和网络设备。涵盖设备硬件拆装、设备维护操作、故障复现排查、线上诊断与线下操作联动修复等场景,用于腾讯数据中心全球运维人员实训、演练、技能比赛。

嘉宾参观绿色循环再利用基地

腾讯倡导国家“绿色低碳”战略,承诺不晚于2030年实现自身运营及供应链全面碳中和。于2022年6月在清远清城建成“绿色循环再利用基地”,实现服务器、电子类产品等绿色循环再续“生命周期”,同时融合腾讯数字化,助力自身运营及联动供应链打造成为绿色循环再利用生态链标杆企业,2022年绿色循环基地作为腾讯碳中和实验点,节省碳排放量约十万吨,同时在物流、回收和包装等方面积极推动全链条绿色低碳、环保增效。

展望

移动互联网的发展带来了数据中心发展的黄金十年;当前,ai引发的新浪潮,将带来更多的趋势变化,诸如海量的云计算、数据隐私与安全、自动化与智能化、可持续性和能源效率、边缘计算等。ai已经给数据中心行业带来了更多的挑战和机遇,腾讯数据中心将一如既往,以融合开放的心态,致力于联合行业IDC先锋共同探索运营保障体系和技术最佳实践,共同打造可靠、低成本、智能化、业界领先的数据中心基础设施助力数智化升级,为数字经济发展强根筑基。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-04-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯数据中心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
GPU 云服务器
GPU 云服务器(Cloud GPU Service,GPU)是提供 GPU 算力的弹性计算服务,具有超强的并行计算能力,作为 IaaS 层的尖兵利器,服务于生成式AI,自动驾驶,深度学习训练、科学计算、图形图像处理、视频编解码等场景。腾讯云随时提供触手可得的算力,有效缓解您的计算压力,提升业务效率与竞争力。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档