前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >深度:腾讯云数据中心网络是怎么升级改造的?

深度:腾讯云数据中心网络是怎么升级改造的?

原创
作者头像
了不起的云计算
发布2023-09-19 21:25:39
4730
发布2023-09-19 21:25:39
举报

在数据中心,网络就像连通各地的公路,承担着数据的传输作用。

网络的能力直接决定着数据中心的算力,尤其是随着AIGC时代的到来,人们对算力的需求越来越大,网络的升级改造也成为每个数据中心关注的重点。

那么问题来了,这张网络,到底该如何搭建呢?

谈到数据中心应对网络压力,没有人比腾讯更懂。今天我们就来看看腾讯云是怎么搭建这张网的。

在近日北京国家会议中心举办的ODCC大会上,来自腾讯的技术专家分享了腾讯云数据中心网络的发展过程。

腾讯数据中心网络进化三大阶段

事实上,从传统的计算网络到如今的高性能网络,腾讯的数据中心改造升级都是由关键的技术革新所驱动的。

分阶段来看,腾讯数据中心网络技术共经历了三代架构的三大阶段。

一、互联网服务驱动:腾讯最早靠QQ起家,在2006年的时候,腾讯的服务器总量低于一万台,那时腾讯网络架构基本上是通过商业设备和人工运维连接及打通整个网络,主要依靠人工方式运维。

然而到2010年的时候,腾讯QQ在线人数已经增长超过1亿,服务器规模更是增长超10万的需求驱动,腾讯形成了由互联网服务驱动的以南北向流量为主的第一代网络架构。

在这一阶段,腾讯通过与商业厂商的合作,通过商业设备以及工具支撑,快速将网络规模扩充到10万台左右,流量达到1个T,采用自动化工具进行监控,网络时延在10-100毫秒之间,丢包率为0.1%-2%,负载率达30%,网络故障处理效率基本上在15分钟完成。

二、云服务驱动时期:2015年以后,腾讯云快速发展。腾讯服务器规模达到了近200万台,数据中心内部的网络流量形成规模,这时进入了腾讯云的第二代网络架构,即南北向流量和东西向流量兼顾的架构。

在这一阶段,因为腾讯云上承载了很多第三方租户,第三方租户对服务质量非常敏感,一旦腾讯网络抖动将会形成对第三方业务的放大效应,甚至是灾难性影响。

为了降低设备故障对网络的影响,首先就是采用多平面,降低单一设备对整个故障的影响,其次在有了多平面、设备变多后,再用大型商业路由器则成本较高,腾讯开始定制网络设备,将路由器转为定制的交换机。在这个阶段,腾讯基本上采用定制设备、多平面以及SDN进行路由器控制,网络时延降低到500纳秒到1毫秒,丢包率为0.1%-1%,负载率为30%,任何故障可在一分钟之内得到恢复。

三、大规模算力驱动时期:在2019年到2020年的时候,随着腾讯云的快速发展以及用户的迅猛增加,腾讯虚拟机规模达到了千万,IPV6导致路由条目达到亿级,不论是交换机、路由器以及还是网络设计处理能力都达到瓶颈,腾讯云于是引入X86网关集群作为控制面,同时在骨干网引入了X86 NFV设备,用控制器完整地调度全网路由以及全网的配置分发和计算,腾讯也加速了网络设备的迭代及提高可运维性,主要采用白牌硬件以及开源操作系统,形成了全自主研发、可控的网络体系,这为2020年和2021年进入算力时代的网络架构变革做好了准备。

在算力时代的网络架构变革到来之际,腾讯的网络系统已经从传统网络系统过渡到分布式互联网业务系统,故障实现零容忍及自愈能力,基础设施可靠性以及可运维性及能力达到了新的阶段。

腾讯云星脉网络助攻AI大模型

在今年6月份,腾讯云发布的新一代 HCC 高性能计算集群,基于星脉高性能网络打造,可以实现 3.2T 超高互联带宽,算力性能较前代提升 3 倍,为 AI 大模型训练构筑可靠的高性能网络底座。

腾讯云专家表示:"如果说过去前两个阶段,我们是村村通的马路,解决大规模部署和广覆盖的问题,到了第三个阶段的星脉网络,我们解决方案就是高速公路,全自动化、无拥塞的高速公路。"

腾讯云通过自研设备搭建高速公路,包括自研的交换机、光模块等,可以做到更快迭代。

在硬件方面,星脉网络自研白盒交换机,这是一种软硬件解耦的开放网络设备,采用四层解耦体系,包括接入、转发、路由、管控系统;腾讯云还自研了网络操作系统,包括网络OS与网管平台,构建了互联底座,实现自动化部署和配置。

在软件方面,腾讯云自研的TiTa网络协议,能够实时监测并调整网络拥塞,TiTa网络协议能够提升40%的带宽负载,还能提供低延时无损网络,实现高负载下的0丢包,使集群通信效率达90%以上。

腾讯云专家将其与传统网络协议对比,称:"这是让有不同需求的人走不同的路,就不会导致堵塞了。"

此外,腾讯云还为星脉网络设计了高性能集合通信库TCCL,融入定制化解决方案,使系统实现了微秒级感知网络质量。结合动态调度机制合理分配通信通道,可以避免因网络问题导致的训练中断等问题,让通信时延降低40%。

腾讯云专家将其比喻为"导航系统",优化后的集合通信就像有了导航一样,可以快速找到最优路径。

为确保星脉网络的高可用,腾讯云自研端到端全栈网络运营系统。它可以让大模型训练系统的整体部署时间从19天缩减至4.5天,保证基础配置100%准确;通过端网立体化监控与智能定位系统,它可以进行离线故障诊断、在线故障实时告警,让整体故障的排查时间由天级降低至分钟级;此外,它具有秒级的故障自愈能力,端侧会主动发起路径选择,能够极速恢复网络故障。

在"星脉"高性能计算网络基础上,如今腾讯已经进行大模型的相关训练。以万亿参数大模型为例,在前年,100G网络训练相同数据需要50天;但在今年上半年,腾讯用七天时间就可以完成相同的训练。

腾讯云专家表示,在未来,随着数据集、参数不断增加,腾讯也有计划推出星脉2.0、3.0的版本,包括GPU的互联规模、带宽、计算加速等等环节。"到下半年,我们可能就会推出互联数据达到800G、1.6T带宽的解决方案。

星脉网络的应用场景和未来发展

综上可以看出,星脉网络是一种高性能、低延迟、高可靠性的计算网络,具有极高的通信效率和计算能力,适用于各种大规模数据处理和计算任务。在人工智能领域,星脉网络的应用场景非常广泛,主要包括大型模型训练、分布式任务协作、云游戏等。

对于人工智能领域的大型模型训练,星脉网络的高性能和低延迟是非常重要的。大型模型训练通常需要处理大量的数据和复杂的计算任务,而传统计算网络的带宽和延迟往往无法满足这些需求。采用星脉网络可以解决这个问题,提高模型训练的速度和效率,节省时间和计算资源。

此外,星脉网络可以支持分布式任务协作,实现计算任务的并行处理,进一步提高计算效率。

对于云游戏这样的场景,星脉网络的优势也十分明显。云游戏需要处理大量的游戏数据和音视频数据,而传统的计算网络的带宽很难满足这些需求。而通过采用星脉网络,可以提高数据传输和处理的效率,让游戏更加流畅,提升用户的游戏体验。

可以说,未来星脉网络在人工智能领域的应用场景非常广泛,并且取得了显著的效果。通过优化网络性能和通信效率,星脉网络可以提高大型模型训练、分布式任务协作、云游戏等应用场景的效率和性能,实现更加高效、稳定和可靠的计算网络环境。

未来,星脉网络将继续升级,以更高效地处理大规模数据处理和计算任务。高带宽率和高网络负载下的稳定性也是网络优化的重点之一。腾讯云将采用更加先进的技术和算法,构建更加效率、稳定、可靠的计算网络,以满足各种复杂的计算任务的需求。

腾讯云将投入更多的资源,继续推出创新的人工智能技术产品。以计算、网络和人工智能技术的融合为方向,腾讯云将致力于深入AI技术应用的研究和探索,不断实践和创新,为推动人工智能技术的发展,为智能化未来做出更大的贡献。

总结

好了,就到这里,以上就是关于腾讯数据中心网络改造的介绍。

腾讯云在数据中心网络改造升级方面有着领先的地位和不断投入的创新研发精神。利用自主研发的星脉网络和其他优秀的人工智能技术产品,为用户提供最优秀的数据中心网络产品和服务。

未来,腾讯云将持续深入研究AI技术应用,不断地实践和创新,推动人工智能技术的发展,帮助企业快速决策,加快迈入数智时代。

END

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
高性能计算平台
高性能计算平台(TencentCloud High Performance Computing,THPC)是一款腾讯云自研的高性能计算资源管理服务,集成腾讯云上的计算、存储、网络等产品资源,并整合 HPC 专用作业管理调度、集群管理等软件,向用户提供弹性灵活、性能卓越、自助化的计算服务。可以帮助您高效地管理云上高性能计算资源,实现弹性使用云上高性能计算资源的需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档