前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >峰会回顾 | TOOP系统的200G至1200G演进历程

峰会回顾 | TOOP系统的200G至1200G演进历程

作者头像
鹅厂网事
发布2021-12-25 00:10:08
6870
发布2021-12-25 00:10:08
举报
文章被收录于专栏:鹅厂网事鹅厂网事

前言

11月19日第十一届网络平台部技术峰会在深圳圆满落幕。本次峰会围绕硬件研发、硬件加速、网络产品、网络运营四大领域,深度全面地展示了网络平台部不断精进的研发能力及探索成果。下面让我们共同回顾本次峰会中由硬件研发专家——李方超呈现的《TOOP系统的200G至1200G演进历程》的精彩内容。

从光电解耦到器件解耦,层层深入

首先,很开心的向大家宣布TOOP腾讯光网络平台项目从诞生到现在已经三岁了!从早期的一页PPT,到一次次的会议室讨论,一路走来到现在数据中心海量部署历经了漫长且艰辛的路程。

这三年来其实我们一直在做一件事,就是一路打破传统系统的封闭道路。传送系统其实和我们的交通系统很像。负责运输货物的货车就像我们波分系统的电层设备,负责将数据包装载进货车运送到指定地方再卸载分发;高速公路则像我们的光层设备,提供标准化的车道让负责运输数据包的货车安全形势并提供的安全保障。

TOOP最初从光电解耦开始,传送系统就像交通系统一样,早期商用系统就好比“路与车”的绑定,A厂商的车跑在A厂商的道路上才可以。通过解耦,我们先对光电进行解耦,即实现不同厂商的电层设备运行在我们自己的光层系统上,并在统一的控制器下进行管控,设备北向接口统一采用Tencent Yang模型。随后TOOP开始了自己“造车”的计划,由于可插拔相干器件的演进,体积小、功耗低、可插拔的DCO模块成为了我们首选的方案,并且TOOP在电层板卡的设计上原生支持多厂商DSP混合部署,实现相干器件级别的解耦,进一步增加竞争力。当然在“车”与“路”都具备后,我们将目光转向到了波长解耦,即道路的阡陌交通与纵横交错,如何实现物理层的软连接是未来的一个演进方向。

其实TOOP的一路走来,也很像我们的体育精神,它具备“更高、更快、更强的以及团结协作”的精神,从架构到运营建设,控制器开发团队与平台对接,团队协作才促成了TOOP的现网部署过千T,接下来让我们看看TOOP的更高、更快与更强。

单比特成本下降,集成度与工艺提高

TOOP的“更高”其实是追求更高的集成度与更高的单波速率。我们看到当前单载波400G系统的单位bit成本是早期单载波10G系统的1%不到,巨大的成本降伏来自于单波速率的提升,这就是我们在传送距离不变的前提下追逐更高速率的原因。究其原因是相干器件的发展——更高的器件集成度。

我们会看到在整个光网络产品成本之中,大头其实是我们的相干器件,它占到系统成本的77%,对比早期的400G产品采用分立器件方案设计、oDSP、调制器、接收端、放大器、窄线宽激光器等全部摊大饼一样散布在PCB上,相当于在板卡上做了一个相干光模块。每一个器件都来自于不同的供应商,每个器件也都要单独组装、封测收取该环节的利润,所以他的成本昂贵,其装配工艺、测试等相对成本也较高。

而随着半导体工艺及微光学技术的发展,分立器件慢慢形成了两个不同的道路,一种技术路线是采用磷化铟方案的集成光学前端产品ITTRA,将发射侧的激光器、调制器与接收机、控制器电路、微光学组件全部集成在一个金盒中,通过柔性板与电芯片连接从而实现400G 的可插拔DCO模块。另一条技术路线是调制器采用硅光方案实现,并且通过OE-MCM封装方案将COSA与oDSP一次通过封测生产,外接激光器与EDFA即组合成为可插拔DCO模块。两种方案都极大的降低了400G相干产品的复杂度,业务板卡设计更加简单、开发周期短,同时具备相干核心器件解耦的能力,以往传统板载MSA的方案想都不敢想解耦oDSP都而可插拔DCO面前迎刃而解。与此同时TOOP在400G板卡在设计时考虑并实现了支持多厂商混合应用,因此通过不同平台与不同供应商的CFP2-DCO模块可以在同一块板卡上混合使用,引入了新的竞争从而获取得更优的硬件获取成本,正是如此TOOP时刻追逐“更高”的集成度来获得更优的解决方案。

TOOP迎接摩尔定律与香农极限的双挑战

基于“更高”所带来的优势,在400G之后我们目光变转向下一代5nm芯片所带来的800/1200G。当然提升速率也会有各种限制,首当其冲的是摩尔定律,结合光器件工艺与限制,光的“摩尔定律”可能会延长到36个月左右才会有新方案落地。基本上是4年一代速率,每代速率两款芯片(高性能与低功耗),所以我们的产品思路也一样,一代高性能通过提升速率减少OT使用量降低成本,一代低功耗相同速率下降成本。

当然对波分系统来讲速率提升还有一个限制,即香农极限,简单来说任何信道都无法无限的增加信息传送速率。就像一条公路,单位时间内通过的车流量是有其最大值,这个峰值受车道宽度,车辆速度等约束条件的影响而影响,在特定的约束条件下公路有其单位时间内的最大车流量,这就是公路这条信道的信道容量。香农极限它告诉我们不能不考虑性能而一味的通过增加调制或提高波特率来获得更高的单波速率,所以我们会发现越高的单波速率传送的距离越短,因为其对系统性能要求越高。因此如何平衡这一点以及如何通过选定特定的系统速率与容量是成本取舍的一个挑战。

那应对高性能这一代的800G/1200G产品选择什么样的方案呢?我们从三个维度来平衡,调制码型、信号波特率与调制器技术,这三点决定了芯片的复杂度、功耗以及成本。

首先码型方面,我们希望电芯片具备可编程能力,即通过适应不同跨段的性能要求匹配对应的速率与系统容量,对于Metro应用我们自然希望的是在当前400G基础上速率翻倍甚至三倍。因此在Metro场景下16QAM是800G速率首选,对于DCI短距离场景64QAM 1200G速率是竞争400G-ZR的一个方案,考虑到不同光缆性能与距离因素通过概率星座图整形技术实现以100G为速率步进梯度从1200G—400G可调试因地制宜的能力;

关于波特率方面,从电芯片时间节点角度考虑5nm可能是未来2年的主流供应平台,3nm要看到24年前后,同时考虑到16QAM调制应对Metro的需求,因此5nm技术140G波特率光电芯片方案是一个首选;

调制器方面,面对140G波特率的挑战,我们发现硅光方案还可以面对这一代速率的挑战,OE-MCM的成本优势将得到延续。采用OE-MCM方案,即延续了400G 可插拔方案的成本,又能获得更高速率所带来的收益。这也是我们为什么会快速的从400G DCO向下一代速率演进的原因。

OPC,Optical Platform Chassis 升级成 Open Photonic Chassis

那TOOP的800G/1200G有什么不一样?

首先将充分发挥可编程的优势,早在400G平台上TOOP引入了Flex-grid解决方案,在140G波特率产品上将发挥这一优势,根据应用场景性能将自动适配相应的速率与谱宽,实现业务开通自适应功能;

其次TOOP产品也将延续“把复杂留给自己,把简单留给用户”的原则,硬件尺寸不变,打造超高集成度、低功耗的满足数据中心应用的产品,单子框容量从3.2T提升到9.6T,支持LLDP、SNCP保护等功能。

最后,TOOP的800G平台将支持C&L,注意不是C+L,是C&L,即无论是光层还是电层,TOOP升级直接扩展一倍光谱。单子框、单板卡,一块OTU同时支持C与L波段,即系统不区分C或L。TOOP硬件可以在10THz的光谱范围内任意调节所需的信道,支持C&L全光谱。长久以来L波段都作为外挂方案整合进系统,即C一套系统,L一套系统,虽使用同一对光纤但系统完全割裂,对于运维团队来说维护C+L相当于两套系统但还要耦合在一根光纤中。TOOP创造性的打造C&L系统,从OTU开始原生支持C&L光谱,管控层面与运维层面都是一套系统,合分波端口也取消了波长的概念,实现了合路侧的C与L的Colorless!

做减法是TOOP对传送系统的坚持,我们相信驱动产业发展的动力应该是革新,而不是一味减少人性化设计的低成本。相反繁冗的产品设计有时维护成本的增加会反噬硬件投资的节约,因此TOOP希望是减少CapEx的同时可以更大规模的减少OpEx,即网络规模倍增,让运维压力可控。

其实就如同我们所说的“更高、更快、更强”,TOOP通过持续的迭代,在400G ZR具备规模部署的情况下我们切到下一代速率,相同的OE-MCM方案,仅仅是5nm芯片的迭代,光学部分的变动不大良率依旧,因此我们相信模块的成本从BOM层面相比是相差不大的,更快的追逐下一代速率可能带来的成本优势更为显著。这也是为什么我们持续快速迭代,在带宽增长与成本的竞赛中,我们就像《与神同行》中在磨盘上奔跑的玩家,脚步慢了就会被碾压,因此这也是一种竞速。

花了大篇幅聊完了更高,更快与更强其实有些时候是类似的,互联网圈常说,“天下无功无快不破“关于更快,我们举一个例子。

倒换“更快”来自运营的需求,构建技术闭环

可能没有人比TOOP小组更理解保护倒换的奥义了,TOOP测试团队与交换机团队一起经历了上百万次的测试,我们找到了让faster than faster岂止于快?的办法。大家知道光缆中断其实是家常便饭,我们如何在光缆故障的时候抢通业务,如何让业务与服务无感知是传送系统所需要面对的挑战。由于光层保护是光缆的物理切换,光开关将切换选收信号的光缆,因此面对硬中断,切换的速度“更快”即数据流中断的时间越短,将显著降低业务感知的风险。

TOOP在400G平台引入了无损下插IDLE的方案,即在检测到OOF或LOF事件时,DSP暂停下插LF,而是改为下插IDLE,延迟下插LF信号,减少因为LF帧引起的交换机端口抖动bug。同时我们增加了色散差值的配置能力,即在DSP中配置色散搜索的起止范围(将2个路由的色散差值记录配置进DCO),减少因色散计算而产生的时间耽误,加速保护倒换故障的收敛时间。目前通过测试,TOOP的400G平台可以让交换机完全无感的度过保护倒换全过程,数据包丢失时间小于10ms,极大的减少了业务层面的感知,增加了系统稳定性。

TOOP的更强

TOOP一路走来是一个不停的自我挑战的历程,对于Open Line System能低成本的解决通信需求固然是好的,但是也要考虑系统容量和成本两者之间的博弈,随着速率提升,光电协同、灵活性、Zero-Touch、C+L等等增加了OLS系统功能的复杂度。这些需求让OLS系统可能相对系统厂商光层系统来说将更难设计,因为系统厂商知道自己的DSP的特点,可以取长补短,而OLS平台面对的是多厂商DSP,所以“更强”其实是持续的解决未来的挑战。

聊到这也就聊到了TOOP的未来,技术层面TOOP的未来会深入到光器件与电芯片领域,实现光电协同的目标。产品层面我们会继续坚持从运营中来到产品中去的特点,就像之前提及的“没有人比我们自己更了解我们的需求是什么”,我们会去提高更高的系统容量与可靠性,保持产品的竞争力与优势。

“Less is more,Light is more”,TOOP让我们的系统更高、更快、更强!

欢迎关注公众帐号“鹅厂网事”,我们给你提供最新的行业动态信息、腾讯网络最接地气的干货分享。

注1:凡注明来自“鹅厂网事”的文字和图片等作品,版权均属于“深圳市腾讯计算机系统有限公司”所有,未经官方授权,不得使用,如有违反,一经查实,将保留追究权利;

注2:本文图片部分来自互联网,如涉及相关版权问题,请联系sandyshuang@tencent.com

/

/

鹅厂网事/

分享鹅厂网络的那些事

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-12-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 鹅厂网事 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
Prowork 团队协同
ProWork 团队协同(以下简称 ProWork )是便捷高效的协同平台,为团队中的不同角色提供支持。团队成员可以通过日历、清单来规划每⽇的工作,同时管理者也可以通过统计报表随时掌握团队状况。ProWork 摒弃了僵化的流程,通过灵活轻量的任务管理体系,满足不同团队的实际情况,目前 ProWork 所有功能均可免费使用。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档