软硬解耦,大道至简

"鹅厂网事"由深圳市腾讯计算机系统有限公司技术工程事业群网络平台部运营,我们希望与业界各位志同道合的伙伴交流切磋最新的网络、服务器行业动态信息,同时分享腾讯在网络与服务器领域,规划、运营、研发、服务等层面的实战干货,期待与您的共同成长。

网络平台部以构建敏捷、弹性、低成本的业界领先海量互联网云计算服务平台,为支撑腾讯公司业务持续发展,为业务建立竞争优势、构建行业健康生态而持续贡献价值!

光信息网络已经成为国家重要的信息基础设施,奠定了是智慧城市的发展基础,也支撑着下一代互联网、移动互联网、物联网、云计算和大数据等战略性新兴产业的发展,同时,在智慧安防、智慧医疗、智慧交通,智慧物业、智慧家居、信息消费等众多领域,都有光信息技术的重要应用。“光”与我们的生活息息相关,也是人工智能以及 “数字化、网络化、智能化”制造等新一轮科技革命和产业变革的核心所在。“中国制造2025”、“宽带中国”、“一带一路”等国家战略的提出和实施为光通信领域制造了前所未有发展新机遇,更是为中国光纤光缆企业“走出去”,参与国际竞争提供了有力的政策支撑。

在此背景下,由中国光学工程学承办“第二届光信息与光网络大会”于2018年5月23日在北京亦创国际会展中心召开”。

腾讯受邀作第二届光信息与光网络大会主题演讲,网络平台部架构师李方超从腾讯自身光网络发展过程中遇到的问题与挑战、解决方式及未来发展几个议题展开了讨论,分享了相关的想法。

以下是腾讯主题演讲内容:

随着无线通信的飞速发展,移动互联网也进入了爆发式的增长,随之而来的是流量的爆发式增长,更多的数据中心投入使用,覆盖更广泛的区域并尽可能的靠近最终用户。随着数据中心在超一线城市的规模投产,越来越多的资源问题导致我们无法按照期望去规划建设大规模DC,一线城市的地、水、电等资源问题导致几十万台服务器需要分布在数座相对小规模的DC之中。也正是因为这样,多座DC之间的大量业务交互崔生了metro光网络的发展,原本DC内部的流量由于DC的分布而变为了DC间流量,如此一来给我们光网络也带来了巨大的挑战。

随着交互带宽的飞速增长,传统OTN设备在数据中心内应用的缺点愈加显著。传统OTN设备从体积、散热、能耗及成本方面都对DCI互联应用带来了困扰。安装时需要对现有数据中心机柜进行拆除替换、供电系统也需要改为-48v直流系统,同时传统电交叉设备的复杂度与成本均都居高不下,对CAPEX与OPEX带来了巨大挑战 。

通常,为了降低CAPEX,我们会引入竞争的方式,通过多供应商的竞争来降低硬件采购成本。但是引入多厂家竞争的同时会增加更高的学习成本,导致OPEX有很大提升。不同厂家的设备网管差异性很大,导致运维团队需要熟悉每一个供应商的网管与硬件产品后才能完成日常的运营需求。随着光网络的规模增长,OPEX的增长愈发明显。

盒式波分(pizzabox)替代传统OTN设备 + 集中网管屏蔽多厂家网管差异化的思路成为了过渡期的一个解决方案。Pizzabox盒式波分因为其结构简单、形态及电器规格符合DC设计要求的特点,引入后降低了我们硬件的采购、改造、建设、维护的成本。从管控角度来看,此解法虽降低了运维人员的学习成本,但不同厂家网管的差异性变相转嫁给了开发人员,网管开发人员需要对每一个厂商的网管进行适配工作,这个痛点也是我们正在着手解决的一个重点。

在暂时解了管控难题与硬件成本的难题之后,我们继续在低成本、低管控复杂度的方向进行尝试。我们汇总统计了城域DC之间的距离分布情况,发现近半数的DC间距离在60km以内。我们尝试用QSFP28的Color-Z方案部署在带宽需求可控的园区间(PAM-4单纤容量4T),节省了波分侧的Transponder,进一步降低成本,但目前看到由于容量限制问题,所适用的场景较少。未来若QSFPDD56可提供400G-ZR时,彩光方案可能具备更会有较大的吸引力。对于超过60km或光纤损耗较大的跨段间,采用盒式波分进行覆盖,这样综合两种场景得到成本最优解。

从城域的采光+Pizzabox的尝试中我们发现,其实光层才是管控复杂的问题所在。不同厂家的光层存在着巨大的差异性,这种差异性导致网管建模、工程建设、系统运维等一系列场景的差异和难度。因此我们开始着手寻找解决方案,根据运营、建设的需求与未来彩光、盒子波分的混合组网需求,我们开始设计符合我们需求的OLS系统,即符合低购买成本、低学习成本、低复杂程度、具备智能化、人性化及故障替换便捷化的产品。

我们按照功能逻辑重构了光网络。系统逻辑分为四个单元,波长产生单元(Pizzabox),波长传送单元(光层基础设施),波长调度单元(二期实现WSS+OXC),子波长调度单元(OXC 二期实现)。控制系统采用基于ODL平台开发的SDN控制器,其通过Netconf协议管控全网资源,实现整个系统的傻瓜化、极简化与标准化。我们会根据OC-YANG的模型,在增补部分未包含的模型后输出我们自己的模型给到可以支持的厂商,厂商进行相应适配后即可无差异化的加入SDN控制器的管控逻辑下,实现对运维层面屏蔽硬件差异化的目标。这样,从源头实现了差异化的屏蔽,也无需多次的兼容适配,对于厂家来说由于OC-YANG的大部分模型已经具备,仅需做少量工作即可完成标准化的适配。在此基础上,我们通过Telemetry对设备进行PM数据采集。采集周期从传统设备的15分钟/24小时,提高至秒级。通过算法适配,我们可以实现对故障的预判,例如激光器寿命到期、光缆缓慢劣化至中断(数秒内)等故障的提前动作;可以做到对全网的业务性能的动态检测诊断,相比以往,我们可以减少故障受损的时间。同时整个OLS系统的设计考虑了人性化需求,即光纤防错插、减少连纤数量等设计,最大程度的提高可运维性,降低学习成本。

我们针对开放光层的设计想法是,大道至简。控制器承担更多复杂的事情,但硬件本身采取简洁化设计,整个系统采用自上而下的方式进行数据定义设备,实现数据通道标准化、数据模型标准化、甚至最终的设备形态标准化。减轻日常运维的压力,同时降低整网的故障收敛时间,减少业务受损时长。后续我们会发布详细的关于OLS的相关内容,也会将我们的管控平台及部分硬件逻辑进行开源以回馈社区,欢迎随时关注我们的动态。

欢迎关注公众帐号“鹅厂网事”,我们给你提供最新的行业动态信息、腾讯网络与服务器最接地气的干货分享,还有一大波互动交流板块和有奖活动正在筹备当中,需要您的热情参与哦,敬请期待!

注1:凡注明来自“鹅厂网事”的文字和图片等作品,版权均属于“深圳市腾讯计算机系统有限公司”所有,未经官方授权,不得使用,如有违反,一经查实,将保留追究权利;

注2:本文图片部分来至互联网,如涉及相关版权问题,请联系v_huanjian@tencent.com

原文发布于微信公众号 - 鹅厂网事(tencent_network)

原文发表时间:2018-05-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

BAT 机器人落地,人工智能应如何崛起?

人工智能需要拥有与我们一样的三观。 新智元点评 2015 百度世界大会的报道引发全球关注,今天英国金融时报 FT 的记者也通过【新智元】的相关报道针对中国人工...

3779
来自专栏大数据文摘

互联网教父凯文·凯利:大数据时代没有旁观者

1763
来自专栏钱塘大数据

推荐收藏丨大数据公司挖掘数据价值的49个典型案例

本文是近年来不同行业、不同领域的大数据公司的一些经典案例总结。尽管有些已经是几年前的案例,但其中的深层逻辑对于未来仍有启发。

1684
来自专栏华章科技

凯文·凯利:大数据时代没有旁观者

日前,互联网教父、科技商业预言家的凯文·凯利在斯坦福大学进行长达3小时的分享,畅谈他对未来20年重大科技商业潮流的见解。以下为演讲内容整理干货。

842
来自专栏华章科技

大数据公司挖掘数据价值的49个典型案例(值得收藏)

本文力图从企业运营和管理的角度,梳理出发掘大数据价值的一般规律:一是以数据驱动的决策,主要通过提高预测概率,来提高决策成功率;二是以数据驱动的流程,主要是形成营...

1423
来自专栏CDA数据分析师

如何开始商业分析生涯

文 | KUNAL JAIN 翻译 | 沙拉丁 译文版权归翻译者和CDA数据分析师共同所有,转载请留言申请授权 每当我参加数据分析相关论坛或者在与学生交流的...

2397
来自专栏编程

程序员真的干到 35 岁就干不动了吗?

很多人说程序员职业生涯很短,35岁就干不动了?下面分享两个大神的体验 一 ? 好吧,暴露年龄就暴露年龄吧。 今年40岁,一直做软件相关工作。除了刚毕业写过几年代...

2107
来自专栏一名叫大蕉的程序员

事情并不是非黑即白的 No.84

最近看了一本书《精进》,有一段话觉得很有收获,分享给大家。很多人都被自己的思维框架限制地死死的,认为一切都是非黑即白的,但其实不然。 有小伙伴觉得工作跟学习是互...

39512
来自专栏Java后端技术栈

从码农到工程师:看一下这6点!

许多程序员自称码农,因为每天事情总也做不完,而这些工作也没有给自己带来职业上的提升,总在原地打转,自己的工作似乎随时可被新人替换,可有可无。于是,年轻些的考虑着...

941
来自专栏玉树芝兰

你该不该清理“不常联系的”微信好友?

这样的标准还远远不够智能。估计十个人里至少有九个不敢把自动筛选出来的所有人都“处理”掉。微信也清楚,所以把结果抛给你,让你以人工方式对结果做出甄别。

1092

扫码关注云+社区

领取腾讯云代金券