超大规模数据中心网络

一、计算模式的演进 图 1 计算模式的演进

计算纪年:

1、大型机时代:20世纪60~70年代,计算机体积大、价格高,支持成百上千用户同时操作。

2、个人电脑时代:20世纪80~90年代,计算机体积小、价格低,只支持单个用户同时操作。

3、移动时代:21世纪00~10年代,终端设备搭载移动操作系统,用户随时随地可用。

4、泛在时代:21世纪20年代及以后,计算无处不在,无所不包,典型代表:云计算。

二、云计算应用场景及特征 图 2 云计算

应用场景:

1、支持动态组织和业务系统的应用:

典型代表:移动办公。

2、提供集中管理和集成共享的应用:

典型代表:桌面管理。

3、基于网络渠道和面向服务的应用:

典型代表:电子商务。

4、需要大数据计算和存储能力的应用:

典型代表:搜索服务。

特征:经济性、灵活性、共享性、可靠性、可扩展性。

三、云计算数据中心网络需求 图 3 云计算数据中心网络

云计算的主要载体是数据中心。数据中心云化对网络提出了新需求:

1、超大规模,平滑扩展:支持数万甚至更高量级的服务器接入。

2、虚机动态迁移:虚机可在不同物理机之间漂移。

3、交换无阻塞,转发低时延:网络流量以东西向为主,南北向为辅。

4、多租户:不同租户网络物理共享,逻辑隔离。

5、低成本,高扩展:采用普通商用组件作横向扩展。

6、网络灵活性:可动态调整拓扑、负载。

7、高效的网络协议:根据数据中心结构和流量特点设计网络协议。

但是在传统数据中心网络中难以满足上述需求。

四、数据中心软件定义网络 图 4 SDN网络架构

为了应对云计算的冲击,数据中心网络需要SDN化。SDN的价值主要体现在网络即服务。

SDN的本质在于抽象网络控制,包括转发抽象(网络模型)、状态分步抽象(全局网络视图)与规格抽象(抽象网络视图)。SDN的特征有控制与转发分离、开放的编程接口与集中化的网络控制。

五、基于Overlay的SDN解决方案 图 5 Overlay网络

基于Overlay的SDN解决方案存在如下优势:

1、复用传统网络基础设施,设备复用;

2、突破传统网络中虚拟网络数量限制;

3、虚拟网络拓扑与物理网络基础设施解耦;

4、支持VM动态迁移;

5、多租户支持,网络资源可复用且相互隔离不干扰;

6、虚拟网络多路径转发;

7、轻松实现业务编排。

但是云计算对数据中心网络的挑战依然存在。

六、挑战依然存在

1、网络故障定位: 图 6 网络故障定位

一旦网络出现异常,难以快速界定到底是上层网络、下层网络还是服务器的问题。往往需要虚拟网络、服务器、物理网络运维团队三方协同。解决问题难度大,耗时长,代价大。

2、物理网络部署:

图 7 物理网络部署

物理网络设备部署流程通常包括:网络设备上架加电、设备配置、调试网络连通性、添加网管、设备信息登记。网络设备配置复杂,人工操作易错,部署速度缓慢。

3、物理网络构建: 图 8 Core-Spine-Leaf无阻塞网络

以Core-Spine-Leaf无阻塞网络为例,Spine与Leaf采取CLOS组网方式构成POD,Core与POD也采取CLOS组网方式,其中Leaf交换设备选用华为的CE68系列,Core与Spine交换设备选用华为的CE128系列。受限于网络交换设备路由负载分担最大链路数64,任一Spine最多连接64个Core,任一Core最多连接64个Spine,则无阻塞网络最大提供16384端口的接入规模,网络交换设备成本支出在27M$左右。网络规模小,设备品牌锁定,Scale-up模式,构建成本高。

4、网络流量均衡:

图 9 网络流量均衡

常用的网络流量均衡技术有TRILL、BGP与静态路由等,都属于Local ECMP(等价多路径),无法动态调整,实际网络带宽利用率一般在40~80%。全局网络流量不均,局部容易拥塞,网络带宽利用率低。

5、网络转发性能: 图 10 VXLAN通信 图 11 VXLAN封装

虚拟网络通过隧道穿越物理网络,报文转发需要额外封装。以VXLAN(MAC in UDP)为例,每个以太帧至少增加50B封装开销,其它隧道协议大同小异。服务器网口线速10G,虚拟交换机吞吐量不及50%。服务器吞吐量低下,网络带宽浪费严重。

七、Heatsink网络架构

网络连接方式:

1、Spine与Leaf采取CLOS组网方式构成Fin;

2、Fin间彼此相连,由Spine间连接方式不同而产生两种变形。

图 12 粗放型Heatsink网络

粗放型网络Spine在Group内相连,以提升网络接入规模,适用于超大规模数据中心网络。

图 13 集约型Heatsink网络

集约型网络Spine在Group外相连,以提升网络设备利用率,适用于小、中、大规模数据中心网络。

八、Heatsink网络控制系统

图 14 Heatsink网络控制系统

1、全栈式控制:物理与虚拟网络设备统一控制管理。

2、控制器(Open Network Controller,ONC):

1)部署分散,控制集中;

2)南向屏蔽网络设备差异(OpenFlow/OVSDB/…);

3)北向提供控制抽象(Rest API/…);

4)网络操作系统,通过服务对外提供网络功能和接口。 九、 Heatsink网络部署 图 15 Spine Block

1、白盒交换机选型:

Spine:32×40GbE;

Leaf:48×10GbE + 4×40GbE。

2、Spine Block:

目前市面流通的40GbE白盒交换设备端口密度普遍偏低,通过Spine之间CLOS相连,多Spine拟合逻辑Spine,可以提升端口密度。

将Spine Block模拟的逻辑Spine代入Heatsink网络可以获得如下表所示的各种网络规模:

表 1 Heatsink网络规模

十、Heatsink网络路由方式

1、共Fin选路:

图 16 Heatsink网络共Fin选路

转发路径:源Leaf → Spine → 目的Leaf。路由选路即选择Group的过程。

2、跨Fin选路:

1)粗放型:

图 17 粗放型Heatsink网络跨Fin选路

转发路径:源Leaf → 源Spine → 中转Spine → 目的Spine → 目的Leaf。路由选路即选择Group与中转Spine的过程。中转Spine所属Group与选定Group相同。

2)集约型: 图 18 集约型Heatsink网络跨Fin选路

转发路径:源Leaf → 源Spine → 中转Spine → 目的Spine → 目的Leaf。路由选路即选择Group与中转Spine的过程。中转Spine所属Group与选定Group不同。

十一、Heatsink网络寻址方式

1、网络分区:

1)核心区:

白牌、盒式物理交换机。

2)边缘区:

虚拟交换机。

2、控制策略:

核心简单、鲁棒;边缘复杂、智能。

3、源标签路由:

控制器统一派发交换机标签,边缘交换机封装标签路径,核心交换机按路标寻址。 图 19 Fin内通信

图 20 Fin间通信

十二、Heatsink网络路径封装

图 21 VLAN + Src MAC封装

1、VLAN:

1)以VID标识报文剩余跳数,每跳递减,降至0时,剔除VLAN头;

2)共Fin通信,VID初始值取3;跨Fin通信,VID初始值取5。

2、Src MAC:

针对当前交换设备,指示报文下一跳,各字段填充不同Heatsink属性,掩码匹配可分别提取。

十三、演示

图 22 3D网络拓扑-Fin 图 23 3D网络拓扑-Spine层 图 24 2D网络拓扑 图 25 路径跟踪 图 26 端口信息统计

图 27 流表信息统计

十四、总结

1、网络构建:

1)Heatsink架构,采取多级CLOS组网,支持由小而大平滑扩展,公、私有云网络均适用;

2)选择白牌、盒式交换设备,Scale-out模式,避免品牌锁定,降低网络成本支出;

3)全网交换无阻塞,无单点故障,适应云计算数据中心流量模型由南北向转东西向的变化。

2、网络控制:

1)全栈式控制,物理与虚拟网络合一,设备即插即用,网络状态实时可见,运维难度低;

2)网络分区,核心简单、鲁棒,确保网络性能,边缘复杂、智能,确保业务灵活;

3)源标签路由,降低核心区物理交换设备流表消耗,解决物理交换设备流表容量不足的问题;

4)全网链路实时统计,端到端流量可控,基于流粒度实现全局流量均衡;

5)VLAN+Src MAC掩码匹配,封装开销小,节省网络带宽,提高服务器吞吐量、网络性能。

郑重申明PS:文章中举凡画得好看的图都是来自引用。本文是作者团队面向公、私有云构建数据中心网络的相关研究与实践,主要特点有超大规模网络、白盒交换设备、虚拟与物理网络设备统一管理等,Overlay网络解决方案的本质在于将传统数据中心网络SDN化,无可否认VXLAN/GRE等技术取得了一定的成功,尤其在兼容传统数据中心网络上,但是让本来已经很复杂的网络变得更加复杂了,自然也带来了大量的问题

我们认为Overlay只是数据中心网络SDN化进程中不可避免的一环,不过Singlelay才是SDN网络的终极,我们团队始终以推动SDN在云领域的商业化进程为目标

一些浅显的观点,与大家分享,欢迎拍砖,有任何问题可以直接联系我,咱们共同切磋。

原文发布于微信公众号 - SDNLAB(SDNLAB)

原文发表时间:2016-03-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏java一日一条

我对“Hello World”30年的爱恨情仇

我最近在4月1日的那一周休了一个假,因此有时间来回顾我的职业生涯。令我震惊的是,我已经写了近30年的代码了!于是,我决定好好利用这段额外的休息时间来创作一篇怀旧...

501
来自专栏恒思考

软件必备模块-软件设计

我想设计一个安卓,iOS或者Web应用的时候,开始做软件的步骤是什么,有个想法,做个需求分析,然后开始设计软件。这篇讲的是设计软件这一步。我想好了要做个什么,然...

1552
来自专栏数据派THU

【独家】并行计算性能分析与优化方法(PPT+课程精华笔记)

[导读]工业4.0、人工智能、大数据对计算规模增长产生了重大需求。近年来,中国高性能计算机得到突飞猛进的发展,从“天河二号”到“神威·太湖之光”,中国超级计算机...

3858
来自专栏机器人网

教你DIY一个会打招呼的龟仙人——萌萌哒乌龟机器人

编者注:本项目来自Instructables,项目作者为chombaw。 在本项目中,我将从头开始打造一个能够使用蓝牙进行控制的四足乌龟机器人。该机器人拥有两个...

3038
来自专栏大数据

FPGA、DSP、ARM比较

ARM ARM(Advanced RISC Machines)是微处理器行业的一家知名企业,设计了大量高性能、廉价、耗能低的RISC处理器、相关技术及软 件。A...

3009
来自专栏牛客网

51信用卡 二面问题

1500
来自专栏腾讯大数据的专栏

四两拨千斤:借助Spark GraphX将QQ千亿关系链计算提速20倍

腾讯QQ有着国内最大的关系链,而共同好友数,属于社交网络分析的基本指标之一,是其它复杂指标的基础。借助Spark GraphX,我们用寥寥100行核心代码,在高...

4638
来自专栏程序员互动联盟

小菜学Chromium开发系列:OpenGL学习

风雨送春归,飞雪迎春到。已是悬崖百丈冰,犹有花枝俏。俏也不争春, 只把春来报。待到山花烂漫时,她在丛中笑。 这首《毛泽东诗词》·卜算子·咏...

2935
来自专栏张善友的专栏

浅述RDF,畅想一下FOAF应用

最近一直都在看一些RDF和Semantic Web方面的东西,本来有一个同事是来自Tsinghua AI实验室的,本想跟他好好讨论讨论,不过估计也没有机会了。国...

22310
来自专栏SDNLAB

云数据中心网络虚拟化——大二层技术巡礼之数据平面的演化

开始讲解数据平面的虚拟化前,我们首先来看一看数据中心网络典型的网络拓扑。左图3层分别为接入、汇聚和核心层,一般来说,接入层负责制定虚拟机的接入策略,汇聚层负责二...

3786

扫码关注云+社区

领取腾讯云代金券