腾讯网络平台部公众账号(鹅厂网事)-创刊号

各位鹅厂的粉丝们,尔们好,今天首次与大家见面,请多多关照哦!在俺们鹅厂网事这里,大家将从鹅厂基础架构网络技术、架构方向、运营案例、研发经验、业务百态等多维度,看到我们很多干货经验、参与到我们诸多前瞻风暴、感受到我们超大正能量,期待大家的关注和支持!

创刊号精选,耗费了小鹅几个月的时间,突然一天惊醒发现,云计算产业在发生很根本的一个变化,将对基础网络产生巨大的挑战和机遇,你看,fackbook把数据中心建到美帝中北部北卡去了、亚马逊也来中国宁夏卖云资源了、电联移三大运营商也投资数百亿到内蒙古、贵州等地建立超大型云基地去了,这种巨大的西迁趋势的缘由是什么?基础网络现状是否面临挑战?基础网络发展方向何去何从?也许是我们眼前和未来几年要正视和解决的问题,所以我们精选了腾讯首席网络架构师、IDC高级架构师Henryhou的一片宏文巨作,作为我们的开山之作,以引业内有识之士以及对此感兴趣的伙伴一起共同探析,携同成长。

一、互联网数据中心的布局应产业环境、国家能源政策等趋势而动迁

IDC(互联网数据中心),传统的IDC布局,以网络为中心,造成IDC散、碎、小,阻碍大云时代的发展;传统的IDC布局多靠近基础电信运营商的网络核心或骨干节点,像腾讯、百度、阿里等的IDC绝大多数都部署在珠三角、长三角、京津等经济发达大区,尽管这些IDC同中国的互联网用户分布保持基本一致(中国的互联网用户70%分布在东部沿海经济地区),有效的支撑了中国互联网服务的发展,但也带来了各种各样的问题,诸如:

首先,在能源环保方面存在可持续性发展的隐忧。

东部沿海等经济发达地区缺地、缺电,使得IDC布局四要素中的土地、电力存在很大的发展瓶颈,像深圳就已经限制超过十万台服务器的IDC的建设。2013年夏天,华东地区经历了六十多年来的高温天气,杭州市供电局为了保民用,采用分区分时限电的策略,很多互联网公司在杭州的IDC也未能幸免;其中,有个IDC在供电局断电后,柴油发电机未能如期启动,造成7,000多台服务器中断,影响了很多在线的电子商务与支付交易;腾讯为了保核心业务也不得不主动关掉了上千台非重要业务的服务器,动用了加水、加冰、加风扇、加人等很多原始的手段来确保IDC机房安全度夏。一次极端的高温天气,就测试出整个华东地区在电力供应上存在着极大的缺口,更不用说后续大规模云计算所需要的更多的IDC的电力保障的问题。

图1. 华东地区高温天气,影响IDC运行

.其次,规模化程度不高无法形成规模效应且带来沉重运营负担。

根据云计算政策与发展论坛的统计,中国的数据中心超过5万个,但95%的服务器规模在500台以下。东部沿海等经济发达地区的IDC超过十万台服务器的屈指可数。这对互联网及云计算应用的分布带来了极大的挑战,应用部署碎片化,同时造成IDC应用绿色节能技术的动力不足,能源效率低,此外也使得IDC间的网络通信成本、运维成本高企。在腾讯的运营故障中,腾讯的微信服务出现了一次大面积的故障,约三分之一的用户登录微信、收发消息受到影响,差不多全部用户的朋友圈不能正常访问,时间持续4个多小时。故障的直接起因是微信所在的上海的两个IDC间的通信光缆被市政施工所挖断,造成微信业务模块间的通信受到影响。然而,这个故障的更深层原因却远非如此简单。虽然微信已经进行了多点IDC的分布,但是各功能分散在零碎的IDC中,没有大的规模化IDC进行统一设计和部署,导致再完美的架构设计也被零散碎的IDC给充斥的体无完肤。规模化的IDC对于应用的合理分布、高效容灾是至关重要的。

二、移动互联网时代带来业务爆发以及传统网络转型的强烈需求

以腾讯为例,互联网应用成百上千,涵盖了沟通、信息、商务、娱乐等方方面面,注册用户在十亿的级别,活跃用户在亿的级别,用户访问内容或服务的量在百亿级。如QQ同时在线用户超过2亿,微信活跃用户超过4亿,微信每天的消息量在数十亿,qq.com每日被访问的页面在十亿次,QQ空间里上载的照片数亿张等等。

海量的用户规模,复杂多样的应用服务,背后需要几十万台服务器的计算、存储、网络吞吐能力来支撑,对应着全球数十个IDC,数万个机架,数百条的电路、光纤互联,以及数百个Internet接入、数T的带宽来实现的。在支撑这样一个海量的业务应用面前,为保障用户的优良体验的情况下,运营商的网络却显得如履薄冰。

现在的大多数IDC不仅围绕着电信运营商的核心或骨干节点部署,而且大多寄生在电信运营商的省网或城域网里,流量路径没有单独规划,也没有单独保护。IDC里托管的应用,对外提供的内容和服务都是面向全国用户,乃至全球用户的,基础电信运营商还不够扁平的网络的通常只是根据终端用户的规模估算流量、带宽、路径,很少为IDC单独考虑。这个模式带来的问题是,在从用户到IDC的复杂的网络路径上,经常由于规划不合理、扩容不同步造成各种各样的局部带宽瓶颈,网络路径上的任何故障,无论是设备、光纤的失效,还是路由配置、软件的波动,都极大的影响IDC对外提供的服务,使得IDC无法对最终用户提供除了物理时延影响之外的一致的网络服务。

图2. 腾讯网络故障统计
图3. 8月8日某运营商省网网络故障

如图2,腾讯内部的统计数据表明,影响IDC服务的网络故障中超过70%的来自基础电信运营商网络的问题或质量波动。图3展示在去年某运营商省网核心发生故障,造成腾讯在该省的三个IDC对外服务全部中断,近百G的流量瞬间掉底,影响腾讯的主流游戏应用如英雄联盟、穿越火线等数百万用户的在线,数百万的收入损失。但当时这三个IDC的服务器没有任何计算上的问题,一个简单的网络设备软件故障就可以让数万台服务器的计算能力瞬间变得毫无用处。

好了,庆幸的是我们搭上了改革开放的春风,迎来了国家诸多层面对云计算的重视和扶持,结合我国能源产业的分布特点,结合我国绿色能源的可持续发展要求,我们惊喜地看到

在这一背景下,我们主要的云提供商都抓住这样一个机遇,从土地、电力、网络与人力,这IDC布局主要考虑的四个要素出发,变成以能源也就是电力为中心,从云随光布转向光随云动,业界专家以及我们内部也进行过很多核算,最终的结论都是“输煤不如输电,输电不如输信息”。

我们喜大普奔地看到基础网络作为支撑这一格局变化的关键要素,网络不应成为阻碍,更应该大力支持、推动这种趋势的演进,其实我们要做的事情非常多。

一、多通可调度的多运营商网络出口是云基地服务用户质量保障的关键

根据CNNIC的统计报告,我国大陆31个省/直辖市/自治区中网民数量超过千万规模的省份已达25个,网民普及率超过全国平均水平的省份达13个,中国东部,或东南沿海地区,是指位于中国东部沿海的10个省/直辖市,这些地区是目前中国大陆经济相对发达的地区,网民数量占总体的47%。

而西迁的云基地部署在远离用户聚集的地区,会增加IDC的服务器到用户端的时延,2,000公里的距离增加的网络时延在12ms左右。如果是个稳定的网络时延,对于大多数的互联网应用如即时通信、游戏娱乐、信息获取、电子商务等都是可以忽略不计的,少数的应用如视频、语音等可以通过在用户就近部署静态、动态的CDN加速点来解决。根据我们的统计,IDC服务器到用户端的平均网络时延在50~90ms间波动,新增一个12ms的稳定时延,基本上不影响用户的体验。

但此等大型云基地仍然面临只能单运营商网络引入,跨运营商用户访问仍然需要从西部出发绕行北上广、再经过长期拥堵的互联互通点、再回到用户所在的省份,必然会对原本就严峻的用户体验上雪上加霜,所以我们倡导大型云基地首要解决的问题是多运营商网络接入,并且这种出口从规模量上可以保障直接调度通到中东部运营商骨干节点。

图4. 大型云基地多通可调度的网络出口

云基地的服务器规模从数十万台到数百万台,不可能只服务于特定区域、特定类型的用户,更不可能只托管特定模式的应用,所以我们需要假设任何一个云基地都是部署全部类型的互联网应用以及云计算服务的,服务的用户也是全国性、全球性的。因此,云基地要能确保扁平化的触达到任何一个互联网用户,除了物理距离上带来的网络时延外,不应该有其他的不同,如:不一致的拥塞、抖动,或由于网络路径上的扩容优化不同步或容量瓶颈造成用户体验的不一致等等。这需要云基地与骨干网间有独立的路径规划与流量规划支撑,并确保整个流量路径被持续的得到保障。

二、需全新思路承接云基地间互联需求

考虑到容灾分布,需要有多个云基地,以容大的地震、洪水、极端天气、爆炸以及人为的区域范围的事件等。多个云基地间需要有大带宽的专网互联保证。云计算的通信模式表明,服务器间的通信流量(东西向)远远大于服务器到用户端的流量(南北向)。我们看到Google的IDC间通信带宽已达10T,而Microsoft新建的全美几个大IDC间的光纤环网,起步也是2T,一个100万台服务器的IDC对用户服务的流量超过10T,跟另一个云基地间的同步、互联流量可超过20T。因此,我们认为,大型云基地间需要保证数T的带宽,并以T级为单位,可以线性的扩容增长。

图5. 云基地间大带宽互联

但今天看,这种大型高速铁路式的网络,运营商能否以10G、100G甚至更高颗粒度提供、交付时间能否压缩到月内、单位成本能否大幅降低、能否保障一致的可靠性都是待明确和实践的问题。

同时,云基地能否持续存在并发展下去,取决于基础电信运营商能否有效理顺内部的各种关系:集团公司与各省公司如何能协调一致的推动用户从散乱的IDC往云基地迁移,云基地网络与已有的骨干网络的互联互通,已有的成熟的IDC及网络运维体系与人才对云基地的支持等等。

三、推进智能型网络的建设,因流而动,贴近用户的业务联动

运营商构建的庞大基础骨干网承载着各样应用,要差异化区分,专属化支持所带来的成本非常高,而伴随互联网的移动化,接入模型的动态化,更加精细化的服务体验在固化的基础架构侧显的有心无力。而在集约化规模化的云基地基础上,如何对流量、对业务进行端到端的保障,更好的触达用户,需要通过我们的网络更加智能感知,灵活调度。而基于传统的路由分布式计算,无法全局把控和调度,势必缺乏对最终的全局感知和用户体验的精确把握。所以需要通过SDN软化网络来进行支撑。

我们看到,在行业的标杆google身上,已经进化到端到端的流量把控。从数据中心内部平台业务与网络的深度结合,边缘控制,通过核心的算法、自研的硬件、共建的管道等模式,将业务和用户体验很好的把控起来。

云产业正在伴随着经济的高速腾飞快速的切入到科技业界,同时也正在深刻的影响着人们的互联网生活,相信随着信息化的持续发展,互联网对我们日常生活工作的深入嵌入,云产业以及伴随着的基础网络架构都会有更加广阔的未来。而面对这样一个浪潮,我们是坐待观望还是主动拥抱呢?愿与各位共迎变化,开创先河!

原文发布于微信公众号 - 鹅厂网事(tencent_network)

原文发表时间:2014-06-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技大本营的专栏

数据!数据!所有人都冲着AI狂热,所有人都高呼大数据,只有这位老头,真正穷其一生冲破数据的藩篱

从网络时代,到如今的AI时代,数据的价值涨了百倍。 可在算法日渐丰富、机器性能日渐强大的当下,正是数据的稀缺,让AI与各个产业的连接变得困难,梦想用AI改变各...

29610
来自专栏机器人网

全球十大机器人运动控制品牌

---- 近年来随着人力成本的上涨,全球制造业开始重视自动化技术的投入,随着欧美再工业化趋势的走热,全球竞争格局变得越来越激烈。以机器人为主要方向的智能制造已...

4495
来自专栏企鹅号快讯

盘点2017你不可不知的十大黑科技

如今,我们对“黑科技”这个词越来越不陌生了。实际上,这个词的原意是指非人类目前知识和科学水平可以做得到的技术或者产品。但在今天,它的含义是代表当前最高科技成就的...

19810
来自专栏ATYUN订阅号

谷歌不再续签Maven军事项目合同,近期将起草禁止开发AI武器的政策

数千名谷歌员工签署了一份请愿书,抗议公司与五角大楼Maven项目的合作关系。几位谷歌员工甚至请辞。员工最大的担忧之一是Maven将被用于致命目的。

1024
来自专栏VRPinea

2017 Glomo奖新鲜出炉,实至名归的背后是你看不到的努力与艰辛

2894
来自专栏钱塘大数据

未来工业智能化的关键——智能传感器

传感器传感器应用非常广泛,工业生产各个组成环节都需要传感器进行监控,并把数据反馈给控制中心,以便对出现异常节点进行及时干预,保证工业生产正常进行。而新一代高级智...

3616
来自专栏ATYUN订阅号

【业界】人工智能将如何改变中国的安保措施?

AiTechYun 编辑:xiaoshan 在中国的重大事件(如立法机构的年度会议)上,长长的队伍和漫长的等待一轮又一轮的安全检查是必不可少的。 ? 在不久的将...

3306
来自专栏罗超频道

3B大战一周年:360颠覆百度,难!

2012年8月21日,360浏览器默认搜索引擎由谷歌正式替换为360综合搜索引擎,3B大战爆发。一年后的今天,360从无到有,以大约15%的份额跻身中国搜索引擎...

3263
来自专栏罗超频道

搜索打起乒乓球:360攻击有条不紊,百度防御难上加难

[本文今日已发表于虎嗅网首页] 即刻的“飞机哥"事件让搜索成为2013年IT行业第一热门话题。在开复老师还不能开口说话之时,搜索行业的新鲜事接踵而至。搜...

2477
来自专栏企鹅号快讯

小前端·大后台

小前端要足够灵活,大后台则要有足够强的资源整合能力和服务提供能力,这就是未来商业变革的核心。——《商业价值》 阿富汗战争启示 苏军攻占阿富汗动用10 万以上的军...

2085

扫码关注云+社区