云基地,推动云计算集约化(上)

IDC(互联网数据中心),是云计算的主要载体和最主要支点,IDC布局是否合理,规模化程度大小,不仅影响云计算是否能够持续发展,也影响着使用云计算服务的用户体验,更决定着云计算的成本是否合理。

传统的IDC布局,以网络为中心,造成IDC散、碎、小,阻碍大云时代的发展;采用IDC群的云基地模式,承载的服务器规模宏大,资源效率高,总体成本低,可以更高效的支撑云计算的发展与集约化。

1、当前IDC布局存在的主要问题 传统的IDC布局多靠近基础电信运营商的网络核心或骨干节点,像腾讯、百度、阿里等的IDC绝大多数都部署在珠三角、长三角、京津等经济发达地区。尽管这些IDC同中国的互联网用户分布保持基本一致(中国的互联网用户70%分布在东部沿海经济发达地区),有效的支撑了过去中国互联网的发展,但也带来了各种各样的问题: 第一,可持续性存在隐忧。东部沿海等经济发达地区缺地、缺电,使得IDC布局四要素中的土地、电力存在很大的发展瓶颈,像深圳就已经限制超过十万台服务器的IDC的建设。刚刚过去的这个夏天,华东地区经历了六十多年来的高温天气,杭州市供电局为了保民用,采用分区分时限电的策略,很多互联网公司在杭州的IDC也未能幸免。其中,有个IDC在供电局断电后,柴油发电机未能如期启动,造成7,000多台服务器中断,影响了很多在线的电子商务与支付交易。腾讯为了保核心业务也不得不主动关掉了上千台非重要业务的服务器,还动用了加水、加冰、加风扇、加人等很多原始的手段来确保IDC机房的安全运行,如图1所示。一次极端的高温天气,就足以表明整个华东地区在电力供应上存在着极大的缺口,更不用说后续大规模云计算所需要的更多的IDC的电力供应的问题。

图1 华东地区高温天气,影响IDC运行 第二,规模化程度不高。 根据云计算政策与发展论坛的统计,中国的数据中心超过5万个,但95%的服务器规模在500台以下。东部沿海等经济发达地区的IDC超过十万台服务器的屈指可数。这对互联网及云计算应用的分布带来了极大的挑战,造成应用部署碎片化,同时使得IDC应用绿色节能技术的动力不足,能源效率低,此外,也使得IDC间的网络通信成本、运维成本高企。不久前的7月22日,腾讯公司的微信服务出现了一次大面积的故障,约三分之一的用户登录微信、收发消息受到影响,差不多全部用户的朋友圈不能正常访问,时间持续4个多小时。故障的直接起因是微信所在的上海的两个IDC间的通信光缆被市政施工挖断,造成微信业务模块间的通信受到影响。然而,这个故障的更深层原因却远非如此简单。在故障发生前,微信就已经制定了完备详细的容灾分布方案,上海同城冗余分布在三个IDC,任何一个IDC的完全失效都不影响用户的服务;异地分布在两个城市,当一个城市出现大的灾难,如地震、爆炸、洪水、整个城市的电力或网络大面积瘫痪等问题,都只影响微信用户的部分服务功能,而核心功能不受影响。不幸的是,这个方案不能按计划顺利执行,一则微信用户增长的太快了,本来用来承担容灾分布模块的新IDC被拿来先支撑新增用户的服务,其电力、光缆的缺陷还没来得及修复就投入运行了;二则,规划的异地的灾备点,也由于规模化的IDC在迟迟不能交付,不得不等待中,所以故障发生时也就没有办法了。因此,规模化的IDC对于应用的合理分布、高效容灾是至关重要的。

图2 微信故障 第三,IDC与网络耦合过深。现在的大多数IDC不仅围绕着电信运营商的核心或骨干节点部署,而且大多寄生在电信运营商的省网或城域网里,流量路径没有单独规划,也没有单独保护。IDC里托管的应用,对外提供的内容和服务都是面向全国用户,乃至全球用户的,基础电信运营商还不够扁平的网络通常只是根据终端用户的规模估算流量、带宽、路径,很少为IDC单独考虑。这个模式带来的问题是,随着IDC总量的增多,产生的流量占比越来越大,在从用户到IDC的复杂的网络路径上,经常由于规划不合理、扩容不同步造成各种各样的局部带宽瓶颈,网络路径上的任何故障,无论是设备、光纤的失效,还是路由配置、软件的波动,都极大的影响IDC对外提供的服务,使得IDC无法对最终用户提供除了物理时延影响之外的一致的网络服务。如图3,腾讯内部的统计数据表明,影响IDC服务的网络故障中超过70%的来自基础电信运营商网络的问题或质量波动 。今年8月8日,四川电信的省网核心发生故障,造成腾讯在四川省的三个IDC对外服务全部中断,近百G的流量瞬间掉底,影响腾讯的主流游戏应用如英雄联盟、穿越火线等数百万用户的在线,数百万的收入损失。但当时这三个IDC的服务器没有任何计算上的问题,一个简单的网络设备软件故障就可以让数万台服务器的计算能力瞬间变得毫无用处。

图3 腾讯网络故障统计

图4 8月8日四川电信网络故障 当今,行业最热的三个词是移动化(Mobility)、云计算(Cloud Computing)、大数据(Big Data),意味着端上的应用会越来越多样化,规模会更大,而云中的数据的规模与处理的复杂性也将再上几个量级,这对于IDC布局的挑战更大,传统的以网络为中心的IDC布局已远远支撑不了云计算的持续发展,需要探索新的模式。

2、云计算高度依赖基础电信运营商 以腾讯为例,互联网应用成百上千,涵盖了沟通、信息、商务、娱乐等方方面面,注册用户在十亿的级别,活跃用户在亿的级别,用户访问内容或服务的量在百亿级。如QQ同时在线用户超过1.7亿,微信活跃用户超过2亿,微信每天的消息量在数十亿,qq.com每日被访问的页面在十亿次,QQ空间里上载的照片数亿张等等。如图5。

图5 腾讯互联网业务 海量的用户规模,复杂多样的应用服务,背后需要几十万台服务器的计算、存储、网络吞吐能力来支撑,对应着全球数十个IDC,数万个机架,数百条的电路、光纤互联,以及数百个Internet接入、数T的带宽来实现的。如图6。

图6 全球IDC分布 为了支撑业务的发展,确保用户体验,腾讯利用了基础电信的设施,从IDC到网络出口到互联线路来架构。 如图7,腾讯的IDC布局经历了三个阶段,三种模型的变化:早期,在服务器规模不大,容量也就万台左右的时候,IDC是散列部署的,没有规划,没有蓝图,基本上哪里有机房,哪里有机架,就把服务器放到哪里,主要驱动是快速的找到IDC机架资源供给业务;然而,随着业务规模的增长,业务突发的频次与规模都越来越大,轻则几千台,重则上万台服务器的突发部署需求比比皆是。散列部署越来越满足不了业务的需求,同时无序的IDC布局带来了运维支撑上的不匹配。于是演进到了新的布局模型,集中DC/AC部署,DC是数据中心的缩写,负责平台型业务及核心数据存储的托管,AC是应用中心的缩写,以大带宽大流量的所谓胖子业务为主;DC主要分布在三、四个城市,而AC分布在十几个城市。集中DC/AC部署的模型较好的解决了IDC资源规模快速突破十万台量级,消除了单个城市在土地、电力、网络规模上存在发展瓶颈的问题,同时,保持平台型业务与胖子业务的平衡供给与分布问题,不会顾此失彼或互想影响。但是,随着IDC资源规模的进一步扩大,量级达到几十万台服务器,并向百万台演进的时候,这个模型开始暴露出新的问题。不同城市的IDC规模化程度不同,持续性不一致,应用服务发展所需要的IDC资源的配套扩展跟不上,以及应用模块间的通信关系也越来越复杂,耦合大,使得数十个城市的IDC间的网络互联也越来越复杂,经常有“牵一发动全身”、“城门失火、殃及池鱼”的现象出现。 应用的复杂耦合与IDC资源规模的扩大,需要有更高扩展能力的IDC布局来保证,包容应用间的复杂模块关系,弹性扩展。因此,多IDC群集的大型云基地模式便应运而生。(未完待续)

版权声明:本文为腾讯数据中心原创,版权均属“深圳市腾讯计算机系统有限公司”所有,未经官方授权,不得使用。

补充说明:文中部分图片来自互联网,如果涉及到版权问题请联系wizardgao@tencent.com。

原文发布于微信公众号 - 腾讯数据中心(Tencent_IDC)

原文发表时间:2014-08-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏网络

物联网技术,全矩阵图景展现

【原创声明】 作者:王一鸣 来源:物联江湖(iot521) 欢迎转载,请保留本声明,谢谢 ! 参照物联网技术的自然组成结构,以及信息产业格局和物联网商业视角的分...

2718
来自专栏钱塘大数据

图解 | 傻傻分不清VR/AR/MR?第四波科技浪潮早来了

导读:据国外媒体报道,消费者计算平台的演进并不是一条直线,而是波浪式地向前推进。个人电脑、互联网以及移动设备是前三波浪潮,每一次浪潮的发展速度更快,影响更大,更...

3807
来自专栏安全领域

三个重要的有关物联网安全性和隐私的问题

原文地址:https://internetofthingsagenda.techtarget.com/blog/IoT-Agenda/Three-questio...

3575
来自专栏Fred Liang

扁平组织中的义务和责任分配

843
来自专栏量子位

深度复盘GitHub发展史:如何在10年内改变了人们的编程方式?

编者按:前不久,微软以75亿美元的价格收购GitHub,引发了科技行业的关注。在短短的10年内,GitHub 改变了人们的编程方式。 不仅让编程变得更简单,还改...

1070

没有实时分析?你的见解已经跟不上实际的变化了

在去年奥斯卡提名电影《隐藏人物》中,有一个很棒的场景,美国宇航局的“电脑”凯瑟琳·约翰逊请求准许查看机密的每日简报,规划将宇航员约翰·格伦在几周内送入轨道。

1705
来自专栏钱塘大数据

【推荐收藏】这些数据获取网站,帮你工作提质增效!

在这个用数据说话的时代,能够打动人的往往是用数据说话的理性分析,无论是对于混迹职场的小年轻,还是需要数据进行分析和研究的同学,能够找到合适的数据源都是非常重要的...

5009
来自专栏CSDN技术头条

微软邓力:深度强化学习在聊天机器人领域的应用

微软人工智能首席科学家邓力在此前接受CSDN的采访时曾表示深度强化学习是A.I. Bots的关键技术,在这篇发表于venturebeat的文章中,他详细解析了为...

2339
来自专栏FreeBuf

企业安全团队强大与否,看这八个关键指标

? 概述 安全人员喜欢用一些比较消极的方法来防御恶意攻击,比如“没有消息就是最好的消息”(此说法源自美国南北战争时期,由于打战死人后,家人都要收到阵亡通知书,...

2065
来自专栏数据猿

【案例】恒丰银行——运营风险监测系统

数据猿导读 在当前金融大背景下,我国商业银行正处于大幅调整阶段,面临不确定、不稳定因素正在不断增加,监管机构与公众日益认识到运营风险正成为金融机构面临的最大威胁...

3845

扫码关注云+社区

领取腾讯云代金券