前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >云基地,推动云计算集约化(上)

云基地,推动云计算集约化(上)

作者头像
腾讯数据中心
发布2018-03-16 10:17:21
1.6K0
发布2018-03-16 10:17:21
举报
文章被收录于专栏:腾讯数据中心腾讯数据中心

IDC(互联网数据中心),是云计算的主要载体和最主要支点,IDC布局是否合理,规模化程度大小,不仅影响云计算是否能够持续发展,也影响着使用云计算服务的用户体验,更决定着云计算的成本是否合理。

传统的IDC布局,以网络为中心,造成IDC散、碎、小,阻碍大云时代的发展;采用IDC群的云基地模式,承载的服务器规模宏大,资源效率高,总体成本低,可以更高效的支撑云计算的发展与集约化。

1、当前IDC布局存在的主要问题 传统的IDC布局多靠近基础电信运营商的网络核心或骨干节点,像腾讯、百度、阿里等的IDC绝大多数都部署在珠三角、长三角、京津等经济发达地区。尽管这些IDC同中国的互联网用户分布保持基本一致(中国的互联网用户70%分布在东部沿海经济发达地区),有效的支撑了过去中国互联网的发展,但也带来了各种各样的问题: 第一,可持续性存在隐忧。东部沿海等经济发达地区缺地、缺电,使得IDC布局四要素中的土地、电力存在很大的发展瓶颈,像深圳就已经限制超过十万台服务器的IDC的建设。刚刚过去的这个夏天,华东地区经历了六十多年来的高温天气,杭州市供电局为了保民用,采用分区分时限电的策略,很多互联网公司在杭州的IDC也未能幸免。其中,有个IDC在供电局断电后,柴油发电机未能如期启动,造成7,000多台服务器中断,影响了很多在线的电子商务与支付交易。腾讯为了保核心业务也不得不主动关掉了上千台非重要业务的服务器,还动用了加水、加冰、加风扇、加人等很多原始的手段来确保IDC机房的安全运行,如图1所示。一次极端的高温天气,就足以表明整个华东地区在电力供应上存在着极大的缺口,更不用说后续大规模云计算所需要的更多的IDC的电力供应的问题。

图1 华东地区高温天气,影响IDC运行 第二,规模化程度不高。 根据云计算政策与发展论坛的统计,中国的数据中心超过5万个,但95%的服务器规模在500台以下。东部沿海等经济发达地区的IDC超过十万台服务器的屈指可数。这对互联网及云计算应用的分布带来了极大的挑战,造成应用部署碎片化,同时使得IDC应用绿色节能技术的动力不足,能源效率低,此外,也使得IDC间的网络通信成本、运维成本高企。不久前的7月22日,腾讯公司的微信服务出现了一次大面积的故障,约三分之一的用户登录微信、收发消息受到影响,差不多全部用户的朋友圈不能正常访问,时间持续4个多小时。故障的直接起因是微信所在的上海的两个IDC间的通信光缆被市政施工挖断,造成微信业务模块间的通信受到影响。然而,这个故障的更深层原因却远非如此简单。在故障发生前,微信就已经制定了完备详细的容灾分布方案,上海同城冗余分布在三个IDC,任何一个IDC的完全失效都不影响用户的服务;异地分布在两个城市,当一个城市出现大的灾难,如地震、爆炸、洪水、整个城市的电力或网络大面积瘫痪等问题,都只影响微信用户的部分服务功能,而核心功能不受影响。不幸的是,这个方案不能按计划顺利执行,一则微信用户增长的太快了,本来用来承担容灾分布模块的新IDC被拿来先支撑新增用户的服务,其电力、光缆的缺陷还没来得及修复就投入运行了;二则,规划的异地的灾备点,也由于规模化的IDC在迟迟不能交付,不得不等待中,所以故障发生时也就没有办法了。因此,规模化的IDC对于应用的合理分布、高效容灾是至关重要的。

图2 微信故障 第三,IDC与网络耦合过深。现在的大多数IDC不仅围绕着电信运营商的核心或骨干节点部署,而且大多寄生在电信运营商的省网或城域网里,流量路径没有单独规划,也没有单独保护。IDC里托管的应用,对外提供的内容和服务都是面向全国用户,乃至全球用户的,基础电信运营商还不够扁平的网络通常只是根据终端用户的规模估算流量、带宽、路径,很少为IDC单独考虑。这个模式带来的问题是,随着IDC总量的增多,产生的流量占比越来越大,在从用户到IDC的复杂的网络路径上,经常由于规划不合理、扩容不同步造成各种各样的局部带宽瓶颈,网络路径上的任何故障,无论是设备、光纤的失效,还是路由配置、软件的波动,都极大的影响IDC对外提供的服务,使得IDC无法对最终用户提供除了物理时延影响之外的一致的网络服务。如图3,腾讯内部的统计数据表明,影响IDC服务的网络故障中超过70%的来自基础电信运营商网络的问题或质量波动 。今年8月8日,四川电信的省网核心发生故障,造成腾讯在四川省的三个IDC对外服务全部中断,近百G的流量瞬间掉底,影响腾讯的主流游戏应用如英雄联盟、穿越火线等数百万用户的在线,数百万的收入损失。但当时这三个IDC的服务器没有任何计算上的问题,一个简单的网络设备软件故障就可以让数万台服务器的计算能力瞬间变得毫无用处。

图3 腾讯网络故障统计

图4 8月8日四川电信网络故障 当今,行业最热的三个词是移动化(Mobility)、云计算(Cloud Computing)、大数据(Big Data),意味着端上的应用会越来越多样化,规模会更大,而云中的数据的规模与处理的复杂性也将再上几个量级,这对于IDC布局的挑战更大,传统的以网络为中心的IDC布局已远远支撑不了云计算的持续发展,需要探索新的模式。

2、云计算高度依赖基础电信运营商 以腾讯为例,互联网应用成百上千,涵盖了沟通、信息、商务、娱乐等方方面面,注册用户在十亿的级别,活跃用户在亿的级别,用户访问内容或服务的量在百亿级。如QQ同时在线用户超过1.7亿,微信活跃用户超过2亿,微信每天的消息量在数十亿,qq.com每日被访问的页面在十亿次,QQ空间里上载的照片数亿张等等。如图5。

图5 腾讯互联网业务 海量的用户规模,复杂多样的应用服务,背后需要几十万台服务器的计算、存储、网络吞吐能力来支撑,对应着全球数十个IDC,数万个机架,数百条的电路、光纤互联,以及数百个Internet接入、数T的带宽来实现的。如图6。

图6 全球IDC分布 为了支撑业务的发展,确保用户体验,腾讯利用了基础电信的设施,从IDC到网络出口到互联线路来架构。 如图7,腾讯的IDC布局经历了三个阶段,三种模型的变化:早期,在服务器规模不大,容量也就万台左右的时候,IDC是散列部署的,没有规划,没有蓝图,基本上哪里有机房,哪里有机架,就把服务器放到哪里,主要驱动是快速的找到IDC机架资源供给业务;然而,随着业务规模的增长,业务突发的频次与规模都越来越大,轻则几千台,重则上万台服务器的突发部署需求比比皆是。散列部署越来越满足不了业务的需求,同时无序的IDC布局带来了运维支撑上的不匹配。于是演进到了新的布局模型,集中DC/AC部署,DC是数据中心的缩写,负责平台型业务及核心数据存储的托管,AC是应用中心的缩写,以大带宽大流量的所谓胖子业务为主;DC主要分布在三、四个城市,而AC分布在十几个城市。集中DC/AC部署的模型较好的解决了IDC资源规模快速突破十万台量级,消除了单个城市在土地、电力、网络规模上存在发展瓶颈的问题,同时,保持平台型业务与胖子业务的平衡供给与分布问题,不会顾此失彼或互想影响。但是,随着IDC资源规模的进一步扩大,量级达到几十万台服务器,并向百万台演进的时候,这个模型开始暴露出新的问题。不同城市的IDC规模化程度不同,持续性不一致,应用服务发展所需要的IDC资源的配套扩展跟不上,以及应用模块间的通信关系也越来越复杂,耦合大,使得数十个城市的IDC间的网络互联也越来越复杂,经常有“牵一发动全身”、“城门失火、殃及池鱼”的现象出现。 应用的复杂耦合与IDC资源规模的扩大,需要有更高扩展能力的IDC布局来保证,包容应用间的复杂模块关系,弹性扩展。因此,多IDC群集的大型云基地模式便应运而生。(未完待续)

版权声明:本文为腾讯数据中心原创,版权均属“深圳市腾讯计算机系统有限公司”所有,未经官方授权,不得使用。

补充说明:文中部分图片来自互联网,如果涉及到版权问题请联系wizardgao@tencent.com。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2014-08-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯数据中心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云联网
云联网(Cloud Connect Network,CCN)提供全网互联服务,助力您实现各地域的云上、云下多点互联。云联网的智能调度、路由学习等特性,可帮助您构建极速、稳定、经济的全网互联,轻松满足在线教育、游戏加速、混合云等全网互联场景下的极速体验。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档