腾讯服务器平台发展与创新简介

前言:

服务器是业务应用的载体,也是资源运营和系统运维的最小单位。服务器平台规划直接影响业务应用的效率和资源运营维护的效率以及IDC建设规划。因此服务器平台规划不但需要提供服务器设备满足公司业务需求的基本职能外,还承担着新技术引入提升运营效率、协助业务利用硬件平台优化系统架构和协助商务与运管团队实施供应商管理的职责。腾讯服务器平台伴随公司业务业务成长,经历了从刚开始的十几台到今天数十万台规模的发展过程。平台建设的规划思路也经历了从硬件规划精细化匹配业务软件需求、平台统一规划定义机型、机型精简整合几个阶段。另一方面服务器平台在支撑公司业务快速增长期间,结合互联网应用特点和需求,创新式的定义了机型结构,引领了服务器硬件行业的发展。下面从平台规划、硬件创新和未来趋势三个方面给大家就腾讯服务器平台做简单介绍。

海量服务器平台需要化繁为简的平台规划思路

制定服务器平台机型规划满足业务硬件需求是服务器平台建设的基本职能。腾讯服务器平台经历了从十数台微小规模到数十万台海量规模的发展过程。平台机型规划的建设思路在此过程中不断摸索渐进式的发展成熟,逐步形成一整套适应海量运营及满足复杂多类型应用需求的建设思路。

1998~2004年作为第一阶段。公司成立初期,业务单一,服务器硬件自然按软件需求适应性规划。此时没有规范的机型管理,没有机型代码和标准配置管理,完全按照满足业务需要进行配置。由于在此阶段整体设备需求量非常小,因此并没有给硬件运营和运维带来困难。

2005~2011年作为第二阶段。2004年公司上市,业务类型百花齐放,业务规模呈现爆炸式增长。至2009年公司被誉为互联网业界航母。号称没有我们不做的业务。社交、媒体、搜索、购物、娱乐等团队的发展壮大使“一站式互联网生活体验”的目标越来越近。服务好业务,帮助业务成长是服务器平台工作的主旨思想。但由于业务类型剧增和业务量上升带来的设备数量爆发增长,至2006年服务器配置清单明细条目已超过30种,松散式的平台管理模式的效率已能不能满足要求。2006年,我们实施了服务器机型代码管理,定义机型代码与设备服务器配置对应关系清单《运营设备技术分类表》。针对数据库、逻辑和接入三类应用分别定义A、B、C三大类机型。业务团队根据自身应用类型需求申领各类服务器。期望将大量的不同业务需求抽象出共性,归纳为三类机型,使运营和管理效率得到提升。但由于公司业务众多,业务间的差异化需求使得即使是同一类应用也存在配置差异。至2009年,在A/B/C三大类机型框架内衍生出A1~3、B1~5、C1、C2等10个差异化配置。同时配合存储云业务和搜索业务的快速发展,新增了TS和S等4个存储类机型。这样一来又使运营设备种类增长至十数种。因此自09年开始,我们再次致力于分类整合机型。逐步利用A5、B6和TS6收拢,使主流应用机型控制在A5、B6、TS6和C1四种。但至2011年,随着大量外购游戏应用、新业务应用及专业化业务的需要,新增了大量服务器机型。如Z系列互娱专用机型等。总体机型种类超过二十种。繁杂的机型种类,给运营效率、成本控制和业务效率带来了严重的负面影响。业务腾挪由于机型差异化造成大量的服务器物理搬迁需求,由于机型差异化导致资源运营设备复用效率降低,以及由于机型过多使得采购碎片化导致设备成本偏高,这些问题日益显著。总体来说在这个阶段精细化的服务器机型规划满足了业务爆发式增加的需求,有利的支撑了公司业务的发展,但牺牲了运营运维的效率。

2012~作为第三阶段。在此时期公司进入了数十万规模海量服务器运营时代。经过第二阶段的经验总结,我们逐步整理出一套运营建设和支撑海量服务器平台的方法论。首先,须按版本化规范服务器平台,以此与IDC平台和运营管理平台对接。简单的以机型分类单一维度管理服务器平台是不够的。必须建立版本化控制体系与周边团队构成立体式的协作。以实现在上架策略、资源分配上增加利用版本识别和控制。其次,须放弃精细化匹配业务需求的硬件配置思路,利用平台型系统整合同类应用机型,最大限度的实现机型精简。与海量运营机型管理区分开,同时兼顾特殊应用和研发型业务需求,将其比例控制在10~20%之内。第三,实现部件级硬件标准化。硬件标准化是简化运营和控制成本的必要条件。第四,建立完善的自动化监控、告警和运营数据分析系统。海量运营必须依赖自动化的监控系统,以最小化故障识别、定位和派单运维工作。引入大数据分析系统对设备使用情况进行分析可为系统优化和预警提供量化和智能化支持。

结合实践联合业务利用硬件创新提升应用系统整体效率

硬件创新是腾讯服务器平台建设的一大特色。一直以来服务器硬件规格定义和优化创新都掌握在服务器硬件厂商手里。作为用户只能是在厂商提供的设备范围内选择。但我们结合业务和运营过程中提炼出适合腾讯的硬件需求,联合采购商务团队驱动厂商按需定制开发,开创出用户定义服务器硬件的新局面。

2007年开始腾讯业务迅猛发展。QQ七星级邮箱、QZone相册等业务量快速增长。架构部云存储平台逐步成为公司级的共享存储平台。存储云建设初期采用的是中型光纤专业存储阵列设备。不但采购费用和使用成本昂贵,而且后期运营维护不方便。腾讯服务器团队结合存储平台软件规划在原有标准服务器结构基础上创新定义多硬盘直连结构,并命名为存储服务器。成功替换专业存储阵列。在腾讯大量部署的成功,使业内互联网企业争相效仿,使存储服务器目前成为通用标准服务器。

业务的快速发展给IDC基础设施建设带来极大压力。2008-2009年期间,时常出现由于IDC机架资源瓶颈使设备到货后无机架可用的状况。为解决IDC资源瓶颈,2008年开始服务器团队综合互联网接入、逻辑层应用的特点和ATX主板标准联合Intel公司开创性的提出廉价高密度服务器的思路。先后推动服务器厂商定制开发1U1和2U4高密度服务器。使公司接入层和逻辑层服务器上架密度提升一倍,同时使整合带来的10~40%的成本下降和10%的能耗下降。与存储服务器一样,高密度服务器也已成为互联网行业广泛采用的标准设备。

经过三年的定制化锻炼,腾讯服务器团队积累了一定的经验。对服务器开发流程、测试流程和产业链已有初步认识和了解。当2U4高密设备已成为公司和行业主流计算类应用服务器结构时,我们发现服务器功能组件的整合共享能够带来能耗效率的提升和成本的下降。而在海量服务器运营过程中所遇到的单机无法解决的管理问题可以通过增加集中式管理模块并自主定义逻辑和物理接口的方式来解决。2010年提出整机柜级服务器解决方案。整机柜解决方案将传统服务器结构中供电、散热和管理三个功能模块从服务器节点中剥离出来,实现机柜内统一整合。

服务器节点专注提供计算、存储和网络传输这三个本质化功能。同时在单机柜内实现80个计算节点或20个存储服务器节点部署。使原存储服务器部署密度提升一倍。如下图所示:

整机柜服务器概念的提出和落地领先业界近一年时间。自2011年11月腾讯联合百度、阿里成立天蝎项目组,专注联合研究和推动整机柜服务器技术和产业标准化发展。至今中国电信、中移动已成为天蝎项目组正式成员。天蝎整机柜规范也即将成为中国工信部行业标准。

硬件资源池化的未来发展趋势探讨

本质上用户需要的是服务器的计算、存储和传输这三大功能。云计算、云存储即是将这三大类功能作为资源池化提供给应用使用。这种利用软件架构使资源池化的方式赋予了资源极大的弹性,使用户可以简单的扩展、收缩和迁移其应用架构。但作为硬件来说,目前无论是云计算还是云存储,其颗粒仍是以服务器节点为最小单元的。一个服务器节点要提供计算、存储和传输功能除了要配置处理器、硬盘和网络这三个核心功能模块外还有配套使之能够正常工作的大量配套资源,如电源子系统、散热子系统、管理子系统和总线子系。这四个子系统加上处理器计算系统、硬盘存储系统和网络传输系统这三个核心功能系统总共七大功能系统。这些系统技术发展并不同步均衡发展。散热系统的生命周期约为7年,网络传输的生命周期约为7年,处理器和硬盘约为2年。我们为升级更新处理器,不得不整体更换配套的其他系统硬件。这造成的浪费是不言自明的。利用整机柜服务器解决方案将供电、散热和管理子系统独立出来,可不受其他系统更新而影响。如果我们再进一步把处理器、硬盘和网络这三大核心功能模块独立出来将会使服务器硬件更加具有弹性,大幅节约成本,并使新技术应用更加灵活的快速得以部署实施。

我们看到Intel的RSA和PCI-e SW是业界正在探索的整柜级数据传输方案。在此基础上预计年内可实现存储池化。并部署SDN网络在实现网络模块功能池化。同时处理器计算功能池化由于总线传输技术和CPU技术的瓶颈预计2017年方可落地。我们预见硬件资源池化将是对现有服务器硬件体系架构的一次本质性变革。使现有的运营管理模式、工具和流程等都彻底改变。与此同时与硬件资源池化配套的管理、监控软件也是实现最终目标不可或缺的组成部分。我们认为配套软件系统可按下图所描述的管控分层进行设计。

由于硬件池化使不再具有服务器节点概念,以机型节点为单位的资源管理模式也需做相应变革。须与业务确定以性能资源为单位的评估体系,同步评估方法和计量标准。

在软件框架和资源评估体系确定后,便可以建立一套如下图所示的已资源调度系统为核心的全新的硬件资源管理系统。无论上层是多业务类型的传统应用还是云化海量业务都可以无缝支撑。这一套硬件平台建立在整机柜解决方案基础之上,可以将上面所说七大功能模块完全独立模块化。按需纵向升级发展的同时还可以让资源管理已资源池为单位横向扩展。

原文发布于微信公众号 - 鹅厂网事(tencent_network)

原文发表时间:2014-09-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏无原型不设计

什么是“移动先行”原则,如何践行?

2010年的全球移动通信大会上,谷歌时任首席执行官Eric Schmidt 提出:产品设计应遵循 “移动先行” 的原则。 该原则具体指什么?遵循该原则的依据有...

3604
来自专栏程序你好

苹果世界开发者大会上介绍了AI人工智能功能的iPhone手机

1062
来自专栏数据猿

普元信息政务大数据咨询顾问夏佳斌:数据资源体系的核心——资源定义、运营机制和支撑平台

12月1日下午,由上海大数据联盟、数据猿主办的第20期魔方大数据在上海宝华万豪酒店成功举办。本期魔方大数据以“政务大数据”为主题,邀请了技术方和产业方大咖共聚一...

33611
来自专栏AI科技大本营的专栏

新年第一天 | 恶补新一季《黑镜》的同时,营长又深入扒了扒它那擅长机器学习的新爸爸是如何赚钱的

关注『AI科技大本营』的各位小伙伴,新年好!营长祝愿大家天天都是18岁! 跟放假休息的各位一样,元旦假期的营长着实也不想干活……想起前两天刚刚更新的《黑镜》第四...

36711
来自专栏PPV课数据科学社区

22个对于数据科学家来说容易犯的错误

对于软件工程师或数据科学家来说,下列错误是很容易犯(随意顺序):列表如下: 在团队没有尽自己的能力出力。 把自己看成以为天才。 使用一些上司看不懂的专业...

3536
来自专栏猿天地

开发十年,只剩下这套Java开发体系了

蓦然回首自己做开发已经十年了,这十年中我获得了很多,技术能力、培训、出国、大公司的经历,还有很多很好的朋友。

1103
来自专栏大数据文摘

[干货]手把手带你了解实时看板(50PPT)

6072
来自专栏DevOps时代的专栏

腾讯织云:DevOps流水线应用平台践行之路

持续交付是DevOps的核心工程实践,持续交付流水线驱动着DevOps的落地,昨天在云+峰会的开发者专场,腾讯跟大家揭开了DevOps流水线平台的神秘面纱。同时...

3609
来自专栏EAWorld

企业级应用的高可靠运维实践与DevOps(一)

? 很高兴今天有机会在这里与大家交流,也要感谢普元提供的交流平台和普元CTO焦总的邀请。我今天与大家分享的主题是关于企业级应用的可靠运维实践的这个话题。 ? ...

4259
来自专栏Jerry的SAP技术分享

SAP成都研究院郑晓霞:Shift Left Testing和软件质量保证的一些思考

今天的文章来自Jerry的同事,曾经的搭档郑晓霞(Zheng Kate)。郑晓霞是在Jerry心中是一位很有实力的程序媛,2011年从西安某软件公司跳槽到SAP...

1642

扫码关注云+社区

领取腾讯云代金券