前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >海量服务 | 论服务器极致化海量运营交付的未来

海量服务 | 论服务器极致化海量运营交付的未来

作者头像
腾讯技术工程官方号
发布2018-05-15 12:10:00
9.1K6
发布2018-05-15 12:10:00
举报

看标题一定会有些歧义, 总觉着是来讨论航运的, 其实是来和大家研讨我厂海量服务器的营运。 出厂诞生之后, 经过物流环节抵达指定数据中心, 移动上架构后通过检测和配置, 再交付应用部门使用,在数据中心恒温恒湿的小波动环境中运行几年后,一台服务器便可以光荣地退休回收,也意味着走完了它的一生。这样安安稳稳的小日子,是每个运营人员梦寐以求的好时光。

然而现实往往是残酷的,腾讯服务器的巨大保有量,诸多的供应厂商和系统体系,广泛分布的数据中心,不同业务的供配时效和SLA要求, 每一个点都对运营的纬度和深度提出新的挑战,也让腾讯服务器运营团队多年来“有机会”去探索和解决“业内无参照”的挑战。今天给大家呈现的是现有运营能力,更多的是探讨未来。

认识腾讯服务器运营的能力,可以从腾讯云的黑石裸金属服务器入手,从一组数据让大家有感性认识:标准型黑石服务器,复用腾讯海量机型的5种服务器机型,可以支持29种操作系统预装(含客户定制操作系统),95%情况下2小时交付,最晚不超过4小时,这满足了大部分客户的配置需求,覆盖了Web接入/缓存/KV/数据存储/大数据计算/数据库等通用场景。

不止于此,另一种是黑石弹性机型服务器,以更灵活的方式提供了27000多种配置组合,2天极速交付,满足客户端自定义的诉求。纵观国内和海外,没有一家云服务商能提供对等的配置种类和交付SLA,黑石对裸金属服务器进行了一次重定义。

下一张图是对黑石服务器交付流程的一个概括,简单而直观,反映了弹性配置机型的整体流程,通过种子机的物理改造和测试验证,确保交付配置的一致性,系统的可靠性和预期的性能。其实标准机型也使用这样一个流程,但是交付的切入点不同而已。对于5类标准机型,进行预购和预检,形成资源池,在客户下单后更新BIOS/BMC配置,并灌装操作系统,最终验证交付。只有这样,4小时以内的交付才有可能。这里要给黑石服务器和背后的运营团队一些掌声,展现了腾讯运营能力,也体现了运营的智慧。

能有这样的交付能力, 得力于多年以来几个关键运营能力的构建:部件标准化使得部件库扁平化,实现部件资产管理和跨厂商集中后备模式;弹性配置体系的构建,让我们拥有了Configuration-To-Order的流程体系,构建了基于部件与系统的质量认证体系;运营自动化打通引入/测试/运营/管控/质量等关键点,实现部件与系统的生命周期管理精细化和高效化,辅以自维保体系的建设,逐步形成设备故障自维保和改造。快速响应和交付效率,始终是运营团队追求的目标。

由于海量的存在,腾讯服务器运营能力站上了一个新的高度,但必须保持自省的态度:我能做得更好么?对现有部件引入流程进行复盘,我们不难发现并非所有部件都能支持灵活配置。例如,GPU和其他一些部件可能需要厂商的深度配合,对系统设计规格需要做工程评估和验证,这完全依赖于厂商的资源,时间和成本不可控,快速响应就无从谈起。由于我们与现有系统供应商之间为简单的供配模式,系统规格和设计黑盒化,对现有采购系统不具备工程化能力。“教育从娃娃抓起”,未来运营的入口,必须从系统设计开始,搭建深度的联合开发模式,确保部件导入时的规格兼容性和验证能力。

通过服务器系统BMC和BIOS的自主实现为例,可以统一运营侧的监管控接口,简化管理封装成本,丰富管控路径。深入系统和部件设计来拓宽采集数据的纬度和颗粒度,有助于精细化的健康管理,也为后端分析平台提供了更有价值的信息。把握系统散热和供电控制设计,利于建立宽泛规格的支持能力。

从服务器系统的设计阶段开始,我们就会融入对于运营的理解,无缝对接运营系统,实现高效交付和后期管理。始于此,而不止于此,新运营的时代正在到来!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-05-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯技术工程官方号 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据保险箱
数据保险箱(Cloud Data Coffer Service,CDCS)为您提供更高安全系数的企业核心数据存储服务。您可以通过自定义过期天数的方法删除数据,避免误删带来的损害,还可以将数据跨地域存储,防止一些不可抗因素导致的数据丢失。数据保险箱支持通过控制台、API 等多样化方式快速简单接入,实现海量数据的存储管理。您可以使用数据保险箱对文件数据进行上传、下载,最终实现数据的安全存储和提取。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档