历时18个月,跨越长三角多个地区,搬迁数万台服务器和交换机设备……B站数据中心圆满完成搬迁项目,新机房拥有更先进的基础设施和更全面的技术支持,将进一步优化上层业务布局,支撑业务整体的异地多活,有效提升资源利用率和运营稳定性,为广大B站用户带来更好的访问服务体验。
为什么要搬迁机房呢?随着近些年来B站业务迅速发展,对于基础设施的稳定性和可持续性要求也不断提高,而早期启用的机房相对老旧且分散,数据中心机柜已经饱和、可扩展性差且成本较高。同时为了支持业务多活建设、在离线业务混部和降低成本,对机房搬迁的需求更是与日俱增。我们经过综合考虑并权衡B站的各种因素,包括但不限于技术要求、服务质量以及成本效益等方面。最终,我们选择高频率、滚动搬迁的方式来进行机房搬迁项目,一方面能够满足我们对搬迁过程的要求,另一方面也同时保证了 B 站业务稳定运行。
数据中心搬迁是技术能力和组织管理能力的有机整合,本文主要从基础设施的角度出发,尽可能深入浅出地向大家阐明数据中心搬迁的整体背景,介绍搬迁的前期规划和准备,分析搬迁中面临的问题和挑战,盘点搬迁后的整体收益,最后还分享了我们对于机房搬迁的思考和总结。希望能通过我们的技术方案和实践经验,带给大家一些帮助和启发。
此次涉及搬迁的四个机房支撑B站几乎全部在线和离线业务应用,是B站建站以来最复杂、最大规模的数据中心及业务迁移。在长达18个月的高频率滚动搬迁中,需要应对搬迁规模大、项目周期长、调度场景复杂、协调方面多、执行难度大等各种挑战。
1.项目管理难:项目涉及团队涵盖系统部、资源运营、基础架构、采购、各业务部门、机房代维、搬迁供应商等诸多参与方,整体协调难度大,做好统筹管理是高效顺利完成机房搬迁的关键。举例来说,从外部协调的视角来看,设备进出会涉及报关等流程事项,那就需要提前协调机房授权、报关、搬迁物流车辆及人员,时刻关注机房下架和物流情况,从而确保设备准确、快速到达目的地。而从内部协调的视角来看,搬迁涉及B站所有业务部门,需要协调好业务下线停机和上线窗口,编排业务设备搬迁批次,搬迁后及时有效交付业务,保障搬迁期间业务的连续性和稳定性。
2.搬迁效率要求高:为了控制成本,减少为搬迁准备的冗余资源开销,最终采用了每周滚动的搬迁模式,平均每周搬迁设备超过500台,单批次最多1700余台。这就需要提前规划好完备的技术方案,从而确保每周搬迁设备能够稳定、高效地交付给业务,才能保障每周搬迁班车正常运转。
3.业务迁移复杂:本次搬迁涉及业务几乎覆盖B站的全业务场景,且业务之间往往存在严格的依赖关系,因此在开启搬迁项目之前,要深入调研各类业务的迁移需求,从而提前准备好搬迁方案以及各类问题应急预案,诸如数据中心间专线带宽、延迟和高可用的标准等要求。
机房搬迁是一项复杂的系统性工程,需要提前指定详细的规划和执行方案,从而确保业务连续性和数据安全。因此,在搬迁实施之前,完整的项目执行方案必须就位,方案包括项目评估、整体计划、前置准备、机房搬迁批次规划、业务迁移规划、应急预案等。
项目启动前需要对项目的可行性、效率和影响进行综合性分析,确保搬迁项目能够按照预定目标和标准顺利推进,并对项目的潜在风险和收益进行评价。项目评估主要包含以下内容:
1.梳理现状:对B站现有的所有机房,结合业务分布、技术架构、多活规划等进行梳理。
2.成本分析:综合考虑机房的IDC成本、商务条件以及B站未来3年的服务器增长后,成本分析给出了相当乐观的结论:搬迁机房可以带来显著的成本收益,而且在搬迁完成后的次月即可对收益开始回收。
3.风险评估:搬迁虽然能够带来显著收益,但是在搬迁过程中可能遭遇的各类风险更值得警惕。提前做好风险评估是搬迁项目里至关重要的一环。
明确搬迁设备范围、搬迁时间范围、搬迁顺序、新机房的资源供给、组织协调,形成整体计划。
总体计划 | |
---|---|
商务采购 | 准备搬迁机房相关技术、服务材料 |
冗余设备、备件采购 | |
搬迁服务商招标 | |
新机房环境准备 | 新机房网络需求准备 |
新机房综合布线需求 | |
新机房整体环境准备 | |
新机房机柜摆放、设备摆放规划 | |
搬迁方案设计 | 原机房现状调研、设备梳理 |
业务系统与设备关联性分析 | |
业务系统搬迁方案设计 | |
物理设备搬迁方案设计 | |
搬迁自动化流程设计 | |
实施准备 | 新老机房数据备份迁移专线准备 |
业务数据备份 | |
设备健康检查 | |
备机、备件准备 | |
应急预案准备 | |
搬迁实施 | 第一周期批次设备搬迁 |
第二周期批次设备搬迁 | |
...... | |
搬迁收尾 | 搬迁验收、文档整理、项目总结 |
1.梳理出所有需要搬迁设备的清单,包括服务器、存储设备、网络设备等。
2.搬迁供应商选择,选择一家专业机房搬家公司至关重要,可以降低服务器、网络核心等贵重设备在搬迁过程中产生损失。搬迁公司的专业经验、技术实力、团队素质、设备与工具、服务保障、口碑与信誉等都需要慎重考察和考虑。
3.新机房布局设计
4.新老机房之间专线建设
5.准备冗余资源
业务跨机房迁移方案包含制定迁移计划、评估业务系统、新环境准备、迁移应用和数据、测试验证和上线投产等步骤,以确保业务连续性和稳定性。新机房原来的定位是离线机房,搬迁项目确定后,新机房定位改为在离线混部机房。
1.在线业务:
2.离线业务:
跨部门多团队的协作是搬迁项目成功的关键。有效的组织和协调机制能够确保各方信息一致,确保每一次搬迁批次的搬迁实施能够按照计划落实。
搬迁期间要做好风险评估及相对应的应急预案,可以增强应急搬迁的整体效率,最大程度地减少突发事件导致搬迁无法进行、搬迁资源延迟交付等风险发生。
1.回滚方案:制定每个搬迁批次的回滚方案,及时响应协调和控制风险。如业务下线不符合预期导致设备无法下架,设备顺延到下批次搬迁班车,不影响整体搬迁班车执行。
2.搬迁时间周期:每个搬迁周期适度预留冗余批次,业务无法下线、疫情等因素会导致搬迁周期内部分批次无法正常搬迁,使用冗余批次完成该周期搬迁,从而不影响整体搬迁计划执行。
3.搬迁项目执行:关键节点跟踪,提前评估风险、识别风险及时做好应对措施。
在机房搬迁执行中,首先需要制定合理的设备上架规划,通过自动化搬迁流程确保搬迁过程高效顺畅,同时进行物理搬迁时强化安全保障,藉由全面的检查确保交付的一致性,最后依靠详尽的执行清单确保各项任务落实到位。
1.按照每个搬迁班车批次的设备清单及业务需求,确认清单内设备的属性信息(尺寸、功耗、网卡规格及数量、电源规格及数量)和每个业务设备的上架分布需求。
2.规划规则:设备尺寸和机柜机位规格适配、机柜内PDU各规格插排不超可用数量、特殊设备做专项安排(商业存储等),合理规划搬迁设备在新机房的上架位置。
3.自动化上架规划:根据设备的类型、功耗、尺寸、网络端口以及业务分布需求,结合机柜功率、网络端口等分配规则进行排序和组合,按最大化机房综合利用率的原则程序自动化计算和规划。
4.产出设备在新机房的上架表格(包间、机柜、U位、设备信息、系统IP、管理IP等)。
搬迁过程涉及业务迁移与设备关机,这本身就会带来稳定性风险,例如数据丢失和依赖应用故障等。同时,业务又有着极高的交付效率要求,那就需要尽可能实现全流程自动化以提升整体效率,减少人为操作环节,从而降低出错的概率。
在服务器物理搬迁过程中,需要特别重点考虑以下因素:搬迁计划与时间规划、人员安排与协调、设备搬迁的准确性、控制设备故障率。
1.物流准备工作
2.按照设备清单搬迁设备,下架、打包、搬运、上架
3.安全保障
按业务需求统一初始化,并对服务器BIOS与BMC配置、操作系统内各类服务与配置以及业务定制化项进行检查,保证交付设备的一致性满足业务需求,从而确保系统的稳定性。
由于本次搬迁设备类型杂、设备总数量多、搬迁频率高、交付要求严,根据搬迁技术方案,制定了一个详细的执行清单可以帮助确保每个环节都能顺利进行。在搬迁过程中,不断完善并严格按照以下清单逐项检查,将有效提高搬迁的效率和安全性。
搬迁执行checklist | |
---|---|
搬迁步骤 | 工作事项 |
搬迁需求确认 | 业务提单 |
服务器需求确认 | |
网络设备需求确认 | |
搬迁服务流程发起 | |
搬迁准备 | 搬迁公司确认 |
搬迁计划确认 | |
制作下架表 | |
规划上架表 | |
源机房人员和设备授权 | |
目标机房人员和设备授权 | |
目标机房人员和设备授权 | |
搬迁执行 | 现场勘察 |
搬迁标签粘贴 | |
设备备件、打包材料准备 | |
设备下架、打包、搬运、上架、接线 | |
设备上电、检测、排障 | |
搬迁验收 | 确认搬迁完成 |
完成验收清单 | |
交付业务 | 系统初始化 |
交付基线校验 | |
交付业务 |
在国家“双碳”战略目标指引下,B站新一代定制化数据中心以绿色节能为目标,将低碳经济、节能减排等理念引入新机房的建设,通过合理的布局设计、先进的节能设备和高效的运维管理,进一步降低机房的整体PUE值,减少能源消耗和碳排放,全面提升机房SLA。同时,随着数据中心搬迁,减少IDC机房和机房间互联专线数量,有效降低运营成本,实现每年近一亿的机房成本收益。
新机房加大了在离线混部力度,全B站IDC服务器CPU日均使用率从搬迁前的25%左右提升至搬迁后的35%以上。新机房采用了更优的网络架构和更新的网络设备,有力提升网络传输效率和响应速度,通过优化网络拓扑结构和安全措施,大大降低网络故障风险。通过批量替换故障硬件、更新问题固件、优化主机BMC/BIOS配置以及收敛操作系统内核版本和整治系统环境,降低硬件运维管理的复杂度,有效提升了新机房的运行效率和稳定性。业务则在机房迁移过程完成老旧业务梳理,下线无人认领应用,清理无用数据表和文件,完成了对线上环境的一次完整的梳理。
新机房正式投入使用后,B站数据中心的业务承载能力迈上全新的台阶,将为B站的快速发展奠定坚实的基础,提供更好的基础设施保障和支持。面向未来,B站将继续加强基础设施的建设和投入,不断提升平台的性能和稳定性,为广大用户提供更加优质的服务。
-End-
作者丨系统部团队、资源运营团队
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。