文章/答案/技术大牛

发布

基于NSX-T和AVI实现企业双活中心

文章来源：企鹅号 - 威睿中国

概述

提起数据中双活容灾很多IT技术控就会很high，因为它几乎涵盖了数据中心所有IT技术：底层物理传输、网络、安全、存储、计算、虚拟化、数据库、中间件、应用、客户端、DNS等，说它是IT技术皇冠上的明珠也不为过，一个项目实施下来功力大增。同时也让我想起了参与过的那些金融数据中心容灾建设和演练，那些不眠之夜和曾经一起战斗过的兄弟们，哈哈！

数据中心双活容灾建设是一项系统工程，产品技术繁多架构复杂，还会牵扯到许多不同部门，包括人员、组织架构等。本文主要从VMware视角，基于VMware NSX-T分析和探讨一下基于VMware私有云的双活容灾总体解决方案，限于篇幅本文只讨论同城双活下的两种主要场景，异地灾备场景将作为单独的议题。

传统数据中心容灾面临的挑战

RTO时间过长

很多企业投资了大量的人力物力建设了同城双活数据中心，但建成后却发现虽然RPO可以做到接近于零，但应用恢复时间仍然很难满足规划时的RTO需求。这主要是因为在传统数据中心的计算、存储和网络等资源基本都是各自为政缺乏有效的沟通和联动，当进行容灾切换或演练时时，各部门之间的配合和沟通基本都是靠吼。典型的场景就是：网络切，网络切完计算切；计算切，计算切完存储切；存储切、存储切完应用切……，然后一整就是整个通宵。

跨中心二层网络打通困难

随着网络设备国产化要求越来越高，同时考虑到多中心之间的冗余备份。越来越多企业的不同数据中心开始考虑采用不同品牌的物理网络设备。而由于二层网络技术跨异构网络设备本身的兼容性和稳定性限制，在高可用性要求非常高的数据中心之间，一般不会采用跨异构网络实现二层网络打通，这就严重影响了双活数据中心之间的动态资源调度和资源的池化需求，同时也无法跨数据中心之间应用级灾备的需求。

不支持跨中心一体化运维

在绝大多数企业哪怕在单个数据中心内部，计算、网络和存储的运维都是相对独立的，更不要说多中心之间，在传统数据中心的容灾架构中每个中心的安全配置和应用发布也是完全独立的。而跨中心实现计算、存储、网络、安全的一体化运维和应用发布是提升双活数据中心运维水平优化RPO/RTO实现精细化管理的必由之路。

安全策略不统一

在数据中心双活容灾切换时，很多客户都会碰到，当所有资源都完成切换完成后，却发现两个数据中心的防火墙策略是不一致的，还需要事后慢慢一点点进行修补和整改。这主要是因为现有双活容灾架构下，无法做到对多中心的安全策略进行单点配置和运维。

缺乏自动化切换手段

在数据中心双活容灾切换时，网络、计算、存储的切换大都依靠原始的人工切换手段为主，其中每一项切换可能都包含很多人工切换步骤，更不要说网络、计算、存储、安全和应用发布的一键式切换。导致切换时间过长，切换过程容易出现人为错误，回退难度大、RPO/RTO过长等一系列问题。

基于上述数据中心双活容灾建设中常见的一些问题和不足。本文主要基于VMware私有云解决方案，融合计算、存储、网络、安全和应用发布等技术来和大家一起分析一下同城双活数据中心的整体架构和具体实现方式。

基于NSX-T的VMware私有云双活解决方案总体架构

VMware私有云同城双活解决方案根据架构和部署要求的不同，主要分为两个场景。

场景一：双VC双中心

在双VC双中心场景中，同城的两个数据中心端到端网络时延要求不超过10毫秒，每个数据中心部署各自独立的vCenter。

如下图所示为我们建议的双VC双中心双活解决方案的整体架构：

nsx manager需要部署在一个跨数据中心的扩展集群，这个扩展集群需要一个跨数据中心的二层VLAN，nsx manger集群正常情况下工作在数据中心1,当数据中心1发生灾难时，nsx manger集群可以借助vSphere HA 技术在数据中心2自动恢复。

每个数据中心各自拥有自己的一套vCenter，两套vCenter作为computer manager完成到nsx manger集群的注册。

两个中心的所有计算节点都配置成本地集群模式，同时作为计算节点向nsx manger完成注册。

数据中心1部署两个Edge节点：Edge1和Edge2，数据中心2部署另外两个Edge节点：Edge3和Edge4。其中edge1和edge3配置跨数据中心配置成一个Edge集群工作在主备模式,edge1为主作为数据中心1南北向出口；其中edge2和edge4配置跨数据中心配置成一个Edge集群工作在主备模式,edge4为主作为数据中心2南北向出口。所有Edge传输节点向nsxmanger完成注册。

SRM实现两个数据中心之间的双向备份，任意一个数据中心出现故障，SRM可以在另外一个数据中心实现所有虚拟机的快速恢复。针对不同的RPO要求，SRM可以考虑整合第三方双活存储解决方案。

工作在Linked 模式下的vCetner作为两个数据中心计算和存储资源的统一入口负责资源调度、迁移、灾备、运维等。

nsx manager集群作为两个数据中心网络和安全统一入口，负责大二层网络、东西/南北向路由、统一的安全配置和运维等。

Nsx高级负载均衡avi作为两个数据中心的应用发布的统一入口，负责服务器负载均衡和跨中心访问的全局负载均衡动态调度以及相关运维。

场景二：单VC双中心

在单VC双中心场景中，同城的两个数据中心端到端网络时延要求不超过10毫秒，vCenter部署在一个数据中心负责管理两个数据中心的所有主机。

如下图所示为我们建议的单VC双中心双活解决方案的整体架构：

两个中心之间采用基于VSAN的共享存储架构，也可以考虑采用第三方的跨数据中心双活存储。

所有Vmkernel网段采用三层网络: Management, vMotion, IP Storage

跨数据分别部署2个vSphere Metro Storage Cluster集群：管理集群、计算集群；两个数据中心各自部署一套本地Edge集群。

nsx manager和 vcenter部署在管理集群，统一优先部署在数据中心1，当数据中心1故障时，可以借助vSphere HA技术在数据中心2自动恢复。

计算资源部署在计算集群，计算集群的虚拟机可以借助vSphere HA技术在另外一个数据中心自动恢复。

正常情况下所有管理组件运行在数据中心1，数据中心2负责HA的保护。

每个数据中心的两个Edge节点可以配置成active/active或active/standby模式，作为本地数据中心的南北向出口。出向流量主要根据数据中心的负载均衡的请求动态判断，来自数据中心1的负载均衡的请求走数据中心1；来自数据中心2的负载均衡的请求走数据中心2，当然也根据应用需求情况采用源就近原则的原则。入向流量采用全局负载均衡设备基于每个数据中心服务的健康状况动态负载均衡。

vCetner作为两个数据中心计算和存储资源的统一入口负责资源调度、迁移、灾备、运维等。

nsx manager作为两个数据中心网络和安全统一入口，负责大二层网络、东西/南北向路由、统一的安全配置和运维等。

nsx高级负载均衡avi作为两个数据中心的应用发布的统一入口，负责服务器负载均衡和跨中心访问的全局负载均衡动态调度以及相关运维。

VMware双活数据中心解决方案的客户价值

基于前面提到的两种同城双活数据中心的整体架构，在分析具体相关技术细节以前，我们在这里对上述两种双活解决方案的特点做个总结。在上述两种同城双活容灾解决方案中，VMware借助其在私有云方面的优势，把计算、存储、网络、安全和应用发布等技术有效融合成一个整体。

优化RTO

实现了计算、存储、网络、安全和应用发布的统一配置、变更和运维，实现灾备和演练的一体化。当单个应用或数据中心整体出现故障时，计算、存储、网络、安全都会在另外一个数据中心快速恢复，无需任何的手动方式的介入，大大优化了应用恢复时间RTO。

跨异构物理网络的统一资源池

由于方案采用了NSX的主机overlay技术实现了和数据中心物理网络设备的解耦，不同数据中心可以完全采用不同厂商的异构物理网络设备，可以是传统的物理交换机也可以是硬件SDN网络设备。NSX跨不同数据中心构建overlay的二层网络实现双活数据中心的资源池化，计算资源可以根据需要实现在不同数据中心的迁移、资源扩容、单应用的灾备等无需修改任何网络配置。nsx根据应用需要提供overlay的二层网络、分布式路由、基于虚拟机容器的分布式防火墙和ips/ids,负载均衡和全局负载均衡，跨数据中心的统一运维和应用可视化等。

统一的安全策略

跨异构物理网络的统一资源池

nsx的分布式防火墙和ips/ids可以实现双中心统一的基于应用的动态安全策略保护虚拟机容器和物理机的安全，安全策略可以支持ipv4/v6的自适应，和计算资源位置、拓扑无关。同时支持应用流量的实时可视化分析，自动梳理虚拟机应用、微服务应用之间的访问关系，自动推荐防火墙策略，可以进行防火墙策略下发前的测试和模拟，支持防火墙策略的一键式跨数据中心下发，大大简化双活数据中心私有云环境下安全策略的配置管理和运维。

统一的应用发布

借助nsx高级负载均衡avi提供的多云负载均衡功能，可以实现双中心应用的统一发布，来自外网的访问根据全局负载均衡提供的信息动态调度到不同数据中心。同时实现客户端到服务器，服务器到后台应用的实时可视化，实现应用故障的快速分析和定位。

一体化运维和一键式切换

vCetner作为两个数据中心计算和存储资源的统一入口负责资源调度、迁移、灾备、运维等。nsx manager作为两个数据中心网络和安全统一入口，负责大二层网络、东西/南北向路由、统一的安全配置和运维等。真正实现了两个数据中心的一体化运维和一键式切换。在优化双活数据中心的RTO的同时，大大提升了双活数据中心整体架构的先进性。

下面我们再来更具体地分析一下两种场景下的数据流和灾备切换。

双VC双中心

1、数据流

如上图所示在此架构下，蓝色应用虚拟机跨overlay网络分布式部署在两个数据中心。此时所有蓝色虚拟机web01-04无论位于哪个数据中心都会经过数据中心1的蓝色T1(主)-T0(主)出数据中心；而所有绿色虚拟机web01-04无论位于哪个数据中心都会经过数据中心2的绿色T1(主)-T0(主)出数据中心。

为了实现双中心入口流量的动态负载均衡，我们在每个中心部署一套基于AVI全局负载器，AVI全局负载均衡器会动态探测蓝色应用在数据中心1发布的 VIP虚地址和绿色应用在数据中心2发布的VIP虚地址。正常情况下客户端访问APP1.CORP.COM会优先选择数据中心1作为入口；客户端访问APP2.CORP.COM会优先选择数据中心2作为入口。

2．故障切换

由于nsx edge集群配置成了跨数据中心的a/s模式，一旦数据中心1出现故障，数据中心2的Edge集群的T0和T1 3秒内接管，无需任何的人工介入。所有网络和安全功能保持和数据中心1是一致的。

计算资源

计算资源的切换有SRM统一调度完成，所有数据中心1的虚拟机在数据中心2自动恢复，网络和安全配置保持不变，但出口变为数据中心2的T1/T0。

入口流量

基于NSX高级负载均衡的AVI设备会自动判断后台应用服务的健康状态，当数据中心1出现故障时，数据中心2的AVI会自动发布蓝色应用在数据中心2的应用服务地址，客户端根据AVI全局负载均衡提供的地址信息把客户端请求自动引流到数据中心2。

单VC双中心

1、数据流

如上图所示在此架构下，蓝色应用的4台虚拟机跨overlay网络分布式部署在两个数据中心。此时数据中心1和2的nsx高级负载均衡avi同时探测这四台虚拟机应用的健康状况并同时对外发布这个应用的vs服务；AVI通过全局负载均衡通知客户端两个数据中心都可以访问到此服务，客户端根据全局负载衡的算法动态把请求发送到任意一个数据中心。

后台虚拟机根据AVI的源地址，把响应送回到特定数据中心的负载均衡器并从本地数据中心出口出去。

以上分析的是基于真正双活的场景，当然考虑到后台数据跨数据中心一致性和效率的问题，我们也可以把应用部署成active/query或active／standby模式，限于篇幅不再赘述。

2、故障切换

在单VC架构下由于两个数据中心本身就是一个扩展集群，一旦数据中心1出现故障，借助vSphere HA的功能，所有管理节点和计算节点都会动态迁移到数据中心2，无需任何的人工介入。所有网络和安全功能保持和数据中心1一致。

客户端借助数据中心2的全局负载均衡设备发布的应用正常访问后台应用。应用的所有安全策略保持不变。

简单做个总结，大家可以看到VMware借助其在私有云方面的优势，在数据中心双活容灾建设中完全可以把计算、存储、网络、安全和应用发布等技术有效融合成一个有机的整体，真正实现双活数据中心的一体化运维、一键式切换、统一的安全和应用发布，进一步优化了现有双活数据中心的架构，使得双活数据中心已经演变成了一个更现代化的跨多中心的分布式云资源池。

发表于: 2020-04-082020-04-08 18:35:33
原文链接：https://kuaibao.qq.com/s/20200408A0OKY000?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

基于NSX-T和AVI实现企业双活中心

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐