前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >服务器又崩了?深度解析高可用架构的挑战和实践

服务器又崩了?深度解析高可用架构的挑战和实践

作者头像
腾讯云中间件团队
发布2021-07-15 12:11:08
7260
发布2021-07-15 12:11:08
举报

导读

本文是腾讯云微服务平台TSF的产品经理刘阎同学的产品分享,这次分享紧紧贴近目前企业面临的问题,对于服务器异常业务流量激增提出高效的解决方案。然后从微服务架构挑战,微服务设计,高可用最佳实践这三个方面逐渐深入。

 刘阎  腾讯云产品经理

5年ToB产品策划以及中间件开发工作经验

熟悉微服务、容器、Devops等产品,对分布式系统容灾架构设计具有丰富的实践经验

大家好,我是腾讯微服务平台TSF 产品经理刘阎,目前主要负责TSF高可用能力建设及演进规划工作,本次分享我会结合自己对微服务架构的理解以及TSF在高可用能力建设上的最佳实践与大家共同讨论如何构建高可用的微服务架构。

微服务架构挑战

 软件架构的演进历程

首先我们先来看下软件架构的演进历程:

单体架构:没有复杂逻辑分层,前后代码耦合,单个应用可能与多个数据库关联

适用于:迭代频率低,并发量小,业务逻辑简单的应用场景,目前单体架构在政府、金融、工业领域仍有广泛应用。

SOA架构:按业务逻辑进行服务拆分,服务间通过服务总线进行服务管理及流量转发

其主要问题在于:服务总线成为系统新的瓶颈,难以伴随业务的不断发展满足线性扩容的要求。

微服务架构:服务架构通过服务注册中心实现服务注册发现,服务启动时将服务实例注册到注册中心,调用方在发起调用时通过注册中心进行服务寻址,直接与提供方进行通信。理论上服务可以伴随业务发展实现线性扩展,不同服务之间可单独迭代,实现敏捷开发。

服务网格:版本云原生k8s及容器技术发展,服务网格技术已趋于成熟,相较于传统的微服务架构,服务网格通过sidercar模式进行流量代理和服务注册发现,无需业务感知,轻松实现跨语言服务治理,帮助业务快速迁移,使业务应用更加专注自身业务逻辑实现。

每种软件架构没有严格意义上的好坏之分,用户需要根据自身的业务特点进行架构选型。

微服务应用常见问题

微服务架构在满足高并发、敏捷迭代的同时,业务模块数量成几何数增长,给应用运维带来了严峻挑战,微服务架构相较于传统单体架构,具有流量洪峰激增、模块依赖复杂、故障定位难度大、故障恢复耗时长的特点。

  • 流量激增:单体应用拆分为微服务应用后,原有的单一请求逻辑拆分为多个微服务应用的组合业务逻辑,接口调用量成1:N的增长关系,面对流量洪峰,接口调用量激增。
  • 模块依赖复杂:原有的单体应用仅存在单一进程内的业务逻辑组合,微服务应用拆分为多个进程,各模块间的服务上下游依赖关系复杂,单个微服务或单个接口异常通常引发链式反应,造成服务雪崩。
  • 故障定位难度大:单次请求异常需要依据各模块的依赖关系分析整个调用链路定位故障原因,由于横跨多个微服务应用进程的不同业务逻辑,故障定位难度陡增。
  • 故障恢复耗时长:由于各微服务模块依赖关系复杂,需要根据调用链准确定位故障问题根源并进行逐级恢复,故障恢复及恢复后验证评价结果耗时长。

如何度量系统可用性指标

管理学大师彼得德鲁克曾说“你如果无法度量它,就无法管理它”(“It you can’t measure it, you can’t manage it”)。要想有效管理,就难以绕开度量的问题。

那如何度量分布式系统的可用性指标呢,这里有一个简单公式,可用性=平均故障间隔时间/平均故障间隔时间与平均故障恢复时间之和。

所谓平均故障间隔时间是指相邻两次故障之间的平均工作时间,也称为平均故障间隔。平均修复时间是从出现故障到修复中间的这段时间。MTTR 越短表示易恢复性越好。

MTBF:即平均故障间隔时间,英文全称是“Mean Time Between Failure”。是衡量一个产品(尤其是电器产品)的可靠性指标。单位为“小时”。

MTTR:全称是 Mean Time To Repair,即平均修复时间。是指可修复产品的平均修复时间,就是从出现故障到修复中间的这段时间。MTTR 越短表示易恢复性越好。

高可用架构设计的道、法、术

那如何设计高可用的微服务架构呢?接下来我将分别从道、法、术三个层面讲高可用微服务架构设计的基本原理、架构设计原则、以及高可用架构常用的解决方法。

道:从CAP到BASE

CAP 理论:在一个分布式系统中, 一致性(C:Consistency)、可用性(A:Availability) 和 分区容忍性(P:Partition Tolerance),最多只能同时满足其中两项。其中分区容忍性(P:Partition Tolerance)是复杂网络环境下的必须要素,因此分布式系统的架构设计需要在一致性和可用性之间进行取舍。就诞生了诸如:Paxos 算法 和 Raft 算法强一致性共识算法,以及2阶段提交,3阶段提交的最终一致性算法。

BASE 理论:BASE是对 CAP 中一致性和可用性权衡的结果,它的理论的核心思想是:即使无法做到强一致性,但每个应用都可以根据自身业务特点,采用适当的方式来使系统达到最终一致性。

法:微服务高可用架构设计原则

结合我对微服务高可用架构的理解,总结出以下6点高可用架构设计的原则,分别是服务无状态、异步解耦、分区容错、故障隔离、快速恢复、最终一致性:

服务无状态:服务应用进行无状态设计,将服务应用的状态数据通过缓存、数据库进行集中存储,通过nginx或网关进行负载均衡实现水平扩展。

异步解耦:各服务模块通过发布订阅、事件驱动方式进行异步解耦,单次请求调用通过异步回调方式快速响应,将通知事件与处理结果分离,避免异常雪崩。

分区容错:基于指定的业务规则实现业务分流路由,将流量分发至多个可用区,不同可用区通过数据同步、多备份机制保障数据一致性。

故障隔离:单一进程、单一接口、单一服务通过熔断、降级机制实现故障隔离,避免系统关联异常,引发雪崩效应。

快速恢复:通过流量切分,版本管理、应用回滚机制实现应用快速回退至健康版本,快速恢复应用。

最终一致性:通过多数据源双写、数据稽核、数据修复实现数据跨可用区数据最终一致性。

术:高可用常用手段

分区容错:

异地容灾是高可用架构典型的应用场景,通过将不同地域的数据中心构建多套应用服务,当单一地域服务宕机时可快速通过流量切换灾备中心保障业务持续、稳定。异地容灾按保障级别不同分为,多可用区、同城冷备、同城双活、异地冷备、两地三中心五个级别,其保障级别、应用成本、恢复延迟都呈递增趋势。

异步解耦:

在微服务应用中通过引入消息中间件将上游组合服务对下游多个微服务的同步调用进行异步解耦,基于消息的可靠投递能力快速响应用户请求,能够大幅提升服务并发访问性能及用户体验,并通过数据补偿手段保障数据最终一致性。

服务限流:

由于 API 接口无法控制调用方的行为,因此当遇到瞬时请求量激增时,会导致接口占用过多服务器资源,使得其他请求响应速度降低或是超时,严重导致服务器宕机。服务限流主要是保护服务节点或者数据节点,防止瞬时流量过大造成服务和数据崩溃,导致服务不可用。

  • 局部限流:基于简单计数、令牌桶、漏斗算法在单个节点内的限流,仅能限制传入此节点的请求,无需引入中间件,通过局部限流达到全局限流的目的,同时避免实例级别单一接口访问量激增问题
  • 全局限流:基于简单计数、令牌桶算法,通过引入中间件如redis,针对整个集群流量进行全局控制。

服务熔断:

服务熔断是应对服务异常,实现服务容错,避免服务雪崩的有效手段。

从下图中可以看出,当网关入口服务请求下游多个服务接口,当服务C接口异常将导致入口服务流量的不可用,服务A、服务E请求则白白占用。

从下图中可以看出,当网关入口的服务请求下游的单一服务接口,当服务B接口异常将导致入口请求夯住,占用网关请求资源,导致整体业务异常。

针对以上两种异常场景,通过在服务调用时配置熔断策略能够快速失败,直接反馈上游业务异常结果,避免请求线程夯死及服务雪崩。

降级容错:

服务降级是在服务器压力陡增的情况下,利用有限资源,根据当前业务情况,关闭某些服务接口或者页面,以此释放服务器资源以保证核心服务的正常运行。

TSF高可用最佳实践

TSF微服务平台针对业务流量激增、服务异常容错等问题提供架构容灾、灰度发布、服务容错兜底、实例优雅启停、应用性能管理的一体化高可用服务架构。突出立体化自动化可视化的优势,提供端到端的应用性能监控,多维度可视化的运行监控数据聚合分析,实现故障自动感知,自动处理,快速恢复故障业务,保障系统的稳定高效运行。

单元化架构部署

单元化架构是一种高级的高可用架构设计模式,通过对核心业务数据分片,应用服务无状态设计将相同领域的业务服务划分为一个个独立的部署单元,单元内整体业务闭环。通过单元化部署架构能够有效满足弹性伸缩故障隔离异地容灾等高可用建设要求。此外基于单元化部署可以实现以部署单元为基准,构建灵活的发布策略。

单元化架构产品能力:

  • 网关业务单元路由标签 
  • 支持跨单元横向调用 
  • 单元内服务容错兜底

弹性伸缩

通过配置动态伸缩规则,TSF中控服务基于agent上报的监控数据实现实时统计,满足流量激增自动扩容或流量低峰自动缩容能力,有效保障服务高效稳定资源利用率提升

全链路灰度发布

灰度发布是将具有一定特征或者比例的流量分配到需要被验证的版本中,用来观察新的验证版本的线上运行状态。相比全量上线,灰度发布是更加谨慎的发布形式。当线上调用链路较为复杂时,全链路灰度发布可以将线上的各个服务隔离出一个单独的运行环境。

全链路灰度产品能力:

  • 基于业务级别的全链路灰度发布能力
  • 支持按照业务级别请求参数对流量进行划拨 
  • 泳道间流量隔离

优雅启停

在应用滚动发布过程中,可以通过调整部署组滚动发布更新策略达到服务优雅下线,降低发布过程中业务中断影响。

这里简单介绍优雅下线的简单流程

  1. 下线实例在注册中心进行反注册,注销该实例注册信息;
  2. 注册中心节点订阅更新周期为15s,调用方在感知注册中心实例变更后,更新本地缓存服务地址,不再将流量路由到下线实例,期间保障业务无中断;
  3. 下线实例等待30s(2个心跳周期)后进行实际下线操作;

优雅启停产品能力:

  • 支持容器、虚机部署方式
  • 实例反注册下线事件详情 
  • 实例启动就绪检测

服务限流

TSF 限流基于监控服务流量的 QPS 指标,当达到指定的阈值时进行流量控制,避免被瞬时高峰流量冲垮,从而确保服务的高可用。支持在网关配置全局限流策略保障入口服务流量稳定支持针对单一服务配置局部限流策略保障当前服务流量稳定,同时提供灵活的限流规则配置及动态生效,提供可视化的限流操作及监控数据展示。

服务熔断

TSF服务熔断能力支持服务、实例、API多维度的熔断隔离级别,提供控制台可视化配置及熔断事件展示,满足熔断配置热生效需求。

熔断器状态转换:

  • 熔断器开始处于closed状态,一旦检测到错误(或慢响应)达到一定阈值,便转为open状态,此时不再调用下游目标服务。
  •  一段时间后转化为half open状态,尝试放行一部分请求到下游服务。 
  • 一旦检测到响应成功,回归到closed状态,也即恢复服务;否则回到open状态。

健康检查与注册中心联动流程

健康检查分为存活检查就绪检查;存活检查主要作用是确定进程存活状态,判断是否需要进行实例重启。就绪检查主要作用是确定服务实例能否支持对外服务,将健康检查结果与注册中心状态联动避免流量接入异常节点。

健康检查与注册中心联动流程

1.就绪检查,检查实例状态是否ready

2.如果就绪检查ready则更新实例注册状态为passing,反之则检查状态为cirtical

3.监听注册中心服务提供方实例状态变更

4.存在状态变更更新缓存及本地文件

5.发起服务调用

健康检查产品能力:

  • 存活检查
  • 就绪检查
  • 多种探测方式:http,tcp,执行命令
  • 支持虚机&容器部署

应用性能管理能力

最后我们从一个问题排查流程全局展示tsf应用性能管理能力:

  1. 用户收到监控平台发送的告警信息,确定异常基本信息。
  2. 通过服务依赖拓扑确定异常服务的上下游依赖关系,进行全局视图分析。
  3. 接下来可以服务接口调用情况确定是全局接口异常或是单一接口异常。
  4. 如果是全局接口异常说明服务提供方服务实例存在异常问题,找到对应的异常实例通过日志检索或JVM监控分析排查具体问题;如果是单一接口异常说明提供方接口逻辑处理,通过日志检索可排查具体问题。
  5. 当然也可以在全局视图分析后通过对直接服务进行调用链分析排查单笔请求的调用链路,通过调用链与日志联动排查具体异常。

以上是本次TSF高可用结构设计及核心技术原理的全部分享。欢迎关注腾讯云中间件获取最新产品信息,了解行业动态。

免费体验馆

消息队列CKafka

分布式、高吞吐量、高可扩展性的消息服务,具备数据压缩、同时支持离线和实时数据处理等优点。

扫码即可免费体验

免费体验路径:云产品体验->基础->消息队列CKafka

消息队列TDMQ

一款基于 Apache 顶级开源项目 Pulsar 自研的金融级分布式消息中间件。其计算与存储分离的架构设计,使得它具备极好的云原生和 Serverless 特性,用户按量使用,无需关心底层资源。

扫码点击“立即使用”,即可免费体验

微服务平台TSF

稳定、高性能的技术中台。一个围绕着应用和微服务的 PaaS 平台,提供应用全生命周期管理、数据化运营、立体化监控和服务治理等功能。TSF 拥抱 Spring Cloud 、Service Mesh 微服务框架,帮助企业客户解决传统集中式架构转型的困难,打造大规模高可用的分布式系统架构,实现业务、产品的快速落地。

扫码点击“免费体验”,即可免费体验

微服务引擎TSE

高效、稳定的注册中心托管,助力您快速实现微服务架构转型。

扫码点击“立即申请”,即可免费体验

弹性微服务TEM

面向微服务应用的 Serverless PaaS 平台,实现资源 Serverless 化与微服务架构的完美结合,提供一整套开箱即用的微服务解决方案。弹性微服务帮助用户创建和管理云资源,并提供秒级弹性伸缩,用户可按需使用、按量付费,极大程度上帮用户节约运维和资源成本。让用户充分聚焦企业核心业务本身,助力业务成功。

扫码点击“立即申请”,即可免费体验

往期

推荐

《Kratos技术系列|从Kratos设计看Go微服务工程实践》

《Pulsar技术系列 - 深度解读Pulsar Schema》

《Apache Pulsar事务机制原理解析|Apache Pulsar 技术系列》

扫描下方二维码关注本公众号,

了解更多微服务、消息队列的相关信息!

解锁超多鹅厂周边!

戳原文,了解更多腾讯微服务平台相关信息

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-07-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯云中间件 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 《Pulsar技术系列 - 深度解读Pulsar Schema》
  • 《Apache Pulsar事务机制原理解析|Apache Pulsar 技术系列》
相关产品与服务
服务网格
服务网格(Tencent Cloud Mesh, TCM),一致、可靠、透明的云原生应用通信网络管控基础平台。全面兼容 Istio,集成腾讯云基础设施,提供全托管服务化的支撑能力保障网格生命周期管理。IaaS 组网与监控组件开箱即用,跨集群、异构应用一致发现管理加速云原生迁移。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档