文章/答案/技术大牛

发布

高并发＆高可用系统应对策略的一些思考

文章来源：企鹅号 - 愚猿

说明：

仅仅是自己的一些观点和思考，如有问题欢迎指正

文中【】内提到的spring boot starter是自己封装的，地址：https://gitee.com/itopener/springboot

解耦神器：MQ

MQ是分布式架构中的解耦神器，应用非常普遍。有些分布式事务也是利用MQ来做的。由于其高吞吐量，在一些业务比较复杂的情况，可以先做基本的数据验证，然后将数据放入MQ，由消费者异步去处理后续的复杂业务逻辑，这样可以大大提高请求响应速度，提升用户体验。如果消费者业务处理比较复杂，也可以独立集群部署，根据实际处理能力需求部署多个节点。需要注意的是：

需要确认消息发送MQ成功

比如RabbitMQ在发送消息到MQ时，就有发送回调确认，虽然不能够完全避免消息丢失，但也能够避免一些极端情况下消息发送失败的情况了。可以利用MQ的事务来避免更多情况的消息丢失

消息持久化

需要注意配置消息持久化，避免MQ集群挂掉的情况下大量丢失消息的情况

消息消费的幂等性

正常来说消息是不会重复发送的，但是一些特殊情况也可能会导致消息重复发送给消费者，一般会在消息中加一个全局唯一的流水号，通过流水号来判断消息是否已经消费过

注意用户体验

使用异步处理是在提高系统吞吐量考虑下的一种设计，相对于实时快速给用户返回结果，肯定用户体验会更差一点，但这也是目前来说综合考虑的一种不错的方案了，因此在设计之初就需要评估是否需要异步处理，如果需要异步处理，那一定要考虑如何给用户更友好的提示和引导。因为异步处理是技术实现结合实际业务情况的一种综合解决方案，对于产品来说是不应该关心的，需要技术人员主动尽早提出流程中异步处理的节点，在需求分析阶段就考虑如何设计才能对用户来说更加友好。如果在开发过程中才提出，很可能就会对用户展示界面有较大调整，从而导致需求变更、系统设计变更，而后就是甩锅、扯皮、延期了

库存扣减

库存扣减的实现方式有很多种，而且涉及到扣减库存的时候还需要结合实际业务场景来决定实现方案，除了扣减库存，还需要记录一些业务数据。数据库在高并发量的应用中很容易遇到瓶颈，所以可以考虑使用Redis + MQ来做请求的处理，由MQ消费者去实现后续的业务逻辑。这样能够较快速的响应请求，避免请求阻塞而引发更多的问题

使用Redis来做库存扣减

利用Redis中的incr命令来实现库存扣减的操作。Redis从2.6.0版本开始内置了Lua解释器，并且对Lua脚本的执行是具有原子性的，所以可以利用此特性来做库存的扣减，具体实现可以参考【stock-spring-boot-starter】，starter中主要实现了初始化/重置库存、扣减库存、恢复库存

Redis集群的效率已经非常高了，能够支撑一定量的并发扣减库存，并且由于Redis执行Lua脚本的原子性可以避免超扣的问题。如果一个Redis集群还满足不了业务需要，可以考虑将库存进行拆分。即将库存拆成多份，分别放到不同的Redis集群当中，多个Redis集群采用轮询策略，基本能够在大体上保证各个Redis集群的剩余库存量不会相差太大。不过也不能绝对的保证数量均匀，所以在扣减库存操作返回库存不足时，还是需要一定的策略去解决这个问题，比如扣减库存返回库存不足时，继续轮询到下一个Redis集群，当所有Redis集群都返回库存不足时，可以在应用节点内或某个统一的地方打个标记表示已没有库存，避免每个请求都轮询全部的Redis集群。

扣减库存的幂等性

由于利用Redis的incr命令来扣减库存，没法存储请求源的信息，所以扣减库存的幂等性由应用来保证，可以利用客户端token或流水号之类的来做

MQ异步处理业务数据

扣减库存都会伴随一些业务数据需要记录，如果实时记录到数据库，仍然很容易达到瓶颈，所以可以利用MQ，将相关信息放入MQ，然后由MQ消费者去异步处理后续的业务逻辑。当然如果MQ消息发送失败需要恢复Redis中的库存，Redis操作和MQ操作无法完全保证一致性，所以在保证正常情况下数据一致性的前提下，还需要类似对账一样来验证扣减库存和实际库存的一致性。不过在这之前，我认为需要更优先考虑限流问题，需要提前压测出应用的性能瓶颈，根据压测结果对请求配置限流，优先保证高并发情况下应用不会崩溃掉，这样才能更好的保证接收到的请求能够按正常代码逻辑处理，减少发生库存不一致的情况

限流

相信很多猿都遇到过并发量猛增导致系统崩溃的情况，所以建议提前压测出系统性能瓶颈，包含各个应用接口、数据库、缓存、MQ等的瓶颈，然后根据压测结果配置对应的限流值，这样可以很大程度避免应用因为大量请求而挂掉。当然这也会带来其他的问题，比如以下两个方面：

监控，及时扩容

应用限流后就决定了只能处理一定量的请求，对于增长期应用来说，一般还是希望能够处理更多的用户请求，毕竟意味着带来更多的用户、更多的收益。所以就需要监控应用流量，根据实际情况及时进行扩容，提高整个系统的处理能力，以便为更多的用户提供服务

用户体验

当应用达到限流值时，需要给用户更好的提示和引导，这也是需要在需求分析阶段就需要考虑的

限流前置

在实际的系统架构中，用户请求可能会经过多级才会到达应用节点，比如：nginx-->gateway-->应用。如果条件允许，可以在尽量靠前的位置做限流设置，这样可以尽早的给用户反馈，也可以减少后续层级的资源浪费。不过毕竟在应用内增加限流配置的开发成本相对来说较低，并且可能会更灵活，所以需要根据团队实际情况而定了。nginx做限流设置可以使用Lua+Redis配合来实现；应用内限流可以使用RateLimiter来做。当然都可以通过封装来实现动态配置限流的功能，比如【ratelimiter-spring-boot-starter】

缓存

在高并发应用中，肯定避免不了数据的频繁读写，这时候缓存就能够起到很大作用了，一般会使用像Redis集群这样的高性能缓存，减少数据库的频繁读取，以提高数据的查询效率，这里主要提下以下场景

多级缓存

虽然Redis集群这种缓存的性能已经很高了，但是也避免不了网络消耗，在高并发系统中，这些消耗是可能会引起很严重后果的，也需要尽量减少。可以考虑多级缓存，将一些变更频率非常低的数据放入应用内缓存，这样就可以在应用内直接处理了，相比使用集中式缓存来说，在高并发场景还是能够提高很大效率的，可以参考【cache-redis-caffeine-spring-boot-starter】实现两级缓存，也可以参考开源中国的J2Cache，支持多种两级缓存的方式。需要注意的就是缓存失效时一级缓存的清理，因为一级缓存是在应用内，对于集群部署的系统，应用之间是没法直接通信的，只能借助其他工具来进行通知并清理一级缓存。如利用Redis的发布订阅功能来实现同一应用不同节点间的通信

CDN

CDN也是一种缓存，只是主要适用于一些静态资源，比如：css、js、png图片等，前端会使用的较多。在一些场景下，可以结合动静分离、前后端分离，将前端资源全部放入CDN中，能够很大程度提高访问效率。需要注意的是前端静态资源是可能会更新的，当有更新的时候需要刷新CDN缓存。或者另一种策略是在静态资源的地址上增加一个类似版本号的标志，这样每次修改后的路径就会不一样，上线后CDN就会直接回源到自己应用内获取最新的文件并缓存在CDN中。使用CDN就需要一套比较完善的自动化部署的工具了，不然每次修改后上线就会比较麻烦

前端缓存

前端html中可以配置静态资源在前端的缓存，配置后浏览器会缓存一些资源，当用户刷新页面时，只要不是强制刷新，就可以不用再通过网络请求获取静态资源，也能够一定程度提高页面的响应速度

数据预先处理

对于一些业务场景，可以提前预处理一些数据，在使用的时候就可以直接使用处理结果了，减少请求时的处理逻辑。如对于限制某些用户参与资格，可以提前将用户打好标记，这样在用户请求时就可以直接判断是否有参与资格，如果数据量比较大，还可以根据一定规则将数据分布存储，用户请求时也根据此规则路由到对应的服务去判断用户参与资格，减轻单节点压力和单服务数据量，提高整体的处理能力和响应速度

资源前置

目前很多都是分布式微服务架构，就可能会导致调用链路很长，因此可以将一些基本的判断尽量前置，比如用户参与资格、前面提到的限流前置、或者一些资源直接由前端请求到目的地址，而不是通过服务端转发；涉及概率型的高并发请求，可以考虑在用户访问时即随机一部分结果，在前端告知用户参与失败。总之，就是将能提前的尽量提前，避免调用链路中不符合条件的节点做无用功

熔断降级

在微服务架构中，会有很多的接口调用，当某些服务出现调用时间较长或无法提供服务的时候，就可能会造成请求阻塞，从而导致响应缓慢，吞吐量降低的情况。这时候就有必要对服务进行降级处理。当超过指定时间或服务不可用的时候，采取备用方案继续后续流程，避免请求阻塞时间太长。比如对于概率性的请求（如抽奖），当处理时间过长时直接认为随机结果是无效的（如未中奖）。需要注意的是

配置熔断降级的时间需要综合权衡一下具体配置多少，而且正常情况下是能够快速响应的，当出现处理时间超时的情况或服务不可用的情况，就需要监控及时告警，以便尽快恢复服务

当出现熔断降级的时候，需要有对应的机制，比如：重试、回退。需要保证业务数据在代码逻辑上的一致性

可以使用hystrix来实现熔断降级处理

补偿机制

对于一些业务处理失败后需要有补偿机制，例如：重试、回退等

重试需要限制重试次数，避免死循环，超过次数的需要及时告警，以便人工处理或其他处理。重试就需要保证幂等性，避免重复处理导致的不一致的问题

回退。当超过重试次数或一些处理失败后，需要回退的，需要考虑周全一些，避免出现数据不一致的情况

幂等性

在实际处理中可能会出现各种各样的情况导致重复处理，就需要保证处理的幂等性，一般可以使用全局唯一的流水号来进行唯一性判断，避免重复处理的问题，主要是在MQ消息处理、接口调用等场景。全局唯一的流水号可以参考tweeter的snowflake算法【sequence-spring-boot-starter】。具体生成的位置就需要根据实际业务场景决定了，主要是需要考虑各种极端的异常情况

监控告警

在高并发系统中，用户量本身就很大，一旦出现问题影响范围就会比较大，所以监控告警就需要及时的反馈出系统问题，以便快速恢复服务。必须要建立比较完善的应对流程，建议也可以建立对应的经验库，对常见问题进行记录，一方面避免重复发生，另一方面在发生问题时可以及时定位问题。

自动化运维方面需要大力建设，可以很大程度提高线上问题的响应和解决速度。并且需要有全链路监控机制，可以更方便的排查线上问题并快速解决。全链路监控可以考虑像pingpoint、zipkin、OpenCensus等

人员管理

分工要明确，需要有随时接收并处理问题的人员

信息透明，团队成员需要对系统有足够的了解，需要让团队成员有独当一面的能力

知识库，整理技术上、业务上的常见问题、经验，方便新成员快速理解并融入

分享，定期分享技术上、业务上的知识，团队成员共同快速进步。适当的分享系统运行成果，可以适当鼓舞团队士气

适当与业务沟通，了解一线业务需求和使用情况，以便不断改善，也可以在系统设计上有更长远的考虑

适当用一些项目管理工具，适当将一些工作进行量化。不适合团队的成员也需要及时淘汰

避免过度设计

避免因为少数极端情况做过多处理

避免过度拆分微服务，尽量避免分布式事务

代码结构和规范

要注意代码结构的设计，提高代码可重用率

严格遵守代码规范，代码规范可以降低新成员的理解难度，也可以降低团队成员间互相理解的难度

参考：https://my.oschina.net/dengfuwei/blog/1611917

以上就是个人的一些观点总结和思考，如有任何问题欢迎指正

发表于: 2018-02-082018-02-08 19:00:39
原文链接：http://kuaibao.qq.com/s/20180208G12LU800?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

高并发＆高可用系统应对策略的一些思考

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐