上一节我们学习了 SpringCloud 的核心组件 Eureka ,但是它逐渐被 Nacos 替代
了,在此之前我们先了解一下 Ribbon 负载均衡。
负载均衡一般分为服务器端负载均衡和客户端负载均衡
所谓服务器端负载均衡,比如 Nginx
、 F5
这些,请求到达服务器之后由这些负载均衡器根据一定的算法将请求路由到目标服务器处理。
所谓客户端负载均衡,比如我们要说的 Ribbon
,服务消费者客户端会有一个服务器地址列表,调用方在请求前通过一定的负载均衡算法选择一个服务器进行访问,负载均衡算法的执行是在请求客户端进行。
Ribbon 是 Netflix
发布的负载均衡器。Eureka 一般配合 Ribbon 进行使用, Ribbon
利用从 Eureka
中读取到服务信息,在调用服务提供者提供的服务时,会根据一定的算法进行负载。
觉得还是有点没理解,话不多说,直接上实战
我们如果没有任何配置的情况下,只需要加上
@LoadBalanced
这个注解 ,他的默认策略就是轮询策略,简单来说 ,就我们哥俩 (这里指的是用户微服务集群) 轮着来,一人一次
我们这里做一个测试,我们同时发起四次不同请求,使用订单微服务,远程调用用户微服务
我们会发现这四次请求,分别调用了四次用户微服务,而这四次是分发在用户微服务1和用户微服务2
,而且正好是我们刚所说的轮询策略,一人两次。
下面我们更改 Ribbon 的策略,再来看看
首先在 OrderApplication 中加入我们更改的策略,这里我们更改的是 随机策略
@Bean
public IRule randomRule() {
return new RandomRule();
}
重新启动订单微服务进行测试
此时我们发现,用户微服务 1 没有一个命中,而用户微服务 2 全部命中,这就是随机策略,能不能命中全靠 随机
。
我们添加了 @LoadBalanced
注解,即可实现负载均衡功能,这是什么原理呢
SpringCloud 底层其实是利用了一个名为 Ribbon
的组件,来实现负载均衡功能的。
那么我们发出的请求明明是 http://userservice/user/1,怎么变成了 http://localhost:9001 的呢?
为什么我们只输入了 service 名称就可以访问了呢?之前还要获取 ip 和端口。
显然有人帮我们根据 service 名称,获取到了服务实例的 ip 和端口。它就是 LoadBalancerInterceptor
,这个类会在对 RestTemplate
的请求进行拦截,然后从 Eureka 根据服务 id 获取服务列表,随后利用负载均衡算法得到真实的服务地址信息,替换服务 id。
我们进行源码跟踪:
可以看到这里的 intercept 方法,拦截了用户的 HttpRequest 请求,然后做了几件事:
request.getURI()
:获取请求 uri,本例中就是 http://user-service/user/8originalUri.getHost()
:获取 uri 路径的主机名,其实就是服务 id, user-service
this.loadBalancer.execute()
:处理服务 id,和用户请求。这里的 this.loadBalancer
是 LoadBalancerClient
类型,我们继续跟入。
继续跟入 execute 方法:
代码是这样的:
LoadBalancer
会拿着服务 id
去 eureka 中获取服务列表并保存起来。放行后,再次访问并跟踪,发现获取的是 9001:
果然实现了负载均衡。
在刚才的代码中,可以看到获取服务使通过一个 getServer
方法来做负载均衡:
我们继续跟入:
继续跟踪源码 chooseServer 方法,发现这么一段代码:
我们看看这个 rule 是谁:
这里的 rule 默认值是一个 RoundRobinRule
,看类的介绍:
这不就是轮询的意思嘛。
到这里,整个负载均衡的流程我们就清楚了。
SpringCloudRibbon
的底层采用了一个拦截器,拦截了 RestTemplate 发出的请求,对地址做了修改。用一幅图来总结一下:
基本流程如下:
负载均衡的规则都定义在 IRule 接口中,而 IRule 有很多不同的实现类:
不同规则的含义如下:
负载均衡策略 | 描述 |
---|---|
RoundRobinRule:轮询策略 | 简单轮询服务列表来选择服务器。它是 Ribbon 默认的负载均衡规则。默认超过 10 次获取到的 server 都不可用,会返回一个空的 server |
RandomRule:随机策略 | 如果随机到的 server 为 null 或者不可用的话,会 while 不停的循环选取 |
AvailabilityFilteringRule: 最小连接数策略 | 对以下两种服务器进行忽略: (1)在默认情况下,这台服务器如果 3 次连接失败,这台服务器就会被设置为 “短路” 状态。短路状态将持续 30 秒,如果再次连接失败,短路的持续时间就会几何级地增加。 (2)并发数过高的服务器。如果一个服务器的并发连接数过高,配置了 AvailabilityFilteringRule 规则的客户端也会将其忽略。并发连接数的上限,可以由客户端的..ActiveConnectionsLimit 属性进行配置。 |
WeightedResponseTimeRule:加权响应时间规则 | 为每一个服务器赋予一个权重值。服务器响应时间越长,这个服务器的权重就越小。这个规则会随机选择服务器,这个权重值会影响服务器的选择。 |
ZoneAvoidanceRule: 区域权衡策略(默认策略) | 扩展了轮询策略,继承了 2 个过滤器:ZoneAvoidancePredicate 和 AvailabilityPredicate,除了过滤超时和链接数过多的 server,还会过滤掉不符合要求的 zone 区域里面的所有节点, 在一个区域 / 机房内的服务实例中轮询。先过滤再轮询 |
BestAvailableRule:最佳可用规则 | 忽略那些短路的服务器,并选择并发数较低的服务器。 |
RandomRule: 随机策略 | 随机选择一个可用的服务器。如果随机到的 server 为 null 或者不可用的话,会 while 不停的循环选取 |
RetryRule:重试策略 | 一定时限内循环重试。默认继承 RoundRobinRule,也支持自定义注入,RetryRule 会在每次选取之后,对选举的 server 进行判断,是否为 null,是否 alive,并且在 500ms 内会不停的选取判断。而 RoundRobinRule 失效的策略是超过 10 次,RandomRule 是没有失效时间的概念,只要 serverList 没都挂。 |
默认的实现就是 ZoneAvoidanceRule
,是一种轮询方案
通过定义 IRule 实现可以修改负载均衡规则,有两种方式:
@Bean
public IRule randomRule(){
return new RandomRule();
}
userservice: # 给某个微服务配置负载均衡规则,这里是userservice服务
ribbon:
NFLoadBalancerRuleClassName: com.netflix.loadbalancer.RandomRule # 负载均衡规则
注意,一般用默认的负载均衡规则,不做修改。
Ribbon 默认是采用懒加载,即第一次访问时才会去创建 LoadBalanceClient,请求时间会很长。
而饥饿加载则会在项目启动时创建,降低第一次访问的耗时,通过下面配置开启饥饿加载:
ribbon:
eager-load:
enabled: true
clients: userservice
国内公司一般都推崇阿里巴巴的技术,比如注册中心, SpringCloudAlibaba
也推出了一个名为 Nacos 的注册中心。
Nacos 是阿里巴巴的产品,现在是 SpringCloud 中的一个组件。相比 Eureka 功能更加丰富,在国内受欢迎程度较高。
在 Nacos 的 GitHub 页面,提供有下载链接,可以下载编译好的 Nacos 服务端或者源代码:
GitHub 主页:https://github.com/alibaba/nacos
GitHub 的 Release 下载页:https://github.com/alibaba/nacos/releases
如图:
windows 版本使用 nacos-server-1.4.1.zip
包即可。
将这个包解压到任意非中文目录下,如图:
目录说明:
Nacos 的默认端口是 8848,如果你电脑上的其它进程占用了 8848 端口,请先尝试关闭该进程。
如果无法关闭占用 8848 端口的进程,也可以进入 nacos 的 conf 目录,修改配置文件中的端口:
修改其中的内容:
启动非常简单,进入 bin 目录,结构如下:
然后执行命令即可:
windows 命令:
startup.cmd -m standalone
执行后的效果如图:
在浏览器输入地址:http://127.0.0.1:8848/nacos 即可:
默认的账号和密码都是 nacos,进入后:
<dependencyManagement>
中引入 SpringCloudAlibaba 的依赖:<dependency>
<groupId>com.alibaba.cloud</groupId>
<artifactId>spring-cloud-alibaba-dependencies</artifactId>
<version>2.2.6.RELEASE</version>
<type>pom</type>
<scope>import</scope>
</dependency>
<dependency>
<groupId>com.alibaba.cloud</groupId>
<artifactId>spring-cloud-starter-alibaba-nacos-discovery</artifactId>
</dependency>
注意:不要忘了注释掉 eureka 的依赖。
在 user-service 和 order-service 的 application.yml 中添加 nacos 地址:
spring:
cloud:
nacos:
server-addr: localhost:8848
注意:不要忘了注释掉 eureka 的依赖。
保护阈值:可以设置为 0-1之间的浮点数
,它其实是一个比例值(当前服务健康实例数 / 当前服务总实例数)
场景:
一般流程下,nacos 是服务注册中心,服务消费者要从 nacos 获取某一个服务的可用实例信息,对于服务实例有健康 / 不健康状态之分,nacos 在返回给消费者实例信息的时候,会返回健康实例。这个时候在一些高并发、大流量场景下会存在一定的问题 如果服务 A 有 100 个实例,98 个实例都不健康了,只有 2 个实例是健康的,如果 nacos 只返回这两个健康实例的信息的话,那么后续消费者的请求将全部被分配到这两个实例,流量洪峰到来,2 个健康的实例也扛不住了,整个服务 A 就扛不住,上游的微服务也会导致崩溃,产生雪崩效应。
保护阈值的意义在于
当服务 A 健康实例数 / 总实例数 < 保护阈值 的时候,说明健康实例真的不多了,这个时候保护阈值会被触发(状态 true) nacos 将会把该服务所有的实例信息(健康的 + 不健康的)全部提供给消费者,消费者可能访问到不健康的实例,请求失败,但这样也比造成雪崩要好,牺牲了一些请求,保证了整个系统的一个可用。 注意:阿里内部在使用 nacos 的时候,也经常调整这个保护阈值参数。
一个服务可以有多个实例,例如我们的 user-service,可以有:
假如这些实例分布于全国各地的不同机房,例如:
Nacos 就将同一机房内的实例 划分为一个集群。
也就是说,user-service 是服务,一个服务可以包含多个集群,如杭州、上海,每个集群下可以有多个实例,形成分级模型,如图:
微服务互相访问时,应该尽可能访问同集群实例,因为本地访问速度更快。当本集群内不可用时,才访问其它集群。例如:
杭州机房内的 order-service 应该优先访问同机房的 user-service。
修改 user-service 的 application.yml 文件,添加集群配置:
spring:
cloud:
nacos:
server-addr: localhost:8848
discovery:
cluster-name: HZ # 集群名称
重启两个 user-service 实例后,我们可以在 nacos 控制台看到下面结果:
我们再次复制一个 user-service 启动配置,添加属性:
-Dserver.port=8083 -Dspring.cloud.nacos.discovery.cluster-name=SH
配置如图所示:
启动 UserApplication3 后再次查看 nacos 控制台:
默认的 ZoneAvoidanceRule
并不能实现根据同集群优先来实现负载均衡。
因此 Nacos 中提供了一个 NacosRule
的实现,可以优先从同集群中挑选实例。
1)给 order-service 配置集群信息
修改 order-service 的 application.yml 文件,添加集群配置:
spring:
cloud:
nacos:
server-addr: localhost:8848
discovery:
cluster-name: HZ # 集群名称
2)修改负载均衡规则
修改 order-service 的 application.yml 文件,修改负载均衡规则:
userservice:
ribbon:
NFLoadBalancerRuleClassName: com.alibaba.cloud.nacos.ribbon.NacosRule # 负载均衡规则
实际部署中会出现这样的场景:
服务器设备性能有差异,部分实例所在机器性能较好,另一些较差,我们希望性能好的机器承担更多的用户请求。
但默认情况下 NacosRule
是同集群内随机挑选,不会考虑机器的性能问题。
因此, Nacos
提供了权重配置来控制访问频率,权重越大则访问频率越高。
在 nacos
控制台,找到 user-service
的实例列表,点击编辑,即可修改权重:
在弹出的编辑窗口,修改权重:
注意:如果权重修改为 0,则该实例永远不会被访问
Nacos 提供了 namespace 来实现环境隔离功能。
Namespace:命名空间,对不同的环境进行隔离,比如隔离开发环境、测试环境和生产环境
Group:分组,将若干个服务或者若干个配置集归为一组,通常习惯一个系统归为一个组(拉勾招聘、拉勾猎头、拉勾教育)
Service:某一个服务,比如商品微服务
DataId:配置集或者可以认为是一个配置文件
Namespace + Group + Service 如同 Maven 中的 GAV 坐标,GAV 坐标是为了锁定 Jar,而这里是为了锁定服务
Namespace + Group + DataId 如同 Maven 中的 GAV 坐标,GAV 坐标是为了锁定 Jar,而这里是为了锁定配置文件
最佳实践
Nacos 抽象出了 Namespace
、 Group
、 Service
、 DataId
等概念,具体代表什么取决于怎么用(非常灵活),推荐用法如下
概念 | 描述 |
---|---|
Namespace | 代表不同的环境,如开发 dev、测试 test、生产环境 prod |
Group | 代表某项目,比如拉勾云项目 |
Service | 某个项目中具体 xxx 服务 |
DataId | 某个项目中具体的 xxx 配置文件 |
默认情况下,所有 service、data、group 都在同一个 namespace,名为 public:
我们可以点击页面新增按钮,添加一个 namespace:
然后,填写表单:
就能在页面看到一个新的 namespace:
给微服务配置 namespace 只能通过修改配置来实现。
例如,修改 order-service 的 application.yml
文件:
spring:
cloud:
nacos:
server-addr: localhost:8848
discovery:
cluster-name: HZ
namespace: 6f91682a-dae8-4236-8974-48595037e16c # 命名空间,填ID
重启 order-service 后,访问控制台,可以看到下面的结果:
此时访问 order-service,因为 namespace 不同,会导致找不到 userservice,控制台会报错:
Nacos 的服务实例分为两种 l 类型:
配置一个服务实例为永久实例:
spring:
cloud:
nacos:
discovery:
ephemeral: false # 设置为非临时实例
Nacos 和 Eureka 整体结构类似,服务注册、服务拉取、心跳等待,但是也存在一些差异: