前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >[享学Netflix] 四十五、Ribbon服务器状态:ServerStats及其断路器原理

[享学Netflix] 四十五、Ribbon服务器状态:ServerStats及其断路器原理

作者头像
YourBatman
发布2020-03-18 18:21:52
1.7K0
发布2020-03-18 18:21:52
举报
文章被收录于专栏:BAT的乌托邦BAT的乌托邦

靠代码行数来衡量开发进度,就像是凭重量来衡量飞机制造的进度------比尔·盖茨

–> 返回专栏总目录 <– 代码下载地址:https://github.com/f641385712/netflix-learning

前言

我们知道Ribbon它是一个客户端负载均衡器,因此它内部维护着一个服务器列表ServerList,当实例出现问题时候,需要将这部分异常的服务Server从负载均衡列表中T除掉,那么Ribbon是以什么作为参考,决定T除/不T除Server的呢???这就是本文将要讲述的服务器状态的管理:ServerStats

负载均衡LB需要依赖这些统计信息做为判断的策略,负载均衡器的统计类主要是LoadBalancerStats,其内部持有ServerStats对每个Server运行情况做了相关统计如:平均响应时间、累计失败数、熔断(时间)控制等。


正文

Stat中文释义:统计,Statistic单词的简写形式。另外,希望读者在阅读本文之前,已经了解了netflix-statistics的知识,你可以参考这篇文章:[享学Netflix] 四十四、netflix-statistics详解,手把手教你写个超简版监控系统

服务状态。在LoadBalancer中捕获每个服务器(节点)的各种状态,每个Server就对应着一个ServerStats实例。ServerStats表示一台Server的状态,各种纬度的统计数据才能使得你最终挑选出一个最适合的Server供以使用,以及计算其当前访问压力(并发数)、成功数、失败数、是否熔断、熔断了多久等等。


统计数据/属性

到底统计了哪些数据呢?对Server进行多维度的数据统计,均体现在它的成员属性上:

代码语言:javascript
复制
public class ServerStats {

    private final CachedDynamicIntProperty connectionFailureThreshold;
    private final CachedDynamicIntProperty circuitTrippedTimeoutFactor;
    private final CachedDynamicIntProperty maxCircuitTrippedTimeout;
    private static final DynamicIntProperty activeRequestsCountTimeout = 
        DynamicPropertyFactory.getInstance().getIntProperty("niws.loadbalancer.serverStats.activeRequestsCount.effectiveWindowSeconds", 60 * 10);
        
    long failureCountSlidingWindowInterval = 1000; 
    private MeasuredRate serverFailureCounts = new MeasuredRate(failureCountSlidingWindowInterval);
    private MeasuredRate requestCountInWindow = new MeasuredRate(300000L);
    
    Server server;

    AtomicLong totalRequests = new AtomicLong();
    AtomicInteger successiveConnectionFailureCount = new AtomicInteger(0);
    AtomicInteger activeRequestsCount = new AtomicInteger(0);
    AtomicInteger openConnectionsCount = new AtomicInteger(0);
    
    private volatile long lastConnectionFailedTimestamp;
    private volatile long lastActiveRequestsCountChangeTimestamp;
    private AtomicLong totalCircuitBreakerBlackOutPeriod = new AtomicLong(0);
    private volatile long lastAccessedTimestamp;
    private volatile long firstConnectionTimestamp = 0;
}

对这些统计数据/属性分别做如下解释说明:

  • connectionFailureThreshold:连接失败阈值,默认值3(超过就熔断)
    • 默认值配置:niws.loadbalancer.default.connectionFailureCountThreshold此key指定
    • 个性化配置:"niws.loadbalancer." + name + ".connectionFailureCountThreshold"
  • circuitTrippedTimeoutFactor:断路器超时因子,默认值10s。
    • 默认值配置: niws.loadbalancer.default.circuitTripTimeoutFactorSeconds
    • 个性化配置:"niws.loadbalancer." + name + ".circuitTripTimeoutFactorSeconds"
  • maxCircuitTrippedTimeout:断路器最大超时秒数(默认使用超时因子计算出来),默认值是30s。
    • 默认值配置:niws.loadbalancer.default.circuitTripMaxTimeoutSeconds
    • 个性化配置:"niws.loadbalancer." + name + ".circuitTripMaxTimeoutSeconds"
  • totalRequests:总请求数量。每次请求结束/错误时就会+1。
  • successiveConnectionFailureCount连续(successive)请求异常数量(这个连续发生在Retry重试期间)。
    • 在重试期间,但凡有一次成功了,就会把此参数置为0(失败的话此参数就一直加)
    • 说明:只有在异常类型是callErrorHandler.isCircuitTrippingException(e)的时候,才会算作失败,才会+1
      • 默认情况下只有SocketException/SocketTimeoutException这两种异常才算失败哦~
  • activeRequestsCount:活跃请求数量(正在请求的数量,它能反应该Server的负载、压力)。
    • 但凡只要开始执行Sever了,就+1
    • 但凡只要请求完成了/出错了,就-1
    • 注意:它有时间窗口的概念,后面讲具体逻辑
  • openConnectionsCount:暂无任何使用处,可忽略。
  • lastConnectionFailedTimestamp:最后一次失败的时间戳。至于什么叫失败,参考successiveConnectionFailureCount对失败的判断逻辑
  • lastActiveRequestsCountChangeTimestamp:简单的说就是activeRequestsCount的值最后变化的时间戳
  • totalCircuitBreakerBlackOutPeriod:断路器断电总时长(连续失败>=3次,增加20~30秒。具体增加多少秒,后面有计算逻辑)。
  • lastAccessedTimestamp:最后访问时间戳。和lastActiveRequestsCountChangeTimestamp的区别是,它增/减都update一下,而lastAccessedTimestamp只有在增的时候才会update一下。
  • firstConnectionTimestamp:首次连接时间戳,只会记录首次请求进来时的时间。
  • failureCountSlidingWindowInterval:失败次数统计时间窗。默认值1000ms
  • serverFailureCounts:上一秒失败次数(上一秒是因为failureCountSlidingWindowInterval默认自是1000ms)
    • successiveConnectionFailureCount增它就增,只不过它有时间窗口(1s)
  • requestCountInWindow:一个窗口期内的请求总数,窗口期默认为5分钟(300秒)
    • activeRequestsCount增它就增,只不过它有时间窗口(300s)

当然,它还有几个基于netflix-statistics数据统计的指标属性:

代码语言:javascript
复制
ServerStats:

	// 默认60s(1分钟)publish一次数据
    private static final int DEFAULT_PUBLISH_INTERVAL =  60 * 1000; // = 1 minute
    // 缓冲区大小。这个默认大小可谓非常大呀,就算你QPS是1000,也能抗1分钟
    private static final int DEFAULT_BUFFER_SIZE = 60 * 1000; // = 1000 requests/sec for 1 minute
    int bufferSize = DEFAULT_BUFFER_SIZE;
    int publishInterval = DEFAULT_PUBLISH_INTERVAL;

	private static final double[] PERCENTS = makePercentValues();
    private DataDistribution dataDist = new DataDistribution(1, PERCENTS);
    private DataPublisher publisher = null;
    private final Distribution responseTimeDist = new Distribution();
  • PERCENTS:百分比,可参见枚举类Percent:[10,20…,90…,99.5]
  • dataDist:它是一个DataAccumulator,数据累加器。
  • publisher:定时publish发布数据,默认1分钟发布一次
  • responseTimeDist:它是个Distribution类型,因为它仅仅只需要持续累加数据,然后提供最大最小值、平均值的访问而已

dataDistresponseTimeDist统一通过noteResponseTime(double msecs)来记录每个请求的响应时间,dataDist按照时间窗口统计,responseTimeDist一直累加


成员方法

已经知道了每个字段的含义,再来看其提供的方法,就轻松很多了。

代码语言:javascript
复制
ServerStats:

	// 默认构造器:connectionFailureThreshold等参数均使用默认值 该构造器默认无人调用
	public ServerStats() { ... }
	// 参数值来自于lbStats,可以和ClientName挂上钩
	// 它在LoadBalancerStats#createServerStats()方法里被唯一调用
	public ServerStats(LoadBalancerStats lbStats) { ... }

	// 初始化对象,开始数据收集和报告。**请务必调用此方法** 它才是一个完整的实例
    public void initialize(Server server) {
        serverFailureCounts = new MeasuredRate(failureCountSlidingWindowInterval);
        requestCountInWindow = new MeasuredRate(300000L);
        if (publisher == null) {
            dataDist = new DataDistribution(getBufferSize(), PERCENTS);
            publisher = new DataPublisher(dataDist, getPublishIntervalMillis());
            // 启动任务:开始发布数据。1分钟发布一次
            publisher.start();
        }
        // 和Server关联
        this.server = server;
    }
    // 停止数据方法
    public void close() {
        if (publisher != null)
            publisher.stop();
    }


	// 收集每一次请求的响应时间
    public void noteResponseTime(double msecs){
        dataDist.noteValue(msecs);
        responseTimeDist.noteValue(msecs);
    }

	// 获得当前时间的活跃请求数(也就是Server的当前负载)
    public int  getActiveRequestsCount() {
        return getActiveRequestsCount(System.currentTimeMillis());
    }
    // 强调:如果当前时间currentTime距离上一次请求进来已经超过了时间窗口60s,那就返回0
    // 简单一句话:如果上次请求距今1分钟了,那就一个请求都不算(强制归零)
    public int getActiveRequestsCount(long currentTime) {
        int count = activeRequestsCount.get();
        if (count == 0) {
            return 0;
        } else if (currentTime - lastActiveRequestsCountChangeTimestamp > activeRequestsCountTimeout.get() * 1000 || count < 0) {
            activeRequestsCount.set(0);
            return 0;            
        } else {
            return count;
        }
    }

这些是ServerStats提供的基本方法,能访问到所有的成员属性。下面介绍分别介绍两个主题方法:


CircuitBreaker断路器的原理

本处的断路器解释:当有某个服务存在多个实例时,在请求的过程中,负载均衡器会统计每次请求的情况(请求响应时间,是否发生网络异常等),当出现了请求出现累计重试时,负载均衡器会标识当前服务实例,设置当前服务实例的断路的时间区间,在此区间内,当请求过来时,负载均衡器会将此服务实例从可用服务实例列表中暂时剔除(其实就是暂时忽略此Server),优先选择其他服务实例。

该断路器和Hystrix无任何关系,无任何关系,无任何关系。它是ServerStats内部维护的一套熔断机制,体现在如下方法上:

代码语言:javascript
复制
ServerStats:

	// 看看该断路器到哪个时间点戒指(关闭)的时刻时间戳
	// 比如断路器要从0点开30s,那么返回值就是00:00:30s这个时间戳呗
    private long getCircuitBreakerTimeout() {
        long blackOutPeriod = getCircuitBreakerBlackoutPeriod();
        if (blackOutPeriod <= 0) {
            return 0;
        }
        return lastConnectionFailedTimestamp + blackOutPeriod;
    }

	// 返回需要中断的持续时间(毫秒值)
    private long getCircuitBreakerBlackoutPeriod() {
        int failureCount = successiveConnectionFailureCount.get();
        int threshold = connectionFailureThreshold.get();
        if (failureCount < threshold) {
            return 0;
        }
        int diff = (failureCount - threshold) > 16 ? 16 : (failureCount - threshold);
        int blackOutSeconds = (1 << diff) * circuitTrippedTimeoutFactor.get();
        if (blackOutSeconds > maxCircuitTrippedTimeout.get()) {
            blackOutSeconds = maxCircuitTrippedTimeout.get();
        }
        return blackOutSeconds * 1000L;
    }

目前断路器统计失败是靠连续失败次数去判断断路逻辑的。此方法逻辑可总结如下:

  1. 连续失败次数还小于阈值(默认3次),那么就不用断路。否则打开断路,执行计算要断开多久的逻辑
  2. 计算失败基数,最大不能超过16(就算你连续失败100次,此基数也是16)
  3. 根据超时因子circuitTrippedTimeoutFactor(默认是10)计算出时间值blackOutSeconds,该值不能大于上限connectionFailureCircuitTimeout(默认30s)
    1. 也就是说保证了断路器最长不能打开超过30s

此方法不仅判断了断路器的打开与否,若打开顺便打开断路器应该打开多长时间(单位s)的方法,有了这个方法的理论做支撑,判断当前断路器是否开启就非常简单了:

代码语言:javascript
复制
ServerStats:

    public boolean isCircuitBreakerTripped() {
        return isCircuitBreakerTripped(System.currentTimeMillis());
    }
    public boolean isCircuitBreakerTripped(long currentTime) {
        long circuitBreakerTimeout = getCircuitBreakerTimeout();
        if (circuitBreakerTimeout <= 0) {
            return false;
        }
        return circuitBreakerTimeout > currentTime;
    }

当触发了熔断器(连续失败次数过多),断路器开启的时间范围是:

  • 最大值:1<<16 * 10 = 320s
  • 最小值:1<<1 * 10 =100s

当然这值是根据配置走的,并且还有最大时间30s的限制哦~

在Server被熔断期间,负载均衡器都将忽略此Server


断路器如何闭合?

倘若断路器打开了,它如何恢复呢?有如下3种情形它会恢复到正常状态:

  1. 不是连续失败了,也就是成功了一次,那么successiveConnectionFailureCount就会立马归0,所以熔断器就闭合了
  2. 即使请求失败了,但是并非是断路器类异常,即不是RetryHandler#isCircuitTrippingException这种类型的异常时(比如RuntimeException就不是这种类型的异常),那就也不算连续失败,所以也就闭合了
  3. 到时间了,断路器自然就自动闭合了

该断路器和Hystrix的断路器有何区别?

很明显,该断路器规则非常简单,开启与否完全由连续失败来决定,而是否算失败由RetryHandler#isCircuitTrippingException来决定,默认它只认为SocketException/SocketTimeoutException(或者其子类异常)属于该种类型的异常哦~

所以:你的程序在执行时的任何业务异常(如NPE)和此断路器没有半毛钱关系

当然它们最大最大的区别是断的对象不一样:

  • 本断路器断的是Server,也就是远程服务器
  • Hystrix断路器断的是Client,也就是客户端的调用

当然,关于Hystrix断路器的内容详解请参考:[享学Netflix] 二十七、Hystrix何为断路器的半开状态?HystrixCircuitBreaker详解


获取响应时间逻辑

一个Server服务器的响应是最重要的衡量指标,因此它提供了大量的获取响应时间的方法:

代码语言:javascript
复制
ServerStats:
	
	// 重要。获取累计的,累计的,平均响应时间
	// responseTimeDist里获得的均是所有请求累计的
    public double getResponseTimeAvg() {
        return responseTimeDist.getMean();
    }
    public double getResponseTimeMax() {
        return responseTimeDist.getMaximum();
    }
    ...
    // 样本大小(每次获取的值可能不一样的哦,因为dataDist是时间窗口嘛)
    public int getResponseTimePercentileNumValues() {
        return dataDist.getSampleSize();
    }
    // 这段时间窗口内(1分钟)的平均响应时间
    public double getResponseTimeAvgRecent() {
        return dataDist.getMean();
    }
	
	// ========下面是各个分位数的值======
    public double getResponseTime10thPercentile() {
        return getResponseTimePercentile(Percent.TEN);
    }
    ...
    public double getResponseTime99point5thPercentile() {
        return getResponseTimePercentile(Percent.NINETY_NINE_POINT_FIVE);
    }

状态/指标信息使用场景举例

统计信息都是非常有用的,这里先简单介绍,过个眼瘾即可。它的使用均在负载均衡策略上,举例:

  • WeightedResponseTimeRule:使用指标ServerStats.responseTimeDist,获取该Server的平均响应时间来决策
  • AvailabilityFilteringRule:它用到了两个指标信息
    • 通过ServerStats.isCircuitBreakerTripped()判断当前断路器是否打开作为该Server是否可用的判断
    • ServerStats.activeRequestsCount找个活跃请求数最小的Server
  • ZoneAvoidanceRule:使用到了ServerStats.upServerListZoneMapLoadBalancerStats.getZoneSnapshot

默认值不合理

代码语言:javascript
复制
private static final int DEFAULT_PUBLISH_INTERVAL =  60 * 1000;
private static final int DEFAULT_BUFFER_SIZE = 60 * 1000;

这两个默认值决定了样本量,以及样本时间窗口。按这么设置:每收集一次持续1分钟(问题不大),但是样本大小是60 * 1000这个太高了:单台机器QPS1000持续1分钟才能填满此窗口,我相信绝大部分情况下都是这么高的QPS的,所以此默认值并不合理

但是,但是,但是:ServerStats唯一创建地方是LoadBalancerStats里:

代码语言:javascript
复制
protected ServerStats createServerStats(Server server) {
    ServerStats ss = new ServerStats(this);
    //configure custom settings
    ss.setBufferSize(1000);
    ss.setPublishInterval(1000);                    
    ss.initialize(server);
    return ss;        
}

两个值均为1000,说明:每秒钟收集一次(这个频率太高了吧),然后样本1000表示这1s内要有1000的请求打进来能打满(QPS1000,也特高了)。所以实际上的默认值真的也很不合理,它们均只适合高并发场景。。。

坑爹的是,这两个值并没有提供钩子or外部化配置让我们可以随意更改,唯一的钩子是它是个protected方法,你只能通过继承 + 复写才行,而实际上我们很小概率回去复写它(它在BaseLoadBalancer里创建)。

说明:若你想更好的监控,使得负载均衡效果更好点,那么作为架构师的你可以考虑定制定制哦~


代码示例

代码语言:javascript
复制
@Test
public void fun4() throws InterruptedException {
    ServerStats serverStats = new ServerStats();
    // 缓冲区大小最大1000。 若QPS是200,5s能装满它  这个QPS已经很高了
    serverStats.setBufferSize(1000);
    // 5秒收集一次数据
    serverStats.setPublishInterval(5000);
    // 请务必调用此初始化方法
    serverStats.initialize(new Server("YourBatman", 80));

    // 多个线程持续不断的发送请求
    request(serverStats);
    // 监控ServerStats状态
    monitor(serverStats);

    // hold主线程
    TimeUnit.SECONDS.sleep(10000);
}

// 单独线程模拟刷页面,获取监控到的数据
private void monitor(ServerStats serverStats) {
    new Thread(() -> {
        ScheduledExecutorService executorService = Executors.newScheduledThreadPool(1);
        executorService.scheduleWithFixedDelay(() -> {
            System.out.println("=======时间:" + serverStats.getResponseTimePercentileTime() + ",统计值如下=======");
            System.out.println("请求总数(持续累计):" + serverStats.getTotalRequestsCount());
            System.out.println("平均响应时间:" + serverStats.getResponseTimeAvg());
            System.out.println("最小响应时间:" + serverStats.getResponseTimeMin());
            System.out.println("最大响应时间:" + serverStats.getResponseTimeMax());


            System.out.println("样本大小(取样本):" + serverStats.getResponseTimePercentileNumValues());
            System.out.println("样本下的平均响应时间:" + serverStats.getResponseTimeAvgRecent());
            System.out.println("样本下的响应时间中位数:" + serverStats.getResponseTime50thPercentile());
            System.out.println("样本下的响应时间90分位数:" + serverStats.getResponseTime90thPercentile());
        }, 5, 5, TimeUnit.SECONDS);
    }).start();
}


// 模拟请求(开启5个线程,每个线程都持续不断的请求)
private void request(ServerStats serverStats) {
    for (int i = 0; i < 5; i++) {
        new Thread(() -> {
            while (true) {
                // 请求之前 记录活跃请求数
                serverStats.incrementActiveRequestsCount();
                serverStats.incrementNumRequests();
                long rt = doSomething();
                // 请求结束, 记录响应耗时
                serverStats.noteResponseTime(rt);
                serverStats.decrementActiveRequestsCount();
            }
        }).start();
    }
}

// 模拟请求耗时,返回耗时时间
private long doSomething() {
    try {
        int rt = randomValue(10, 200);
        TimeUnit.MILLISECONDS.sleep(rt);
        return rt;
    } catch (InterruptedException e) {
        e.printStackTrace();
        return 0L;
    }
}

// 本地使用随机数模拟数据收集
private int randomValue(int min, int max) {
    return min + (int) (Math.random() * ((max - min) + 1));
}

运行程序,控制台打印:

代码语言:javascript
复制
=======时间:Tue Mar 17 21:27:49 CST 2020,统计值如下=======
请求总数(持续累计):240
平均响应时间:103.43404255319149
最小响应时间:10.0
最大响应时间:199.0
样本大小(取样本):225
样本下的平均响应时间:102.38666666666667
样本下的响应时间中位数:105.0
样本下的响应时间90分位数:178.5
=======时间:Tue Mar 17 21:27:54 CST 2020,统计值如下=======
请求总数(持续累计):465
平均响应时间:106.75869565217391
最小响应时间:10.0
最大响应时间:199.0
样本大小(取样本):225
样本下的平均响应时间:110.59555555555555
样本下的响应时间中位数:115.5
样本下的响应时间90分位数:185.0
=======时间:Tue Mar 17 21:27:59 CST 2020,统计值如下=======
请求总数(持续累计):701
平均响应时间:106.35488505747126
最小响应时间:10.0
最大响应时间:200.0
样本大小(取样本):235
样本下的平均响应时间:105.39574468085107
样本下的响应时间中位数:105.0
样本下的响应时间90分位数:179.0
=======时间:Tue Mar 17 21:28:04 CST 2020,统计值如下=======
请求总数(持续累计):939
平均响应时间:105.98929336188436
最小响应时间:10.0
最大响应时间:200.0
样本大小(取样本):240
样本下的平均响应时间:104.45
样本下的响应时间中位数:104.0
样本下的响应时间90分位数:181.0
=======时间:Tue Mar 17 21:28:09 CST 2020,统计值如下=======
请求总数(持续累计):1187
平均响应时间:104.72673434856176
最小响应时间:10.0
最大响应时间:200.0
样本大小(取样本):246
样本下的平均响应时间:101.32926829268293
样本下的响应时间中位数:103.0
样本下的响应时间90分位数:177.0

稍微核对一下数据:

  • 平均rt大概100ms,所以1s钟可以收到10次请求,5s的窗口就是收到50次请求
  • 公开启5个线程,所以每个窗口内收到的请求是50 * 5 = 250个左右
  • 观察每次样本大小数:250左右

可以看到数值都是吻合的,证明我们的示例木有啥问题。从控制台看到Server的历史持续状态、抽样的状态值一览无余,这就是监控,这就是负载均衡的“粮食”。


总结

关于Ribbon对服务器状态的管理ServerStats的介绍就到这了。本文花大篇幅介绍了很少人关注的Server状态统计这块的知识点,是因为这对理解Ribbon的核心非常之重要,对Ribbon是如何负载均衡选择Server的策略研究更是非常关键。

建议小伙伴可以不仅局限于当个“配置工程师”,而是花时间花精力深入其内了解起来,内部才是星辰大海,才有财富宝石。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 前言
  • 正文
    • 统计数据/属性
      • 成员方法
        • CircuitBreaker断路器的原理
        • 获取响应时间逻辑
      • 状态/指标信息使用场景举例
        • 默认值不合理
          • 代码示例
          • 总结
          相关产品与服务
          负载均衡
          负载均衡(Cloud Load Balancer,CLB)提供安全快捷的流量分发服务,访问流量经由 CLB 可以自动分配到云中的多台后端服务器上,扩展系统的服务能力并消除单点故障。负载均衡支持亿级连接和千万级并发,可轻松应对大流量访问,满足业务需求。
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档