Httpclient核心架构设计

Http简介

通常,我们使用IE或者safari来访问互联网上的内容,只需要输入资源地址,浏览器便会呈现给你想要的内容。这一切的背后,都是迄今为止在计算机领域最成功的协议–http协议。

Http协议分为请求和响应,客户端建立连接,接着发送请求,服务端接受并处理请求,再发送应答,再由客户端接受并处理应答。浏览器是最最常见的一种客户端,它将用户的交互行为作为http请求发送,并接受服务端的应答,再将应答内容展示,一般应答都是html类型的超文本。

浏览器显然不是唯一的客户端,理论上任何遵循了http规范都可作为客户端。在程序里也可以通过java api实现简单的客户端–使用HttpURLConnection发送http请求,并解析应答。假设应答是个html或者json,则只需要基于双方约定的格式进行解析就能得到所需结果。

Http, tcp/ip和socket区别

Tcp/ip是传输层协议,而http则是建立在它之上的上层应用协议。Http聚焦在数据规范层面,tcp/ip则主要解决数据传输层面。如果没有规范的应用协议,数据能从网络里的A节点传到B节点,但却无法有效识别,建立在tcp/ip上的应用协议很多,像rpc,ftp等,反过来不管应用协议有多强大最终都需要依靠传输层协议进行数据传输。 Socket则是tcp/ip的一个编程实现,在程序里http请求(连接)最终一定需要绑定到一个具体的socket连接进行上行和下行传输。

整体架构

对于简单应用,HttpURLConnection完全可以满足。但是对于1)系统复杂度高,2)性能要求高,3)可靠性要求也高的应用,则需要一个更强大的组件。

Httpclient里接受者称为为route,并为每个route池化若干连接。Client通过socket发送请求以及接受应答,在发送请求前和接收应答后都会经由interceptor进行链式处理,在httpclient里这些interceptor被称为HttpProcessor,负责处理诸如设置报文头,报文体,编码格式等以及解析报文头,报文体,解码格式等http规范文本格式范畴内的事情。

HttpClient静态结构

- HttpClient通过建造者构建出来,用户可以通过建造者暴露出来的参数属性方法来组织最终生成的产品属性。HttpClients是个工厂类,用于生产HttpClient,同时也提供custom方法返回builder,由使用者组织client属性。 - HttpClient主要由5个组件组成,分别是: 1. Closeable: 代表需要关闭的组件,client服务关闭时会回调注册的所有Closeable组件依次关闭。用户可以通过HttpClientBuilder#addCloseable添加自定义关闭组件。HttpClient内部利用Closeable关闭IdleConnectionEvictor以及HttpClientConnectionManager 2. IdleConnectionEvictor: 用来关闭闲置连接,它会启动一个守护线程进行清理工作。用户可以通过builder#evictIdleConnections开启该组件,并通过builder#setmaxIdleTime设置最大空闲时间。 3. HttpClientConnectionManager,连接池组件,管理连接的整个生命周期。连接在连接池中创建、复用以及移除。

connection被创建出来后处于闲置状态,由连接池管理,被lease后会校验是否是open状态,不是的话会进行connect,connect的过程就是将http请求(连接)绑定到socket的过程。同时连接也会因为心跳或者过期等原因被close变成stale状态,直至被下一次get到时或者连接满时被清理出去。

同时连接池还能对连接进行限流–全局和单route连接数。Connection manager封装了对连接池的具体操作,比如向连接池租用和归还连接;还提供了基于不同schema(主要是http和https)创建不同的socket连接(ssl和plain)并且将http请求(连接)绑定到socket的能力,等等。 4. HttpRoutePlanner用来创建HttpRoute。后者代表客户端request的对端服务器,主要包含rout的host以及proxy信息。 5. ClientExecChain代表一次完整的调用执行过程,它是一个包装类,类似于java io类,每个包装类完成一个特定的功能,多层嵌套完成一个系统性的功能,比如处理协议范畴的例如cookie、报文解析等,又比如处理自动重试的,等等。

连接池

  • CPool里的连接分为三种–available, leased和pending,分别对应空闲,占用和堵塞三种状态,连接池为这三种状态建立三个列表(List/Set)。对连接数的管理则有两个维度,分别是全局最大数和单route最大数。全局连接和单route连接都对应三种状态列表,CPool内部维护了route和RouteSpecificPool的映射,通过后者对单route连接进行管理,并且严格保证一个route只会对应一个route pool。操作(租用,释放,阻塞或者移除等等)连接时CPool首先会依据route信息取出route pool,对其上维护的连接进行操作,之后再对CPool上的相应连接操作。RouteSpecificPool是个friend的abstract类,也就是说它是CPool隐藏起来的实现细节,对外只暴露CPool的行为甚至用户都可以不理会CPool只关心connection mananger。
  • 连接池对外透出的是PoolEntryFuture,后者的get方法能够获取一个闲置连接,或者进入堵塞等待。
  • 连接池的连接连同route信息一起被包含在PoolEntry里返回给消费者,除此之外,PoolEntry还包含了连接的失效时间等等,超过失效时间会在下一次被get到时close。
  • CPool还有流控功能,get请求在没有空闲连接但连接数没达到阈值时通过连接池创建连接并池化放入available或者leased。leased连接数达到阈值时对请求进行堵塞–PoolEntryFuture#await,并且将PoolEntryFuture放入pending。其他请求释放连接时会唤醒堵塞请求,被唤醒的请求获取到连接后会被从pending列表中移除。 超过任何一个最大数阈值后CPool首先都会进行收缩,超过单route最大数,则收缩单route连接,超过全局最大数,则收缩全局连接。收缩的过程只会关闭空闲连接,直至连接数等于阈值-1。

执行链

  • MainClientExec是真正执行客户端请求的,它位于包装类的最里层,它通过连接管理器向CPool requestConnection,绑定http请求到socket,通过request executor发送请求,并且还能基于keep-alive策略处理连接的复用等等。
  • ProtocolExec通过一系列的HttpProcessor处理链对Http消息按格式编码以及解码。每一个processor处理一个范畴的事情,比如处理header,content以及cookie等等。
  • RetryExec,对特定的io异常进行重连,保证可用性。特定是指除了一下四中情况的io异常以外:
InterruptedIOException
UnknownHostException
ConnectException
SSLException
  • RedirectExec,处理301,302,303和307的情况,即move和redirect。
  • ServiceUnavailableRetryExec, 返回码为503时进行重试。
  • BackoffStrategyExec对出现连接或者响应超时异常的route进行降级,缩小该route上连接数,能使得服务质量更好的route能得到更多的连接。降级的速度可以通过因子设置,默认是每次降级减少一半的连接数,即降级因子是0.5。

最后注意一点,以上的这些exec只有MainClientExec和ProtocolExec是默认开启的,其他的都需要通过HttpClientBuilder设置参数开启,具体可以参考文档或者源码。

调优方向

了解了架构原理后,就可以着手在3个方向进行调优: 1. 连接数,通过设立全局最大连接数和单route连接数,增加吞吐能力。用户可通过HttpClientBuilder#maxConnTotal和#maxConnPerRoute分别设置。 2. 获取连接的超时时间,调小超时时间能够有效提高响应速度并且降低积压请求量,但相应的也会增加请求失败的几率。用户可以通过RequestConfig的connectionRequestTimeout进行设置。 3. 建立连接和route响应的超时时间,调小能够有效的降低bad request对连接的占用,留给质量更好的请求,有效提高系统提高吞吐能力及响应速度。否则有可能在峰值期被慢请求占满连接池,导致系统瘫痪。两者分别可通过RequestConfig#connectionTimeout和socketTimeout进行设置。 4. 开启BackoffStrategyExec,对状况差的route进行降级处理,将连接让给其他route

原文发布于微信公众号 - 编码前线(gh_acef1225aadd)

原文发表时间:2018-10-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据和云

GR运维手册 - 第一册 苦海岸边,GR的基础知识

作者简介: ? 刘伟 云和恩墨开源解决方案事业部首席架构师 多年一线互联网企业DBA经历,对MySQL、NoSQL,PostgreSQL等各类开源数据库均有涉猎...

3026
来自专栏Java后端技术栈

高可用Redis服务架构分析与搭建!

基于内存的Redis应该是目前各种Web开发业务中最为常用的Key-Value数据库了,我们经常在业务中用其存储用户登陆态(Session存储),加速一些热数据...

721
来自专栏owent

atframework的etcd模块化重构

最近在抽时间整理之气的游戏服务器框架和解决方案里atsf4g-co,现在的架构是使用etcd的是atproxy。简单得说就是服务集群是分组的,每个分组有分组代理...

1192
来自专栏腾讯大数据的专栏

zookeeper 运营经验分享

Zookeeper作为TDBank系统的一个重要模块,我们运营它已经两年多。在使用过程中,我们也遇到了一些问题及走过很多弯路,本文主要对zookeeper运营经...

2639
来自专栏架构师小秘圈

如何搭建高可用Redis服务

作者: 漫步CODE人生 来自:cnblogs.com/scode2/p/8670980.html 题记 基于内存的Redis应该是目前各种web开发业务中最为...

3837
来自专栏Spark学习技巧

高可用Redis服务架构分析与搭建

1045
来自专栏专业duilib使用+业余界面开发

duilib资源加密

原文章地址:https://blog.csdn.net/u012081284/article/details/81531435

1452
来自专栏mukekeheart的iOS之旅

浅谈Session与Cookie的区别与联系

1795
来自专栏大前端开发

微信小程序之生成自定义参数小程序二维码

扫码已经成为一种常见又方便的进入移动应用的途径,可以把线上线下的用户流量带入你的移动应用中来。微信小程序也提供了扫码进入的功能,可以通过扫描二维码或者微信小程序...

3484
来自专栏微服务

高可用Redis服务架构分析与搭建

基于内存的Redis应该是目前各种web开发业务中最为常用的key-value数据库了,我们经常在业务中用其存储用户登陆态(Session存储),加速一些热数据...

3238

扫码关注云+社区