Impala负载均衡异常处理

Eights

发布于 2020-07-10 14:40:50

1.4K0

文章被收录于专栏：Eights做数据Eights做数据

背景介绍

文档编写目的

记录Impala的负载均衡踩坑记录
- Hue配置Impala的负载均衡
- Java应用将Impala作为查询引擎

环境介绍

CDH5.16.2
HA-proxy实现impala的负载均衡

为什么impala需要负载均衡

最近业务系统需要使用Impala作为查询引擎，在使用Impala JDBC连接Impala服务时，默认是不带负载均衡的，需要指定ImpalaD的机器。指定机器的情况下会产生单点故障和负载过重的问题，因此在多用户和生产环境下对于Impala的JDBC服务需要做负载均衡。

经过对比nginx和ha-proxy最终选定使用ha-proxy实现Impala的负载均衡，下面记录遇到的两个问题。

Hue配置Impala负载均衡

配置完Impala的ha-proxy之后，在hue上运行Impala的查询出现异常

Results have expired, rerun the query if needed

出现这个问题的原因是Hue的基础Thrift库在连接池中重用了连接，单个用户会话可能没有相同的impala连接导致。也就是用户会话或查询可能会丢失，并触发结果过期或会话ID无效的错误。

故障排查

检查ha-proxy中关于impala-jdbc的配置，发现balance选择的是leastconn，这就是导致hue上查询过期的原因。查询cloudera官方的材料后，发现要保持hue的会话，需要对haproxy的balance配置为source算法，以确保每个hue实例将所有流量发送给单个的impalaD实例。本质上，这不是一个真正的负载均衡，而是一个高可用的配置。