简介: impala属于Cloudera,基于内存的,可用户实时的交互式查询。Cloudera建议Impala集群内存最少128G,Impalad与DataNode运行在同一节点上
原理简介:
Impala与Hivemetastore database相集成,这两个组件之间可以共享database和table。
如图所示,Impala主要由Impalad, State Store和CLI组成。
Impalad: 与DataNode运行在同一节点上,由Impalad进程表示,它接收客户端的查询请求(接收查询请求的Impalad为Coordinator,Coordinator通过JNI调用java前端解释SQL查询语句,生成查询计划树,再通过调度器把执行计划分发给具有相应数据的其它Impalad进行执行),读写数据,并行执行查询,并把结果通过网络流式的传送回给Coordinator,由Coordinator返回给客户端。同时Impalad也与State Store保持连接,用于确定哪个Impalad是健康和可以接受新的工作。在Impalad中启动三个ThriftServer: beeswax_server(连接客户端),hs2_server(借用Hive元数据), be_server(Impalad内部使用)和一个ImpalaServer服务。
Impala State Store: 跟踪集群中的Impalad的健康状态及位置信息,由statestored进程表示,它通过创建多个线程来处理Impalad的注册订阅和与各Impalad保持心跳连接,各Impalad都会缓存一份State Store中的信息,当State Store离线后(Impalad发现State Store处于离线时,会进入recovery模式,反复注册,当State Store重新加入集群后,自动恢复正常,更新缓存数据)因为Impalad有State Store的缓存仍然可以工作,但会因为有些Impalad失效了,而已缓存数据无法更新,导致把执行计划分配给了失效的Impalad,导致查询失败。
CLI: 提供给用户查询使用的命令行工具(Impala Shell使用python实现),同时Impala还提供了Hue,JDBC, ODBC使用接口。
工作中用到的一些命令:
impala-shell -r -i datanode3 -f impala.sql
impala-shell -i datanode3 -f impala.sql
impala-shell -r 刷新之后连接。
REFRESH dws_e_dsc_gaa01_loan_l_detail;
INVALIDATE METADATA;
时间函数:
select from_unixtime(unix_timestamp(now() + interval 3 days), 'yyyy/MM/dd HH:mm');
datediff(to_date(now()),to_date(create_time))=1
最近30天
select from_unixtime(
unix_timestamp(date_sub(now(),30)),
'yyyy-MM-dd'
)
trunc(subdate(now(), 7),'DDD')
row_number:在spark中称为开窗函数
select * from (
select time_rect,row_number()over(partition by ID_UNQP order by time_rect desc) a from dws_e_dsc_gaa01_person_basicinf where `date`='20160303')b
where b.a=1
参考:
官网:https://www.cloudera.com/documentation/enterprise/latest/topics/impala.html 分析函数: http://www.cloudera.com/documentation/archive/impala/2-x/2-1-x/topics/impala_analytic_functions.html#rank_unique_1