前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Impala原理、使用

Impala原理、使用

作者头像
shengjk1
发布2018-10-24 15:28:31
1.4K0
发布2018-10-24 15:28:31
举报
文章被收录于专栏:码字搬砖码字搬砖

简介: impala属于Cloudera,基于内存的,可用户实时的交互式查询。Cloudera建议Impala集群内存最少128G,Impalad与DataNode运行在同一节点上

原理简介:

这里写图片描述
这里写图片描述

Impala与Hivemetastore database相集成,这两个组件之间可以共享database和table。

如图所示,Impala主要由Impalad, State Store和CLI组成。

Impalad: 与DataNode运行在同一节点上,由Impalad进程表示,它接收客户端的查询请求(接收查询请求的Impalad为Coordinator,Coordinator通过JNI调用java前端解释SQL查询语句,生成查询计划树,再通过调度器把执行计划分发给具有相应数据的其它Impalad进行执行),读写数据,并行执行查询,并把结果通过网络流式的传送回给Coordinator,由Coordinator返回给客户端。同时Impalad也与State Store保持连接,用于确定哪个Impalad是健康和可以接受新的工作。在Impalad中启动三个ThriftServer: beeswax_server(连接客户端),hs2_server(借用Hive元数据), be_server(Impalad内部使用)和一个ImpalaServer服务。

Impala State Store: 跟踪集群中的Impalad的健康状态及位置信息,由statestored进程表示,它通过创建多个线程来处理Impalad的注册订阅和与各Impalad保持心跳连接,各Impalad都会缓存一份State Store中的信息,当State Store离线后(Impalad发现State Store处于离线时,会进入recovery模式,反复注册,当State Store重新加入集群后,自动恢复正常,更新缓存数据)因为Impalad有State Store的缓存仍然可以工作,但会因为有些Impalad失效了,而已缓存数据无法更新,导致把执行计划分配给了失效的Impalad,导致查询失败。

CLI: 提供给用户查询使用的命令行工具(Impala Shell使用python实现),同时Impala还提供了Hue,JDBC, ODBC使用接口。

工作中用到的一些命令:

代码语言:javascript
复制
impala-shell -r  -i datanode3 -f impala.sql
impala-shell -i datanode3 -f impala.sql 
impala-shell -r     刷新之后连接。
REFRESH dws_e_dsc_gaa01_loan_l_detail;
INVALIDATE METADATA;

时间函数:
select from_unixtime(unix_timestamp(now() + interval 3 days), 'yyyy/MM/dd HH:mm'); 




datediff(to_date(now()),to_date(create_time))=1

最近30天 
select from_unixtime(
            unix_timestamp(date_sub(now(),30)),
            'yyyy-MM-dd'
        )

trunc(subdate(now(), 7),'DDD')



row_number:在spark中称为开窗函数
select * from (
select time_rect,row_number()over(partition by ID_UNQP order by time_rect desc) a from dws_e_dsc_gaa01_person_basicinf where `date`='20160303')b
where b.a=1

参考:

官网:https://www.cloudera.com/documentation/enterprise/latest/topics/impala.html 分析函数: http://www.cloudera.com/documentation/archive/impala/2-x/2-1-x/topics/impala_analytic_functions.html#rank_unique_1

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2016年07月29日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
命令行工具
腾讯云命令行工具 TCCLI 是管理腾讯云资源的统一工具。使用腾讯云命令行工具,您可以快速调用腾讯云 API 来管理您的腾讯云资源。此外,您还可以基于腾讯云的命令行工具来做自动化和脚本处理,以更多样的方式进行组合和重用。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档