前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Impala介绍

Impala介绍

作者头像
加米谷大数据
发布2018-07-25 17:57:18
1.8K0
发布2018-07-25 17:57:18
举报
文章被收录于专栏:加米谷大数据加米谷大数据

Impala 简介:

Impala 是一个高性能分析数据库,可针对存储在 Apache Hadoop 集群中的 PB 级数据进行闪电般快速的分布式 SQL 查询。Impala 还是一个现代化,大规模分布式,大规模并行的 C ++ 查询引擎,可以分析,转换和合并来自各种数据源的数据。Impala采用与Hive相同的元数据、SQL语法、ODBC 驱动程序和用户接口(Hue Beeswax),这样在使用CDH产品时,批处理和实时查询的平台是统一的。

目前支持的文件格式是文本文件和SequenceFiles(可以压缩为Snappy、GZIP和BZIP,前者性能最好)。其他格式如Avro, RCFile, LZO文本和Doug Cutting的Trevni将在正式版中支持。

Impala 提供:

● 在 Apache Hadoop 中查询大量数据(大数据)的能力;

● 集群环境中的分布式查询;

● 在不同组件之间共享数据文件的能力,无需复制或导出/导入步骤;

● 用于大数据处理和分析的单一系统。

Impala 特性:

● 最佳性能以及可扩展性。

● 支持存储在HDFS, Apache HBase和Amazon S3中的数据。

● 强大的SQL分析,包括窗口函数和子查询。

● 使用LLVM快速生成代码,生成针对每个单独查询专门定制的CPU高效代码。

● 支持最常用的Hadoop文件格式,包括 Apache Parquet项目。

● Apache许可,100%开源。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-05-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 加米谷大数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档