Impala 简介:
Impala 是一个高性能分析数据库,可针对存储在 Apache Hadoop 集群中的 PB 级数据进行闪电般快速的分布式 SQL 查询。Impala 还是一个现代化,大规模分布式,大规模并行的 C ++ 查询引擎,可以分析,转换和合并来自各种数据源的数据。Impala采用与Hive相同的元数据、SQL语法、ODBC 驱动程序和用户接口(Hue Beeswax),这样在使用CDH产品时,批处理和实时查询的平台是统一的。
目前支持的文件格式是文本文件和SequenceFiles(可以压缩为Snappy、GZIP和BZIP,前者性能最好)。其他格式如Avro, RCFile, LZO文本和Doug Cutting的Trevni将在正式版中支持。
Impala 提供:
● 在 Apache Hadoop 中查询大量数据(大数据)的能力;
● 集群环境中的分布式查询;
● 在不同组件之间共享数据文件的能力,无需复制或导出/导入步骤;
● 用于大数据处理和分析的单一系统。
Impala 特性:
● 最佳性能以及可扩展性。
● 支持存储在HDFS, Apache HBase和Amazon S3中的数据。
● 强大的SQL分析,包括窗口函数和子查询。
● 使用LLVM快速生成代码,生成针对每个单独查询专门定制的CPU高效代码。
● 支持最常用的Hadoop文件格式,包括 Apache Parquet项目。
● Apache许可,100%开源。