列式存储可以大大提升这类查询的性能,较之于行式存储,列式存储能够带来这些优化:
1.由于每一列中的数据类型相同,所以可以针对不同类型的列使用不同的编码和压缩方式,这样可以大大降低数据存储空间。...1.查询引擎: Hive, Impala, Pig, Presto, Drill, Tajo, HAWQ, IBM Big SQL
2.计算框架: MapReduce, Spark, Cascading..., Crunch, Scalding, Kite
3.数据模型: Avro, Thrift, Protocol Buffers, POJOs
Parquet列式存储带来的性能上的提高在业内已经得到了充分的认可...如果Parquet表中或者查询访问的某个分区中只有一个或几个数据块,则可能会导致查询性能下降:没有足够的数据来利用Impala查询的分布式能力。...Impala2.0之前你要指定绝对字节数,2.0以后你可以以m或者g为单位,分别代表MB和GB大小。