2.本地模式
本地模式是Metastore的默认模式(懒人专用模式)。该模式下,单Hive会话(一个Hive 服务JVM)以组件方式调用Metastore和Driver。...groupby.png
在map阶段将字段组合为key值,将value值设为统计的次数,在reduce阶段直接进行合并。
3.Mapreduce实现distinct
?...的排序,同时将GroupBy字段作为reduce的key,在reduce阶段保存LastKey即可完成去重....clipboard.png
分区表:
分区:把数据放在不同的磁盘文件中,就认为是不同的分区,数据库对不同的分区会进行单独的管理,优化,最终的目的是加快我们数据查询的速度,在hive中,把不同的分区分在表中不同的子文件夹中...桶表:
桶表和分区表的区别在于:不是按照业务字段来进行分区,对里面的记录做一个hash,记录做完hash之后就没有规律了,可以简单的认为数据做完hash之后都不相同,然后我们让数据进行模10,数据就被分成了十份