hive.metastore.local false为远程模式
hive.metastore.uris 远端模式下Metastore的URI列表
?...groupby.png
在map阶段将字段组合为key值,将value值设为统计的次数,在reduce阶段直接进行合并。
3.Mapreduce实现distinct
?...1distinct.png
当只有一个distinct字段时,如果不考虑Map阶段的Hash GroupBy,只需要将GroupBy字段和Distinct字段组合为map输出key,利用mapreduce...clipboard.png
分区表:
分区:把数据放在不同的磁盘文件中,就认为是不同的分区,数据库对不同的分区会进行单独的管理,优化,最终的目的是加快我们数据查询的速度,在hive中,把不同的分区分在表中不同的子文件夹中...,模100就被分成100份,因为hash值几乎各不相同,所以模后的结果,分成10份或者100份,每一份的数据量几乎是一样多的,当你hash之后然后模一个数字,分的那些数据量,每一份应该是差不多的,如果这样的话