Hive的缺点
HQL并非完全是SQL语法,很多复杂的语法无法实现,比如join操作,只支持等值连接,迭代的算法无法实现。...join.png
实现的过程是在Map阶段将来自哪个表的数据打上标签,在reduce阶段,按标签区分不同的列,按key来进行数据的合并。
2.MapReduce实现groupy
?...1distinct.png
当只有一个distinct字段时,如果不考虑Map阶段的Hash GroupBy,只需要将GroupBy字段和Distinct字段组合为map输出key,利用mapreduce...clipboard.png
分区表:
分区:把数据放在不同的磁盘文件中,就认为是不同的分区,数据库对不同的分区会进行单独的管理,优化,最终的目的是加快我们数据查询的速度,在hive中,把不同的分区分在表中不同的子文件夹中...桶表:
桶表和分区表的区别在于:不是按照业务字段来进行分区,对里面的记录做一个hash,记录做完hash之后就没有规律了,可以简单的认为数据做完hash之后都不相同,然后我们让数据进行模10,数据就被分成了十份