2、介绍一下Sort By,Order By,Distrbute By,Cluster By的区别
3、谈谈你所知道有哪些常用的Hive调优方式?...(可升可降)
思考题:
3、谈谈你所知道有哪些常用的Hive调优方式?...hive的优化很多,我们做项目时70%时间都花在hive的调优上.常见的Hive调优比如并行编译,小文件合并,矢量化查询,读取零拷贝优化,数据倾斜优化等等
关于hive的调优,我曾写过两篇博客专门总结了当时项目中存在的...hive调优的点,各位大佬如果感兴趣可以点开链接看看:
链接
链接
基础题:
1、清楚描述 MapReduce 的 shuffle 过程
shuffle过程:分为四步
分区,排序,局部合并,分组...增加split by 解决
具体:
–split by 字段
-m 数量 使用几个Task进行数据采集
使用Sqoop遇到的bug:hdfs文件的权限问题,文件格式问题,没有设置主键,Output