温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。
Fayson的github:https://github.com/fayson/cdhproject
提示:代码块部分可以左右滑动查看噢
1.文档编写目的
前面Fayson介绍了《如何在Impala中使用Parquet表》,本篇文章主要介绍如何使用Hive来生成Parquet格式的表,并介绍如何限制生成的Parquet文件的大小。
1.测试数据准备
2.Hive创建Parquet表及验证
3.Paruqet文件跨Block说明
4.总结
1.RedHat7.3
2.CM和CDH版本为5.13.1
1.已使用hive-testbench生成好Hive的基准测试数据
2.测试数据准备
1..使用hive-testbench生成15GB测试数据,挑选catalog_sales表做为测试表
生成的表数据为text类型
查看catalog_sales表生成的text数据大小
具体的数据如何生成,大家可以参考Fayson前面讲的《如何编译及使用hive-testbench生成Hive基准测试数据》。
2.查看catalog_sales表的数据量大小
测试表的数据量大小为21602679
3.Hive创建Parquet表
1.创建一个SQL脚本内容如下:
[root@ip-172-31-21-83 impala-parquet]# vim load_parquet_hive.sql
set mapreduce.input.fileinputformat.split.maxsize=536870912;
set mapreduce.input.fileinputformat.split.minsize=536870912;
set parquet.block.size=268435456;
set parquet.compression=SNAPPY;
drop table if exists catalog_sales;
create table default.catalog_sales
stored as parquet
as select * from tpcds_text_15.catalog_sales;
(可左右滑动)
脚本描述:
2.使用hive命令行执行如下脚本,创建Parquet表并导入数据
[root@ip-172-31-21-83 impala-parquet]# hive -f load_parquet_hive.sql
Java HotSpot(TM) 64-Bit Server VM warning: ignoring option MaxPermSize=512M; support was removed in 8.0
Java HotSpot(TM) 64-Bit Server VM warning: Using incremental CMS is deprecated and will likely be removed in a future release
Java HotSpot(TM) 64-Bit Server VM warning: ignoring option MaxPermSize=512M; support was removed in 8.0
(可左右滑动)
等待作业执行成功,显示如下:
3.查看HDFS上catalog_sales表占用空间大小
[root@ip-172-31-16-68 ~]# hadoop fs -du -h /user/hive/warehouse
(可左右滑动)
查看catalog_sales表生成的parquet文件大小
查看生成的每个parquet文件的Block数
如上截图可以看parquet文件的Block为1个,说明生成的paruqet文件未出现跨Block的现象,与Fayson前面文章《如何在Impala中使用Parquet表》中介绍的“为Impala使用合适大小的Parquet block size”一致。
4.Impala命令行验证
1.在命令行登录impala-shell
表的数据量大小与原始表tpcds_text_15.catalog_sales表数据量一致。
5.Parquet文件跨block说明
使用Impala的创建Parquet表时生成的Parquet文件都是一个单独的块,不会出现文件跨Block的现象,如果使用Hive的方式来创建Parquet表时会出现生成文件跨Block的问题。如下示例Fayson实现一个parquet文件跨Block的示例:
生成的Paruqet文件大于Parquet的block size就会出现Paruqet文件跨Block的问题。
1.准备SQL脚本内容如下:
[root@ip-172-31-21-83 impala-parquet]# vim load_parquet_hive.sql
set mapreduce.input.fileinputformat.split.maxsize=67108864;
set mapreduce.input.fileinputformat.split.minsize=67108864;
set parquet.compression=SNAPPY;
drop table if exists catalog_sales;
create table default.catalog_sales
stored as parquet
as select * from tpcds_text_15.catalog_sales;
(可左右滑动)
2.查看HDFS上生成的Parquet文件
[root@ip-172-31-21-83 impala-parquet]# hadoop fs -du -h /user/hive/warehouse/catalog_sales
(可左右滑动)
这里可以看到生成了两个parquet文件,这是由fileinputformat.split.maxsize/minsize参数控制的,我们设置的Parquet文件的block size为16MB,生成的Paruqet文件大于64MB ,因此会出现Paruqet文件跨Block的现象:
3.设置/user/hive/warehouse/catalog_sales目录下所有文件的副本数为1
hadoop fs -setrep -R 1 /user/hive/warehouse/catalog_sales
(可左右滑动)
由于Fayson的测试集群只有3个DataNode,即使Paruqet文件跨Block,也可以确保每个节点均有该Parquet文件的全量数据所以无法测试重现Impala在查询跨Block的parquet数据时出现的警告信息,因此这里将文件的副本数修改为1。
4.使用Impala-shell执行SQL查询
select * from catalog_sales where cs_order_number in (480001, 690003,1469093,1200000,724570,2400000);
(可左右滑动)
执行结果出现警告:“WARNINGS: Read 78.24 MB of data across network that was expected tobe local. Block locality metadata for table 'default.catalog_sales' may bestale”
mapreduce.input.fileinputformat.split.maxsize/minsize两个参数
如:该参数设置为1GB=1024 *102 * 1024则生成的Parquet文件为1GB左右设置了压缩格式则该文件会小于1GB。
如:parquet.block.size大小设置为512MB,parquet文件大小为1G则该Parquet文件则会被分为2个Block。
提示:代码块部分可以左右滑动查看噢
为天地立心,为生民立命,为往圣继绝学,为万世开太平。 温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。
推荐关注Hadoop实操,第一时间,分享更多Hadoop干货,欢迎转发和分享。
原创文章,欢迎转载,转载请注明:转载自微信公众号Hadoop实操