如何编译及使用hive-testbench生成Hive基准测试数据

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github:https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢

1.文档编写目的


前面Fayson介绍了《如何编译及使用TPC-DS生成测试数据》,在本篇文章Fayson主要介绍GitHub上的一个开源的项目hive-testbench,该项目主要基于TPC-DS进行封装利用MapReduce的方式快速的生成Hive基准测试数据,本篇文章主要介绍如何编译及使用hive-testbench生成指定数据量的Hive基准测试数据。

  • 内容概述:

1.环境准备及编译hive-testbench

2.生成并加载数据

3.总结

  • 测试环境:

1.RedHat7.3

2.采用root用户操作

2.环境准备


  1. 从GitHub官网clone hive-testbench源码,Git地址如下:
https://github.com/hortonworks/hive-testbench.git

(可左右滑动)

下载至本地目录

[root@ip-172-31-16-68 ~]# git clone https://github.com/hortonworks/hive-testbench.git

(可左右滑动)

2.安装hive-testbench编译依赖环境

[root@ip-172-31-16-68 ~]# yum -y install gcc gcc-c++

(可左右滑动)

3.编译并打包hive-testbench


这里Fayson只是用TPC-DS,所以主要介绍编译TPC-DS,TPC-H的编译方式一样只是使用的脚本为tpch-build.sh,在编译的过程中需要下载Maven和TPC-DS或TPC-H的源码工程,所以该编译节点需要有访问互联网的权限。

  1. 进入hive-testbench目录
[root@ip-172-31-16-68 ~]# cd hive-testbench/
[root@ip-172-31-16-68 hive-testbench]# ll

(可左右滑动)

2.在hive-testbench目录下执行如下脚本进行编译打包

[root@ip-172-31-16-68 hive-testbench]# ./tpcds-build.sh 

(可左右滑动)

3.等待编译结束,如下显示则表示编译成功

至此已完成hive-testbench的编译

4.生成并加载数据


1.在hive-testbench目录下执行如下脚本生成并加载测试数据

[root@ip-172-31-16-68 hive-testbench]# ./tpcds-setup.sh 10 /extwarehouse/tpcds

(可左右滑动)

参数说明:

10表示生成的数据量大小GB单位

/extwarehouse/tpcds表数据数据生成的目录,目录不存在自动生成,如果不指定数据目录则默认生成到/tmp/tpcds目录下。

由上图可以看到生成数据的方式是向集群提交了一个MapReduce作业,使用这种方式生成测试数据会比前面Fayson介绍的《如何编译及使用TPC-DS生成测试数据》效率高。

2.等待脚本执行成功

有如上图显示则表示脚本执行成功,成功生成了测试数据并创建了tpcds_text_10和tpcds_bin_partitioned_orc_10两个数据库。

3.在命令行查看HDFS上的数据是否与我们指定的量一致

数据总量与指定10GB数据量一致(注意:这里生成数据会与指定的量有一些出入)

各个表大小

4.通过Hue验证生成的测试数据

可以看到生成了两个数据库分别为tpcds_text_10和tpcds_bin_partitioned_orc_10两个库。

生成了测试用的所有表, 并将数据load到相应的表中

5.总结


在编译hive-testbench项目时需要有外网环境,在编译的过程会下载Maven的安装包、下载Maven依赖以及TPC-DS的源码在后面的文章Fayson会结合真实环境通过脚本的方式运行TPC-DS的99条SQL来做Hive、Impala、Presto等服务的基准测试。

参考:

https://github.com/hortonworks/hive-testbench

提示:代码块部分可以左右滑动查看噢 为天地立心,为生民立命,为往圣继绝学,为万世开太平。 温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。

推荐关注Hadoop实操,第一时间,分享更多Hadoop干货,欢迎转发和分享。

原创文章,欢迎转载,转载请注明:转载自微信公众号Hadoop实操

原文发布于微信公众号 - Hadoop实操(gh_c4c535955d0f)

原文发表时间:2018-03-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Java成神之路

hive_学习_02_hive整合hbase(失败)

本文承接上一篇:hive_学习_01_hive环境搭建(单机) ,主要是记录 hive 整合hbase的流程

742
来自专栏别先生

一脸懵逼学习Hdfs---动态增加节点和副本数量管理(Hdfs动态扩容)

1:按照上篇博客写的,将各个进程都启动起来: 集群规划:     主机名          IP                  安装的软件         ...

3167
来自专栏IT技术精选文摘

Hadoop完全分布式搭建

6432
来自专栏about云

Hadoop3.0集群安装知识

问题导读 1.本文是如何定义master的? 2.如何配置hadoop守护进程环境? 3.配置Hadoop守护进程需要哪些配置文件? 4.yarn-site配...

3697
来自专栏Hadoop实操

如何在CDH5.13中安装CDSW1.2

Cloudera前一段时间发布了CDH5.13版本,5.13的新功能可以参考前一篇文章《CDH5.13和CM5.13的新功能》,在CDH5.13版本以后支持CD...

4975
来自专栏北京马哥教育

CentOS 6.5上搭建Hadoop环境详解

本文详细记录在开发服务器CentOS 6.5上搭建Hadoop的详细过程。 ssh连接免密码配置 由于配置过程中需要频繁的进行ssh连接到开发服务器执行命令以及...

3385
来自专栏Hadoop实操

CDSW1.4的新功能

1933
来自专栏菩提树下的杨过

hadoop1.2.1伪分布模式配置

1、修改core-site.xml,配置hdfs 1 <configuration> 2 <property> 3 <name>fs.default...

2175
来自专栏乐沙弥的世界

Windows 2012配置故障转移(For SQLServer 2014 AlwaysOn)

单击”管理”菜单,选择”添加角色和功能” 单击”下一步”,选择”基于角色或基于功能的安装”,单击”下一步” 选择本地服务器,单击”下一步”,直到功能模块...

1292
来自专栏挖掘大数据

Hadoop3.0分布式集群安装知识

问题导读 1.本文是如何定义master的? 2.如何配置hadoop守护进程环境? 3.配置Hadoop守护进程需要哪些配置文件? 4.yarn-site配...

6155

扫码关注云+社区

领取腾讯云代金券