前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Pentaho Work with Big Data(三)—— 向Hadoop集群导入数据

Pentaho Work with Big Data(三)—— 向Hadoop集群导入数据

作者头像
用户1148526
发布2022-05-07 13:03:58
2820
发布2022-05-07 13:03:58
举报
文章被收录于专栏:Hadoop数据仓库

1. 向HDFS导入数据 . 从下面的地址下载web日志示例文件,解压缩后的weblogs_rebuild.txt文件放到/home/grid/data-integration/test目录下。 http://wiki.pentaho.com/download/attachments/23530622/weblogs_rebuild.txt.zip?version=1&modificationDate=1327069200000 . 建立一个作业,把文件放置到Hadoop中。 (1)打开PDI,新建一个作业,如图1所示。

图1 (2)编辑'Hadoop Copy Files'作业项,如图2所示。

图2 说明:hadoop_local是已经建立好的Hadoop Clusters连接,建立过程参考 http://blog.csdn.net/wzy0623/article/details/51086821。 (3)保存并执行作业,日志如图3所示。

图3 从图3可以看到,作业已经成功执行。 (4)检查Hadoop,结果如图4所示。

图4 从图4可以看到,weblogs_rebuild.txt已经传到了Hadoop的/user/grid/目录下。 2. 向Hive导入数据 . 从下面的地址下载web日志示例文件。 http://wiki.pentaho.com/download/attachments/23530622/weblogs_parse.txt.zip?version=1&modificationDate=1327068013000 . 解压缩后的weblogs_parse.txt文件放到Hadoop的/user/grid/目录下。 hadoop fs -put weblogs_parse.txt /user/grid/ . 建立一个作业,将文件导入到hive表中。 (1)执行下面的HSQL建立一个hive表,从图5可以看到,已经在test库中建立了weblogs表,此时表中没有数据。

代码语言:javascript
复制
create table test.weblogs (
client_ip    string,
full_request_date string,
day    string,
month    string,
month_num int,
year    string,
hour    string,
minute    string,
second    string,
timezone    string,
http_verb    string,
uri    string,
http_status_code    string,
bytes_returned        string,
referrer        string,
user_agent    string)
row format delimited
fields terminated by '\t';

图5 (2)打开PDI,新建一个作业,如图1所示。 (3)编辑'Hadoop Copy Files'作业项,如图6所示。

图6 说明:hadoop_local是已经建立好的Hadoop Clusters连接,建立过程参考 http://blog.csdn.net/wzy0623/article/details/51086821。 (4)保存并执行作业,日志如图7所示。

图7 从图7可以看到,作业已经成功执行。 (5)查询test.weblogs表,结果如图8所示。

图8 从图8可以看到,向test.weblogs表中导入了445454条数据。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2016-04-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档