前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Hadoop数据分析平台实战——100HBase和MapReduce整合离线数据分析平台实战——100HBase和MapReduce整合

Hadoop数据分析平台实战——100HBase和MapReduce整合离线数据分析平台实战——100HBase和MapReduce整合

作者头像
Albert陈凯
发布2018-04-08 11:21:53
6850
发布2018-04-08 11:21:53
举报
文章被收录于专栏:Albert陈凯Albert陈凯

离线数据分析平台实战——100HBase和MapReduce整合

环境搭建

搭建步骤:
  1. 在etc/hadoop目录中创建hbase-site.xml的软连接。在真正的集群环境中的时候,hadoop运行mapreduce会通过该文件查找具体的hbase环境信息。
  2. 将hbase需要的jar包添加到hadoop运行环境中,其中hbase需要的jar就是lib文件夹下面的所有*.jar文件。
  3. 使用hbase自带的server jar测试是否安装成功。

环境搭建-软连接创建

命令:ln -s /home/hadoop/bigdater/hbase-0.98.6-cdh5.3.6/conf/hbase-site.xml /home/hadoop/bigdater/hadoop-2.5.0-chd5.3.6/etc/hadoop/hbase-site.xml

环境搭建-hbase jar添加

在hadoop中添加其他第三方的jar有多种方式,比如添加hbase的jar到hadoop环境中。这里介绍三种: 第一种:在hadoop-env.sh中添加HADOOP_CLASSPATH环境变量,value为hbase的lib文件夹下的所有jar文件。 第二种:在系统级或者用户级修改*profile文件内容,在文件中添加HADOOP_CLASSPATH。 第三种:直接将hbase的lib文件夹中所有jar文件复制到hadoop的share/hadoop/common/lib 或者share/hadoop/mapreduce等文件夹中。

环境搭建-测试

直接使用hbase自带的命名进行环境的测试,命令为:hadoop jar $HBASE_HOME/lib/hbase-server-0.98.6-cdh5.3.6.jar rowcounter hbasetablename。 运行该命名可以查看到我们指定table的行数。

案例--统计产品信息

功能介绍: 我们用爬虫从网络上爬取数据,然后现在就需要充这些爬取的数据中提取产品信息。 我们爬取的数据是放到hbase中的,然后最终我们的提取信息也要保存到hbase中。

注意:

在window上运行操作hbase的mapreduce程序,如果指定fs.defaultFS为集群地址信息,那么使用TableMapReducerUtil的时候必须将addDependency设置为false,如果没有指定,那么必须为true。 如果在集群中运行mapreduce程序,那么addDependency必须为true。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2017.08.31 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 离线数据分析平台实战——100HBase和MapReduce整合
    • 环境搭建
      • 环境搭建-软连接创建
        • 环境搭建-hbase jar添加
          • 环境搭建-测试
            • 案例--统计产品信息
            领券
            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档