命令:ln -s /home/hadoop/bigdater/hbase-0.98.6-cdh5.3.6/conf/hbase-site.xml /home/hadoop/bigdater/hadoop-2.5.0-chd5.3.6/etc/hadoop/hbase-site.xml
在hadoop中添加其他第三方的jar有多种方式,比如添加hbase的jar到hadoop环境中。这里介绍三种: 第一种:在hadoop-env.sh中添加HADOOP_CLASSPATH环境变量,value为hbase的lib文件夹下的所有jar文件。 第二种:在系统级或者用户级修改*profile文件内容,在文件中添加HADOOP_CLASSPATH。 第三种:直接将hbase的lib文件夹中所有jar文件复制到hadoop的share/hadoop/common/lib 或者share/hadoop/mapreduce等文件夹中。
直接使用hbase自带的命名进行环境的测试,命令为:hadoop jar $HBASE_HOME/lib/hbase-server-0.98.6-cdh5.3.6.jar rowcounter hbasetablename
。 运行该命名可以查看到我们指定table的行数。
功能介绍: 我们用爬虫从网络上爬取数据,然后现在就需要充这些爬取的数据中提取产品信息。 我们爬取的数据是放到hbase中的,然后最终我们的提取信息也要保存到hbase中。
注意:
在window上运行操作hbase的mapreduce程序,如果指定fs.defaultFS为集群地址信息,那么使用TableMapReducerUtil的时候必须将addDependency设置为false,如果没有指定,那么必须为true。 如果在集群中运行mapreduce程序,那么addDependency必须为true。