专栏首页大数据分享(三)HDFS配置多目录与支持LZO压缩

(三)HDFS配置多目录与支持LZO压缩

配置多目录.jpg

3)增加磁盘后,保证每个目录数据均衡 开启数据均衡命令: bin/start-balancer.sh –threshold 10 对于参数10,代表的是集群中各个节点的磁盘空间利用率相差不超过10%,可根据实际情况进行调整。 停止数据均衡命令: bin/stop-balancer.sh 实时的通信检测,也会浪费一定资源,因此调配过后就可以关闭了。

LZO压缩配置--切片(另一种常用的是snappy压缩--快) 1)hadoop本身并不支持lzo压缩,故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需依赖hadoop和lzo进行编译,编译步骤如下。

2)将编译好后的hadoop-lzo-0.4.20.jar 放入hadoop-2.7.2/share/hadoop/common/ pwd /opt/module/hadoop-2.7.2/share/hadoop/common ls hadoop-lzo-0.4.20.jar 3)同步hadoop-lzo-0.4.20.jar到hadoop003、hadoop004 xsync hadoop-lzo-0.4.20.jar 4)core-site.xml增加配置支持LZO压缩 <?xml version="1.0" encoding="UTF-8"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration> <property> <name>io.compression.codecs</name> <value> org.apache.hadoop.io.compress.GzipCodec, org.apache.hadoop.io.compress.DefaultCodec, org.apache.hadoop.io.compress.BZip2Codec, org.apache.hadoop.io.compress.SnappyCodec, com.hadoop.compression.lzo.LzoCodec, com.hadoop.compression.lzo.LzopCodec </value> </property>

<property> <name>io.compression.codec.lzo.class</name> <value>com.hadoop.compression.lzo.LzoCodec</value> </property> </configuration>

5)同步core-site.xml到hadoop003、hadoop004 xsync core-site.xml

6)启动及查看集群: sbin/start-dfs.sh sbin/start-yarn.sh

查看各端口号和线程号: netstat -aptn 记得配置一下windows端的环境变量,以便idea使用hadoop 顺便配置一下hosts域名,方便访问hadoop002:50070

1.测试lzo默认上传时的切片数: hadoop jar /opt/module/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /input /output1 20/09/17 20:05:02 INFO mapreduce.JobSubmitter: number of splits:1

2.对上传的lzo文件建立索引: hadoop jar share/hadoop/common/hadoop-lzo-0.4.20.jar com.hadoop.compression.lzo.DistributedLzoIndexer /input/bigtable.lzo

建立lzo索引文件.jpg

3.再次执行wordcount: hadoop jar /opt/module/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /input /output1 20/09/17 20:29:10 INFO mapreduce.JobSubmitter: number of splits:2 建立索引后,切片数变成了2,lzo需要建立索引才能正常切片使用

做基准测试

试问100T的数据如何能上传完毕?100T的wordcount数据,多久可以算完? cd /opt/module/hadoop-2.7.2/share/hadoop/mapreduce 写入测试: hadoop jar /opt/module/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.7.2-tests.jar TestDFSIO -write -nrFiles 10 -fileSize 128MB

进行本地基准测试.jpg

读取测试:(通常读都比写快) hadoop jar /opt/module/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.7.2-tests.jar TestDFSIO -read -nrFiles 10 -fileSize 128MB

top命令,进行查看资源利用情况

top查看资源.jpg

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • mapreduce -- wordcount执行流程

    注:要和安装的hadoop版本一致,并且运行hdfs <?xml version="1.0" encoding="UTF-8"?>

    wolf
  • (二)Hadoop集群配置安装

    NameNode、ResourceManager、SecondaryNameNode三者分别放在三个节点上,因为都要占用内存的资源,不要重复出现在一个节点上。

    wolf
  • (一)Centos7安装搭建集群环境

    链接:https://pan.baidu.com/s/1A4zs_oY6vstDLcJaEkC63w 提取码:y8y8

    wolf
  • Hadoop(2)——HDFS(分布式文件系统)

    英文全称是The Hadoop Distributed File System官方地址http://hadoop.apache.org/docs/stable/...

    羊羽shine
  • /tmp/hadoop-hadoop-namenode.pid: Permission denied

    starting namenode, logging to /home/hadoop/hadoop-1.0.2/libexec/../logs/hadoo...

    闵开慧
  • hadoop-What-How-Why

    The Apache Hadoop software library is a framework that allows for the distr...

    字母哥博客
  • HDFS的Shell操作(开发重点)

    bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令 dfs是fs的实现类。

    用户7656790
  • 通过思维导图,让女朋友搭建一个hadoop完全分布式

    女朋友:你上次教我搭建伪分布式,我已经会搭建啦。只用了一台机器就搞定了呀,想学完全分布式的搭建。

    用户7656790
  • 保姆级教程:还愁不会搭建伪分布式吗?(其实很简单)

    在上面三篇文章我们已经把基本环境搭建好了,也进行了相应的案例演示,下面我们将进入伪分布式的环境搭建,并运行实例,建议先看上面三篇文章在进行操作。看一百遍,不如手...

    用户7656790
  • hadoop伪分布式环境搭建

      由于博主之前没有从事过hadoop相关的开发工作,最近正好遇到一个hadoop相关的项目,于是决定自学研究一下,博主整理的东西绝对是最全最详细的,不要问为什...

    会说话的丶猫

扫码关注云+社区

领取腾讯云代金券