专栏首页Hadoop实操0678-6.2.0-如何在CDH中使用HDFS分层存储

0678-6.2.0-如何在CDH中使用HDFS分层存储

文档编写目的

在前面的文章中,Fayson介绍过什么是HDFS分层存储,参考《6.2.0-什么是HDFS分层存储》。这个功能很早CDH就支持了,本文基于CDH6.2实际演示如何在CDH中使用HDFS分层存储。

  • 测试环境:

1.RedHat7.4

2.CDH6.2

配置并使用HDFS分层存储

在CM上修改DataNode数据目录,将六块SSD盘设置为SSD,另外十六块盘,六块设置为ARCHIVE,十块设置为DISK

1.测试使用SSD存储,执行wordcount

未提交作业前磁盘空间的容量

设置提交wordcount任务的HDFS数据目录的策略为ALL_SSD

执行生成数据的脚本,生成1TB测试数据

生成数据后查看磁盘,只有SSD容量增长了

提交wordcount任务

wordcount任务完成后查看磁盘,由于wordcount在执行过程中产生的中间数据落磁盘的目录未指定存储策略,所以默认使用hot策略,因此造成DISK存储的目录数据量有增长

2.测试使用ARCHIVE存储,执行sort

未提交作业前磁盘空间的容量

设置提交sort任务的HDFS数据目录的策略为cold

执行生成数据的脚本,生成1TB测试数据

生成数据后查看磁盘,只有ARCHIVE类型的磁盘容量增长了

提交sort任务

sort任务完成后查看磁盘,由于sort在执行过程中产生的中间数据落磁盘的目录未指定存储策略,所以默认使用hot策略,因此造成除了ARCHIVE存储的目录增长了之外,DISK存储的目录数据量也有增长

3.测试使用DISK存储,执行terasort

未提交作业前磁盘空间的容量

设置提交terasort任务的HDFS数据目录的策略为hot

执行生成数据的脚本,生成1TB测试数据

生成数据后查看磁盘,只有DISK存储的目录数据增长了

提交terasort任务

terasort任务完成后查看磁盘,发现只有DISK存储的目录数据增长了

总结

1.可以在CM上对HDFS的数据目录进行配置,配置上每块盘的存储类型,然后在使用HDFS时,对相应的HDFS指定存储策略,这样就可以让指定的数据存储到对应存储类型的磁盘,实现HDFS的分层存储。

2.在使用HDFS分层存储时需要注意对数据的分配,对于使用频繁的数据,可以存放在SSD上,对于归档的数据可以存放到ARCHIVE类型的磁盘,对于一些常用的基本数据可以存放在DISK类型的磁盘,对数据进行合理的分配,可以让所有磁盘的性能得到最好的发挥,同时可以获得最高的性价比。

Fayson的github: https://github.com/fayson/cdhproject

本文分享自微信公众号 - Hadoop实操(gh_c4c535955d0f),作者:Fayson

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-07-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 0594-6.1.0-如何从CDH6.1.0升级到CDH6.2.0

    Fayson在前面的文章中详细介绍过CDH的升级,参考《如何升级Cloudera Manager和CDH》,对于小版本的滚动升级,也有专门的一篇文章介绍,参考《...

    Fayson
  • 0723-6.2.0-如何在RedHat7.2使用rpm安装CDH(有CM)

    在之前的文档《0722-6.2.0-如何在RedHat7.2使用rpm安装CDH(无CM)》中介绍了如何在CM上使用rpm的方式安装CDH6.2.0集群,本文档...

    Fayson
  • 0625-6.2.0-Hello NiFi-第一个NiFi例子

    Fayson在前面的文章介绍了什么是NiFi,参考《0622-什么是Apache NiFi》。同时对如何在CDH中使用Parcel安装CFM做了介绍,参考《06...

    Fayson
  • 0764-HDP Spark 2.3.2访问外部Hive 2的配置及验证

    数据质量平台基于定义好的数据稽核和数据质量规则,生成Spark SQL并提交运行到HDP 3.1.5集群的Spark 2.3.2上。Spark 通过以下方式之一...

    Fayson
  • 0616-6.2.0-如何基于FTP的方式访问CDH中HDFS文件系统(续)

    Fayson在前面的文章《0598-6.2.0-如何基于FTP的方式访问CDH中HDFS文件系统》介绍了使用Maven编译hdfs-over-ftp并部署实现通...

    Fayson
  • 0725-5.16.2-如何卸载CDH5.16.2

    Fayson在两年前的文章中介绍过CDH的卸载,参考《0008-如何卸载CDH(附一键卸载github源码)V1.2》,《0609-6.1.0-如何卸载CDH6...

    Fayson
  • 0724-6.2.0-CM接管rpm方式安装的无CM的CDH集群

    在之前的文档中介绍了如何用CM接管无CM以rpm方式安装的CDH5.10.0,本文档同样会介绍如何使用Cloudera Manager来接管一个无Clouder...

    Fayson
  • 0648-6.2.0-配置Senty服务

    登录Cloudera Manager的用户的最小角色要求:Configurator或者Cluster Administrator或者Full Administr...

    Fayson
  • 0685-6.2.0-什么是Cloudera虚拟私有集群和SDX-续

    本文是续上一篇文章《0667-6.2.0-什么是Cloudera虚拟私有集群和SDX》

    Fayson
  • 如何在CDH中使用HPLSQL实现存储过程

    目前版本的Hive中没有提供类似存储过程的功能,使用Hive做数据应用开发时候,一般有以下两种方法:

    Fayson
  • 如何使用分层存储,让 HDFS 变得更高效?

    1、Hadoop 及其承诺 众所周知,商用硬件可以组装起来创建拥有大数据存储和计算能力的Hadoop集群。将数据拆分成多个部分,分别存储在每个单独的机器上,数...

    小小科
  • CDP-DC上部署VPC集群

    CDP DC7.1是Cloudera与Hortonworks合并后,第一个融合CDH和HDP所有组件的on-premise并且可用于生产环境的版本,CDP Da...

    大数据杂货铺
  • 0585-Cloudera Enterprise 6.2.0发布

    Cloudera在北京时间2019年3月30日正式发布了Cloudera Enterprise 6.2.0,此版本包括了许多新功能,可用性改进以及性能提升。Cl...

    Fayson
  • 0610-6.2.0-如何在Redhat7.4安装CDH6.2

    Cloudera在2019年3月30日,对外宣布正式发布Cloudera Enterprise 6.2,相关介绍可以参考Fayson昨天的文章《0585-Clo...

    Fayson
  • 0722-6.2.0-如何在RedHat7.2使用rpm安装CDH(无CM)

    在前面的文档中,介绍了在有CM和无CM两种情况下使用rpm方式安装CDH5.10.0,本文档将介绍如何在无CM的情况下使用rpm方式安装CDH6.2.0,与之前...

    Fayson
  • 0720-5.10.0-如何在RedHat7.2使用rpm安装CDH(有CM)

    在上一篇文档《5.10.0-如何在RedHat7.2使用rpm安装CDH(无CM)》中介绍了如何在没有CM的情况下使用rpm的方式安装CDH集群,本文档将介绍如...

    Fayson
  • 初识 HBase

    对大数据领域有一定了解的小伙伴对HBase应该不会陌生,HBase是Apache基金会开源的一个分布式非关系型数据库,属于Hadoop的组件。它使用Java编写...

    端碗吹水
  • Cloudera数据加密

    加密是使用数字密钥对各种组件(例如文本,文件,数据库,密码,应用程序或网络数据包)进行编码的过程,因此只有适当的实体(用户,系统进程等)才能进行解码(解密) )...

    大数据杂货铺
  • 0738-6.2.0-如何在Hive中使用多分隔符

    而Fayson在以前的文章中也基于C5的环境介绍过如何在Hive中使用多分隔符,参考《Hive多分隔符支持示例》。本文主要介绍在CDH6中如何让Hive支持多分...

    Fayson

扫码关注云+社区

领取腾讯云代金券