如何在CDH集群使用HDFS快照

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。

1.文档编写目的


HDFS中可以对目录创建Snapshot,创建之后不管后续目录发生什么变化,都可以通过快照找回原来的文件和目录结构,那么在CDH集群中如何使用HDFS的快照功能呢?本文章主要讲述如何在CDH中使用HDFS的快照功能,包括全量快照和增量快照和恢复。

  • 内容概述

1.启用目录快照功能

2.创建目录快照

3.快照数据恢复

4.总结

  • 测试环境

1.CM和CDH版本为5.11.2

2.操作系统:RedHat7.2

3.采用sudo权限的ec2-user用户操作

2.启用快照功能


1.登录CM的Web界面

2.进入HDFS服务

3.点击菜单“文件浏览”

4.选择需要创建快照的目录/data/mytest目录

5.在创建快照时,需要先启用该目录的快照

快照启用成功

3.创建目录快照


1.创建快照前,查看/data/mytest/data.dat文件内容

[ec2-user@ip-172-31-22-86 ~]$ sudo -u hdfs hadoop fs -cat /data/mytest/data.dat
test1@#$test1name@#$test2value
test2@#$test2name@#$test2value
test3@#$test3name@#$test4value
[ec2-user@ip-172-31-22-86 ~]$ 

2.创建一个新的快照

快照创建成功

3.向/data/mytest/data.dat文件中追加内容

[ec2-user@ip-172-31-22-86 ~]$ more test.dat 
test4@#$test4name@#$test4value
test5@#$test5name@#$test5value
[ec2-user@ip-172-31-22-86 ~]$ hadoop fs -appendToFile test.dat /data/mytest/data.dat
[ec2-user@ip-172-31-22-86 ~]$ hadoop fs -cat /data/mytest/data.dat
test1@#$test1name@#$test2value
test2@#$test2name@#$test2value
test3@#$test3name@#$test4value
test4@#$test4name@#$test4value
test5@#$test5name@#$test5value
[ec2-user@ip-172-31-22-86 ~]$ 

4.在追加数据后再创建一个快照MySecondSnapshot

4.快照数据恢复


1.将/data/mytest/目录下的所有数据文件删除

[ec2-user@ip-172-31-22-86 ~]$ hadoop fs -rm -r /data/mytest/*
17/10/18 21:57:24 INFO fs.TrashPolicyDefault: Moved: 'hdfs://ip-172-31-21-45.ap-southeast-1.compute.internal:8020/data/mytest/data.dat' to trash at: hdfs://ip-172-31-21-45.ap-southeast-1.compute.internal:8020/user/ec2-user/.Trash/Current/data/mytest/data.dat
[ec2-user@ip-172-31-22-86 ~]$ hadoop fs -ls /data/mytest     
[ec2-user@ip-172-31-22-86 ~]$ 

2.使用快照MyFirstSnapShot恢复数据

选择MyFirstSnapShot快照

还原快照

3.还原成功,验证数据

文件名称与文件大小与第一次快照时一致

文件内容与第一次快照时内容一致

4.删除/data/mytest/目录下所有数据

5.使用快照MySecondSnapshot恢复数据

6.还原成功数据正确性验证

文件名称与文件大小与第二次创建快照时一致

文件内容与第二次快照时内容一致

5.总结


  • HDFS快照的创建是瞬间的,取决于扫描文件目录的时间
  • HDFS快照占用很小的空间,但不是原始数据数据拷贝,快照只是记录了列表和文件的大小,相当于元数据信息,不会有数据复制。
  • 如果一个目录启用了快照功能,那么它的父目录和子目录都不允许再被设置快照。
  • 如果一个目录下已经存在快照,那么要删除该目录则必须先删除该目录的所有快照才能对目录进行删除和重命名操作。

为天地立心,为生民立命,为往圣继绝学,为万世开太平。 温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。


推荐关注Hadoop实操,第一时间,分享更多Hadoop干货,欢迎转发和分享。

原创文章,欢迎转载,转载请注明:转载自微信公众号Hadoop实操

原文发布于微信公众号 - Hadoop实操(gh_c4c535955d0f)

原文发表时间:2017-10-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏LhWorld哥陪你聊算法

【CDH篇】---CDH从初识到搭建到应用

CDH(Cloudera's Distribution, including Apache Hadoop)是Hadoop众多分支中的一种,由Cloudera维护...

5992
来自专栏Hadoop实操

如何在CDH5.13中安装CDSW1.2

Cloudera前一段时间发布了CDH5.13版本,5.13的新功能可以参考前一篇文章《CDH5.13和CM5.13的新功能》,在CDH5.13版本以后支持CD...

5005
来自专栏Hadoop实操

如何编译及使用hive-testbench生成Hive基准测试数据

前面Fayson介绍了《如何编译及使用TPC-DS生成测试数据》,在本篇文章Fayson主要介绍GitHub上的一个开源的项目hive-testbench,该项...

94310
来自专栏挖掘大数据

Hadoop3.0分布式集群安装知识

问题导读 1.本文是如何定义master的? 2.如何配置hadoop守护进程环境? 3.配置Hadoop守护进程需要哪些配置文件? 4.yarn-site配...

6295
来自专栏Hadoop实操

如何在CDH5.14中安装CDSW1.3

3222
来自专栏北京马哥教育

CentOS 6.5上搭建Hadoop环境详解

本文详细记录在开发服务器CentOS 6.5上搭建Hadoop的详细过程。 ssh连接免密码配置 由于配置过程中需要频繁的进行ssh连接到开发服务器执行命令以及...

3465
来自专栏Hadoop实操

Impala动态资源池及放置规则使用

Fayson在前面的文章介绍了《如何启用Impala的动态资源池》。管理员可以通过Impala的动态资源池、放置规则及ACL控制不同的用户对Impala资源使用...

4644
来自专栏Hadoop实操

如何迁移CDH的opt目录

部分企业对OS的目录空间划分有严格的要求(如:/、/opt、/var等目录),CDH安装的安装目录默认是在/opt下,随着版本的升级和新组件的安装占用了大量的/...

1744
来自专栏about云

Hadoop HTTP web-consoles认证机制

问题导读 1.如何配置 Hadoop HTTP web-consoles 所需要的用户身份验证? 2.哪个配置文件可以配置 Hadoop HTTP认证? 3....

3496
来自专栏IT技术精选文摘

Hadoop完全分布式搭建

6702

扫码关注云+社区

领取腾讯云代金券