首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

0661-6.2.0-Hadoop数据备份与恢复

在Hadoop集群中,数据文件是以Block的方式存储在HDFS上,而HDFS上数据的名称,副本存储的地址等都是通过NameNode上的元数据来保存的。Hive的数据库和表的数据也是保存在HDFS中,而Hive的元数据metastore则保存在关系型数据库中。这些文件和数据如果丢失或者损坏,都会导致相应的服务不可用,Hadoop集群可以启用某些组件和服务的高可用或者备份,来应对可能出现数据损坏问题。但是在集群需要迁移,集群需要扩容或者缩容,或者其他情况,集群可能会面对数据安全风险的时候,我们可以通过主动备份这些数据,来保证数据安全。本文主要讲述如何备份NameNode元数据,如何备份MariaDB元数据库,如何备份HDFS中的数据,以及如何从这些备份中恢复。

05

对比cp和scp命令 将数据从一台linux服务器复制到另一台linux服务器

cp命令用来将一个或多个源文件或者目录复制到指定的目的文件或目录。它可以将单个源文件复制成一个指定文件名的具体的文件或一个已经存在的目录下。cp命令还支持同时复制多个文件,当一次复制多个文件时,目标文件参数必须是一个已经存在的目录,否则将出现错误。 -a:此参数的效果和同时指定"-dpR"参数相同; -d:当复制符号连接时,把目标文件或目录也建立为符号连接,并指向与源文件或目录连接的原始文件或目录; -f:强行复制文件或目录,不论目标文件或目录是否已存在; -i:覆盖既有文件之前先询问用户; -l:对源文件

05

怎么做 HDFS 的原地平滑缩容?

当数据规模越来越大,存储成本也水涨船高。随着时间推移,数据热度分布往往呈 2⁄8 原则,即 80% 的访问集中在 20% 的数据上。对于那不经常访问的 80% 数据来说,使用多个 SSD 来存储真是巨大的浪费,需要将冷数据迁移到其他存储成本更低的系统里。这时 JuiceFS 成了理想之选,成本下降 20 倍,同时又提供跟 HDFS 一样高性能的元数据能力(避免Metastore 遍历元数据时雪崩),大量扫描冷数据时也有很高的吞吐量。如果 80% 的数据转移到 JuiceFS 上来,整体成本可节省 90%。如果再给 JuiceFS 提供 适当的空间做缓存,还可以完整替换 HDFS (20% 的热数据通过 JuiceFS 管理的缓存盘来服务,也可以有极高的性能)。

01
领券