开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

如何恢复hdfs删除的文件

HDFS（Hadoop Distributed File System）是Apache Hadoop生态系统中的一部分，用于存储和处理大规模数据集。当在HDFS上删除文件后，可以通过以下几种方式来恢复被删除的文件：

使用HDFS的回收站功能：HDFS提供了回收站功能，可以将删除的文件移动到回收站目录中，而不是永久删除。可以通过以下命令查看回收站中的文件：
使用HDFS的回收站功能：HDFS提供了回收站功能，可以将删除的文件移动到回收站目录中，而不是永久删除。可以通过以下命令查看回收站中的文件：
可以使用-ls命令查看回收站中的文件列表，然后使用-mv命令将文件移回原始位置：
可以使用-ls命令查看回收站中的文件列表，然后使用-mv命令将文件移回原始位置：
<username>是用户的名称，<filename>是被删除的文件名，<destination>是文件恢复的目标路径。
使用HDFS的快照功能：HDFS的快照功能可以在文件被删除后创建一个文件系统的快照，从而可以在需要时恢复被删除的文件。可以通过以下命令创建快照：
使用HDFS的快照功能：HDFS的快照功能可以在文件被删除后创建一个文件系统的快照，从而可以在需要时恢复被删除的文件。可以通过以下命令创建快照：
<snapshotName>是快照的名称，<directory>是要创建快照的目录。然后可以使用以下命令恢复被删除的文件：
<snapshotName>是快照的名称，<directory>是要创建快照的目录。然后可以使用以下命令恢复被删除的文件：
<snapshotName>是快照的名称，<filename>是被删除的文件名，<destination>是文件恢复的目标路径。
使用HDFS的数据恢复工具：如果以上方法无法恢复被删除的文件，可以尝试使用HDFS的数据恢复工具，如Hadoop的fsck命令。该命令可以扫描HDFS文件系统并尝试恢复丢失的文件。使用以下命令运行fsck工具：
使用HDFS的数据恢复工具：如果以上方法无法恢复被删除的文件，可以尝试使用HDFS的数据恢复工具，如Hadoop的fsck命令。该命令可以扫描HDFS文件系统并尝试恢复丢失的文件。使用以下命令运行fsck工具：
这将扫描整个HDFS文件系统并尝试恢复丢失的文件。

需要注意的是，以上方法仅适用于HDFS文件系统中被删除但尚未被覆盖的文件。如果文件已被覆盖或者删除后已经过了一段时间，可能无法完全恢复文件内容。

腾讯云提供了一系列与Hadoop和HDFS相关的产品和服务，例如Tencent Hadoop、Tencent Cloud Object Storage（COS）等。您可以通过访问腾讯云官方网站（https://cloud.tencent.com/）了解更多关于这些产品的详细信息和使用指南。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

如何有效恢复误删的HDFS文件

HDFS是大数据领域比较知名的分布式存储系统，作为大数据相关从业人员，每天处理HDFS上的文件数据是常规操作。这就容易带来一个问题，实际操作中对重要数据文件的误删，那么如何恢复这些文件，就显得尤为重要。

01

0661-6.2.0-Hadoop数据备份与恢复

在Hadoop集群中，数据文件是以Block的方式存储在HDFS上，而HDFS上数据的名称，副本存储的地址等都是通过NameNode上的元数据来保存的。Hive的数据库和表的数据也是保存在HDFS中，而Hive的元数据metastore则保存在关系型数据库中。这些文件和数据如果丢失或者损坏，都会导致相应的服务不可用，Hadoop集群可以启用某些组件和服务的高可用或者备份，来应对可能出现数据损坏问题。但是在集群需要迁移，集群需要扩容或者缩容，或者其他情况，集群可能会面对数据安全风险的时候，我们可以通过主动备份这些数据，来保证数据安全。本文主要讲述如何备份NameNode元数据，如何备份MariaDB元数据库，如何备份HDFS中的数据，以及如何从这些备份中恢复。

05

如何恢复hadoop中被删除的文件

hadoop的hdfs中被删除文件的恢复原理和回收站原理是一样的，就是在删除hdfs文件时，被删除的文件被移动到了hdfs的.Trash文件夹中，恢复时只需将该文件夹中文件拿出即可。具体操作如下： 1 设置.Trash文件夹如果需要恢复hdfs中文件，就需要设置.Trash，hadoop的.Trash默认是关闭的。具体设置如下： <property> <name>fs.trash.interval</name> <value>10080</

08

2021年大数据Hadoop（十三）：HDFS意想不到的其他功能

在我们实际工作当中，极有可能会遇到将测试集群的数据拷贝到生产环境集群，或者将生产环境集群的数据拷贝到测试集群，那么就需要我们在多个集群之间进行数据的远程拷贝，hadoop自带也有命令可以帮我们实现这个功能。

02

《快学BigData》--Hadoop总结（E）（38）

Hadoop总结 - - - - - - - - - - - - - - - - - - - - - - - - - - - - 210

02

白话Elasticsearch72_利用HDFS备份与恢复ES生产集群的数据

本篇博文不会涉及非常详细的操作步骤截图，仅把备份与恢复的关键步骤记录，等后续有真正的使用场景的时候，再来实操。

02

【Hadoop】如何做到Hadoop集群删库不跑路……

扯个犊子先，我司进行集群迁移，没有用的测试机器要进行格式化卖掉了，然后突然一条伟大的命令，误删除了正在使用的hadoop集群所有节点的操作系统盘，数据盘保留，灾难就此来了。

01

深刻理解HDFS工作原理

概述 HDFS（Hadoop Distributed File System ）Hadoop分布式文件系统的简称。HDFS被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。DFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束，来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop

独家 | 一文读懂Hadoop（二）HDFS（下）

5.1 用户命令 hadoop集群用户的常用命令。 5.1.1 classpath 打印获取Hadoop jar和所需库所需的类路径。如果无参数调用，则打印由命令脚本设置的类路径，可以在类路径条目中包含通配符。其他选项在通配符扩展后打印类路径或将类路径写入jar文件的清单。后者在不能使用通配符且扩展的类路径超过支持的最大命令行长度的环境中非常有用。 5.1.2 dfs HDFS允许以文件和目录的形式组织用户数据。它提供了一个称为FS shell的命令行界面，允许用户与HDFS中的数据交互。此命令集的语法类似

06

0494-如何恢复HDFS中节点正常解除授权丢失的数据

在Hadoop集群中提供有主机解除授权和将节点移除集群的操作，正常情况下节点的解除授权不会导致blocks丢失的情况，但是在某些特殊场景中还是会出现小量blocks的丢失，本篇文章主要介绍如何恢复HDFS中节点正常解除授权的丢失数据如何恢复和正常解除授权时可能造成blocks 丢失的原因以及如何规避这些风险

05

Hadoop Raid-实战经验总结

分布式文件系统用于解决海量数据存储的问题，腾讯大数据采用HDFS（Hadoop分布式文件系统）作为数据存储的基础设施，并在其上构建如Hive、HBase、Spark等计算服务。 HDFS块存储采用三副本策略来保证数据可靠性，随着数据量的不断增长，三副本策略为可靠性牺牲的存储空间也越来越大。如何在不降低数据可靠性的基础上，进一步降低存储空间成本，成为腾讯大数据迫切需要解决的问题。我们对facebook版本的hadoop raid分析发现，还有很多细节需要优化改进，本文就hadoop raid存在的问题进行探

HDFS工作机制和原理

HDFS是一种分部式的文件系统，在他出现以前就已经存在了很多中分布式文件系统，但是他们都是部署在服务器上，需要高的POSIX接口，同时他们默认服务器是稳定的可以提供大量资源。

01

大数据开发：HDFS的故障恢复和高可用

作为分布式文件系统的HDFS，在Hadoop技术生态当中，始终是不容忽视的。HDFS的稳定性和可靠性，对于后续的数据处理环节，提供底层支持，起着至关重要的作用。今天的大数据培训分享，我们就主要来讲讲HDFS的故障恢复和高可用。

04

Hadoop 之 HDFS

“ Hadoop 可以看成是 HDFS + MapReduce + Yarn组成，其中HDFS作为分布式文件系统被用到了很多其他系统，本文将简要介绍HDFS的概念和架构”

03

如何备份ElasticSearch索引数据到HDFS上

在ElasticSearch里面备份策略已经比较成熟了目前在ES5.x中备份支持的存储方式有如下几种：在这里我们主要介绍如何备份索引数据到HDFS上。首先，我们先从名词概念上理解下备份相关术语：

03

Hadoop HDFS分布式文件系统设计要点与架构

1、硬件错误是常态，而非异常情况，HDFS可能是有成百上千的server组成，任何一个组件都有可能一直失效，因此错误检测和快速、自动的恢复是HDFS的核心架构目标。 2、跑在HDFS上的应用与一般的应用不同，它们主要是以流式读为主，做批量处理；比之关注数据访问的低延迟问题，更关键的在于数据访问的高吞吐量。 3、HDFS以支持大数据集合为目标，一个存储在上面的典型文件大小一般都在千兆至T字节，一个单一HDFS实例应该能支撑数以千万计的文件。 4、 HDFS应用对文件要求的是write-one-read-many访问模型。一个文件经过创建、写，关闭之后就不需要改变。这一假设简化了数据一致性问题，使高吞吐量的数据访问成为可能。典型的如MapReduce框架，或者一个web crawler应用都很适合这个模型。 5、移动计算的代价比之移动数据的代价低。一个应用请求的计算，离它操作的数据越近就越高效，这在数据达到海量级别的时候更是如此。将计算移动到数据附近，比之将数据移动到应用所在显然更好，HDFS提供给应用这样的接口。 6、在异构的软硬件平台间的可移植性。

03

Hadoop数据分析平台实战——040HDFS介绍（熟悉基础概念跳过）离线数据分析平台实战——040HDFS&JAVA API（熟悉基础概念跳过）

离线数据分析平台实战——040HDFS&JAVA API（熟悉基础概念跳过） HDFS结构介绍 HDFS是Hadoop提供的基于分布式的文件存储系统。全称为Hadoop Distributed File System。主要由NameNode、DataNode两类节点构成。其中NameNode节点的主要功能是管理系统的元数据，负责管理文件系统的命令空间，记录文件数据块在DataNode节点上的位置和副本信息，协调客户端对文件系统的访问，以及记录命名空间的改动和本身属性的变动。 DataNode节

快速学习HDFS2.X新特性

（2）归档文件把/user/atguigu/input目录里面的所有文件归档成一个叫input.har的归档文件，并把归档后文件存储到/user/atguigu/output路径下。

01

0529-5.15.0-这次玩儿大了，找不回了

前两天客户问了一个问题，HDFS上删除的数据还能不能恢复？碰到这个问题第一反应“在执行命令的这个用户下垃圾回收站找到恢复不就的了？”，用户删除数据发现操作失误的时间并不长也没有超过垃圾回收站的清空时间，但是无论怎么找也找不到被删除的数据，这次真的玩儿大了。。。

02

数据中台实战(11)-数据中台的数据安全解决方案

2020年2月23日19点，国内最大精准营销服务商微盟出现大面积系统故障，旗下300万商户线上业务全停，商铺后台所有数据被清。始作俑者是一位运维，在生产环境数据库删库，而刚上市不久的微盟就因此遭受巨大的损失，2月23日宕机以来，市值蒸发30亿港元。最贵的安全事件。数据中台咋防止类似事件？

05

HDFS Fsimage和Edits解析

在Hadoop分布式文件系统（HDFS）中，元数据信息（包括文件名、目录结构、权限等）是由NameNode来管理和维护的。为了保证元数据的可靠性和一致性，HDFS使用了一些机制来备份和恢复元数据信息。其中，Fsimage和Edits是HDFS元数据备份和恢复的核心组件。

03

【大数据名词2】 HDFS

Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束，来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。

03

Hadoop Trash回收站使用指南

去回收站对应目录下观察一下，得出的结论是：无法创建目录employee，因为employee文件已经存在，自然导致employee_salary.txt文件不能放回收回站:

02

HDFS 原理、架构与特性介绍

本文主要讲述 HDFS原理-架构、副本机制、HDFS负载均衡、机架感知、健壮性、文件删除恢复机制 1：当前HDFS架构详尽分析 HDFS架构 •NameNode •DataNod

09

如何在CDH集群使用HDFS快照

HDFS中可以对目录创建Snapshot，创建之后不管后续目录发生什么变化，都可以通过快照找回原来的文件和目录结构，那么在CDH集群中如何使用HDFS的快照功能呢？本文章主要讲述如何在CDH中使用HDFS的快照功能，包括全量快照和增量快照和恢复。

09

0859-7.1.6-如何对Ranger审计日志进行调优

什么是Ranger Audit？Ranger 审计功能，审计功能模块可以帮助我们更好的管理集群组件，例如 HDFS、HBase、Hive 等数据资源的访问，更快的定位权限导致的应用问题。并且使用 Ranger 控制权限的同时也可以很好地监控、查询用户的历史操作，做到有证可查，有理可依。

03

使用 Replication Manager 迁移到CDP 私有云基础

这是CDH/HDP/Apache Hadoop迁移到CDP系列的第一篇博客，如对迁移感兴趣，请关注该系列博客。

01

HDFS集群安全模式

HDFS（Hadoop Distributed File System）是Apache Hadoop的核心组件之一，它是一个高可靠性、高可用性的分布式文件系统，适合存储大规模数据集。在HDFS中，NameNode节点是HDFS集群的管理节点，它负责管理文件系统的命名空间、元数据信息和数据块的位置信息等。

03

深入浅出HBase实战 | 青训营笔记

HDFS是一种开源的分布式文件系统，基于常见商用硬件构建海量大规模存储集群，提供极低的存储成本，极大的存储容量支持。 HDFS提供高可靠性的数据保障，通常采用三副本冗余存储数据到不同的机器来实现容灾备份能力。 HBase基于HDFS实现存储计算分离架构的分布式表格存储服务

01

hdfs报错 'There are 10 missing blocks...'

今天本要部署spark on yarn，因为要在hdfs创建一些共享文件，于是到hdfs web UI去看了一下，结果发现下面的错误，顺手处理一下。

02

Hadoop剖析之HDFS

Hadoop的分布式文件系统（HDFS）是Hadoop的很重要的一部分，本文先简单介绍HDFS的几个特点，然后再分析背后的原理，即怎样实现这种特点的。

01

初识HDFS原理及框架

HDFS（Hadoop Distributed File System）是Hadoop项目的核心子项目，首先它是一个文件系统，用于存储文件，通过目录树来定位文件位置；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。

01

独家 | 一文读懂Hadoop（二）HDFS（上）

随着全球经济的不断发展，大数据时代早已悄悄到来，而Hadoop又是大数据环境的基础，想入门大数据行业首先需要了解Hadoop的知识。2017年年初apache发行了Hadoop3.0，也意味着一直有一群人在对Hadoop不断的做优化，不仅如此，各个Hadoop的商业版本也有好多公司正在使用，这也印证了它的商业价值。读者可以通过阅读“一文读懂Hadoop”系列文章，对Hadoop技术有个全面的了解，它涵盖了Hadoop官网的所有知识点，并且通俗易懂，英文不好的读者完全可以通过阅读此篇文章了解Hado

Hadoop集群管理之SecondaryNameNode与NameNode

光从字面上来理解，很容易让一些初学者先入为主的认为：SecondaryNameNode（snn）就是NameNode（nn）的热备进程。其实不是。snn是HDFS架构中的一个组成部分，但是经常由于名字而被人误解它真正的用途，其实它真正的用途，是用来保存namenode中对HDFS metadata的信息的备份，并减少namenode重启的时间。对于Hadoop进程中，要配置好并正确的使用 snn，还是需要做一些工作的。hadoop的默认配置中让 snn进程默认运行在了 namenode 的那台机器上，但是这样的话，如果这台机器出错，宕机，对恢复HDFS文件系统是很大的灾难，更好的方式是：将snn的进程配置在另外一台机器上运行。

01

干货 | HDFS是怎么做文件管理和容错的？

在 HDFS 中，NameNode 作为整个集群的管理中心，保存着整个 HDFS 中的元数据信息，而真正保存数据的是 DataNode。那么， Hadoop HDFS 是如何管理这些文件的呢？本期内容就来为大家解答：

04

深入了解HBase架构

HBase架构组件从物理结构上讲，HBase由三种类型的服务器构成主从式架构。Region Servers为数据的读取和写入提供服务。当访问数据时，客户端直接和Region Servers通信。Region的分配，DDL (create, delete tables)操作有HBase Master进程处理。Zookeeper是HDFS的一部分，维护着一个活动的集群。 Hadoop DataNode 存储着Region Server所管理的数据。所有的HBase数据存储在HDFS的文件中。Region S

02

全网最细致的 HBase 内核解析

最近在网上看到一篇很好的讲 HBase 架构的文章（原文：https://mapr.com/blog/in-depth-look-hbase-architecture/），简洁明了，图文并茂，所以这里将其翻译成中文分享。图片引用的是原文中的，技术性术语会尽量使用英文，在比较重要的段落后面都会加上我个人理解的点评。

04

二、分布式文件系统HDFS及其简单使用

在现代的企业环境中，单机容量往往无法存储大量数据，需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统。

02

深入理解HBase的原理及系统架构

物理上来说，HBase是由三种类型的服务器以主从模式构成的。这三种服务器分别是：Region server，HBase HMaster，ZooKeeper。

03

TDSQL分布式数据库的HDFS和LOCAL备份配置

产品介绍：TDSQL分布式数据库是腾讯公司结合自身支付、金融等核心业务需求，紧紧抓住了国外传统集中式数据库难以适应业务规模快速增长这一现实问题，从2009年开始研制新一代分布式数据库系统TDSQL。并通过持续的产品化完善，实现国产分布式数据库的市场通用化，助力金融政务等行业实现数据库安全可控，并持续降低IT成本，提升数字化运营效率，从而进一步推动普惠金融、数字政务等传统行业升级发展。

04

HDFS NN和2NN工作机制

HDFS是Apache Hadoop的分布式文件系统，由NameNode和DataNode组成。在HDFS中，NameNode是HDFS的主要组件之一，它负责维护文件系统的命名空间和访问控制信息。同时，NameNode也负责管理所有DataNode节点的元数据信息，包括文件和目录的层次结构，文件块的位置信息以及访问控制列表等。因此，NameNode是整个HDFS系统的中心控制器。

03

HDFS原理概念扫盲

hdfs文件系统主要设计为了存储大文件的文件系统；如果有个TB级别的文件，我们该怎么存储呢？分布式文件系统未出现的时候，一个文件只能存储在个服务器上，可想而知，单个服务器根本就存储不了这么大的文件；退而求其次，就算一个服务器可以存储这么大的文件，你如果想打开这个文件，效率会高吗

02

HBase简介

谈到Hadoop的起源，就不得不提Google的三驾马车：Google FS、MapReduce、BigTable。虽然Google没有公布这三个产品的源码，但是他发布了这三个产品的详细设计论文，奠定了风靡全球的大数据的基础！

02

0527-6.1-如果你不小心删了一个NameNode2

在启用了HDFS HA的集群，2个NameNode节点上一般都会部署三个角色：NameNode，JournalNode和Failover Controller。在实际生产中，我们有时会碰到一个情况，你不小心删掉了某个NameNode节点上的所有角色包括NameNode，JournalNode和Failover Controller，或者你不小心通过Cloudera Manager直接从主机管理列表里移除了该NameNode节点，然后你想再把这个节点加回去的时候，发现无论如何HDFS服务都没办法正常使用了。本文Fayson会在一个HDFS HA的CDH集群中模拟这种情况，然后尝试去解决，即先删除一个NameNode，然后这时HDFS会故障，我们来看看如何恢复故障。有兴趣的读者可以注意本文的处理方式与上篇文章《0526-6.1-如果你不小心删了一个NameNode1》的区别，上篇文章是比较健康的将删掉的NameNode再加回去，本文提供的是手动将HDFS HA回退，最后只会保留一个NameNode，也算另一种思路，万一你使用《0526-6.1-如果你不小心删了一个NameNode1》中的方法没办法恢复呢，是吧。

01

HDFS应用场景、原理、基本架构及使用方法

如果一个文件大小为10K，则1亿个文件大小仅为1TB(但要消耗掉NameNode 20GB内存)

02

Spark和Hadoop的区别和比较[通俗易懂]

Spark，是分布式计算平台，是一个用scala语言编写的计算框架，基于内存的快速、通用、可扩展的大数据分析引擎

02

6道经典大数据面试题（ChatGPT回答版）

HDFS（Hadoop Distributed File System）的读写流程如下：

06

HDFS——租约

HDFS客户端在写文件之前需要先获得租约，该租约充当文件的锁，以防止多个客户端对该文件的同时写入。

04

提高hadoop的可靠性(上)

提高hadoop可靠性已经有很多方法了，我尝试着收集整理了5种，通过修改Hadoop默认配置就可以极大的提升Hadoop的可靠性，本文先列举了前3种： (1)文件的删除和恢复为了避免误删文件，hadoop提供了回收站功能，配置文件如下 core-site.xml <property> <name>fs.trash.interval</name> <value>1440</value> </property> 和windows的回收站一样，HDFS会在用户目录下创建一个.Trash目录，删除

07

详解HDFS3.x新特性-纠删码

EC（纠删码）是一种编码技术，在HDFS之前，这种编码技术在廉价磁盘冗余阵列（RAID）中应用最广泛(RAID介绍：大数据预备知识-存储磁盘、磁盘冗余阵列RAID介绍)，RAID通过条带化技术实现EC，条带化技术就是一种自动将 I/O 的负载均衡到多个物理磁盘上的技术，原理就是将一块连续的数据分成很多小部分并把他们分别存储到不同磁盘上去，这就能使多个进程同时访问数据的多个不同部分而不会造成磁盘冲突（当多个进程同时访问一个磁盘时，可能会出现磁盘冲突），而且在需要对这种数据进行顺序访问的时候可以获得最大程度上的 I/O 并行能力，从而获得非常好的性能。在HDFS中，把连续的数据分成很多的小部分称为条带化单元，对于原始数据单元的每个条带单元，都会计算并存储一定数量的奇偶检验单元，计算的过程称为编码，可以通过基于剩余数据和奇偶校验单元的解码计算来恢复任何条带化单元上的错误。

00

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭