专栏首页北亚数据恢复中心RAID出故障如何做好应急处理
原创

RAID出故障如何做好应急处理

当RAID出现: 1、RAID控制台里描述超过允许范围内的盘数异常,如RAID0里一块以上盘异常;RAID5(无热备)里2块以上盘异常;异常表现为OFFLINE或DDD、BAD等;2、服务器存储系统报警(喇叭或警示灯);3、系统无法识别RAID 逻辑硬盘等问题时,现场工程师应该如何操作才能挽救数据呢?(此方案适用 IBM、HP、SUN、DELL、DFT、APPLE、联想、方正等品牌服务器;RAID0、RAID1、RAID2、RAID3、RAID4、RAID5、RAID6、HP ADG、RAID10、RAID50、RAID1E、RAID5E、RAID5EE等;NAS、DAS、SAN等。)

1、迅速将RAID离线(如果还在线的话),切断电源;

2、如果发现非工作状态,硬盘灯全忙,应迅速关掉电源,不可再次开启电源;

3、RAID控制界面里不可轻易REBULD或初始化;

4、不可将原本离线的硬盘强制上线(陈旧的或无关的);

5、保持上述状态,关机后将每块硬盘贴上次序标签;

6、不可轻易将每块盘接到XP以下操作系统(含XP);

7、寻求专业数据恢复公司帮助。

[北亚小贴士]

如果有足够的备用空间,可将源硬盘全部镜像。有两种方法(WINDOWS2003或DOS下,其他操作系统有风险):

1、可用相同或大于源盘容量的硬盘做为目标盘,将源盘全部扇区方式CLONE到目标盘。将所有盘做同样操作。

2、可将每块源盘完全以扇区方式输出文件到某大容量存储空间(如大容量硬盘、NAS、SAN、DAS等)。

本次要分享的故障情况为一台服务器RAID磁盘阵列由于多次意外断电导致RAID信息丢失了的数据恢复过程。磁盘阵列的硬件配置在这里也就不多赘述了,阵列中存储的数据是文档文件,Windows 2003 server操作系统,主机没有配置ups。系统意外断电时并未引起管理员的特别注意,重启后也并未影响阵列的正常使用,但后续又出现了多次异常断电的情况,最终导致了重启阵列后RAID报错,服务器无法找到存储设备。管理员尝试了很多次重启服务器但是问题并没有解决,RAID管理模块在进入时候会导致操作系统死机,只能尝试通过恢复RAID阵列的数据进行数据恢复了。

在数据恢复工作中经常遇到上述客户所出现的故障。一部分原因是由于管理员对磁盘阵列的应急机制准备不充足,未能及时检修设备状态等导致阵列可能出现故障时处理及时。另一部分原因是RAID阵列一旦创建完成后RAID信息理论上不会发生改变,但是意外断电等因素也极易导致RAID信息丢失。在本次案例中客户遇到的操作死机这个情况可能就是因为服务器多次断电导致了RAID卡硬件也出现了一定程度的损坏。现在客户阵列的数据已经无法通过正常途径进行提取,只能通过数据恢复手段进行解决。下面介绍我们进行数据恢复的过程:

1.数据备份的过程这里就不多赘述了,每次数据恢复前都要进行备份,然后对镜像文件进行操作。在镜像过程中观察客户的磁盘阵列中硬盘的物理状态是否正常,镜像后发现该阵列中的硬盘均为正常状态,无物理故障。

2.使用镜像得来的客户数据进行RAID结构分析,根据阵列的文件系统的存储规则分析得出客户这台磁盘阵列中的RAID数据块大小、RAID盘序以及RAID校验方式。使用分析得到的这些RAID信息虚拟重组RAID阵列。

3.重组完RAID磁盘阵列后需要对虚拟重建来的数据进行一次逻辑校验,校验的目的是为了在客户验证数据前做一次数据恢复结果的自检,及时发现数据恢复结果中存在的问题,确保无误后再由客户进行验证。在数据恢复工程师对阵列数据进行自检无误后由用户进行数据验证,验证后确定磁盘阵列中的数据已经恢复到故障前的状态,本次RAID阵列数据恢复成功。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 服务器常见问题及服务器RAID信息丢失案例分享

    1. 定期检修、维护。服务器硬件的性能受使用寿命的影响,定期对设备进行检修和维护可以及时发现可能出现故障的各类情况。例如硬盘读写缓慢、异响、阵列中硬盘掉线等都是...

    北亚数据安全与救援
  • 三年多啦,那么多IT人还没有搞定这个问题

    三年前的某天,逛存储论坛时,一个问题吸引了我的注意,有人问:RAID级别能在线转换吗?

    用户6543014
  • 存储RAID5硬盘离线恢复教程

    RAID5的空间利用率高、读出速度快、安全性高、不需要专门的校验码磁盘,而且解决了写入速度相对较慢的问题。尽管优点很多但还是会有出现故障的情况,当遇到RAID-...

    北亚数据安全与救援
  • 详解Raid级别和知识点

    RAID是(Redundent Array of Inexpensive Disks)的缩写,直译为"廉价冗余磁盘阵列",也简称为"磁盘阵列"。后来RAID中的...

    后场技术
  • HA(高可用)系统设计原则

    对于遵循高可靠性的系统设计原则的举措有: IT元素 基本上所有的IT元素(网络设备、主机、应用软件)都采用冗余设计; 核心数据库 核心数据库采用RA...

    汤高
  • RAID组LVM丢失恢复案例

    本次小编分享的案例为:两组分别由4块600G容量的SAS硬盘组成的RAID5阵列,并且两组阵列划分LUN,组成LVM结构,并格式化为EXT3文件系统。一块硬盘意...

    北亚数据安全与救援
  • “不要害怕 RAID!”-kafka磁盘必备

    我在互联网上经常看到这样的说法:RAID很危险,RAID磁盘阵列在重建过程中失败的可能性几乎是100%,因为硬盘驱动器已经变得非常大。

    Spark学习技巧
  • 【云计算奇妙学习之旅】第六期:各级别RAID详解

    在上一期的分享中,我们了解到企业级的存储是什么样子的,它由什么组成的。那么,本期分享我们该如何来使用存储,拿到一台新的存储设备,首先要什么呢?首先要做的是给存储...

    誉天小鹿
  • RAID技术

    RAID 的两个关键目标是提高数据可靠性和 I/O 性能。磁盘阵列中,数据分散在多个磁盘中,然而对于计算机系统来说,就像一个单独的磁盘。通过把相同数据同时写入到...

    木可大大

扫码关注云+社区

领取腾讯云代金券