腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

北亚数据恢复中心

主要从事服务器数据恢复、磁盘阵列数据恢复，虚拟化数据恢复，数据库数据恢复、小型机等。

专栏作者

43

文章

68770

阅读量

14

订阅数

存储瘫痪抢救Oracle数据库案例

oracle 存储检测工具 unix node.js

本次分享的案例是关于HP FC MSA2000存储瘫痪抢救Oracle数据库的案例，故障存储整个存储空间由8块硬盘组成，其中7块硬盘组成一个RAID5的阵列，剩余1块做成热备盘使用。由于RAID5阵列中出现2块硬盘损坏，而此时只有一块热备盘成功激活，因此导致RAID5阵列瘫痪，上层LUN无法正常使用。由于存储是因为RAID阵列中某些磁盘掉线，从而导致整个存储不可用。因此接收到磁盘以后先对所有磁盘做物理检测，检测完后发现没有物理故障。排除物理故障后对数据全部备份后在进行进一步的分析。【故障分析】 1、分析故障原因由于前两个步骤并没有检测到磁盘有物理故障或者是坏道，由此推断可能是由于某些磁盘读写不稳定导致故障发生。因为HP MSA2000控制器检查磁盘的策略很严格，一旦某些磁盘性能不稳定，HP MSA2000控制器就认为是坏盘，就将认为是坏盘的磁盘踢出RAID组。而一旦RAID组中掉线的盘到达到RAID级别允许掉盘的极限，那么这个RAID组将变的不可用，上层基于RAID组的LUN也将变的不可用。目前初步了解的情况为基于RAID组的LUN有6个，均分配给HP-Unix小机使用，上层做的LVM逻辑卷，重要数据为Oracle数据库及OA服务端。 2、分析RAID组结构 HP MSA2000存储的LUN都是基于RAID组的，因此需要先分析底层RAID组的信息，然后根据分析的信息重构原始的RAID组。分析每一块数据盘，发现4号盘的数据同其它数据盘不太一样，初步认为可能是hot Spare盘。接着分析其他数据盘，分析Oracle数据库页在每个磁盘中分布的情况，并根据数据分布的情况得出RAID组的条带大小，磁盘顺序及数据走向等RAID组的重要信息。 3、分析RAID组掉线盘根据上述分析的RAID信息，尝试通过北亚RAID虚拟程序将原始的RAID组虚拟出来。但由于整个RAID组中一共掉线两块盘，因此需要分析这两块硬盘掉线的顺序。仔细分析每一块硬盘中的数据，发现有一块硬盘在同一个条带上的数据和其他硬盘明显不一样，因此初步判断此硬盘可能是最先掉线的，通过北亚RAID校验程序对这个条带做校验，发现除掉刚才分析的那块硬盘得出的数据是最好的，因此可以明确最先掉线的硬盘了。 4、分析RAID组中的LUN信息由于LUN是基于RAID组的，因此需要根据上述分析的信息将RAID组最新的状态虚拟出来。然后分析LUN在RAID组中的分配情况，以及LUN分配的数据块MAP。由于底层有6个LUN，因此只需要将每一个LUN的数据块分布MAP提取出来。然后针对这些信息编写相应的程序，对所有LUN的数据MAP做解析，然后根据数据MAP并导出所有LUN的数据。【数据恢复过程】 1、解析修复LVM逻辑卷分析生成出来的所有LUN，发现所有LUN中均包含HP-Unix的LVM逻辑卷信息。尝试解析每个LUN中的LVM信息，发现其中一共有三套LVM，其中45G的LVM中划分了一个LV，里面存放OA服务器端的数据，190G的LVM中划分了一个LV，里面存放临时备份数据。剩余4个LUN组成一个2.1T左右的LVM，也只划分了一个LV，里面存放Oracle数据库文件。编写解释LVM的程序，尝试将每套LVM中的LV卷都解释出来，但发现解释程序出错。仔细分析程序报错的原因，安排开发工程师debug程序出错的位置，并同时安排高级文件系统工程师对恢复的LUN做检测，检测LVM信息是否会因存储瘫痪导致LMV逻辑卷的信息损坏。经过仔细检测，发现确实因为存储瘫痪导致LVM信息损坏。尝试人工对损坏的区域进行修复，并同步修改程序，重新解析LVM逻辑卷。 2、解析VXFS文件系统搭建环境，将解释出来的LV卷映射到搭建好的环境中，并尝试Mount文件系统。结果Mount文件系统出错，尝试使用“fsck –F vxfs” 命令修复vxfs文件系统，但修复结果还是不能挂载，怀疑底层vxfs文件系统的部分元数据可能破坏，需要进行手工修复。 3、修复VXFS文件系统仔细分析解析出来的LV，并根据VXFS文件系统的底层结构校验此文件系统是否完整。分析发现底层VXFS文件系统果然有问题，原来当时存储瘫痪的同时此文件在系统正在执行IO操作，因此导致部分文件系统元文件没有更新以及损坏。人工对这些损坏的元文件进行手工修复，保证VXFS文件系统能够正常解析。再次将修复好的LV卷挂载到HP-Unix小机上，尝试Mount文件系统，文件系统没有报错，成功挂载。 4、检测Oracle数据库文件并启动数据库在HP-Unix机器上mount文件系统后，将所有用户数据均备份至指定磁盘空间。所有用户数据大小在1TB左右。使用Oracle数据库文件检测工具“dbv”检测每个数据库文件是否完整，发现并没有错误。再使用北亚Oracle数据库检测工具，发现有部分数据库文件和日志文件校验不一致，安排北亚工程师对此类文件进行修复

北亚数据安全与救援

2021-11-15

6820

SQL server数据库恢复案例分析

数据库 sql sql server 存储

本次故障环境为4台服务器，每台服务器12块盘分为2组raid,共8组raid。经客户描述共4个节点，其中一个节点故障之后仍在继续使用，第二个节故障之后，进行过一系列的重新上线操作，导致管理存储软件无法使用。为防止在数据恢复过程中由于部分操作对原始磁盘造成不可还原的修改,导致数据出现二次丢失，对原始磁盘进行镜像备份。北亚工程师进行详细分析，获取到5台节点服务器上的所有硬盘的底层镜像。经过分析，发现底层部分索引位图被破坏。对全部镜像文件进行分析，根据底层数据重组raid，并提取每组raid中的map，对数据map进行分析，根据位图手工索引数据，排除部分损坏位图。客户主要数据为SQL server数据库，经初步检测，索引位图有部分损坏，因此若提取数据卷后数据有损坏，可针对数据库进行修复。【数据恢复过程】 1.重组RAID 工程师对RAID条带大小、盘序、校验方向的关键信息分析后，判断成员盘离线顺序。分别对十组RAID进行重组，并生成RAID镜像文件。

北亚数据安全与救援

2021-11-08

7450

NTFS文件系统下误操作恢复数据案例

NTFS文件系统下的服务器设备由于误操作导致阵列中的分区被格式化时怎么进行逆向操作恢复服务器数据。

北亚数据安全与救援

2021-11-03

6180

存储崩溃MySQL数据库恢复案例

数据库 sql 云数据库 SQL Server 存储

RAID5磁盘阵列，由于未知的原因导致存储忽然崩溃无法启动，RAID5阵列中的虚拟机全部丢失，其中3台虚拟机为重要数据，需要主要针对该3台虚拟机进行数据恢复。

北亚数据安全与救援

2021-10-22

4.6K0

DELL EQ存储恢复虚拟机文件恢复案例

本次分享的是关于一台DELL EqualLogic PS 6011的存储恢复虚拟机文件的恢复案例，其底层是16块硬盘组成的RAID5，这组崩溃RAID5划分的VMFS文件系统，其中存放的是虚拟机文件，在存储系统的上层一共分了4个卷，其中3个卷大小为1.5TB，1个卷大小为1TB。后因磁盘故障而导致存储不可用。

北亚数据安全与救援

2021-10-18

1.4K0

RAID6存储断电数据恢复案例

存储 windows 数据库 sql

本次分享的案例是由于机房突然断电导致整个存储瘫痪，加电后存储依然无法使用。经过用户方工程师诊断后认为是断电导致存储阵列损坏。整个存储是由12块盘组成的RAID-6磁盘阵列，被分成一个卷，分配给几台Vmware的ESXI主机做共享存储。整个卷中存放了大量的Windows虚拟机，虚拟机基本都是模板创建的，系统盘都为统一大小，数据盘大小不确定，并且数据盘都是精简模式。

北亚数据安全与救援

2021-09-27

7660

Linux系统损坏数据恢复分享

node.js linux 存储

服务器4块SAS硬盘组成的RAID5作为存储介质，文件系统全都是reiserfs。在使用的过程中，系统遭遇了未知的原因而瘫痪，经过系统的冲撞以后发现整个RAID逻辑卷变成了前面2G的boot与swap分区，后接271G的LVM卷，LVM卷中文件系统位置有个空的reiserfs超级块。

北亚数据安全与救援

2021-08-27

3.1K0

NetAapp 数据恢复过程

存储腾讯云测试服务

今天小编为大家分享一下NETAPP数据删除数据恢复的过程，故障设备为NETAPP3210存储，做的RAID，由于机房管理员误删除，导致重要数据丢失，联系到北亚技术团队，由于数据紧急，北亚工程师加班加点处理，下面看看北亚工程师是如何对此次故障情况进行操作的吧......

北亚数据安全与救援

2021-08-06

1.4K0

关于磁盘阵列恢复您了解多少呢？

存储数据库 sql

今天小编为大家分享的关于磁盘阵列恢复的案例，本次故障的设备是HP LH6000，其中一块硬盘红灯闪亮，机器还在正常运行，但没有多久，系统就不能正常运行，这时才发现另一块硬盘的红灯也在闪亮。

北亚数据安全与救援

2021-07-08

1.2K0

MYSQL数据库恢复案例分享

数据库 sql 云数据库 SQL Server 存储

本次分享的案例是关于存储的数据恢复，存储上RAID崩溃导致存储无法启动。存储内部共有6台以上虚拟机，其中LINUX虚拟机3台为客户重要数据。工程师初步分析得出存储结构为所有物理磁盘均在一个存储池内，再由存储池分出几个LUN，LUN1是vmfs卷，三台LINUX虚拟机也是在这个里面。 1、重组RAID 重组过程中发现本RAID5缺失2块盘（第一掉线盘掉线后热备盘顶替，之后又掉线一块盘使得RAID5处于降级状态。最后在掉线第三块盘时盘片划伤RAID崩溃），无法通过校验直接获取丢失盘的数据，所以只能使用磁盘同等大小的全0镜像进行重组（此方法只可用于紧急情况，因为依赖空镜像组成的RAID文件系统结构会被严重破坏，相当于每个条带都会缺失两个块的数据）。 2、提取LUN 分析存储结构，获取存储划分的MAP块。在找到MAP块之后解析得到各个LUN的数据块指针，编写数据提取程序提取LUN碎片。提取完成后进行碎片拼接，组成完整LUN。导出LUN内所有虚拟机，尝试启动。导出虚拟机后尝试启动，同预想相同，操作系统被破坏虚拟机无法启动。 3、提取虚拟机内文件在虚拟机无法启动的情况下只能退而求其次，提取虚拟机内文件。在取出文件后进行测试，发现大多数文件都被破坏，只有少部分小文件可以打开。在与客户沟通后得知虚拟机内有MYSQL数据库，因为数据库底层存储的特殊性，可以通过扫描数据页进行数据提取。在找到此虚拟机后发现虚拟机启用快照，父盘和快照文件都被损坏的情况下常规合并操作无法完成，使用北亚自主研发VMFS快照合并程序进行快照合并。 4、获取MYSQL数据页并分析根据MYSQL数据页特征进行数据页扫描并导出（innodb引擎可以使用此方案，myisam因为没有“数据页”概念所以不可用），分析系统表获取各用户表信息，根据各个表的ID进行数据页分割。 5、提取表结构因为数据库使用时间已久，表结构也曾多次变更，加上系统表在存储损坏后也有部分数据丢失，记录提取过程遇到很大阻力。首先获取最初版本数据库各个表的表结构：合并快照前的父盘因为写入较早，使用第一块掉线盘进行校验获取到这个文件的完整数据，然后提取出其中数据库各个表的表结构，之后客户方提供了最新版的数据库建表脚本。提取记录：分别使用两组不同表结构对数据记录进行提取并导入恢复环境中的MYSQL数据库内，然后剔除各个表中因为表结构变更造成的乱码数据，最后将两组数据分别导出为.sql文件。 6、数据恢复结果因为两个版本的数据库表结构不同，所以联系了客户方的应用工程师进行调试。调试完成后导入平台，经验证，数据可用本次数据恢复成功。

北亚数据安全与救援

2021-06-29

3.2K0

EMC CX4-480存储成功恢复案例分享

本次北京北亚数据恢复小编分享的数据恢复的案例是关于EMC CX4-480型号存储，该存储内共20块硬组成RAID5磁盘阵列；两个45T的LUN。

北亚数据安全与救援

2021-06-28

9460

服务器RAID6恢复原理案例

云数据库 SQL Server 存储数据库 sql

RAID的概念描述在互联网上比比皆是，用最简单的原理描述，就是在定义存储方式时允许在一部分数据缺失的情况下不影响全部数据，类似于通讯领域的纠错码。不同的冗余模式形成了不同的RAID类别，主要有RAID01、RAID10、RAID2、RAID3、RAID4、RAID5、RAID6等等。今天小编为大家分享的就是关于RAID6的案例。

北亚数据安全与救援

2021-06-21

7670

NTFS文件系统误操作恢复服务器数据恢复方法

本次北亚小编就给大家分享的是关于NTFS文件系统下的服务器设备由于误操作导致阵列中的分区被格式化时怎么进行逆向操作恢复服务器数据的方法。

北亚数据安全与救援

2021-06-09

1.3K0

存储硬盘离线VXFS文件系统恢复教程

oracle 数据库 sql unix 存储

图片1.png 服务器数据恢复故障描述客户的服务器共有8块450GB SAS硬盘，其中7块硬盘组成一个RAID5阵列，1块热备盘。阵列中2块硬盘损坏并离线，导致RAID5阵列瘫痪，进而影响上层LUN无法正常使用。经工程师检测硬盘无物理故障，无坏道，随后北亚工程师将所有磁盘镜像成文件。数据恢复过程一、RAID组结构及掉线盘分析服务器的LUN都是基于RAID组的，所以需要先对底层RAID组的信息作出分析，再依据这些数据重构原始的RAID组。通过分析得知4号盘为hot Spare盘。继续分析Oracl

北亚数据安全与救援

2021-05-27

2.6K0

上海某公司RAID5阵列恢复案例教程

数据库 sql 云数据库 SQL Server 存储

某公司使用的存储，采用RAID5磁盘阵列，由于未知的原因导致存储忽然崩溃无法启动，RAID5阵列中的虚拟机全部丢失，其中3台虚拟机为重要数据，需要主要针对该3台虚拟机进行数据恢复。

北亚数据安全与救援

2021-05-25

1K0

某电视台HP服务器RAID5重建数据恢复案例

本次分享的案例为一台HP 服务器，挂接一台HP MSA50磁盘阵列，内接5块1TB硬盘，原先结构为RAID5。在使用一段时间后，其中一块硬盘掉线，因RAID5支持一块硬盘出错的冗余保护，所以数据并无出错。接着运行很短时间后服务器出现故障，遂找人维修，维修人员未完全了解情况，将剩下的4块硬盘重新创建了一组全新的RAID5并完全同步完成，导致原来数据全部丢失。

北亚数据安全与救援

2021-05-13

1.5K0

HP存储RAID5硬盘离线LVM下VXFS文件系统恢复教程分享

oracle 存储 unix 检测工具数据库

在HP存储RAID5硬盘离线LVM下VXFS文件系统是如何进行恢复的呢？HP存储也是在企业中常用的存储设备了，本次分享的故障设备为：HP FC MSA2000存储，由于RAID5阵列中出现2块硬盘损坏并离线，而此时只有一块热备盘成功激活，因此导致RAID5阵列瘫痪，上层LUN无法正常使用，整个存储空间由8块450GB SAS的硬盘组成，其中7块硬盘组成一个RAID5的阵列，剩余1块做成热备盘使用。

北亚数据安全与救援

2021-05-07

7710

虚拟机虚拟磁盘恢复案例教程

存储 unix linux 数据库

本次小编分享的是存储突然断电之后，ESXi系统连不上存储，在FreeNAS中发现UFS2文件系统出现问题，随后用fsck 修复好了文件系统。此时ESXi 系统可以连上存储，但发现ESXi系统未能识别到原来的数据存储和VMFS文件系统，格式化VMFS后发现里面什么也没有，当遇到这种情况如何操作才能最大程度的挽救数据呢？

北亚数据安全与救援

2021-04-26

1.9K0

服务器常见问题及服务器RAID信息丢失案例分享

1. 定期检修、维护。服务器硬件的性能受使用寿命的影响，定期对设备进行检修和维护可以及时发现可能出现故障的各类情况。例如硬盘读写缓慢、异响、阵列中硬盘掉线等都是即将出现故障的前兆。

北亚数据安全与救援

2021-04-20

1.4K0

在AIX下误操作删除LV后如何最大程度挽救数据？

流计算 Oceanus windows node.js 存储

今天北亚小编为大家分享一篇《在AIX下误操作删除LV后如何最大程度挽救数据？》首先大家要知道到底是LV？PV相当于物理磁盘(对于存储，是存储映射过来的卷，对于操作系统而言，等同于物理硬盘)，若干个PV组成一个VG，意味着可以将容量不同的存储空间合起来统一分配。为了实现这个目的，AIX把同一个VG的所有PV按相同大小的存储颗粒进行空间编排，这个存储颗粒就是PP。而分配空间时，以若干个PP(可能是不同PV上的)，做为使用集合，这个集合就是LV。

北亚数据安全与救援

2021-04-13

1.3K0

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态