专栏首页数据恢复案例服务器崩溃导致数据库损坏的修复方法
原创

服务器崩溃导致数据库损坏的修复方法

故障服务器上一共16块FC硬盘,单盘容量600G。存储前面板10号和13号硬盘亮黄灯,存储映射到redhat上的卷挂载不上,服务器业务崩溃。

服务器数据恢复流程

通过IBM storage manager/frombyte.com连接到服务器上查看当前存储状态,服务器报告逻辑卷状态失败,再查看物理磁盘状态,发现6号盘报告“警告”,10号和13号盘报告“失败”,通过IBM storage manager将当前存储的完整日志状态备份下来,解析备份出来的存储日志获得了关于逻辑卷结构的部分信息。

服务器数据恢复工程师将16块FC盘粘贴标签,按照原始槽位号登记后从存储中移除,使用数据恢复的FC盘镜像设备“DELL R510+SUN3510”对16块FC盘进行粗略测试,结果发现16块盘均能正常识别,分别检测16块盘的SMART状态,结果6号盘的SMART状态为“警告”状态和在IBM storage manager中报告一致。

服务器数据恢复工程师在windows环境下首先将设备识别出来的FC盘在磁盘管理器中标记为脱机状态,从而为原始磁盘提供了一个写保护功能,然后使用winhex软件对原始磁盘进行扇区级别镜像操作,将原始磁盘中的所有物理扇区镜像到windows系统下的逻辑磁盘并以文件形式保存。在镜像过程中发现6号磁盘的镜像速度很慢,结合先前对硬盘SMART状态检测时发现的问题综合判断,6号盘应该存在大量损坏以及不稳定扇区,导致在windows下的一般应用软件无法对其进行操作。

使用专业坏道硬盘镜像设备对6号硬盘进行坏道镜像操作,在镜像过程中同时观察镜像的速度和稳定性,发现6号盘的坏道并不多,但是存在大量的读取响应时间长等不稳定扇区,于是调整6号盘的拷贝策略,将遇到坏道跳过扇区数和响应等待时间等参数均作一些修改。继续对6号盘进行镜像操作。同时观察剩余盘在windows环境下使用winhex镜像的情况。

经过镜像操作后,在windows平台下使用winhex镜像的磁盘已经全部镜像完成,查看winhex生成的日志,发现在IBM storage manager/frombyte.com和硬盘SMART状态中均没有报错的1号盘也存在坏道,10号和13号盘均存在大量不规律的坏道分布,根据坏道列表使用winhex定位到目标镜像文件分析发现,ext3文件系统的一些关键源数据信息有的已经被坏道所破坏,只能等待6号盘镜像完毕后,通过同一条带进行xor以及根据文件系统上下文关系的方式手动修复被损坏的文件系统。

坏道镜像设备报告6号盘镜像完成,但是先前为了最大限度做出有效扇区以及为了保护磁头设置的拷贝策略会自动跳过一些不稳定扇区,所以现在的镜像是不完整的,于是调整拷贝策略,继续镜像被跳过的扇区,6号盘所有扇区全部镜像完毕。

得到了所有硬盘的物理扇区镜像,在windows平台下使用winhex将所有镜像文件全部展开,根据我们对ext3文件系统的逆向以及日志文件的分析,得到了16块FC盘在存储中的盘序,RAID的块大小,RAID的校验走向和方式等信息,于是尝试通过软件的方式虚拟重组RAID,RAID搭建完成后进一步解析ext3文件系统,通过和用户沟通提取出了一些oracle的dmp文件,用户尝试进行恢复。

在dmp恢复的过程中,oracle报告为imp-0008错误,联系北亚的oracle工程师,通过仔细分析导入dmp文件的日志文件,发现恢复的dmp文件存在问题而导致dmp导入数据失败。立刻重新分析raid结构,以及进一步确定ext3文件系统被破坏的程度,又经过数小时的工作,重新恢复dmp文件和dbf原始库文件,将恢复出来的dmp文件移交给用户进行数据导入测试,结果测试顺利没有发现问题,说明这次的数据恢复是成功的,接着对恢复出来的dbf原始库文件进行校验检测,所有文件均能通过测试。

数据库工程师到达现场,和用户沟通后决定使用恢复出来的dbf原始库文件进行操作,以确保能把数据恢复到最佳状态。

数据库恢复流程

1.拷贝数据库文件到原数据库服务器,路径为/home/oracle/tmp/syntong.作为备份。在根目录下创建了一个oradata文件夹,并把备份的整个syntong文件夹拷贝到oradata目录下。然后更改oradata文件夹及其所有文件的属组和权限。

2.备份原数据库环境,包括ORACLE_HOME下product文件夹下的相关文件。配置监听,使用原机中的splplus连接到数据库。尝试启动数据库到nomount状态。进行基本状态查询后,了解到环境和参数文件没有问题。 尝试启动数据库到mount状态,进行状态查询没有问题。启动数据库到open状态。出现报错:

ORA-01122: database file 1 failed verification check/frombyte.com

ORA-01110: data file 1: '/oradata/syntong/system01.dbf'

ORA-01207: file is more recent than control file - old control file

2.经过进一步的检测和分析,判断此故障为控制文件和数据文件信息不一致,这是一类因断电或突然关机等引起的常见故障。

3.对数据库文件进行逐个检测,检测到所有数据文件没有物理损毁。

4.在mount状态下,对控制文件进行备份,alter database backup controlfile to trace as ' /backup/controlfile';对备份的控制文件进行查看修改,取得其中的重建控制文件命令。把这些命令复制到一个新建脚本文件controlfile.sql中。

6.关闭数据库,删除/oradata/syntong/下的3个控制文件。 启动数据库到nomount状态,执行controlfile.sql 脚本。

SQL>startup nomount/frombyte.com

SQL>@controlfile.sql

7.重建控制文件完成后,直接启动数据库,报错,需要进一步处理。

SQL> alter database open;

alter database open/frombyte.com

*

ERROR at line 1:

ORA-01113: file 1 needs media recovery

ORA-01110: data file 1: '/free/oracle/oradata/orcl/system01.dbf'

然后执行恢复命令:

recover database using backup controlfile until cancel;

Recovery of Online Redo Log: Thread 1 Group 1 Seq 22 Reading mem 0

Mem# 0 errs 0: /free/oracle/oradata/orcl/redo01.log

做介质恢复,直到返回报告,恢复完成。

8.尝试open数据库。

SQL> alter database open resetlogs;

9.数据库启动成功。把原来temp表空间的数据文件加入到对应的temp表空间中。

10.对数据库进行各种常规检查,没有任何错误。

11.进行emp备份。全库备份完成,没有报错。将应用程序连接到数据库,进行应用层面的数据验证。

服务器数据恢复建议:

一旦服务器出现故障导致了数据丢失,首先应该将出现故障的服务器内所有运行正常的非热备盘进行镜像备份,将存在物理故障的硬盘进行保护,避免磕碰、进水等,如果与条件的可以进行简单处理并借助专业数据恢复工具将故障硬盘里的数据也进行镜像备份。得到镜像数据后需要对数据进行分析,找出原来阵列中的结构参数以便重建服务器阵列及逻辑校验,通过校验后即可成功导出服务器数据。

如果服务器由于未知原因出现崩溃、无法启动等数据丢失问题,切忌非专业人士在非洁净空间内对服务器内的硬盘进行拆卸、更换磁头等数据恢复操作,并且建议服务器管理员将故障硬盘进行妥善保管等待专业的数据恢复工程师进行处理。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • truncate table逆向操作?oracle误操作后恢复原数据

    概述:北京某国企客户 Oracle 11g R2 数据库误truncate table CM_CHECK_ITEM_HIS,表数据丢失,业务查询到该表时报错,此...

    北亚数据恢复中心
  • NetApp存储误删除lun解决方案

    NetApp FAS3220是NetApp推出的中端存储阵列,针对NAS和SAN环境构建,被定制为虚拟化、私有云或传统、早先的用途,适用于从几TB到超过2PB的...

    北亚数据恢复中心
  • VSAN存储结构解析+存储数据恢复案例

    今天给大家介绍一的是一款常见存储设备-Vsan的结构原理,相对而言技术性文字较多。VSAN是一种以vSphere内核作为基础开发出来的一款可以扩展使用的分布式存...

    北亚数据恢复中心
  • 推荐一个工具包自定义HTTP 404错误

    一个方便的工具Microsoft 的工具包--网页错误工具包,可以帮助您设计和实现自定义错误页。 网页错误工具包是点击到 IIS 的 ASP.NET 应用程...

    张善友
  • redis深入理解 原

    1.单机有多个数据库,互相隔离不共享,不支持为每个数据库设置不同的访问密码,集群没有数据库概念

    晓歌
  • Python中MySQLdb的conne

    MySQLdb模块是python连接mysql数据库的一个模块,在操作mysql数据库是经常使用,在连接数据库时connect是最常用的一种方法,这个方法有好多...

    py3study
  • 深度学习之主流数据库 | MySQL基础

    这篇文章主要是讲一下常见的MySQL的安装,和基本操作。适合完全没有MySQL知识但是又急需一些MySQL知识的童靴作为快速入门使用。 背景与安装 背景不用多说...

    用户1332428
  • 机器人顾问让投资趋向理性化

    ---- 他们不会给你讲述什么奇闻趣事,也不会带你一起去打高尔夫,甚至不能坐下来陪你喝一杯。可是,这些机器人顾问,这些自动化的机械却可以为你提供理财建议,管理...

    机器人网
  • Java面试必备技能

    又到了一年一度的面试高峰期,想当年这会,博主也是疯狂的投简历,可能是运气比较好,一面即过,哈哈哈哈,在这里,给大家总结一下,面试互联网公司必会的一些技能,这里只...

    互扯程序
  • 学界 | 现实版柯南「蝴蝶结变声器」:谷歌发布从声纹识别到多重声线语音合成的迁移学习

    音频按顺序分别为参考音频 1、以参考音频 1 的声线为输入的生成句子 1(Take a look at these pages for crooked cree...

    机器之心

扫码关注云+社区

领取腾讯云代金券