专栏首页北亚数据恢复中心服务器常见问题及服务器RAID信息丢失案例分享
原创

服务器常见问题及服务器RAID信息丢失案例分享

服务器常见故障有哪些?

硬件故障。比较常见的服务器硬件故障包括磁盘损坏、电池故障等。

软件问题。例如操作系统崩溃、未知的程序运行错误等。

病毒破坏。勒索病毒加密、删除服务数据等。

不可控力量。设备浸水、火烧、倒塌等导致的损坏和数据丢失。

误操作。人员操作失误导致的数据丢失,如格式化、删除、覆盖等。

如何减少或避免服务器故障?

1. 定期检修、维护。服务器硬件的性能受使用寿命的影响,定期对设备进行检修和维护可以及时发现可能出现故障的各类情况。例如硬盘读写缓慢、异响、阵列中硬盘掉线等都是即将出现故障的前兆。

2. 定制服务器应急计划。可定制一套应急计划,例如备份服务器,应急电源,冗余内存等,在服务器停止运行时可以立即启用应急计划,避免影响业务。

3. 定期更新软件。可以定期对服务器内的操作系统、软件进行更新,做好安全防护,避免病毒攻击。

4. 建立事件日志。对操作者和操作内容进行严格监控,尽可能实现自动化。

出了故障如何恢复?

服务器故障虽然可防但不可控,出现故障也是难免的,出现故障后应该如何恢复呢。

1. 一旦出现故障首先要启用应急机制,备份服务器上线,替换故障服务器。

2. 排查故障情况并进行维修。

3. 如果服务器上的数据已经遭到破坏,应该对服务器进行关机,备份服务器数据并进行专业的数据恢复操作,恢复服务器数据。

HP DL380服务器RAID信息丢失案例分享!

本次分享的服务器为HP DL380系列,存储是由6块73GB SAS硬盘组成的RAID5,操作系统是WINDOWS 2003 SERVER,主要作为企业部门内部的文件服务器来应用,主机(无UPS)故障前经历过几次意外断电,重启后RAID报错,提示无法找到存储设备,进入RAID管理模块后操作死机,重启后问题依旧无法解决。

主机意外断电导致RAID模块损坏(包括RAID管理信息丢失和RAID模块硬件损坏)的情况并不少见,一般来说,RAID创建完成后,其管理模块的信息就不会再发生改变,但这部分信息毕竟属于可修改信息,意外断电很容易造成这部分信息被篡改甚至丢失,多次断电甚至有可能导致RAID卡上的元器件损坏,从而使主机失去对多块物理硬盘进行RAID管理的中间层模块。该案例中对RAID模块的操作死机现象极有可能是由RAID卡硬件损坏引起的(后经HP售后技术人员验证得到证实),此时通过正常途径已无法将获取6块硬盘中的数据,只能依靠第三方提供数据恢复服务来解决。

数据恢复过程是怎么样的?

1.首先针对用户提供的6块SAS硬盘进行严格的物理检测,6块硬盘读取状态均良好;

2.分别镜像用户故障RAID组中的6块硬盘,为保证绝对的数据安全,目标存储为带有冗余功能的阵列存储;

3.镜像完成后,对所生成的6个备份文件进行RAID结构分析,依据文件系统存储规则确定6块硬盘在构建RAID5的盘序、数据块大小及校验方式,并于虚拟环境中重新构建RAID组;

4.对所构建RAID中的数据进行逻辑校验,确保重构RAID所应用的各参数正确无误后,针对用户最为关注的数据进行完全验证;

5.用户确认数据恢复结果已完全达到预期(数据恢复至故障前状态)后,将所有用户业务数据迁移至用户存储,至此数据恢复完成

北亚小贴士

1.尽量保证机房电源供应稳定,以减少电源异常对主机及存储的冲击;

2.最好为重要的服务器及存储配置UPS,可在机房意外断电的情况下保证核心业务系统能继续维持一定时间的正常工作,从而为企业寻求应急解决方案赢得宝贵的时间;

3.对于服务年限已久的服务器应定期进行安全状况检查,并对其整体运行状态进行评估以决定是否进行硬件及系统的全面升级,同时提前制定突发数据灾难的紧急处理方案,以降低数据灾难带来的业务损失。

服务器作为一种高速运算、长时间运行的设备,出现故障的情况相对较多,但我们可以在使用过程中尽量减少或避免服务器故障,也可以在服务器故障后选择数据恢复手段来保护服务器内的数据,减少损失。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 服务器数据丢失的恢复过程

    今天分享的是一例服务器数据恢复的成功案例,需要进行数据恢复的服务器故障情况为raid信息丢失,服务器型号为某品牌380系列服务器,服务器上面安装了多块硬盘组成r...

    北亚数据恢复中心
  • 存储崩溃的数据恢复通用方法

    服务器数据恢复指的是通过技术手段将原本存储在服务器、存储设备内的,由于误操作、硬件故障、恶意攻击等原因丢失的数据进行修复提取的专业技术。在介绍服务器数据恢复前我...

    北亚数据恢复中心
  • RAID出故障如何做好应急处理

    当RAID出现: 1、RAID控制台里描述超过允许范围内的盘数异常,如RAID0里一块以上盘异常;RAID5(无热备)里2块以上盘异常;异常表现为OFFLINE...

    北亚数据安全与救援
  • 重装系统导致sdc2分区丢失怎么恢复

    客户使用MD1200磁盘柜+RAID卡的方式,创建一组RAID5阵列,分配一个LUN共55T左右,在Linux系统层面对LUN进行分区,划分sdc1和sdc2两...

    北亚数据恢复中心
  • DS4800服务器LVM信息丢失恢复思路讲解

    本次北亚小编分享的是一篇DS4800服务器LVM信息丢失恢复思路讲解。基于DS4800服务器的AIX小机卷丢失、DS4800存储服务器LVM信息丢失应该如何做恢...

    北亚数据安全与救援
  • 分布式文件系统-HDFS

    大数据技术主要要解决的问题的是大规模数据的计算处理问题,那么首先要解决的就是大规模数据的存储问题。大规模数据存储要解决的核心问题有三个方面:

    大数据技术与架构
  • 程序员都应该了解的运维知识经验

    以一个经典问题抛砖引玉,当用户在浏览器中输入一个URL到底发生了什么? 常见的URL格式是http://www.liangsonghua.me,由协议+域名+...

    公众号_松华说
  • 高级运维工程师学习路线

    信息安全公益宣传,信息安全知识启蒙。 ? 运维工程师在前期是一个很苦逼的工作,在这期间可能干着修电脑、掐网线、搬机器的活,显得没地位!时间也很碎片化,各种零碎...

    企鹅号小编
  • 记一次硬件问题导致IO较高分析

    通常遇到此问题可能原因 第一、并发较大刷磁盘频繁 一般此问题不会造成io util 90%以上。如果事物较大或者并发较大,slow log会有记录,我们...

    MySQL轻松学

扫码关注云+社区

领取腾讯云代金券