前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >硬盘故障修复 原

硬盘故障修复 原

作者头像
阿dai学长
发布2019-04-03 10:21:50
1.6K0
发布2019-04-03 10:21:50
举报
文章被收录于专栏:阿dai_linux

近期公司一台服务器的磁盘告警“磁盘阵列错误”,经检查发现磁盘:“PD0/PD1/PD2 硬盘Medium Error DevId 并BadStripe PD0 PD1”,需要在服务器磁盘彻底崩溃之前进行raid修复,具体过程如下:

故障排查

根据告警信息进行定位:

20180817153448707917248.png
20180817153448707917248.png

查看服务器当前配置信息

主要是查看当前服务器磁盘的raid类型,结果如下:

代码语言:javascript
复制
[root@db08 linux]# hwinfo
basename: 缺少操作数
Try 'basename --help' for more information.
{
"机器型号":"R430",
"机器高度":"1U",
"CPU信息":{"CPU型号":"E5-2620","核数":6,"线程":12,"CPU个数":2},
"内存信息":{"内存型号":"M393A2G40DB0-CPB,NotSpecified","每条大小":"16G","条数":2},
"系统盘信息":{"磁盘类别":"SAS","磁盘大小":"600G","磁盘个数":4,"阵列类型":"RAID-10"},
"运行盘信息":{"磁盘类别":"","磁盘大小":"G","磁盘个数":0,"阵列类型":" Layout RAID-10"},
"备份盘信息":{"磁盘类别":"","磁盘大小":"G","磁盘个数":0,"阵列类型":" Layout RAID-10"},
"操作系统版本":"CentOSrelease",
"快速服务代码":"943XG82",
"其他信息":"null"
}

根据结果显示确定磁盘的raid类型为raid 10,如果磁盘已经严重损坏,只剩一块磁盘在工作,那么将看不出工作类型了,结果会是下面这样:

代码语言:javascript
复制
[root@db08 linux]# hwinfo disk 
basename: 缺少操作数
Try 'basename --help' for more information.
{
"机器型号":"R430",
"机器高度":"1U",
"CPU信息":{"CPU型号":"E5-2620","核数":6,"线程":12,"CPU个数":2},
"内存信息":{"内存型号":"M393A2G40DB0-CPB,NotSpecified","每条大小":"16G","条数":2},
"系统盘信息":{"磁盘类别":"/dev/sda","磁盘大小":"600G","磁盘个数":4,"阵列类型":"No"},
"运行盘信息":{"磁盘类别":"","磁盘大小":"G","磁盘个数":0,"阵列类型":" Encrypted No"},
"备份盘信息":{"磁盘类别":"","磁盘大小":"G","磁盘个数":0,"阵列类型":" Encrypted No"},
"操作系统版本":"CentOSrelease",
"快速服务代码":"943SG82",
"其他信息":"null"
}

截止目前只能确定raid类型,那么到底是什么原因导致磁盘阵列故障呢?请继续往下看。

故障定位:请求支援

到底如何定位问题所在呢???答案只有一个:日志!

日志太多了,看哪些?对硬件一窍不通的我只能请求支援——Dell服务器技术支持(https://www.dell.com/support/home/cn/zh/cnbsd1)。

  • 在Dell官网查看服务器信息,服务器的SN详见主机运维,获取“快速服务代码”(打电话请求支持时会用到):
20180817153448970516791.png
20180817153448970516791.png
  • 接下来打官方客服电话吧:
20180817153448983656965.png
20180817153448983656965.png
  • 然后会有技术人员指导操作,有什么问题尽管问吧,服务态度还是不错的!!!

故障定位:信息采集

Dell技术支持会提供日志采集工具,在此推荐使用MegaCLI8_Linux.zip (为方便使用,已上传至本地镜像库,内置使用说明),点击该链接可直接下载使用,如果在家办公,该地址不能用,提供个人自愿地址:链接: https://pan.baidu.com/s/1boCYCWLghV5XsWnv9SCMbg 密码: 3dqn。

安装和使用

因为下载的安装包内有使用说明,所以在此不做赘述,只把使用过程中的一点小问题记录一下:

代码语言:javascript
复制
# 安装出现冲突(注意:使用Run脚本安装的时候看不到该错误,所以需要手动安装调试)
[root@db08 linux]# rpm -ivh Lib_Utils-1.00-09.noarch.rpm MegaCli-8.02.21-1.noarch.rpm 
准备中...                          ################################# [100%]
	file /opt/lsi/3rdpartylibs/x86_64/libsysfs.so.2.0.2 from install of Lib_Utils-1.00-09.noarch conflicts with file from package srvadmin-storelib-sysfs-9.1.0-2757.12163.el7.x86_64
	
# 原因是与Dell服务器自带的包srvadmin冲突,直接将其卸载即可
[root@db08 linux]# rpm -e srvadmin-storelib-sysfs-9.1.0-2757.12163.el7.x86_64 --nodeps
[root@db08 linux]# rpm -ivh Lib_Utils-1.00-09.noarch.rpm MegaCli-8.02.21-1.noarch.rpm 
准备中...                          ################################# [100%]
Installing....
正在升级/安装...
   1:Lib_Utils-1.00-09                ################################# [ 50%]
   2:MegaCli-8.02.21-1                ################################# [100%]
   
 # 安装完成后更改Run脚本,把安装操作注释掉,直接进行日志采集
 [root@db08 linux]# ./Run-Linux-PERC6-v1.0.sh 
 WARNING!!!!!! 
 TTY Log collecting, Please wait a moment! Thanks!
                                     
Success in AdpEventLog
 
 FINISH...... 
 PERC TTY-log Tools for Linux had collected the logs to PERCLINUX.tgz 
 Please send the PERCLINUX.tgz file to DELL support, thanks!

完成日志采集后将日志文件发送给技术支持(对方会提前邮件和你联系)。

故障定位:剧终!

Dell技术支持经过日志排查问题后会反馈结果以及处理建议,后续需要运维和ucloud机房以及Dell工程师协调时间,更换磁盘,更换磁盘前一定要记得备份数据以及做好服务迁移啊!!!

数据备份及服务迁移

检查当前服务器信息

进行迁移和备份之前首先要做的就是清楚当前服务器的情况,主要由以下几项:

  • 硬件信息:CPU、mem、磁盘(大小、raid级别、分区状况)等等;
  • 防火墙:iptables -nvL
  • 服务信息:检查都部署哪些服务,最直接的办法就是查看当前端口使用情况
    • 检查服务器端口状态:netstat -lntp
    • 安全起见,查看一下当前服务器运行状态:htop

实施迁移

先在已有服务器看看有么有充足的资源,如果资源充足就直接使用,如果资源不足,临时申请云主机。注意: 如果使用物理机资源一定要记得根据源服务器配置iptables规则放行服务端口,云主机就不用了,申领时直接使用内网防火墙就可以。

因公司集成了devops自动化运维管理平台,所以在环境部署过程中可以直接通过devops进行,如果公司还没有实现自动化,需要手动进行部署。

迁移过程如下:

  • 检查当前服务器部署的服务,可以到 https://devops.adai.me/dashboard/rpc/ 进行查看或者使用netstat -lntp
  • 查看devops项目管理,如果对应项目已经加入devops进行管理,则可以直接通过devops进行自动化部署;
    • 注意: 使用devops管理时部署(只部署虚拟环境)完成后需要进行更新(创建项目对应的配置文件)配置。
  • 如果项目未加入devops管理,则需要手动进行处理,如test_typo项目;
  • Geo_location、ip_location直接从源机器拷贝配置文件到备份主机启动即可用;
  • filebeat(收集日志)、etcd需要通过ansible进行部署;
  • 项目迁移完成后检测服务的可用性,medweb项目可以到 https://logs.adai.me 查看日志信息(此处收集到日志说明服务正常):
20180820153476426368590.png
20180820153476426368590.png
  • Note: 对外服务还需要通知第三方(百度、wechat等)配置ip白名单(物理机当前使用统一的外网ip,不用处理;云主机使用nat网关做的端口映射,需要提醒第三方将该网关ip加入白名单中);

磁盘更换&&项目回迁

数据迁移完后找联系戴尔技术支持以及ucloud机房管理人员协调机房入室时间,商定后到ucloud填写服务单。

待磁盘更换完毕后安排ucloud机房管理人员重装系统,检测无误后将原有服务迁回来,确认运行正常后将临时申领的云主机资源释放掉。

(adsbygoogle = window.adsbygoogle || []).push({});

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018/08/23 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 故障排查
    • 查看服务器当前配置信息
      • 故障定位:请求支援
        • 故障定位:信息采集
          • 安装和使用
        • 故障定位:剧终!
        • 数据备份及服务迁移
          • 检查当前服务器信息
            • 实施迁移
            • 磁盘更换&&项目回迁
            相关产品与服务
            云服务器
            云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
            领券
            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档