我在一个没有安装的服务器上遇到了问题,前一个家伙已经不在这里向我解释任何事情了。
一些进程由于磁盘故障而崩溃,所以我在日志中搜索并在/var/log/messages
中找到了如下行:
kernel: [277146.149980] sd 0:1:0:0: [sda] Sense Key : Medium Error [current]
kernel: [277146.149986] sd 0:1:0:0: [sda] Add. Sense: Unrecovered read error
重新启动和使用fsck
没有解决这个问题。
我不知道磁盘是在硬件还是软件RAID上。我知道LVM没有安装在机器上。备份在这里不是问题,这个服务器不包含它的磁盘上的信息,重要的数据是通过NFS挂载的。因此,如果有必要,我可以重新安装机器,而不必担心磁盘的当前内容。
这台机器是一台戴尔PowerEdge R510,运行Debian压缩64位。制造商(Dell)的诊断工具不是在Debian上运行的,我试着安装和运行它们,但是它们不能工作,所以我必须手动诊断它。这是一些我可以提供给你的信息。
此外,如果需要的话,我可以对机器进行物理访问,而且我看到只有三个磁盘存在:三个SCSI希捷磁盘,每个磁盘600 to。
# lshw -class disk
*-disk:0
description: SCSI Disk
product: Virtual Disk
vendor: Dell
physical id: 1.0.0
bus info: scsi@0:1.0.0
logical name: /dev/sda
version: 1028
size: 1675GiB (1798GB)
capacity: 1675GiB (1798GB)
capabilities: 15000rpm partitioned partitioned:dos
configuration: ansiversion=6 signature=cf241336
很明显,我们正在讨论的是一个1800 GB的虚拟磁盘,包含三个600 GB的物理磁盘。显然,可以使用BIOS来配置虚拟磁盘。因此,如果我必须用新磁盘重新安装整个机器,我必须在启动一个iso/liveCD/PXE之前进入BIOS,对吗?
# fdisk -l
Disk /dev/sda: 1798.7 GB, 1798651772928 bytes
3 heads, 52 sectors/track, 22519177 cylinders
Units = cylinders of 156 * 512 = 79872 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disk identifier: 0xcf241336
Device Boot Start End Blocks Id System
/dev/sda1 1 421 32812 de Dell Utility
/dev/sda2 * 434 27320 2097152 c W95 FAT32 (LBA)
/dev/sda3 27320 277715 19530752 83 Linux
/dev/sda4 277728 22519165 1734832129 5 Extended
/dev/sda5 277728 402918 9764864 82 L
我想这就是确认只有一个磁盘,一个虚拟磁盘。
# smartctl -i /dev/sda
smartctl 5.40 2010-07-12 r3124 [x86_64-unknown-linux-gnu] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net
Device: Dell Virtual Disk Version: 1028
Device type: disk
Local Time is: Mon Jun 15 10:28:59 2015 CEST
Device does not support SMART
这似乎是合法的,因为似乎智能with不适用于虚拟驱动器。
# cat /proc/scsi/scsi
Attached devices:
Host: scsi3 Channel: 00 Id: 00 Lun: 00
Vendor: TEAC Model: DVD-ROM DV-28SW Rev: R.2B
Type: CD-ROM ANSI SCSI revision: 05
Host: scsi0 Channel: 01 Id: 00 Lun: 00
Vendor: Dell Model: Virtual Disk Rev: 1028
Type: Direct-Access ANSI SCSI revision: 06
Host: scsi0 Channel: 00 Id: 00 Lun: 00
Vendor: SEAGATE Model: ST3600057SS Rev: ES64
Type: Direct-Access ANSI SCSI revision: 05
Host: scsi0 Channel: 00 Id: 01 Lun: 00
Vendor: SEAGATE Model: ST3600057SS Rev: ES64
Type: Direct-Access ANSI SCSI revision: 05
Host: scsi0 Channel: 00 Id: 02 Lun: 00
Vendor: SEAGATE Model: ST3600057SS Rev: ES64
Type: Direct-Access ANSI SCSI revision: 05
这就是我到目前为止所得到的。我想我得买新磁盘重新安装这台机器。所以我想知道:这台机器是否配置了一些RAID?我怎么知道?因为我想要复制精确的当前配置。如果你需要更多的信息,我会很高兴提供给你。
编辑这里是lspci命令输出。
# lspci
00:00.0 Host bridge: Intel Corporation 5500 I/O Hub to ESI Port (rev 13)
00:01.0 PCI bridge: Intel Corporation 5520/5500/X58 I/O Hub PCI Express Root Port 1 (rev 13)
00:03.0 PCI bridge: Intel Corporation 5520/5500/X58 I/O Hub PCI Express Root Port 3 (rev 13)
00:07.0 PCI bridge: Intel Corporation 5520/5500/X58 I/O Hub PCI Express Root Port 7 (rev 13)
00:09.0 PCI bridge: Intel Corporation 5520/5500/X58 I/O Hub PCI Express Root Port 9 (rev 13)
00:0a.0 PCI bridge: Intel Corporation 5520/5500/X58 I/O Hub PCI Express Root Port 10 (rev 13)
00:14.0 PIC: Intel Corporation 5520/5500/X58 I/O Hub System Management Registers (rev 13)
00:14.1 PIC: Intel Corporation 5520/5500/X58 I/O Hub GPIO and Scratch Pad Registers (rev 13)
00:14.2 PIC: Intel Corporation 5520/5500/X58 I/O Hub Control Status and RAS Registers (rev 13)
00:1a.0 USB Controller: Intel Corporation 82801JI (ICH10 Family) USB UHCI Controller #4
00:1a.1 USB Controller: Intel Corporation 82801JI (ICH10 Family) USB UHCI Controller #5
00:1a.7 USB Controller: Intel Corporation 82801JI (ICH10 Family) USB2 EHCI Controller #2
00:1d.0 USB Controller: Intel Corporation 82801JI (ICH10 Family) USB UHCI Controller #1
00:1d.1 USB Controller: Intel Corporation 82801JI (ICH10 Family) USB UHCI Controller #2
00:1d.2 USB Controller: Intel Corporation 82801JI (ICH10 Family) USB UHCI Controller #3
00:1d.3 USB Controller: Intel Corporation 82801JI (ICH10 Family) USB UHCI Controller #6
00:1d.7 USB Controller: Intel Corporation 82801JI (ICH10 Family) USB2 EHCI Controller #1
00:1e.0 PCI bridge: Intel Corporation 82801 PCI Bridge (rev 90)
00:1f.0 ISA bridge: Intel Corporation 82801JIR (ICH10R) LPC Interface Controller
00:1f.2 IDE interface: Intel Corporation 82801JI (ICH10 Family) 4 port SATA IDE Controller #1
00:1f.5 IDE interface: Intel Corporation 82801JI (ICH10 Family) 2 port SATA IDE Controller #2
01:00.0 Ethernet controller: Broadcom Corporation NetXtreme II BCM5716 Gigabit Ethernet (rev 20)
01:00.1 Ethernet controller: Broadcom Corporation NetXtreme II BCM5716 Gigabit Ethernet (rev 20)
02:00.0 Serial Attached SCSI controller: LSI Logic / Symbios Logic SAS2008 PCI-Express Fusion-MPT SAS-2 [Falcon] (rev 03)
03:00.0 InfiniBand: QLogic Corp. InfiniPath QME7342 QDR HCA (rev 02)
06:03.0 VGA compatible controller: Matrox Graphics, Inc. MGA G200eW WPCM450 (rev 0a)
EDIT2以了解可用控制器的数量:
# megacli -adpCount
Controller Count: 0.
Exit Code: 0x00
要打印控制器的所有信息:
# megacli -adpallinfo -aALL
Exit Code: 0x00
所以我想这意味着没有硬件RAID?
# ls -l /dev/disk/by-path
total 0
lrwxrwxrwx 1 root root 9 Jun 12 12:19 pci-0000:00:1f.5-scsi-0:0:0:0 -> ../../sr0
lrwxrwxrwx 1 root root 9 Jun 15 13:40 pci-0000:02:00.0-scsi-0:1:0:0 -> ../../sda
lrwxrwxrwx 1 root root 10 Jun 12 12:19 pci-0000:02:00.0-scsi-0:1:0:0-part1 -> ../../sda1
lrwxrwxrwx 1 root root 10 Jun 12 12:19 pci-0000:02:00.0-scsi-0:1:0:0-part2 -> ../../sda2
lrwxrwxrwx 1 root root 10 Jun 12 12:19 pci-0000:02:00.0-scsi-0:1:0:0-part3 -> ../../sda3
lrwxrwxrwx 1 root root 10 Jun 12 12:19 pci-0000:02:00.0-scsi-0:1:0:0-part4 -> ../../sda4
lrwxrwxrwx 1 root root 10 Jun 12 12:19 pci-0000:02:00.0-scsi-0:1:0:0-part5 -> ../../sda5
lrwxrwxrwx 1 root root 10 Jun 12 12:21 pci-0000:02:00.0-scsi-0:1:0:0-part6 -> ../../sda6
# megaclisas-status
-- Controller informations --
-- ID | Model
-- Arrays informations --
-- ID | Type | Size | Status | InProgress
-- Disks informations
-- ID | Model | Status
EDIT4 -- sas2ircu
命令很有用(参见此页)。
最后,我设法找到是否使用了RAID :重新启动服务器,输入配置实用程序菜单(Ctrl + C),并查看是否配置了RAID0。我在/dev/sg*
磁盘上使用了smartctl命令(smartctl没有在/dev/sda*
上工作)。
smartctl -t long /dev/sg2
smartctl -l selftest /dev/sg2
它终于向我展示了哪个磁盘出现了故障。所以问题解决了!
发布于 2015-06-15 09:55:44
此消息表示三个磁盘中的一个或多个正在失败,或者控制器/电缆正在失败。整个设置似乎是由三个磁盘组成的RAID0 --这是一个非常危险的配置。我会这样做:备份数据(如果你想的话),拆除RAID,得到JBOD。测试每个单独的磁盘。确定什么是失败的部分。替换它,并配置RAID 1.恢复/重新安装系统。
发布于 2015-06-15 13:18:47
lspci输出:
02:00.0 Serial Attached SCSI controller: LSI Logic / Symbios Logic SAS2008 PCI-Express Fusion-MPT SAS-2 [Falcon] (rev 03)
指示存在hw raid卡。
管理这类卡的正确工具是: sas2ircu
你可以在这里找到更多的信息:
https://serverfault.com/questions/699054
复制相似问题