首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >rhel +关于失败结果的内核消息: hostbyte=DID_ERROR driverbyte=DRIVER_OK

rhel +关于失败结果的内核消息: hostbyte=DID_ERROR driverbyte=DRIVER_OK
EN

Unix & Linux用户
提问于 2022-01-26 09:15:15
回答 1查看 6.6K关注 0票数 0

我们有两个戴尔物理服务器与- FAILED Result: hostbyte=DID_ERROR driverbyte=DRIVER_OK有相同的问题。

dmesg中我们可以看到以下内容

代码语言:javascript
运行
复制
[2982241.758445]  [] system_call_fastpath+0x16/0x1b
[2982252.738962] sd 0:0:2:0: [sdc] tag#14 megasas: target reset FAILED!!
[2985405.797192] sd 0:0:2:0: [sdc] tag#102 FAILED Result: hostbyte=DID_ERROR driverbyte=DRIVER_OK
[2985405.797199] sd 0:0:2:0: [sdc] tag#102 CDB: Read(10) 28 00 d7 00 2c e8 00 00 08 00
[2985405.797205] blk_update_request: I/O error, dev sdc, sector 3607112936
[2985405.797214] sd 0:0:2:0: [sdc] tag#104 FAILED Result: hostbyte=DID_ERROR driverbyte=DRIVER_OK
[2985405.797217] sd 0:0:2:0: [sdc] tag#104 CDB: Read(10) 28 00 d7 00 2c f8 00 00 08 00
[2985405.797219] blk_update_request: I/O error, dev sdc, sector 3607112952
[2985405.797477] sd 0:0:2:0: [sdc] tag#97 FAILED Result: hostbyte=DID_ERROR driverbyte=DRIVER_OK
[2985405.797480] sd 0:0:2:0: [sdc] tag#97 CDB: Read(10) 28 00 d7 00 2c b8 00 00 08 00
[2985405.797482] blk_update_request: I/O error, dev sdc, sector 3607112888
[2985405.797493] sd 0:0:2:0: [sdc] tag#103 FAILED Result: hostbyte=DID_ERROR driverbyte=DRIVER_OK
[2985405.797496] sd 0:0:2:0: [sdc] tag#103 CDB: Read(10) 28 00 d7 00 2c f0 00 00 08 00
[2985405.797498] blk_update_request: I/O error, dev sdc, sector 3607112944
[2985405.797508] sd 0:0:2:0: [sdc] tag#96 FAILED Result: hostbyte=DID_ERROR driverbyte=DRIVER_OK
[2985405.797511] sd 0:0:2:0: [sdc] tag#96 CDB: Read(10) 28 00 d7 00 2c b0 00 00 08 00
[2985405.797513] blk_update_request: I/O error, dev sdc, sector 3607112880
[3443407.164780] sd 0:0:2:0: task abort: FAILED scmd(ffff881ff7b43100)
[3443433.877426] sd 0:0:2:0: tag#49 megasas: target reset FAILED!

根据红帽的说法,根本原因是:( https://access.redhat.com/solutions/438403 )

·当驱动程序检测到未报告的硬件问题时,会为驱动程序中的单个io请求设置DID_ERROR主机状态。

这些决议是:

  1. 请仓库供应商提供协助。
  2. 请检查系统硬件、开关错误计数器等,以确定是否有任何迹象表明问题可能在哪里。
  3. 驱动程序正在报告正在从存储中接收到奇怪、意外或无效的信息。
  4. 当驱动程序检测到其他未报告的硬件问题时,为驱动程序中的单个io请求设置DID_ERROR主机状态。这包括存储控制器内部的通信和固件问题,以及其他基于硬件的问题。
  5. FC适配器:在来自存储的光纤通道响应帧中,存在冲突的数据。这表明SAN/存储中存在问题,而不是RHEL或其驱动程序中的问题。
  6. LSI适配器: scsi io命令未能在控制器内完成(挂起)。这不同于scsi失败,返回状态,甚至是一个干净的io超时问题,其中控制器能够中止io。这通常会导致设备的丢失和DID_BAD_TARGET的后续错误,当HBA返回的设备状态为LD_OFFLINE (逻辑设备当前,但不响应命令)或DEVICE_NOT_FOUND (设备不再存在于硬件中)时,这些错误将被返回。

基于上面的so,我们迷路了,因为我们不确定是否需要替换HW机器本身,或者仅仅替换sdc磁盘或其他的东西。

I会很感激能得到任何关于我们案例的建议,

EN

回答 1

Unix & Linux用户

回答已采纳

发布于 2022-01-26 09:21:40

服务器中的sdc磁盘正在崩溃。

smartctl -a /dev/sdc将允许您通过其序列号来识别它。

由于您可能正在运行RAID,因此必须采取预防措施,以便将其删除并安装替换程序。

票数 1
EN
页面原文内容由Unix & Linux提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://unix.stackexchange.com/questions/687996

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档