首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >Linus/ext4 4/nvme在高io期间崩溃

Linus/ext4 4/nvme在高io期间崩溃
EN

Server Fault用户
提问于 2020-04-06 07:24:14
回答 5查看 3.2K关注 0票数 3

在mvn编译期间,我会随机崩溃。

这个问题似乎与高IO有关,在kern.log中,我可以看到如下内容:

代码语言:javascript
运行
复制
kernel: [158430.895045] nvme nvme1: controller is down; will reset: CSTS=0xffffffff, PCI_STATUS=0x10
kernel: [158430.951331] blk_update_request: I/O error, dev nvme0n1, sector 819134096 op 0x0:(READ) flags 0x80700 phys_seg 1 prio class 0
kernel: [158430.995307] nvme nvme1: Removing after probe failure status: -19
kernel: [158431.035065] blk_update_request: I/O error, dev nvme0n1, sector 253382656 op 0x1:(WRITE) flags 0x4000 phys_seg 127 prio class 0
kernel: [158431.035083] EXT4-fs warning (device nvme0n1p1): ext4_end_bio:309: I/O error 10 writing to inode 3933601 (offset 16777216 size 2101248 starting block 31672832)
kernel: [158431.035085] Buffer I/O error on device nvme0n1p1, logical block 31672320
kernel: [158431.035090] ecryptfs_write_inode_size_to_header: Error writing file size to header; rc = [-5]

要复制错误,我使用:

代码语言:javascript
运行
复制
stress-ng --all 8  --timeout 60s --metrics-brief --tz

我尝试过一些引导选项,比如将acpiphp.disable=1 pcie_aspm=off添加到/etc/default/grup中,这似乎有助于压力测试,但对我的编译没有帮助。

  • 分发: Ubuntu 19.10
  • 内核:5.3.0-45-通用#37-Ubuntu SMP清华Mar 26 :41:27 UTC 2020

nvme list显示:

代码语言:javascript
运行
复制
Node             SN                   Model                            Namespace Usage                      Format           FW Rev  
---------------- -------------------- ---------------------------------------- --------- -------------------------- ---------------- --------
/dev/nvme0n1     28FF72PTFQAS         KXG50ZNV256G NVMe TOSHIBA 256GB          1        256,06  GB / 256,06  GB    512   B +  0 B   AADA4102
/dev/nvme1n1     37DS103NTEQT         THNSN5512GPU7 NVMe TOSHIBA 512GB         1         512,11 GB / 512,11  GB    512   B +  0 B   57DC4102
EN

回答 5

Server Fault用户

发布于 2020-04-07 18:49:14

我不能确切地告诉您问题在哪里,因为这只是NVMe子系统中的一个“通用故障”。但我可以建议你如何找出问题所在。

  1. 尝试添加nvme_core.default_ps_max_latency_us=5500内核引导选项。
  2. 安装nvme包(或者更好地从资料来源构建一个最新的包),并使用它检查各种日志,比如智能日志和错误日志。这可能有助于进一步诊断错误。
  3. 尝试引导一些其他的发行版(live),并在它们下面进行压力测试,看看这是否与内核版本/发行版有关。系统救援发行版可能是一个很好的起点。
  4. 如果这无助于您尝试将您的MB固件(" BIOS ",实际上不是BIOS)更新到最近的一个。虽然这听起来并不明显,甚至连补丁说明也可能没有任何与NVMe/PCI子系统直接相关的东西,但有时它会有所帮助(实用知识)。
  5. 更新您的NVMe驱动器固件。查找供应商为此提供的工具和手册。
  6. 如果上面的一切都无助于帮助或提供任何线索,您可能会遇到未知的错误或硬件故障。
票数 3
EN

Server Fault用户

发布于 2021-06-17 20:06:20

kernel: [158430.895045] nvme nvme1: controller is down; will reset: CSTS=0xffffffff, PCI_STATUS=0x10表示NVMe磁盘控制器没有响应,并由NVMe驱动程序重置以恢复与设备的通信。

造成这些问题的原因可能是:

  • 故障硬件
  • 假功率(即:坏的PSU)
  • 过于激进的PCIe有功状态电源管理

撇开坏的硬件不说,您可以尝试使用内核引导命令行pcie_aspm=off禁用ASPM。

票数 2
EN

Server Fault用户

发布于 2020-04-06 07:24:14

我注意到错误只发生在其中一个ssd上,也就是包含/home的

将/home移动到机器中的另一个磁盘,到目前为止,它似乎运行得更好了。

票数 0
EN
页面原文内容由Server Fault提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://serverfault.com/questions/1011077

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档