文章/答案/技术大牛

发布

社区首页 >问答首页 >Linus/ext4 4/nvme在高io期间崩溃

问Linus/ext4 4/nvme在高io期间崩溃
EN

Server Fault用户

提问于 2020-04-06 07:24:14

回答 5查看 3.2K关注 0票数 3

在mvn编译期间，我会随机崩溃。

这个问题似乎与高IO有关，在kern.log中，我可以看到如下内容：

kernel: [158430.895045] nvme nvme1: controller is down; will reset: CSTS=0xffffffff, PCI_STATUS=0x10
kernel: [158430.951331] blk_update_request: I/O error, dev nvme0n1, sector 819134096 op 0x0:(READ) flags 0x80700 phys_seg 1 prio class 0
kernel: [158430.995307] nvme nvme1: Removing after probe failure status: -19
kernel: [158431.035065] blk_update_request: I/O error, dev nvme0n1, sector 253382656 op 0x1:(WRITE) flags 0x4000 phys_seg 127 prio class 0
kernel: [158431.035083] EXT4-fs warning (device nvme0n1p1): ext4_end_bio:309: I/O error 10 writing to inode 3933601 (offset 16777216 size 2101248 starting block 31672832)
kernel: [158431.035085] Buffer I/O error on device nvme0n1p1, logical block 31672320
kernel: [158431.035090] ecryptfs_write_inode_size_to_header: Error writing file size to header; rc = [-5]

要复制错误，我使用：

stress-ng --all 8  --timeout 60s --metrics-brief --tz

我尝试过一些引导选项，比如将acpiphp.disable=1 pcie_aspm=off添加到/etc/default/grup中，这似乎有助于压力测试，但对我的编译没有帮助。

分发: Ubuntu 19.10
内核:5.3.0-45-通用#37-Ubuntu SMP清华Mar 26 :41:27 UTC 2020

nvme list显示：

Node             SN                   Model                            Namespace Usage                      Format           FW Rev  
---------------- -------------------- ---------------------------------------- --------- -------------------------- ---------------- --------
/dev/nvme0n1     28FF72PTFQAS         KXG50ZNV256G NVMe TOSHIBA 256GB          1        256,06  GB / 256,06  GB    512   B +  0 B   AADA4102
/dev/nvme1n1     37DS103NTEQT         THNSN5512GPU7 NVMe TOSHIBA 512GB         1         512,11 GB / 512,11  GB    512   B +  0 B   57DC4102

ext4

nvme

linux

ssd

回答 5

Server Fault用户

发布于 2020-04-07 18:49:14

我不能确切地告诉您问题在哪里，因为这只是NVMe子系统中的一个“通用故障”。但我可以建议你如何找出问题所在。

尝试添加nvme_core.default_ps_max_latency_us=5500内核引导选项。
安装nvme包(或者更好地从资料来源构建一个最新的包)，并使用它检查各种日志，比如智能日志和错误日志。这可能有助于进一步诊断错误。
尝试引导一些其他的发行版(live)，并在它们下面进行压力测试，看看这是否与内核版本/发行版有关。系统救援发行版可能是一个很好的起点。
如果这无助于您尝试将您的MB固件(" BIOS "，实际上不是BIOS)更新到最近的一个。虽然这听起来并不明显，甚至连补丁说明也可能没有任何与NVMe/PCI子系统直接相关的东西，但有时它会有所帮助(实用知识)。
更新您的NVMe驱动器固件。查找供应商为此提供的工具和手册。
如果上面的一切都无助于帮助或提供任何线索，您可能会遇到未知的错误或硬件故障。

票数 3

Server Fault用户

发布于 2021-06-17 20:06:20

行kernel: [158430.895045] nvme nvme1: controller is down; will reset: CSTS=0xffffffff, PCI_STATUS=0x10表示NVMe磁盘控制器没有响应，并由NVMe驱动程序重置以恢复与设备的通信。

造成这些问题的原因可能是：

故障硬件
假功率(即:坏的PSU)
过于激进的PCIe有功状态电源管理

撇开坏的硬件不说，您可以尝试使用内核引导命令行pcie_aspm=off禁用ASPM。

票数 2

Server Fault用户

发布于 2020-04-06 07:24:14

我注意到错误只发生在其中一个ssd上，也就是包含/home的

将/home移动到机器中的另一个磁盘，到目前为止，它似乎运行得更好了。

票数 0

页面原文内容由Server Fault提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://serverfault.com/questions/1011077

复制

相似问题

问Linus/ext4 4/nvme在高io期间崩溃
EN

回答 5

Server Fault用户

Server Fault用户

Server Fault用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Linus/ext4 4/nvme在高io期间崩溃EN

回答 5

Server Fault用户

Server Fault用户

Server Fault用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Linus/ext4 4/nvme在高io期间崩溃
EN