在mvn编译期间,我会随机崩溃。
这个问题似乎与高IO有关,在kern.log中,我可以看到如下内容:
kernel: [158430.895045] nvme nvme1: controller is down; will reset: CSTS=0xffffffff, PCI_STATUS=0x10
kernel: [158430.951331] blk_update_request: I/O error, dev nvme0n1, sector 819134096 op 0x0:(READ) flags 0x80700 phys_seg 1 prio class 0
kernel: [158430.995307] nvme nvme1: Removing after probe failure status: -19
kernel: [158431.035065] blk_update_request: I/O error, dev nvme0n1, sector 253382656 op 0x1:(WRITE) flags 0x4000 phys_seg 127 prio class 0
kernel: [158431.035083] EXT4-fs warning (device nvme0n1p1): ext4_end_bio:309: I/O error 10 writing to inode 3933601 (offset 16777216 size 2101248 starting block 31672832)
kernel: [158431.035085] Buffer I/O error on device nvme0n1p1, logical block 31672320
kernel: [158431.035090] ecryptfs_write_inode_size_to_header: Error writing file size to header; rc = [-5]
要复制错误,我使用:
stress-ng --all 8 --timeout 60s --metrics-brief --tz
我尝试过一些引导选项,比如将acpiphp.disable=1 pcie_aspm=off
添加到/etc/default/grup
中,这似乎有助于压力测试,但对我的编译没有帮助。
nvme list
显示:
Node SN Model Namespace Usage Format FW Rev
---------------- -------------------- ---------------------------------------- --------- -------------------------- ---------------- --------
/dev/nvme0n1 28FF72PTFQAS KXG50ZNV256G NVMe TOSHIBA 256GB 1 256,06 GB / 256,06 GB 512 B + 0 B AADA4102
/dev/nvme1n1 37DS103NTEQT THNSN5512GPU7 NVMe TOSHIBA 512GB 1 512,11 GB / 512,11 GB 512 B + 0 B 57DC4102
发布于 2020-04-07 18:49:14
我不能确切地告诉您问题在哪里,因为这只是NVMe子系统中的一个“通用故障”。但我可以建议你如何找出问题所在。
发布于 2021-06-17 20:06:20
行kernel: [158430.895045] nvme nvme1: controller is down; will reset: CSTS=0xffffffff, PCI_STATUS=0x10
表示NVMe磁盘控制器没有响应,并由NVMe驱动程序重置以恢复与设备的通信。
造成这些问题的原因可能是:
撇开坏的硬件不说,您可以尝试使用内核引导命令行pcie_aspm=off
禁用ASPM。
发布于 2020-04-06 07:24:14
我注意到错误只发生在其中一个ssd上,也就是包含/home的
将/home移动到机器中的另一个磁盘,到目前为止,它似乎运行得更好了。
https://serverfault.com/questions/1011077
复制相似问题