我在raidz1-0有一个游泳池,里面有5个驱动器。我不知道确切的时间,但突然之间,所有的驱动器都从始终是ONLINE,没有读,写或校验和错误,到随机吐出各种问题。
NAME STATE READ WRITE CKSUM
Data DEGRADED 0 0 0
raidz1-0 DEGRADED 149 185 0
gptid/905fe084-a003-11e9-9d12-000c29c8a62a DEGRADED 57 127 5 too many errors
gptid/2b75693a-9f09-11e9-8310-000c29c8a62a ONLINE 7 5 5
gptid/b8b4dd8f-82e9-11eb-b23f-000c29c8a62a DEGRADED 70 171 5 too many errors
gptid/b88beac0-e1f3-11e7-aeb0-000c29c8a62a DEGRADED 51 6 14 too many errors
gptid/4eb702b3-e2c3-11e7-9896-000c29c8a62a FAULTED 8 13 2 too many errors我做了一些基本的故障排除:
在某个时候,我更换了池中的第三个磁盘。当时,它的错误最多,而且可能总是第一个进入退化状态。我用一个全新的驱动器代替了它,它已经运行了几个月了,立即解决了与池中其他部分相同的问题。
即使在zpool clear之后,大约5个小时后,我仍然拥有以下状态。
NAME STATE READ WRITE CKSUM
Data DEGRADED 0 0 0
raidz1-0 DEGRADED 1 0 0
gptid/905fe084-a003-11e9-9d12-000c29c8a62a ONLINE 2 4 0
gptid/2b75693a-9f09-11e9-8310-000c29c8a62a ONLINE 0 0 0
gptid/b8b4dd8f-82e9-11eb-b23f-000c29c8a62a FAULTED 1 11 0 too many errors
gptid/b88beac0-e1f3-11e7-aeb0-000c29c8a62a ONLINE 1 1 0
gptid/4eb702b3-e2c3-11e7-9896-000c29c8a62a ONLINE 1 6 0我不太清楚这是怎么回事,也不知道还能去哪儿看。
我不知道这是否是巧合,但我注意到这是在将ZFS池升级为FreeNAS更新的一部分后开始发生的(我认为是11.2U -也是的,我正在运行FreeNAS)
我唯一能想到的就是一个糟糕的SATA控制器。但在我讲到这一点之前,还有什么我可以排除的吗?这是一个业余爱好家庭服务器和更换控制器实质上意味着一个全新的服务器,所以我想避免如果可能的话。不幸的是,没有任何PCIe端口可以安装外部控制器。
提前感谢!
发布于 2021-06-02 10:58:11
经过近一个月的调试,可以肯定地说,它确实是芯片组的SATA控制器。
@shodanshok提醒我,英特尔芯片组存在一个“与年龄相关的重大问题”,一些额外的googling显示,我并不是唯一一个。
我买了一些新的硬件,连同一个LSI 9205-8I H220连接所有的驱动器。在没有对配置进行任何更改的情况下(除了一个更现代的主板+ CPU),ZFS池是在没有问题的情况下导入的,并且池已经运行了一整天,出现了0校验和/读/写错误。现在它已经有几百个了。这证实了问题是星上SATA控制器。
希望这对任何遇到类似问题的人都有帮助!
https://serverfault.com/questions/1062787
复制相似问题