Raid
如果 md/linux RAID 正確補償故障驅動器,我應該期待什麼?
子系統是否
md
輸出任何消息(到 syslog/systemd-journal)以表明它在降級狀態下執行(或任何其他可能表明它已成功對驅動器故障做出反應的消息,如此處所示)?例如,我看到很多錯誤來自
sd
指示,Unrecovered read error
但我沒有看到“在備用上成功重試”之類的東西。也許沒有消息就是好消息?過去,鏡像軟體/硬體會生成系統日誌條目,指示設備何時降級或需要注意。不
md
這樣做嗎?背景:有問題的系統已經部署並且正在被遠端監控(通過 syslog/journald 資訊,因此此時沒有
mdadm
或任何其他互動式命令/任何類型的訪問可用)。
我在由兩個循環設備建構的 RAID 1 陣列上進行了快速測試。
dd bs=1M count=100 if=/dev/zero >/tmp/0.img cp /tmp/0.img /tmp/1.img i0=$(losetup --show --find /tmp/0.img); echo $i0 i1=$(losetup --show --find /tmp/1.img); echo $i1 mdadm --create /dev/md99 --metadata default --level 1 --raid-devices 2 $i0 $i1
設置一半錯誤
mdadm --manage /dev/md99 --set-faulty $i1 # For me, $i1=/dev/loop1
從核心給我這個(在其他相關的 RAID1 消息中)
Oct 6 17:36:10 pi kernel: [4087450.030438] md/raid1:md99: Disk failure on loop1, disabling device Oct 6 17:36:10 pi kernel: [4087450.030438] md/raid1:md99: Operation continuing on 1 devices.