關於失敗結果的 rhel + 核心消息：hostbyte=DID_ERROR driverbyte=DRIVER_OK

January 26, 2022

我們有幾個戴爾物理伺服器有同樣的問題 -FAILED Result: hostbyte=DID_ERROR driverbyte=DRIVER_OK
從dmesg我們可以看到以下
[2982241.758445]  [&lt;ffffffff81697709&gt;] system_call_fastpath+0x16/0x1b
[2982252.738962] sd 0:0:2:0: [sdc] tag#14 megasas: target reset FAILED!!
[2985405.797192] sd 0:0:2:0: [sdc] tag#102 FAILED Result: hostbyte=DID_ERROR driverbyte=DRIVER_OK
[2985405.797199] sd 0:0:2:0: [sdc] tag#102 CDB: Read(10) 28 00 d7 00 2c e8 00 00 08 00
[2985405.797205] blk_update_request: I/O error, dev sdc, sector 3607112936
[2985405.797214] sd 0:0:2:0: [sdc] tag#104 FAILED Result: hostbyte=DID_ERROR driverbyte=DRIVER_OK
[2985405.797217] sd 0:0:2:0: [sdc] tag#104 CDB: Read(10) 28 00 d7 00 2c f8 00 00 08 00
[2985405.797219] blk_update_request: I/O error, dev sdc, sector 3607112952
[2985405.797477] sd 0:0:2:0: [sdc] tag#97 FAILED Result: hostbyte=DID_ERROR driverbyte=DRIVER_OK
[2985405.797480] sd 0:0:2:0: [sdc] tag#97 CDB: Read(10) 28 00 d7 00 2c b8 00 00 08 00
[2985405.797482] blk_update_request: I/O error, dev sdc, sector 3607112888
[2985405.797493] sd 0:0:2:0: [sdc] tag#103 FAILED Result: hostbyte=DID_ERROR driverbyte=DRIVER_OK
[2985405.797496] sd 0:0:2:0: [sdc] tag#103 CDB: Read(10) 28 00 d7 00 2c f0 00 00 08 00
[2985405.797498] blk_update_request: I/O error, dev sdc, sector 3607112944
[2985405.797508] sd 0:0:2:0: [sdc] tag#96 FAILED Result: hostbyte=DID_ERROR driverbyte=DRIVER_OK
[2985405.797511] sd 0:0:2:0: [sdc] tag#96 CDB: Read(10) 28 00 d7 00 2c b0 00 00 08 00
[2985405.797513] blk_update_request: I/O error, dev sdc, sector 3607112880
[3443407.164780] sd 0:0:2:0: task abort: FAILED scmd(ffff881ff7b43100)
[3443433.877426] sd 0:0:2:0: tag#49 megasas: target reset FAILED!
根據redhat，根本原因是：（https://access.redhat.com/solutions/438403）
• 當驅動程序檢測到未報告的硬體問題時，會為驅動程序中的單個 io 請求設置 DID_ERROR 主機狀態。
決議是：
聯繫儲存供應商尋求幫助。
請檢查系統硬體、切換錯誤計數器等，看看是否有任何跡象表明問題可能出在哪裡。
驅動程序報告它正在從儲存中接收奇怪的、意外的或無效的資訊。
當驅動程序檢測到其他未報告的硬體問題時，會為驅動程序中的單個 io 請求設置 DID_ERROR 主機狀態。這包括儲存控制器內的通信和韌體問題，以及其他基於硬體的問題。
FC 適配器：在來自儲存的光纖通道響應幀中，存在衝突數據。這表明 SAN/儲存中存在問題，而不是 RHEL 或其驅動程序中存在問題。
LSI 適配器：scsi io 命令未能在控制器內完成（掛起）。這與 scsi 失敗並返回狀態或什至控制器能夠中止 io 的干淨 io 超時問題不同。這通常會導致設備失去和 DID_BAD_TARGET 的後續錯誤，當 HBA 返回的設備狀態為 LD_OFFLINE（存在邏輯設備，但未響應命令）或 DEVICE_NOT_FOUND（硬體中不再存在設備）時，會返回這些錯誤.
所以基於上面我們迷路了，因為我們不確定是否需要更換硬體機器本身，或者只需要更換sdc磁碟或其他東西
我會; 感謝您就我們的案例獲得任何建議，

伺服器中的sdc磁碟快要死了。
smartctl -a /dev/sdc會讓你通過它的序列號來辨識它。
由於您可能正在執行 RAID，因此必須採取預防措施才能將其移除並安裝替代品。

引用自：https://unix.stackexchange.com/questions/687996

關於失敗結果的 rhel + 核心消息：hostbyte=DID_ERROR driverbyte=DRIVER_OK

相關問答

“核心：設備上的緩衝區 I/O 錯誤” - 我的伺服器是否有硬體問題？

如何理解dmesg

奇怪的 dmesg 錯誤，可能導致滯後？

增加寫入 /dev/kmsg 的消息的大小限制

打開文件過多錯誤，但僅在通過已安裝的磁碟訪問時

如何從作業系統驗證 RAID 中的磁碟數量