Rhel

關於失敗結果的 rhel + 核心消息:hostbyte=DID_ERROR driverbyte=DRIVER_OK

  • January 26, 2022

我們有幾個戴爾物理伺服器有同樣的問題 -FAILED Result: hostbyte=DID_ERROR driverbyte=DRIVER_OK

dmesg我們可以看到以下

[2982241.758445]  [<ffffffff81697709>] system_call_fastpath+0x16/0x1b
[2982252.738962] sd 0:0:2:0: [sdc] tag#14 megasas: target reset FAILED!!
[2985405.797192] sd 0:0:2:0: [sdc] tag#102 FAILED Result: hostbyte=DID_ERROR driverbyte=DRIVER_OK
[2985405.797199] sd 0:0:2:0: [sdc] tag#102 CDB: Read(10) 28 00 d7 00 2c e8 00 00 08 00
[2985405.797205] blk_update_request: I/O error, dev sdc, sector 3607112936
[2985405.797214] sd 0:0:2:0: [sdc] tag#104 FAILED Result: hostbyte=DID_ERROR driverbyte=DRIVER_OK
[2985405.797217] sd 0:0:2:0: [sdc] tag#104 CDB: Read(10) 28 00 d7 00 2c f8 00 00 08 00
[2985405.797219] blk_update_request: I/O error, dev sdc, sector 3607112952
[2985405.797477] sd 0:0:2:0: [sdc] tag#97 FAILED Result: hostbyte=DID_ERROR driverbyte=DRIVER_OK
[2985405.797480] sd 0:0:2:0: [sdc] tag#97 CDB: Read(10) 28 00 d7 00 2c b8 00 00 08 00
[2985405.797482] blk_update_request: I/O error, dev sdc, sector 3607112888
[2985405.797493] sd 0:0:2:0: [sdc] tag#103 FAILED Result: hostbyte=DID_ERROR driverbyte=DRIVER_OK
[2985405.797496] sd 0:0:2:0: [sdc] tag#103 CDB: Read(10) 28 00 d7 00 2c f0 00 00 08 00
[2985405.797498] blk_update_request: I/O error, dev sdc, sector 3607112944
[2985405.797508] sd 0:0:2:0: [sdc] tag#96 FAILED Result: hostbyte=DID_ERROR driverbyte=DRIVER_OK
[2985405.797511] sd 0:0:2:0: [sdc] tag#96 CDB: Read(10) 28 00 d7 00 2c b0 00 00 08 00
[2985405.797513] blk_update_request: I/O error, dev sdc, sector 3607112880
[3443407.164780] sd 0:0:2:0: task abort: FAILED scmd(ffff881ff7b43100)
[3443433.877426] sd 0:0:2:0: tag#49 megasas: target reset FAILED!

根據redhat,根本原因是:(https://access.redhat.com/solutions/438403

• 當驅動程序檢測到未報告的硬體問題時,會為驅動程序中的單個 io 請求設置 DID_ERROR 主機狀態。

決議是:

  1. 聯繫儲存供應商尋求幫助。
  2. 請檢查系統硬體、切換錯誤計數器等,看看是否有任何跡象表明問題可能出在哪裡。
  3. 驅動程序報告它正在從儲存中接收奇怪的、意外的或無效的資訊。
  4. 當驅動程序檢測到其他未報告的硬體問題時,會為驅動程序中的單個 io 請求設置 DID_ERROR 主機狀態。這包括儲存控制器內的通信和韌體問題,以及其他基於硬體的問題。
  5. FC 適配器:在來自儲存的光纖通道響應幀中,存在衝突數據。這表明 SAN/儲存中存在問題,而不是 RHEL 或其驅動程序中存在問題。
  6. LSI 適配器:scsi io 命令未能在控制器內完成(掛起)。這與 scsi 失敗並返回狀態或什至控制器能夠中止 io 的干淨 io 超時問題不同。這通常會導致設備失去和 DID_BAD_TARGET 的後續錯誤,當 HBA 返回的設備狀態為 LD_OFFLINE(存在邏輯設備,但未響應命令)或 DEVICE_NOT_FOUND(硬體中不再存在設備)時,會返回這些錯誤.

所以基於上面我們迷路了,因為我們不確定是否需要更換硬體機器本身,或者只需要更換sdc磁碟或其他東西

我會; 感謝您就我們的案例獲得任何建議,

伺服器中的sdc磁碟快要死了。

smartctl -a /dev/sdc會讓你通過它的序列號來辨識它。

由於您可能正在執行 RAID,因此必須採取預防措施才能將其移除並安裝替代品。

引用自:https://unix.stackexchange.com/questions/687996