Rhel
關於失敗結果的 rhel + 核心消息:hostbyte=DID_ERROR driverbyte=DRIVER_OK
我們有幾個戴爾物理伺服器有同樣的問題 -
FAILED Result: hostbyte=DID_ERROR driverbyte=DRIVER_OK
從
dmesg
我們可以看到以下[2982241.758445] [<ffffffff81697709>] system_call_fastpath+0x16/0x1b [2982252.738962] sd 0:0:2:0: [sdc] tag#14 megasas: target reset FAILED!! [2985405.797192] sd 0:0:2:0: [sdc] tag#102 FAILED Result: hostbyte=DID_ERROR driverbyte=DRIVER_OK [2985405.797199] sd 0:0:2:0: [sdc] tag#102 CDB: Read(10) 28 00 d7 00 2c e8 00 00 08 00 [2985405.797205] blk_update_request: I/O error, dev sdc, sector 3607112936 [2985405.797214] sd 0:0:2:0: [sdc] tag#104 FAILED Result: hostbyte=DID_ERROR driverbyte=DRIVER_OK [2985405.797217] sd 0:0:2:0: [sdc] tag#104 CDB: Read(10) 28 00 d7 00 2c f8 00 00 08 00 [2985405.797219] blk_update_request: I/O error, dev sdc, sector 3607112952 [2985405.797477] sd 0:0:2:0: [sdc] tag#97 FAILED Result: hostbyte=DID_ERROR driverbyte=DRIVER_OK [2985405.797480] sd 0:0:2:0: [sdc] tag#97 CDB: Read(10) 28 00 d7 00 2c b8 00 00 08 00 [2985405.797482] blk_update_request: I/O error, dev sdc, sector 3607112888 [2985405.797493] sd 0:0:2:0: [sdc] tag#103 FAILED Result: hostbyte=DID_ERROR driverbyte=DRIVER_OK [2985405.797496] sd 0:0:2:0: [sdc] tag#103 CDB: Read(10) 28 00 d7 00 2c f0 00 00 08 00 [2985405.797498] blk_update_request: I/O error, dev sdc, sector 3607112944 [2985405.797508] sd 0:0:2:0: [sdc] tag#96 FAILED Result: hostbyte=DID_ERROR driverbyte=DRIVER_OK [2985405.797511] sd 0:0:2:0: [sdc] tag#96 CDB: Read(10) 28 00 d7 00 2c b0 00 00 08 00 [2985405.797513] blk_update_request: I/O error, dev sdc, sector 3607112880 [3443407.164780] sd 0:0:2:0: task abort: FAILED scmd(ffff881ff7b43100) [3443433.877426] sd 0:0:2:0: tag#49 megasas: target reset FAILED!
根據redhat,根本原因是:(https://access.redhat.com/solutions/438403)
• 當驅動程序檢測到未報告的硬體問題時,會為驅動程序中的單個 io 請求設置 DID_ERROR 主機狀態。
決議是:
- 聯繫儲存供應商尋求幫助。
- 請檢查系統硬體、切換錯誤計數器等,看看是否有任何跡象表明問題可能出在哪裡。
- 驅動程序報告它正在從儲存中接收奇怪的、意外的或無效的資訊。
- 當驅動程序檢測到其他未報告的硬體問題時,會為驅動程序中的單個 io 請求設置 DID_ERROR 主機狀態。這包括儲存控制器內的通信和韌體問題,以及其他基於硬體的問題。
- FC 適配器:在來自儲存的光纖通道響應幀中,存在衝突數據。這表明 SAN/儲存中存在問題,而不是 RHEL 或其驅動程序中存在問題。
- LSI 適配器:scsi io 命令未能在控制器內完成(掛起)。這與 scsi 失敗並返回狀態或什至控制器能夠中止 io 的干淨 io 超時問題不同。這通常會導致設備失去和 DID_BAD_TARGET 的後續錯誤,當 HBA 返回的設備狀態為 LD_OFFLINE(存在邏輯設備,但未響應命令)或 DEVICE_NOT_FOUND(硬體中不再存在設備)時,會返回這些錯誤.
所以基於上面我們迷路了,因為我們不確定是否需要更換硬體機器本身,或者只需要更換sdc磁碟或其他東西
我會; 感謝您就我們的案例獲得任何建議,
伺服器中的
sdc
磁碟快要死了。
smartctl -a /dev/sdc
會讓你通過它的序列號來辨識它。由於您可能正在執行 RAID,因此必須採取預防措施才能將其移除並安裝替代品。