“rcu_sched 檢測到 CPU/任務停止” - jiffies - ESXi Ubuntu 16 FileServer 來賓
我的 ESXi 主機上有一個非常簡單的 Ubuntu 16 x64 VM 設置,它充當文件伺服器。它安裝了 NFS/SMB 和 MDADM。它已完全更新。
上周有兩次出現關於
“rcu_sched detected stalls on CPUs
jiffies 不足的錯誤和問題。這次我拍了一張螢幕截圖,但它太糟糕了,以至於 ESXi 無法殺死虛擬機,並且在重新啟動後導致我的 MDADM 陣列重建。我擔心這會對我的硬碟造成不必要的損壞,想知道問題可能是什麼?虛擬機獲得大量額外資源,配備 1vCPU 和 4vThreads,配備 6GB 記憶體。
有任何想法嗎?虛擬機現在重新執行,所以我可以調試任何請求的資訊。我正在考慮只是遷移到基於 RHEL 的發行版,但我想找出問題與在不同的 Linux 作業系統上重建。
PS:我是主要使用者,據我記得當時沒有進行密集的 R/W 操作。
**TLDR;**大約一周後,我失去了一個 CPU 核心,可能是由於過熱/散熱器/風扇放置不當。
- 如果您使用的是 ESXi,我會啟動另一個作業系統並檢查 Temp 和/或考慮重新安裝 CPU 散熱器。
- 這篇文章有很多觀點,當我遇到問題時,Google對我的資訊很少。請在評論或答案中分享您的經驗!
時間線:
- 我收到關於 Jiffies 的錯誤
- 必須使用電源按鈕重新啟動
- MDADM 陣列重建 –> 成功。
- 第二天我又收到一個錯誤
- 重啟/重建成功。
- 又一個錯誤!
- 使用新作業系統重建 VM
- 穩定一周左右
- CPU中的單核死了!
對 ESXi 的進一步研究表明,如果沒有我沒有的某種高級硬體添加,ESXi 不會收集設備溫度(可能是因為我沒有使用“硬體兼容性列表”中的電腦。(https://communities .vmware.com/thread/547244)。如果有,ESXi 可能會限制我的 CPU。我現在使用 KVM,它通過正常方法檢查我所有的設備溫度並做出相應的反應。不僅如此,我的 RW 速度也大大提高了我的 Hypervisor 現在也是我的 FileServer 與之前我不得不將磁碟傳遞到 FileServer VM 之前,因為 ESXi 不支持 SMB/NFS/MDADM 等(我說的是 RW 速度提高了 2 或 3 倍,因為我的客戶端直接與 Hypervisor/FileServer 對話)。