“rcu_sched 檢測到 CPU/任務停止” - jiffies - ESXi Ubuntu 16 FileServer 來賓

April 29, 2020

我的 ESXi 主機上有一個非常簡單的 Ubuntu 16 x64 VM 設置，它充當文件伺服器。它安裝了 NFS/SMB 和 MDADM。它已完全更新。
上周有兩次出現關於“rcu_sched detected stalls on CPUsjiffies 不足的錯誤和問題。
這次我拍了一張螢幕截圖，但它太糟糕了，以至於 ESXi 無法殺死虛擬機，並且在重新啟動後導致我的 MDADM 陣列重建。我擔心這會對我的硬碟造成不必要的損壞，想知道問題可能是什麼？虛擬機獲得大量額外資源，配備 1vCPU 和 4vThreads，配備 6GB 記憶體。
有任何想法嗎？虛擬機現在重新執行，所以我可以調試任何請求的資訊。我正在考慮只是遷移到基於 RHEL 的發行版，但我想找出問題與在不同的 Linux 作業系統上重建。
PS：我是主要使用者，據我記得當時沒有進行密集的 R/W 操作。

**TLDR；**大約一周後，我失去了一個 CPU 核心，可能是由於過熱/散熱器/風扇放置不當。
如果您使用的是 ESXi，我會啟動另一個作業系統並檢查 Temp 和/或考慮重新安裝 CPU 散熱器。
這篇文章有很多觀點，當我遇到問題時，Google對我的資訊很少。請在評論或答案中分享您的經驗！
時間線：
我收到關於 Jiffies 的錯誤
必須使用電源按鈕重新啟動
MDADM 陣列重建 –> 成功。
第二天我又收到一個錯誤
重啟/重建成功。
又一個錯誤！
使用新作業系統重建 VM
穩定一周左右
CPU中的單核死了！
對 ESXi 的進一步研究表明，如果沒有我沒有的某種高級硬體添加，ESXi 不會收集設備溫度（可能是因為我沒有使用“硬體兼容性列表”中的電腦。（https://communities .vmware.com/thread/547244）。如果有，ESXi 可能會限制我的 CPU。我現在使用 KVM，它通過正常方法檢查我所有的設備溫度並做出相應的反應。不僅如此，我的 RW 速度也大大提高了我的 Hypervisor 現在也是我的 FileServer 與之前我不得不將磁碟傳遞到 FileServer VM 之前，因為 ESXi 不支持 SMB/NFS/MDADM 等（我說的是 RW 速度提高了 2 或 3 倍，因為我的客戶端直接與 Hypervisor/FileServer 對話）。

引用自：https://unix.stackexchange.com/questions/429865

“rcu_sched 檢測到 CPU/任務停止” - jiffies - ESXi Ubuntu 16 FileServer 來賓

相關問答

支持 5 級分頁的 CPU 是否實現了 57 位長的地址匯流排？

Linux-Kernel Config - 對稱多處理支持 - 這適用於我的 CPU 嗎？

rhel + 如何在我的機器上禁用 CPU

sar中runq-sz是怎麼算的？

為什麼 kworker 在 Linux 3.0.0-12-server 上消耗這麼多資源？

我是否需要針對我的微架構數據採樣 (MDS) 狀態採取措施？