Kernel

“rcu_sched 檢測到 CPU/任務停止” - jiffies - ESXi Ubuntu 16 FileServer 來賓

  • April 29, 2020

我的 ESXi 主機上有一個非常簡單的 Ubuntu 16 x64 VM 設置,它充當文件伺服器。它安裝了 NFS/SMB 和 MDADM。它已完全更新。

上周有兩次出現關於“rcu_sched detected stalls on CPUsjiffies 不足的錯誤和問題。

這次我拍了一張螢幕截圖,但它太糟糕了,以至於 ESXi 無法殺死虛擬機,並且在重新啟動後導致我的 MDADM 陣列重建。我擔心這會對我的硬碟造成不必要的損壞,想知道問題可能是什麼?虛擬機獲得大量額外資源,配備 1vCPU 和 4vThreads,配備 6GB 記憶體。

有任何想法嗎?虛擬機現在重新執行,所以我可以調試任何請求的資訊。我正在考慮只是遷移到基於 RHEL 的發行版,但我想找出問題與在不同的 Linux 作業系統上重建。

在此處輸入圖像描述

PS:我是主要使用者,據我記得當時沒有進行密集的 R/W 操作。

**TLDR;**大約一周後,我失去了一個 CPU 核心,可能是由於過熱/散熱器/風扇放置不當。

  • 如果您使用的是 ESXi,我會啟動另一個作業系統並檢查 Temp 和/或考慮重新安裝 CPU 散熱器。
  • 這篇文章有很多觀點,當我遇到問題時,Google對我的資訊很少。請在評論或答案中分享您的經驗!

時間線:

  • 我收到關於 Jiffies 的錯誤
  • 必須使用電源按鈕重新啟動
  • MDADM 陣列重建 –> 成功。
  • 第二天我又收到一個錯誤
  • 重啟/重建成功。
  • 又一個錯誤!
  • 使用新作業系統重建 VM
  • 穩定一周左右
  • CPU中的單核死了!

對 ESXi 的進一步研究表明,如果沒有我沒有的某種高級硬體添加,ESXi 不會收集設備溫度(可能是因為我沒有使用“硬體兼容性列表”中的電腦。(https://communities .vmware.com/thread/547244)。如果有,ESXi 可能會限制我的 CPU。我現在使用 KVM,它通過正常方法檢查我所有的設備溫度並做出相應的反應。不僅如此,我的 RW 速度也大大提高了我的 Hypervisor 現在也是我的 FileServer 與之前我不得不將磁碟傳遞到 FileServer VM 之前,因為 ESXi 不支持 SMB/NFS/MDADM 等(我說的是 RW 速度提高了 2 或 3 倍,因為我的客戶端直接與 Hypervisor/FileServer 對話)。

引用自:https://unix.stackexchange.com/questions/429865