Cluster
Rocks 集群從機自發復位?
我正在“管理”一個基於 Rocks Cluster 的小型集群(4 個節點)。在最近重新啟動後,從節點似乎都決定自發地重新安裝它們的作業系統,擦除它們的整個配置、infiniband 支持、安裝的軟體等。
我無法理解為什麼系統可能會這樣做,這非常無益。以前有沒有人發生過這種情況?是什麼原因造成的?
而對於踢球者來說,由於我可能已經辭職以將節點重建為他們應該擁有的規範,一旦它們處於工作狀態,如何備份奴隸?
附加資訊:
此外,基於嘗試的 ping,頭節點似乎在很大程度上無法訪問網際網路。它似乎也無法 ping 本地 DNS 地址 (192.168.0.1)
事實證明,至少在某些情況下,Rocks 的預設設置是在每次啟動時在從節點上重新安裝(1)。據推測,其意圖是集群始終處於開啟狀態,並且重新啟動可能意味著進行了一些可以從重新安裝中受益的更改。對於隨便使用的系統,這是不合適的,因為不太可能將所有安裝後腳本都配置為完成完全重新安裝。避免重新安裝的方法是執行:
rocks run host compute "chkconfig rocks-grub off"
這將在“計算”組中的所有從節點上執行該功能,禁用重新安裝功能。
在我的情況下,從節點設置為首先從本地驅動器啟動,避免自動重新安裝。我相信觸發它的原因是強制斷電破壞了本地磁碟,這樣在下次啟動時,本地損壞的磁碟將無法啟動並移交給從頭節點獲得重新安裝指令的 PXE 啟動。強制斷電是由於
shutdown now
在從站上執行的未知中斷引起的。關閉物理電源就是將它們關閉的唯一方法。我現在使用shutdown -h now
似乎可以克服任何中斷香草關閉的問題。