Monitoring
linux 是否已經內置了某種監控或警報基礎設施
在我們公司,大約有 30 到 40 台虛擬 linux 機器。每個 linux vm 可能有 3 個分區。
有時,不知何故,一個分區會被填滿並導致一個或多個應用程序停止執行。
我知道,我們可以編寫 cronjob 批處理腳本,每 30 分鐘執行一次,當超過門檻值時,您可以編寫電子郵件。
但是 - 沒有內置在普通 Linux 中的“監控或警報”基礎設施嗎?
有很多開源(和專有)監控工具旨在解決這個問題。它們依賴於 Linux 中的工具,而它們又依賴於核心中的系統呼叫。
一些工具專注於數據收集和監控,而其他工具則專注於警報,您選擇的工具取決於您的主要需求。
警報和監控工具最著名的例子是Nagios。Cacti和Munin等其他工具,更側重於數據收集和繪圖,並內置了一些警報。如果你有很多機器的大型集群,那麼Ganglia可能是你最好的選擇。
這些工具通常被稱為網路監控系統,維基百科有一個廣泛的列表。
我建議您不要重新發明輪子並尋找/使用這樣的工具。
根據您使用的 Linux 發行版,這些工具中的一個或多個已經在發行版儲存庫中可用,其預設配置支持您擁有的環境。