Monitoring

監控數百台主機的基本參數

  • April 6, 2013

我們在 EC2 和 Google 計算引擎上有數百個 Linux 虛擬機。我們希望以最簡單和最輕便的方式監控磁碟可用空間和記憶體消耗等基本情況。可以預料,隨著負載的變化等,VM 經常來來去去。

目前,我們使用通過 SNMP 提取此類資訊的簡單腳本。我們不需要花哨的特定於應用程序的監控,因為它已經由特定於應用程序的方式提供。

我們試用了 Zenoss,發現它很難使用,而且缺少文件。

我們考慮了 Nagios 及其分支。我們考慮了 Sensu(但我的老闆不是 RabbitMQ 的粉絲)和 Ganglia,但對於我們的基本需求來說,它們似乎都太複雜了。

像 Circonus 這樣的 SaaS 解決方案對於我們擁有的主機數量來說太貴了。

我在這裡錯過了一些明顯的簡單解決方案嗎?你會推薦什麼

$$ against $$?

如果您更關注開源方向,Open NMS可能會滿足您的需求。我自己沒有使用它,但我聽到了關於它的好消息(尤其是從不喜歡 Nagios 的人那裡)。從我讀到的內容來看,它也是基於 SNMP 的。

我認為collectd可能滿足您的需求,尤其是在 EC2 中,因為您可以將其添加到您的基礎 AMI,並且它將數據發送到(一個或多個)中央收集器。

這樣,新實例會立即開始向您發送數據,而您並不總是通過添加/刪除來調整監控系統。

使用石墨收集數據,並使用簡單的 nagios 設置或 cron 作業腳本來檢查超出“規範”的值。

從這個基礎你可以輕鬆成長。

引用自:https://unix.stackexchange.com/questions/66325