rhel 7.x 機器意外故障和消息文件
今天我們的 Linux 伺服器 rhel 7.6 出現了奇怪的行為
由於某種原因伺服器出現故障
從消息文件中我們可以看到伺服器停止可用
Oct 16 18:17:22
一段時間後,我們在 - 啟動伺服器
Oct 18 04:42:46
,(開機)Oct 16 18:17:22 linux avahi-daemon[1140]: Invalid response packet from host 45.52.7.60. Oct 16 18:17:22 linux avahi-daemon[1140]: Invalid response packet from host 45.52.91.79. Oct 16 18:17:22 linux avahi-daemon[1140]: Invalid response packet from host 45.52.56.84. Oct 16 18:17:22 linux avahi-daemon[1140]: Invalid response packet from host 45.52.84.118. Oct 16 18:17:22 linux avahi-daemon[1140]: Invalid response packet from host 45.52.46.210. Oct 16 18:17:22 linux avahi-daemon[1140]: Invalid response packet from host 45.52.81.152. Oct 16 18:17:22 linux avahi-daemon[1140]: Invalid response packet from host 45.52.84.119. Oct 16 18:17:22 linux avahi-daemon[1140]: Invalid response packet from host 45.52.130.225. Oct 16 18:17:22 linux avahi-daemon[1140]: Invalid response packet from host 45.52.81.103. Oct 16 18:17:22 linux avahi-daemon[1140]: Invalid response packet from host 45.52.92.110. Oct 16 18:17:22 linux avahi-daemon[1140]: Invalid response packet from host 45.52.236.182. Oct 16 18:17:22 linux avahi-daemon[1140]: Invalid response packet from host 45.52.77.79. Oct 16 18:17:22 linux avahi-daemon[1140]: Invalid response packet from host 45.52.73.52. Oct 16 18:17:22 linux avahi-daemon[1140]: Invalid response packet from host 45.52.88.172. Oct 16 18:17:22 linux avahi-daemon[1140]: Invalid response packet from host 45.52.61.224. Oct 16 18:17:22 linux avahi-daemon[1140]: Invalid response packet from host 45.52.98.223. Oct 16 18:17:22 linux avahi-daemon[1140]: Invalid response packet from host 45.52.78.250. Oct 18 04:42:46 linux rsyslogd: [origin software="rsyslogd" swVersion="7.4.7" x-pid="1122" x-info="http://www.rsyslog.com"] start Oct 18 04:42:42 linux kernel: Initializing cgroup subsys cpuset Oct 18 04:42:42 linux kernel: Initializing cgroup subsys cpu Oct 18 04:42:42 linux kernel: Initializing cgroup subsys cpuacct Oct 18 04:42:42 linux kernel: Linux version 3.10.0-327.el7.x86_64 (mockbuild@x86-034.build.eng.bos.redhat.com) (gcc version 4.8.3 20140911 (Red Hat 4.8.3-9) (GCC) ) #1 SMP Thu Oct 29 17:29:29 EDT 2015 Oct 18 04:42:42 linux kernel: Command line: BOOT_IMAGE=/vmlinuz-3.10.0-327.el7.x86_64 Oct 18 04:42:42 linux kernel: Disabled fast string operations Oct 18 04:42:42 linux kernel: e820: BIOS-provided physical RAM map:
由於我們沒有太多細節為什麼伺服器意外停機,
那麼我們唯一看到的是
avahi-daemon
所以我的問題是 - 劑量 avahi-daemon 服務可能是機器意外關機的原因?
儘管這不合邏輯,但只有
avahi-daemon
消息是機器停機之前的消息
如果它是一個真正的伺服器,它有一個 BMC。您至少應該檢查 BMC 事件日誌。這將至少告訴您有關伺服器為何消失的一些資訊。(考慮到 syslog 只是一個由守護程序創建的普通文件——這意味著除了硬體問題之外,守護程序可能已經死亡,或者文件系統變得混亂。這就是 BMC 如此有價值的原因。)
還有一些事件沒有進入系統日誌(大多數核心恐慌,原因很明顯)。這些將顯示在控制台上——真正的伺服器應該將其控制台定向到 BMC 正在偵聽的串列埠。這意味著您可以通過網路從另一台伺服器連接到控制台,然後查看出現的內容。有時物理控制台會顯示相同的資訊(但請記住關閉螢幕消隱)。有些程序將通過 IPMI 連接到控制台並記錄出現的所有內容(例如 conman)。
根據公開的 Whois 查詢資訊,
45.52.*.*
該網段屬於 Frontier Communications of America, Inc。由於您收到來自整個網段的無效響應,看來 avahi-daemon 並沒有被限制接受來自您自己網路之外的數據包,它是響應來自您的 Internet 服務提供商的所有其他客戶端的隨機查詢。正如 Artem S. Tashkinov 所說,如果你不需要
avahi-daemon
,你應該禁用它。即使你這樣做了,你也應該限制它只響應來自你自己網路的查詢。如果您的伺服器具有硬體管理處理器(有時也稱為 BMC 或基板管理控制器),它可能已經記錄了有關崩潰的一些資訊。如果存在管理處理器並且與 IPMI 兼容,則
ipmitool sel elist
可能會顯示硬體日誌事件列表;這些可能表示輸入電源失去(例如斷電,或看門人拔掉插頭以執行地板緩衝區?),記憶體故障(如果使用 ECC 記憶體)或其他硬體故障,具體取決於伺服器硬體的實際功能.