Rhel

rhel 7.x 機器意外故障和消息文件

  • October 18, 2020

今天我們的 Linux 伺服器 rhel 7.6 出現了奇怪的行為

由於某種原因伺服器出現故障

從消息文件中我們可以看到伺服器停止可用 Oct 16 18:17:22

一段時間後,我們在 - 啟動伺服器 Oct 18 04:42:46,(開機)

Oct 16 18:17:22 linux avahi-daemon[1140]: Invalid response packet from host 45.52.7.60.
Oct 16 18:17:22 linux avahi-daemon[1140]: Invalid response packet from host 45.52.91.79.
Oct 16 18:17:22 linux avahi-daemon[1140]: Invalid response packet from host 45.52.56.84.
Oct 16 18:17:22 linux avahi-daemon[1140]: Invalid response packet from host 45.52.84.118.
Oct 16 18:17:22 linux avahi-daemon[1140]: Invalid response packet from host 45.52.46.210.
Oct 16 18:17:22 linux avahi-daemon[1140]: Invalid response packet from host 45.52.81.152.
Oct 16 18:17:22 linux avahi-daemon[1140]: Invalid response packet from host 45.52.84.119.
Oct 16 18:17:22 linux avahi-daemon[1140]: Invalid response packet from host 45.52.130.225.
Oct 16 18:17:22 linux avahi-daemon[1140]: Invalid response packet from host 45.52.81.103.
Oct 16 18:17:22 linux avahi-daemon[1140]: Invalid response packet from host 45.52.92.110.
Oct 16 18:17:22 linux avahi-daemon[1140]: Invalid response packet from host 45.52.236.182.
Oct 16 18:17:22 linux avahi-daemon[1140]: Invalid response packet from host 45.52.77.79.
Oct 16 18:17:22 linux avahi-daemon[1140]: Invalid response packet from host 45.52.73.52.
Oct 16 18:17:22 linux avahi-daemon[1140]: Invalid response packet from host 45.52.88.172.
Oct 16 18:17:22 linux avahi-daemon[1140]: Invalid response packet from host 45.52.61.224.
Oct 16 18:17:22 linux avahi-daemon[1140]: Invalid response packet from host 45.52.98.223.
Oct 16 18:17:22 linux avahi-daemon[1140]: Invalid response packet from host 45.52.78.250.
Oct 18 04:42:46 linux rsyslogd: [origin software="rsyslogd" swVersion="7.4.7" x-pid="1122" x-info="http://www.rsyslog.com"] start
Oct 18 04:42:42 linux kernel: Initializing cgroup subsys cpuset
Oct 18 04:42:42 linux kernel: Initializing cgroup subsys cpu
Oct 18 04:42:42 linux kernel: Initializing cgroup subsys cpuacct
Oct 18 04:42:42 linux kernel: Linux version 3.10.0-327.el7.x86_64 (mockbuild@x86-034.build.eng.bos.redhat.com) (gcc version 4.8.3 20140911 (Red Hat 4.8.3-9) (GCC) ) #1 SMP Thu Oct 29 17:29:29 EDT 2015
Oct 18 04:42:42 linux kernel: Command line: BOOT_IMAGE=/vmlinuz-3.10.0-327.el7.x86_64
Oct 18 04:42:42 linux kernel: Disabled fast string operations
Oct 18 04:42:42 linux kernel: e820: BIOS-provided physical RAM map:

由於我們沒有太多細節為什麼伺服器意外停機,

那麼我們唯一看到的是avahi-daemon

所以我的問題是 - 劑量 avahi-daemon 服務可能是機器意外關機的原因?

儘管這不合邏輯,但只有avahi-daemon 消息是機器停機之前的消息

如果它是一個真正的伺服器,它有一個 BMC。您至少應該檢查 BMC 事件日誌。這將至少告訴您有關伺服器為何消失的一些資訊。(考慮到 syslog 只是一個由守護程序創建的普通文件——這意味著除了硬體問題之外,守護程序可能已經死亡,或者文件系統變得混亂。這就是 BMC 如此有價值的原因。)

還有一些事件沒有進入系統日誌(大多數核心恐慌,原因很明顯)。這些將顯示在控制台上——真正的伺服器應該將其控制台定向到 BMC 正在偵聽的串列埠。這意味著您可以通過網路從另一台伺服器連接到控制台,然後查看出現的內容。有時物理控制台會顯示相同的資訊(但請記住關閉螢幕消隱)。有些程序將通過 IPMI 連接到控制台並記錄出現的所有內容(例如 conman)。

根據公開的 Whois 查詢資訊,45.52.*.*該網段屬於 Frontier Communications of America, Inc。由於您收到來自整個網段的無效響應,看來 avahi-daemon 並沒有被限制接受來自您自己網路之外的數據包,它是響應來自您的 Internet 服務提供商的所有其他客戶端的隨機查詢。

正如 Artem S. Tashkinov 所說,如果你不需要avahi-daemon,你應該禁用它。即使你這樣做了,你也應該限制它只響應來自你自己網路的查詢。

如果您的伺服器具有硬體管理處理器(有時也稱為 BMC 或基板管理控制器),它可能已經記錄了有關崩潰的一些資訊。如果存在管理處理器並且與 IPMI 兼容,則ipmitool sel elist可能會顯示硬體日誌事件列表;這些可能表示輸入電源失去(例如斷電,或看門人拔掉插頭以執行地板緩衝區?),記憶體故障(如果使用 ECC 記憶體)或其他硬體故障,具體取決於伺服器硬體的實際功能.

引用自:https://unix.stackexchange.com/questions/615110