Debian
硬體更改後無法啟動 (OpenMediaVault)
我面臨一個我自己無法解決的問題,所以我決定在這裡尋求幫助:
介紹 :
幾週後搬到我的新家,我決定給我的 NAS 進行一些硬體更新:
- Mini-Itx 機箱
- Intel Celeron g4900(需要時使用集成顯卡)
- 2x4 GB DDR4-2400
- ZFS Z1 中的 4x3 TB NAS 驅動器 Wd Red 設置
- 華碩H310I-PLUS主機板
- Corsair Force mp500 120 GB 啟動 nvme
在某些零件的翻新硬體的幫助下,我改成了這個硬體:
- 2U伺服器機架
- Seasonic Focus 650w電源
- 4x4 GB SK 海力士 DDR4 2400 ECC
- 英特爾至強 E5 2683 V4 SR2JT,2.1GHz,16 核,LGA2011-3(翻新)
- 機械師 X99 K9 主機板
- Noctua NH-L12S CPU 散熱器
- Nvidia GT 710 低調(翻新)
首先,我知道很容易說這裡出現的所有問題都是翻新硬體或主機板的故障,但我在 Ubuntu Live USB 和一些 CPU / Mem 負載上遇到問題後測試了所有這些元件/壓力測試和現場發行版一切都很好……
問題 :
在我的電視上插入 HDMI 電纜啟動時,系統在變為綠色並帶有白色文本後凍結。
這是一個影片,我已經嘗試更改 grub.cfg 文件中的一些設置(刪除 quiet 選項並設置 nomodeset 標誌):
似乎恢復系統的唯一方法是重置按鈕,因為系統 100% 凍結,沒有快捷方式工作,沒有控制台……
日誌和調查:
這是我設法使用 Live USB 提取的啟動日誌:
在此日誌中,我不知道這是否是問題所在(除法錯誤):
nvidiafb: Unable to detect display type... nov. 29 02:03:41 NomadNas kernel: ...Using default of CRT nov. 29 02:03:41 NomadNas kernel: nvidiafb: Unable to detect which CRTCNumber... nov. 29 02:03:41 NomadNas kernel: ...Defaulting to CRTCNumber 0 nov. 29 02:03:41 NomadNas kernel: nvidiafb: Using CRT on CRTC 0 nov. 29 02:03:41 NomadNas kernel: fbcon: NV28 (fb0) is primary device nov. 29 02:03:41 NomadNas kernel: divide error: 0000 [#1] SMP PTI nov. 29 02:03:41 NomadNas kernel: CPU: 0 PID: 389 Comm: kworker/0:3 Tainted: P O 5.4.143-1-pve #1 nov. 29 02:03:41 NomadNas kernel: Hardware name: Default string Default string/X99-k9, BIOS 5.11 01/11/2021 nov. 29 02:03:41 NomadNas kernel: Workqueue: events work_for_cpu_fn nov. 29 02:03:41 NomadNas kernel: RIP: 0010:nvGetClocks+0x186/0x280 [nvidiafb] nov. 29 02:03:41 NomadNas kernel: Code: 0f 00 00 3d 00 03 00 00 74 73 3d 30 03 00 00 74 6c 41 8b 89 04 05 00 00 0f b6 c5 44 0f b6 c9 c1 e9 10 0f af c2 31 d2 83 e1 0f <41> f7 f1 d3 e8 89 06 48 8b 87 40 11 00 00 8b 88 00 05 00 00 0f b6 nov. 29 02:03:41 NomadNas kernel: RSP: 0018:ffffaecd009dfa80 EFLAGS: 00010246 nov. 29 02:03:41 NomadNas kernel: RAX: 0000000000000000 RBX: ffff95e08d5aa510 RCX: 0000000000000000 nov. 29 02:03:41 NomadNas kernel: RDX: 0000000000000000 RSI: ffffaecd009dfab8 RDI: ffff95e08d5aa418 nov. 29 02:03:41 NomadNas kernel: RBP: ffffaecd009dfa88 R08: ffffaecd009dfabc R09: 0000000000000000 nov. 29 02:03:41 NomadNas kernel: R10: ffff95e08d5aa418 R11: 0000000000062570 R12: 0000000000000020 nov. 29 02:03:41 NomadNas kernel: R13: 0000000000006247 R14: 0000000000000010 R15: 0000000000000068 nov. 29 02:03:41 NomadNas kernel: FS: 0000000000000000(0000) GS:ffff95e09f400000(0000) knlGS:0000000000000000 nov. 29 02:03:41 NomadNas kernel: CS: 0010 DS: 0000 ES: 0000 CR0: 0000000080050033 nov. 29 02:03:41 NomadNas kernel: CR2: 00007f323bf6a22d CR3: 00000005c660a005 CR4: 00000000003606f0 nov. 29 02:03:41 NomadNas kernel: DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000 nov. 29 02:03:41 NomadNas kernel: DR3: 0000000000000000 DR6: 00000000fffe0ff0 DR7: 0000000000000400 nov. 29 02:03:41 NomadNas kernel: Call Trace: nov. 29 02:03:41 NomadNas kernel: NVCalcStateExt+0x1c7/0x950 [nvidiafb] nov. 29 02:03:41 NomadNas kernel: ? _cond_resched+0x19/0x30 nov. 29 02:03:41 NomadNas kernel: ? _cond_resched+0x19/0x30 nov. 29 02:03:41 NomadNas kernel: ? kmem_cache_alloc_trace+0x172/0x240 nov. 29 02:03:41 NomadNas kernel: nvidiafb_set_par+0x49e/0xa40 [nvidiafb] nov. 29 02:03:41 NomadNas kernel: fbcon_init+0x2ad/0x570 nov. 29 02:03:41 NomadNas kernel: visual_init+0xd5/0x130 nov. 29 02:03:41 NomadNas kernel: do_bind_con_driver+0x1ed/0x2e0 nov. 29 02:03:41 NomadNas kernel: do_take_over_console+0x129/0x1a0 nov. 29 02:03:41 NomadNas kernel: do_fbcon_takeover+0x5c/0xb0 nov. 29 02:03:41 NomadNas kernel: fbcon_fb_registered+0x113/0x120 nov. 29 02:03:41 NomadNas kernel: register_framebuffer+0x230/0x310 nov. 29 02:03:41 NomadNas kernel: nvidiafb_probe.cold.12+0x78e/0x80a [nvidiafb] nov. 29 02:03:41 NomadNas kernel: local_pci_probe+0x47/0x80 nov. 29 02:03:41 NomadNas kernel: work_for_cpu_fn+0x1a/0x30 nov. 29 02:03:41 NomadNas kernel: process_one_work+0x20f/0x3d0 nov. 29 02:03:41 NomadNas kernel: worker_thread+0x233/0x400 nov. 29 02:03:41 NomadNas kernel: kthread+0x120/0x140 nov. 29 02:03:41 NomadNas kernel: ? process_one_work+0x3d0/0x3d0 nov. 29 02:03:41 NomadNas kernel: ? kthread_park+0x90/0x90 nov. 29 02:03:41 NomadNas kernel: ret_from_fork+0x35/0x40 nov. 29 02:03:41 NomadNas kernel: Modules linked in: snd_hda_codec_hdmi(+) intel_rapl_msr intel_rapl_common uas usb_storage input_leds joydev usbkbd x86_pkg_temp_thermal intel_powerclamp snd_hda_codec_realtek kvm_intel snd_hda_codec_generic ledtrig_audio kvm irqbypass snd_hda_intel crct10dif_pclmul snd_intel_dspcfg crc32_pclmul ghash_clmulni_intel snd_hda_codec aesni_intel snd_hda_core crypto_simd snd_hwdep cryptd glue_helper snd_pcm nvidiafb(+) snd_timer vgastate rapl snd fb_ddc intel_cstate serio_raw pcspkr mxm_wmi i2c_algo_bit soundcore mac_hid zfs(PO) zunicode(PO) zzstd(O) zlua(O) zavl(PO) icp(PO) zcommon(PO) znvpair(PO) spl(O) coretemp nfsd auth_rpcgss nfs_acl lockd grace sunrpc ip_tables x_tables autofs4 hid_generic usbmouse usbhid hid btrfs zstd_compress raid10 raid456 async_raid6_recov async_memcpy async_pq async_xor async_tx xor raid6_pq libcrc32c raid1 raid0 multipath linear psmouse ahci xhci_pci r8169 ehci_pci i2c_i801 libahci lpc_ich realtek xhci_hcd ehci_hcd wmi nov. 29 02:03:41 NomadNas kernel: ---[ end trace 91e53edc0a767313 ]--- nov. 29 02:03:41 NomadNas kernel: RIP: 0010:nvGetClocks+0x186/0x280 [nvidiafb] nov. 29 02:03:41 NomadNas kernel: Code: 0f 00 00 3d 00 03 00 00 74 73 3d 30 03 00 00 74 6c 41 8b 89 04 05 00 00 0f b6 c5 44 0f b6 c9 c1 e9 10 0f af c2 31 d2 83 e1 0f <41> f7 f1 d3 e8 89 06 48 8b 87 40 11 00 00 8b 88 00 05 00 00 0f b6
向社區提出的問題:
首先感謝任何花時間幫助我的人,在我擦除所有引導驅動器並開始新設置之前,你是我最後的希望(所有設置,碼頭工人,ZFS ……)。
- 我怎樣才能擁有一個最小的工作環境(例如:沒有載入 nVidia 驅動程序,我嘗試了 nomodeset 它不起作用)以便在系統上而不是在實時 USB 發行版上操作控制台
- 這真的與這個“除法錯誤”有關嗎,因為在這個問題之後還有一些日誌行
- 重新安裝 OMV 並失去幾乎所有的設置是我唯一的選擇嗎?(是的,我仍然可以備份一些 .config 文件,但是……)
- 新安裝甚至有機會工作嗎?(硬體/OMV 不兼容??)
非常感謝您的幫助 :)
最後通過使用 ./etc/modprobe.d/openmediavault.conf 將 nvidiafb 模組列入黑名單(目前)使其工作
blacklist nvidiafb
我還補充說:
blacklist sb_edac
但我認為這不是問題,所以我最好刪除這一行,因為列表中顯示的 ECC 消息只是一些警告……如果我沒有在這篇文章中回复,請認為這最後一行黑名單無用 :)。