Hardware

這是什麼原因造成的?pcieport 0000:00:03.0:PCIe 匯流排錯誤:AER / Bad TLP

  • February 7, 2021

我看到如下錯誤消息:

Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: AER: Multiple 
Corrected error received: id=0018 Nov 15 15:49:52 x99 kernel: pcieport
0000:00:03.0: PCIe Bus Error: severity=Corrected, type=Data Link Layer, 
id=0018(Receiver ID) Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: 
device [8086:6f08] error status/mask=00000040/00002000 Nov 15 15:49:52 
x99 kernel: pcieport 0000:00:03.0: [ 6] Bad TLP

這些將導致性能下降,即使它們(到目前為止)已得到糾正。顯然,這個問題需要解決。但是,我在網際網路上找不到太多關於它的資訊。(也許我找錯地方了。)我只找到了幾個連結,我將在下面發布。

有誰知道更多關於這些錯誤的資訊?

是主機板、三星 950 Pro 還是 GPU(或它們的某種組合)?

硬體是:M2 中的 Asus X99 Deluxe II Samsung 950 Pro NVMe。mb 上的插槽(共享 PCIe 埠 3)。PCIe 埠 3 中沒有插入其他任何東西。PCIe 插槽 1 中的 GeForce GTX 1070 Core i7 6850K CPU

我發現的幾個連結提到了相同的硬體(X99 Deluxe II mb 和 Samsung950 Pro)。我正在執行 Arch Linux。

我在 journalctl 或到目前為止我想搜尋的任何其他地方都沒有找到字元串“8086:6f08”。

nvme ssd(Bad TLP)的奇怪錯誤消息:linuxquestions https://www.reddit.com/r/linuxquestions/comments/4walnu/odd_error_message_with_nvme_ssd_bad_tlp/

PCIe:您的卡是否在默默地為 TLP 重傳而苦苦掙扎?http://billauer.co.il/blog/2011/07/pcie-tlp-dllp-retransmit-data-link-layer-error/

GTX 1080 引發錯誤的 TLP PCIe 匯流排錯誤 - GeForce 論壇https://forums.geforce.com/default/topic/957456/gtx-1080-throwing-bad-tlp-pcie-bus-errors/

驅動程序 - dmesg 日誌中的 PCIe 錯誤 - 詢問 Ubuntu https://askubuntu.com/questions/643952/pcie-error-in-dmesg-log

780Ti X99 硬鎖 - PCIE 錯誤 - NVIDIA 開發者論壇 https://devtalk.nvidia.com/default/topic/779994/linux/780ti-x99-hard-lock-pcie-errors/

我至少可以提供一些細節,儘管我不能完全解釋發生了什麼。

這裡所描述的,CPU 通過事務層數據包(TLP) 與 PCIe 匯流排控制器通信。硬體檢測何時有故障,Linux 核心將其報告為消息。

kernel 選項pci=nommconf禁用 Memory-Mapped PCI Configuration Space,自核心 2.6 起在 Linux 中可用。非常粗略地說,所有 PCI 設備都有一個描述該設備的區域(您可以看到lspci -vv),訪問該區域的最初方法涉及通過 I/O 埠,而 PCIe 允許將該空間映射到記憶體以便更簡單地訪問。

意味著在這種特殊情況下,當 PCIe 控制器使用此方法訪問特定設備的配置空間時會出現問題。它可能是設備中的硬體錯誤,主機板上的 PCIe 根控制器中,這兩者的特定互動中,或其他東西。

通過使用pci=nommconf,所有設備的配置空間都將按照原來的方式訪問,改變訪問方式可以解決這個問題。因此,如果您願意,它既可以解決又可以抑制它。

引用自:https://unix.stackexchange.com/questions/327730