這是什麼原因造成的?pcieport 0000:00:03.0:PCIe 匯流排錯誤:AER / Bad TLP
我看到如下錯誤消息:
Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: AER: Multiple Corrected error received: id=0018 Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: PCIe Bus Error: severity=Corrected, type=Data Link Layer, id=0018(Receiver ID) Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: device [8086:6f08] error status/mask=00000040/00002000 Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: [ 6] Bad TLP
這些將導致性能下降,即使它們(到目前為止)已得到糾正。顯然,這個問題需要解決。但是,我在網際網路上找不到太多關於它的資訊。(也許我找錯地方了。)我只找到了幾個連結,我將在下面發布。
有誰知道更多關於這些錯誤的資訊?
是主機板、三星 950 Pro 還是 GPU(或它們的某種組合)?
硬體是:M2 中的 Asus X99 Deluxe II Samsung 950 Pro NVMe。mb 上的插槽(共享 PCIe 埠 3)。PCIe 埠 3 中沒有插入其他任何東西。PCIe 插槽 1 中的 GeForce GTX 1070 Core i7 6850K CPU
我發現的幾個連結提到了相同的硬體(X99 Deluxe II mb 和 Samsung950 Pro)。我正在執行 Arch Linux。
我在 journalctl 或到目前為止我想搜尋的任何其他地方都沒有找到字元串“8086:6f08”。
nvme ssd(Bad TLP)的奇怪錯誤消息:linuxquestions https://www.reddit.com/r/linuxquestions/comments/4walnu/odd_error_message_with_nvme_ssd_bad_tlp/
PCIe:您的卡是否在默默地為 TLP 重傳而苦苦掙扎?http://billauer.co.il/blog/2011/07/pcie-tlp-dllp-retransmit-data-link-layer-error/
GTX 1080 引發錯誤的 TLP PCIe 匯流排錯誤 - GeForce 論壇https://forums.geforce.com/default/topic/957456/gtx-1080-throwing-bad-tlp-pcie-bus-errors/
驅動程序 - dmesg 日誌中的 PCIe 錯誤 - 詢問 Ubuntu https://askubuntu.com/questions/643952/pcie-error-in-dmesg-log
780Ti X99 硬鎖 - PCIE 錯誤 - NVIDIA 開發者論壇 https://devtalk.nvidia.com/default/topic/779994/linux/780ti-x99-hard-lock-pcie-errors/
我至少可以提供一些細節,儘管我不能完全解釋發生了什麼。
如這裡所描述的,CPU 通過事務層數據包(TLP) 與 PCIe 匯流排控制器通信。硬體檢測何時有故障,Linux 核心將其報告為消息。
kernel 選項
pci=nommconf
禁用 Memory-Mapped PCI Configuration Space,自核心 2.6 起在 Linux 中可用。非常粗略地說,所有 PCI 設備都有一個描述該設備的區域(您可以看到lspci -vv
),訪問該區域的最初方法涉及通過 I/O 埠,而 PCIe 允許將該空間映射到記憶體以便更簡單地訪問。這意味著在這種特殊情況下,當 PCIe 控制器使用此方法訪問特定設備的配置空間時會出現問題。它可能是設備中的硬體錯誤,主機板上的 PCIe 根控制器中,這兩者的特定互動中,或其他東西。
通過使用
pci=nommconf
,所有設備的配置空間都將按照原來的方式訪問,改變訪問方式可以解決這個問題。因此,如果您願意,它既可以解決又可以抑制它。