อะไรทำให้เกิดสิ่งนี้ pcieport 0000: 00: 03.0: PCIe Bus Error: AER / Bad TLP


20

ฉันเห็นข้อความแสดงข้อผิดพลาดดังนี้:

Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: AER: Multiple 
Corrected error received: id=0018 Nov 15 15:49:52 x99 kernel: pcieport
0000:00:03.0: PCIe Bus Error: severity=Corrected, type=Data Link Layer, 
id=0018(Receiver ID) Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: 
device [8086:6f08] error status/mask=00000040/00002000 Nov 15 15:49:52 
x99 kernel: pcieport 0000:00:03.0: [ 6] Bad TLP

สิ่งเหล่านี้จะทำให้ประสิทธิภาพการทำงานลดลงแม้ว่าจะได้รับการแก้ไขแล้วก็ตาม เห็นได้ชัดว่าปัญหานี้ต้องได้รับการแก้ไข อย่างไรก็ตามฉันไม่สามารถหาข้อมูลเกี่ยวกับมันได้จากอินเทอร์เน็ต (บางทีฉันกำลังมองหาสถานที่ที่ไม่ถูกต้อง) ฉันพบลิงค์เพียงไม่กี่ตัว

ไม่มีใครรู้เพิ่มเติมเกี่ยวกับข้อผิดพลาดเหล่านี้หรือไม่

มันเป็นเมนบอร์ด, Samsung 950 Pro, หรือ GPU (หรือบางอย่างรวมกัน)

ฮาร์ดแวร์คือ: Asus X99 Deluxe II Samsung 950 Pro NVMe ใน M2 slot บน mb (ซึ่งแบ่งใช้พอร์ต PCIe 3) ไม่มีสิ่งใดเสียบเข้ากับพอร์ต PCIe 3. GeForce GTX 1070 ในสล็อต PCIe 1 Core i7 6850K CPU

พบลิงก์สองสามตัวที่กล่าวถึงฮาร์ดแวร์เดียวกัน (X99 Deluxe II mb & Samsung950 Pro) ฉันใช้ Arch Linux

ฉันไม่พบสตริง "8086: 6f08" ใน journalctl หรือที่อื่นที่ฉันคิดว่าจะค้นหาจนถึงตอนนี้

ข้อความแสดงข้อผิดพลาดแปลก ๆ ด้วย nvme ssd (TLP ไม่ถูกต้อง): linuxquestions https://www.reddit.com/r/linuxquestions/comments/4walnu/odd_error_message_with_nvme_ssd_bad_tlp/

PCIe: การ์ดของคุณดิ้นรนอย่างเงียบ ๆ กับการส่งผ่านข้อมูล TLP ซ้ำอีกครั้งหรือไม่ http://billauer.co.il/blog/2011/07/pcie-tlp-dllp-retransmit-data-link-layer-error/

GTX 1080 การโยนข้อผิดพลาด Bad TLP PCIe Bus - ฟอรัม GeForce https://forums.geforce.com/default/topic/957456/gtx-1080-throwing-bad-tlp-pcie-bus-errors/

ไดรเวอร์ - ข้อผิดพลาด PCIe ในบันทึก dmesg - ถาม Ubuntu /ubuntu/643952/pcie-error-in-dmesg-log

ล็อคแข็ง 780Ti X99 - ข้อผิดพลาด PCIE - ฟอรัม NVIDIA Developer https://devtalk.nvidia.com/default/topic/779994/linux/780ti-x99-hard-lock-pcie-errors/


ฉันย้าย gtx 710 ของฉันจากสล็อต pcie x16 ไปยังสล็อต x1 (asus prime b450-plus, ryzen 5 3600, samsung nvme 970)
trants

คำตอบ:


23

ฉันสามารถให้รายละเอียดอย่างน้อยสองสามถึงแม้ว่าฉันไม่สามารถอธิบายสิ่งที่เกิดขึ้น

ตามที่อธิบายไว้ตัวอย่างเช่นที่นี่ CPU สื่อสารกับคอนโทรลเลอร์ PCIe บัสโดยtransaction layer packets (TLPs) ฮาร์ดแวร์ตรวจพบเมื่อมีข้อบกพร่องและเคอร์เนล Linux รายงานว่าเป็นข้อความ

ตัวเลือกเคอร์เนลpci=nommconfจะปิดการใช้งานพื้นที่กำหนดค่า PCI ที่ Memory-Mapped ซึ่งมีอยู่ใน Linux ตั้งแต่เคอร์เนล 2.6 โดยทั่วไปแล้วอุปกรณ์ PCI ทั้งหมดมีพื้นที่ที่อธิบายอุปกรณ์นี้ (ซึ่งคุณเห็นด้วยlspci -vv) และวิธีการเข้าถึงพื้นที่นี้ในขั้นต้นนั้นเกี่ยวข้องกับการผ่านพอร์ต I / O ในขณะที่ PCIe อนุญาตให้มีการแมปพื้นที่นี้กับหน่วยความจำเพื่อการเข้าถึงที่ง่ายขึ้น

ในกรณีนี้หมายถึงบางสิ่งผิดปกติเมื่อคอนโทรลเลอร์ PCIe ใช้วิธีนี้ในการเข้าถึงพื้นที่การกำหนดค่าของอุปกรณ์เฉพาะ อาจเป็นข้อบกพร่องของฮาร์ดแวร์ในอุปกรณ์ในคอนโทรลเลอร์ PCIe รูทบนแผงวงจรหลักในการโต้ตอบเฉพาะของทั้งสองหรืออย่างอื่น

ด้วยการใช้pci=nommconfพื้นที่การกำหนดค่าของอุปกรณ์ทั้งหมดจะสามารถเข้าถึงได้ด้วยวิธีดั้งเดิมและการเปลี่ยนวิธีการเข้าถึงแก้ไขปัญหานี้ได้ ดังนั้นถ้าคุณต้องการมันทั้งแก้ไขและระงับมัน


ฉันจะรู้ได้อย่างไรว่ามันเป็นปัญหามาเธอร์บอร์ดหรือไม่? หรือปัญหาซีพียูของฉัน ฉันควรเปลี่ยนพวกเขาหรือไม่
user10024395

@ user2675516: ไม่เกี่ยวข้องกับ CPU มันเป็นปัญหาของคอนโทรลเลอร์ PCIe root (ซึ่งมักอยู่ใน Southbridge) และ / หรือคอนโทรลเลอร์ PCIe ของอุปกรณ์หรือการมีปฏิสัมพันธ์ ใช่การเปลี่ยนมาเธอร์บอร์ดสำหรับหนึ่งด้วยฮาร์ดแวร์ที่แตกต่างกันมักจะกำจัดมัน
dirkt

ฉันเปลี่ยนจาก asus e-ws เป็น asus deluxe แต่ปัญหายังคงมีอยู่ นั่นเป็นเหตุผลที่ฉันสงสัยว่ามันเป็นซีพียู หรือเป็นเพราะทั้งคู่เป็นชิปเซ็ต X99?
user10024395

1
@ user2675516: หากชิปเซ็ตเหมือนกัน esp. คอนโทรลเลอร์ PCIe จากนั้นเปลี่ยนเมนบอร์ดแน่นอนไม่ช่วย นั่นเป็นเหตุผลที่ฉันเขียนว่า "มาเธอร์บอร์ดที่มีฮาร์ดแวร์ต่างกัน "
dirkt

ปัจจัยทั่วไปสำหรับฉันดูเหมือนจะเป็นเมนบอร์ดที่มีชิปเซ็ต X99
MountainX สำหรับ Monica Cellio

3

การเพิ่มตัวเลือกบรรทัดคำสั่งเคอร์เนลสามารถpci=nommconfแก้ไขปัญหาให้ฉันได้ ดังนั้นฉันคิดว่าปัญหานี้เกี่ยวข้องกับเมนบอร์ด มันเกิดขึ้นกับคอมพิวเตอร์ที่ติดตั้งมาเธอร์บอร์ด X99 ของฉันทั้งหมด มันไม่ได้เกิดขึ้นในระบบ Z170 หรือฮาร์ดแวร์อื่น ๆ ที่ฉันเป็นเจ้าของ


1
สวัสดีฉันกำลังประสบปัญหานี้เช่นกัน ฉันรู้ว่า pci-nommconf ทำอะไรได้บ้าง มันเป็นเพียงการระงับปัญหาหรือแก้ไขปัญหาหรือไม่
user10024395

ไม่สามารถยืนยัน - รับข้อผิดพลาดใน z170i, เรียกใช้ arch 4.13.12
sitilge

@sitilge - ขอบคุณสำหรับความคิดเห็นของคุณ ยี่ห้อ / รุ่น z170i ใด มาเธอร์บอร์ดของฉันคือ Asus One คือ X99 Deluxe II
MountainX สำหรับ Monica Cellio

มันเป็น asus z170i pro gaming
sitilge

3

ลองขั้นตอนนี้:

  1. cp /etc/default/grub ~/Desktop
  2. แก้ไขด้วง เพิ่มในตอนท้ายของpci=noaer GRUB_CMDLINE_LINUX_DEFAULTบรรทัดจะเป็นดังนี้:

    GRUB_CMDLINE_LINUX_DEFAULT="quiet splash pci=noaer"
    
  3. sudo cp ~/Desktop/grub /etc/default/

  4. sudo update-grub
  5. รีบูทเดี๋ยวนี้

ฉันใช้วิธีแก้ไขปัญหาของคุณ แต่แทนที่จะpci=noaerใช้pci=nommconfตามที่แนะนำโดย @dirkt
user3405291

ขอบคุณ PCI = คง noaer ฉัน Slackware 14.2x64 ปัญหาการติดตั้งบนแล็ปท็อปของเอชพี (สก์ท็อปติดตั้งไม่ได้แสดงปัญหานี้เลย)
จอห์น Forkosh

7
คุณจะอธิบายให้ละเอียดหน่อยได้ไหม? ตัวเลือกนี้ทำอะไรและคุณคาดหวังว่ามันจะแก้ปัญหาได้อย่างไร
Calimo

ทำไมคุณไม่ใช้sudoeditเพื่อแก้ไขอย่างปลอดภัย -1 สำหรับสำเนาเหล่านี้ที่นี่และมีขั้นตอนที่ไร้สาระสมบูรณ์
LinuxSecurityFreak

4
pci=noaerเพียงปิดใช้งานการรายงานข้อผิดพลาดขั้นสูง ดังนั้นคุณยังคงมีข้อผิดพลาดคุณไม่เห็นพวกเขา ...
dirkt

2

ฉันได้รับข้อผิดพลาดเดียวกัน (Bad TLP ที่เกี่ยวข้องกับอุปกรณ์ 8086: 6f08) ฉันมี X99 Deluxe II, Samsung 960 pro, Nvidia 1080 ti ดูเหมือนว่าปัญหาเหล่านี้จะเกี่ยวข้องกับชิปเซ็ต X99 และอุปกรณ์ M.2 เช่น Samsung Pro

เมนบอร์ด X99 Deluxe II แชร์แบนด์วิดธ์ระหว่างสล็อต PCIE16_3 และ M.2 / U.2 ความคิดเห็นต่อจาก @Nic ใน BIOS ฉันเปลี่ยนการกำหนดค่าอุปกรณ์ออนบอร์ด U.2_2 แบนด์วิดธ์จากอัตโนมัติถึง U.2_2 นี่เป็นการแก้ไขปัญหาสำหรับฉัน


คุณทราบได้อย่างไรว่าเป็นเพียงชิปเซ็ตนั้น พยายามชิปเซ็ตอื่น ๆ ทุกครั้งหรือไม่ มันเกิดขึ้นกับฮาร์ดแวร์ที่หลากหลาย
doug65536

2

ฉันเปลี่ยนการตั้งค่าสล็อต PCIE16_3 ใน Bios บน x99-E ของฉันเป็นค่าคงที่เป็นโหมด x8 แทนที่จะเป็นอัตโนมัติซึ่งเป็นค่าเริ่มต้นสำหรับการสนับสนุนอุปกรณ์ M.2 ทำงานได้ดีในขณะนี้โดยไม่มีข้อผิดพลาด TLP ในการ์ด 1070GTX ทั้งสองของฉันที่เชื่อมต่อผ่านบอร์ดขยาย PCIe 1x ถึง 16x

ฉันไม่ได้ใช้พอร์ต 16_3 ก่อนย้ายไปยังสล็อตนั้นเพื่อทดสอบ แต่ยังคงมีปัญหาก่อนที่จะเปลี่ยนเป็นไบออส เปลี่ยนการตั้งค่า bsleep สำหรับการ์ดทั้งหมดเป็น 30 ในการกำหนดค่าของ miner

ก่อนการเปลี่ยนแปลงฉันมีบันทึกเคอร์เนลสแปมด้วยความผิดพลาด ยังพยายามที่จะระบบ powercycle ก่อนและหลังการเปลี่ยนแปลง ดูเหมือนว่าจะขัดขืน


2

ค้นหาคู่มือเมนบอร์ดของคุณสำหรับ "AER" คุณสามารถฆ่าต้นตอของปัญหาโดยแก้ไขความไม่ลงรอยกันเฉพาะหรือปิดใช้งาน AER ทั้งหมด ใช้สิ่งนี้เฉพาะเมื่อสแปมข้อผิดพลาดทั้งหมดเกี่ยวข้องกับการแก้ไขข้อผิดพลาดมิฉะนั้นคุณอาจจะครอบคลุมถึงปัญหาที่เกิดขึ้นจริง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.