drm / i915: การรีเซ็ตชิปหลังจาก gpu hang


9

ฉันใช้การทดสอบเดเบียน (อัปเดตล่าสุด 31/10/2560) และเมื่อฉันเล่นวิดีโอแบบเต็มหน้าจอผ่านเบราว์เซอร์จาก Twitch หรือ iView มันหยุดแฮงค์ GPU ดังนั้น GUI จึงหยุดนิ่ง

คอมพิวเตอร์ที่ฉันมีคือ ' Up Squared ' พร้อมด้วย Intel 505HD

เคอร์เนลยังคงทำงานแม้ว่าฉันยังคงสามารถเข้าถึงได้ผ่านทาง ssh

ฉันใช้เคอร์เนล 4.12

Linux BB-8 4.12.0-0.bpo.2-amd64 #1 SMP Debian 4.12.13-1~bpo9+1 (2017-09-28) x86_64 GNU/Linux

ฉันยังใช้วิธีการแก้ปัญหาวิดีโอที่ฉีกขาดใน /etc/X11/xorg.conf ด้วย

Section "Device"
    Identifier "Intel Graphics"
    Driver "intel"
    Option "TearFree" "true"
End

ข้อความแสดงข้อผิดพลาด (เอาต์พุต dmesg);

[52661.796383] [drm] GPU HANG: ecode 9:1:0xeeffefa1, in Xorg [688], reason: Hang on bcs, action: reset
[52661.796642] drm/i915: Resetting chip after gpu hang
[52661.799118] BUG: unable to handle kernel NULL pointer dereference at 0000000000000070
[52661.807992] IP: reset_common_ring+0x8d/0x110 [i915]
[52661.813475] PGD 0 
[52661.813476] P4D 0 

[52661.819653] Oops: 0000 [#1] SMP
[52661.823178] Modules linked in: ftdi_sio usbserial bnep 8021q garp mrp stp llc cpufreq_conservative cpufreq_userspace cpufreq_powersave iptable_nat nf_conntrack_ipv4 nf_defrag_ipv4 nf_nat_ipv4 nf_nat snd_hda_codec_hdmi nf_conntrack libcrc32c usb_f_acm i2c_designware_platform iptable_mangle i2c_designware_core usb_f_fs iptable_filter usb_f_serial u_serial libcomposite udc_core snd_soc_skl snd_soc_skl_ipc snd_soc_sst_ipc snd_soc_sst_dsp snd_hda_ext_core configfs snd_soc_sst_match snd_soc_core snd_compress bluetooth ecdh_generic rfkill intel_rapl x86_pkg_temp_thermal coretemp kvm_intel kvm irqbypass crct10dif_pclmul crc32_pclmul ghash_clmulni_intel intel_rapl_perf binfmt_misc pcspkr nls_ascii efi_pstore nls_cp437 vfat fat efivars lpc_ich evdev snd_hda_intel snd_hda_codec snd_hda_core i915 joydev idma64
[52661.902704]  hid_generic snd_hwdep snd_pcm snd_timer drm_kms_helper snd mei_me intel_lpss_pci drm soundcore sg mei intel_lpss shpchp i2c_algo_bit mfd_core video button i2c_dev parport_pc ppdev lp parport efivarfs ip_tables x_tables autofs4 hid_logitech_hidpp hid_logitech_dj usbhid hid ext4 crc16 jbd2 crc32c_generic fscrypto ecb mbcache sd_mod mmc_block crc32c_intel aesni_intel aes_x86_64 crypto_simd cryptd glue_helper ahci i2c_i801 sdhci_pci xhci_pci libahci sdhci xhci_hcd mmc_core usbcore usb_common libata r8169 scsi_mod mii
[52661.955100] CPU: 0 PID: 10403 Comm: kworker/0:1 Not tainted 4.12.0-0.bpo.2-amd64 #1 Debian 4.12.13-1~bpo9+1
[52661.966039] Hardware name: AAEON UP-APL01/UP-APL01, BIOS UPA1AM18 06/23/2017
[52661.973996] Workqueue: events_long i915_hangcheck_elapsed [i915]
[52661.980744] task: ffff94e405403180 task.stack: ffffa3c603344000
[52661.987428] RIP: 0010:reset_common_ring+0x8d/0x110 [i915]
[52661.993492] RSP: 0000:ffffa3c603347b98 EFLAGS: 00010206
[52661.999356] RAX: 0000000000003e60 RBX: ffff94e417fec900 RCX: ffff94e5322fb6f8
[52662.007364] RDX: 0000000000003ea0 RSI: ffff94e5350e8000 RDI: ffff94e5322fb6c0
[52662.015372] RBP: ffffa3c603347bb8 R08: 000000000009fbe0 R09: ffffa3c6300137a0
[52662.023380] R10: 00000000ffffffff R11: 0000000000000070 R12: ffff94e5320f6000
[52662.031406] R13: 0000000000000000 R14: ffff94e533b8a900 R15: ffff94e533b88000
[52662.039418] FS:  0000000000000000(0000) GS:ffff94e53fc00000(0000) knlGS:0000000000000000
[52662.048499] CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
[52662.054945] CR2: 0000000000000070 CR3: 0000000254761000 CR4: 00000000003406f0
[52662.062955] Call Trace:
[52662.065706]  ? bit_wait_io_timeout+0x90/0x90
[52662.070534]  ? i915_gem_reset+0xbe/0x370 [i915]
[52662.075661]  ? intel_uncore_forcewake_put+0x36/0x50 [i915]
[52662.081845]  ? bit_wait_io_timeout+0x90/0x90
[52662.086673]  ? i915_reset+0xd9/0x160 [i915]
[52662.091424]  ? i915_reset_and_wakeup+0x17d/0x190 [i915]
[52662.097309]  ? i915_handle_error+0x1df/0x220 [i915]
[52662.102789]  ? scnprintf+0x49/0x80
[52662.106644]  ? hangcheck_declare_hang+0xce/0xf0 [i915]
[52662.112456]  ? fwtable_read32+0x83/0x1b0 [i915]
[52662.117569]  ? i915_hangcheck_elapsed+0x2b1/0x2e0 [i915]
[52662.123533]  ? process_one_work+0x181/0x370
[52662.128227]  ? worker_thread+0x4d/0x3a0
[52662.132531]  ? kthread+0xfc/0x130
[52662.136246]  ? process_one_work+0x370/0x370
[52662.140935]  ? kthread_create_on_node+0x70/0x70
[52662.146018]  ? do_group_exit+0x3a/0xa0
[52662.150215]  ? ret_from_fork+0x25/0x30
[52662.154420] Code: c8 01 00 00 89 50 14 48 8b 83 80 00 00 00 8b 93 c8 01 00 00 89 50 28 48 8b bb 80 00 00 00 e8 2b 29 00 00 4d 8b ac 24 60 02 00 00 <49> 8b 45 70 48 39 43 70 74 51 4d 85 ed 74 14 4c 89 ef e8 cc c1 
[52662.175681] RIP: reset_common_ring+0x8d/0x110 [i915] RSP: ffffa3c603347b98
[52662.183401] CR2: 0000000000000070
[52662.201377] ---[ end trace c9ac8dcf9dad3202 ]---
[52665.887380] asynchronous wait on fence i915:Xorg[688]/0:9fbe1 timed out
[52665.947423] pipe A vblank wait timed out
[52665.951876] ------------[ cut here ]------------
[52665.957155] WARNING: CPU: 0 PID: 8318 at /build/linux-RdeW6Z/linux-4.12.13/drivers/gpu/drm/i915/intel_display.c:12636 intel_atomic_commit_tail+0xf21/0xf50 [i915]
[52665.973347] Modules linked in: ftdi_sio usbserial bnep 8021q garp mrp stp llc cpufreq_conservative cpufreq_userspace cpufreq_powersave iptable_nat nf_conntrack_ipv4 nf_defrag_ipv4 nf_nat_ipv4 nf_nat snd_hda_codec_hdmi nf_conntrack libcrc32c usb_f_acm i2c_designware_platform iptable_mangle i2c_designware_core usb_f_fs iptable_filter usb_f_serial u_serial libcomposite udc_core snd_soc_skl snd_soc_skl_ipc snd_soc_sst_ipc snd_soc_sst_dsp snd_hda_ext_core configfs snd_soc_sst_match snd_soc_core snd_compress bluetooth ecdh_generic rfkill intel_rapl x86_pkg_temp_thermal coretemp kvm_intel kvm irqbypass crct10dif_pclmul crc32_pclmul ghash_clmulni_intel intel_rapl_perf binfmt_misc pcspkr nls_ascii efi_pstore nls_cp437 vfat fat efivars lpc_ich evdev snd_hda_intel snd_hda_codec snd_hda_core i915 joydev idma64
[52666.052546]  hid_generic snd_hwdep snd_pcm snd_timer drm_kms_helper snd mei_me intel_lpss_pci drm soundcore sg mei intel_lpss shpchp i2c_algo_bit mfd_core video button i2c_dev parport_pc ppdev lp parport efivarfs ip_tables x_tables autofs4 hid_logitech_hidpp hid_logitech_dj usbhid hid ext4 crc16 jbd2 crc32c_generic fscrypto ecb mbcache sd_mod mmc_block crc32c_intel aesni_intel aes_x86_64 crypto_simd cryptd glue_helper ahci i2c_i801 sdhci_pci xhci_pci libahci sdhci xhci_hcd mmc_core usbcore usb_common libata r8169 scsi_mod mii
[52666.104723] CPU: 0 PID: 8318 Comm: kworker/u8:2 Tainted: G      D         4.12.0-0.bpo.2-amd64 #1 Debian 4.12.13-1~bpo9+1
[52666.116991] Hardware name: AAEON UP-APL01/UP-APL01, BIOS UPA1AM18 06/23/2017
[52666.124918] Workqueue: events_unbound intel_atomic_commit_work [i915]
[52666.132146] task: ffff94e3d1a27140 task.stack: ffffa3c604d1c000
[52666.138825] RIP: 0010:intel_atomic_commit_tail+0xf21/0xf50 [i915]
[52666.145673] RSP: 0018:ffffa3c604d1fda8 EFLAGS: 00010286
[52666.151517] RAX: 000000000000001c RBX: ffff94e533b88000 RCX: 0000000000000000
[52666.159498] RDX: 0000000000000000 RSI: ffff94e53fc0dee8 RDI: ffff94e53fc0dee8
[52666.167486] RBP: 0000000000000000 R08: ffff94e5339a7a18 R09: 000000000000036e
[52666.175473] R10: ffffa3c604d1fda8 R11: ffffffffbb6cddcd R12: 0000000000000000
[52666.183489] R13: 0000000000000000 R14: ffff94e5321b9000 R15: 0000000000000001
[52666.191476] FS:  0000000000000000(0000) GS:ffff94e53fc00000(0000) knlGS:0000000000000000
[52666.200533] CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
[52666.206964] CR2: 00007f0ca6011670 CR3: 0000000200009000 CR4: 00000000003406f0
[52666.214954] Call Trace:
[52666.217729]  ? remove_wait_queue+0x60/0x60
[52666.222316]  ? process_one_work+0x181/0x370
[52666.227027]  ? worker_thread+0x4d/0x3a0
[52666.231311]  ? kthread+0xfc/0x130
[52666.235018]  ? process_one_work+0x370/0x370
[52666.239711]  ? kthread_create_on_node+0x70/0x70
[52666.244792]  ? do_group_exit+0x3a/0xa0
[52666.248988]  ? ret_from_fork+0x25/0x30
[52666.253181] Code: 4c 89 44 24 08 48 83 c7 08 e8 5c 4b fe f9 4c 8b 44 24 08 4d 85 c0 0f 85 36 fe ff ff 8d 75 41 48 c7 c7 b0 9e 94 c0 e8 05 2b 0b fa <0f> ff e9 20 fe ff ff 8d 70 41 48 c7 c7 80 9e 94 c0 e8 ef 2a 0b 
[52666.274391] ---[ end trace c9ac8dcf9dad3203 ]---

เต็ม dmesg: https://gist.github.com/anonymous/9cf0a1768cbcc950bba593e50ca024f1

มันค่อนข้างง่ายที่จะทำซ้ำและสามารถทำได้โดยการโหลด twitch ในแบบเต็มหน้าจอและหลังจากนั้นประมาณ 5 นาทีมันก็จะค้าง บางครั้งเมื่อเริ่มต้นและบางครั้งก็ผ่านไปเล็กน้อย

ฉันจะแก้ไขสิ่งนี้ได้อย่างไร

ปรับปรุง

ฉันอัปเดตเคอร์เนลเป็น 4.13 ซึ่งไม่ได้ช่วยแก้ปัญหา

ฉันลบตัวเลือก TearFree ออกแล้ว สิ่งนี้ช่วยฉันเชื่อ แต่หลังจากนั้นฉันก็น้ำตาไหล

** ข้อผิดพลาด ** นี่เป็นข้อผิดพลาดที่แตกต่างกันเล็กน้อย แต่ก็ยังคงเหมือนเดิมเนื่องจากเป็นหน้าจอ GUI ที่ตรึงและต้องทำ Magic Keys เพื่อรีบูต

[125311.098771] systemd-gpt-auto-generator[16633]: Failed to dissect: Input/output error
[125311.375868] systemd-gpt-auto-generator[16649]: Failed to dissect: Input/output error
[244118.272043] [drm:intel_cpu_fifo_underrun_irq_handler [i915]] *ERROR* CPU pipe A FIFO underrun
[324053.730179] usb 1-3.4: reset low-speed USB device number 7 using xhci_hcd
[425672.192351] [drm:intel_pipe_update_end [i915]] *ERROR* Atomic update failure on pipe A (start=21284282 end=21284283) time 232 us, min 1074, max 1079, scanline start 1069, end 1082
[428291.432332] [drm:intel_pipe_update_end [i915]] *ERROR* Atomic update failure on pipe A (start=21415244 end=21415245) time 136 us, min 1074, max 1079, scanline start 1073, end 1080
[597930.852731] [drm:intel_pipe_update_end [i915]] *ERROR* Atomic update failure on pipe A (start=29897215 end=29897216) time 158 us, min 1074, max 1079, scanline start 1071, end 1080
[664909.893109] [drm:intel_pipe_update_end [i915]] *ERROR* Atomic update failure on pipe A (start=33246167 end=33246168) time 346 us, min 1074, max 1079, scanline start 1066, end 1088
[678368.073058] [drm:intel_pipe_update_end [i915]] *ERROR* Atomic update failure on pipe A (start=33919076 end=33919077) time 165 us, min 1074, max 1079, scanline start 1072, end 1081
[682058.832485] [drm] GPU HANG: ecode 9:1:0xeeffefa1, in Xorg [786], reason: Hang on bcs0, action: reset
[682058.832609] drm/i915: Resetting chip after gpu hang
[682058.835055] BUG: unable to handle kernel NULL pointer dereference at 0000000000000070
[682058.844025] IP: reset_common_ring+0x99/0xf0 [i915]

dmesgเอาท์พุทโปรด
schaiba

ข้อความแสดงข้อผิดพลาดมาจาก dmesg
map7

ฉันหมายถึง dmesg ทั้งหมด
schaiba

ฉันได้เพิ่ม github gist ของ dmesg gist.github.com/anonymous/9cf0a1768cbcc950bba593e50ca024f1
map7

ฉันขอแนะนำให้คุณเปิดข้อผิดพลาดตามคำแนะนำใน dmesg
schaiba

คำตอบ:


7

โปรดทำตามที่รูท:

  1. แก้ไข /etc/default/grub
  2. ค้นหาบรรทัดที่ขึ้นต้นด้วยGRUB_CMDLINE_LINUXและต่อท้ายi915.enable_rc6=0ยกตัวอย่างเช่น:GRUB_CMDLINE_LINUX="splash quiet i915.enable_rc6=0"
  3. ดำเนินการ: update-grub
  4. รีบูต
  5. (ขั้นตอนเพิ่มเติม) ดำเนินการ systool -m i915 -av | grep enable_rc6เพื่อตรวจสอบว่าคุณได้ตั้งค่าตัวเลือกนี้อย่างถูกต้อง

1
ขอบคุณมาก. สิ่งนี้ได้แก้ไขปัญหา ฉันพยายามที่จะทำผิดพลาดคอมพิวเตอร์ 11 วันแล้วและมันจะไป!
map7

10
ทำไมการแก้ไขนี้ ฉันมีปัญหาเดียวกัน
Jus12

1
+1 - สิ่งนี้ดูเหมือนจะใช้ได้กับฉันใน Dell XPS 13 9360 ที่ใช้ Kubuntu 18.04 LTS ของฉัน ไม่สามารถทำให้มันพังได้สองสามวันแล้ว ขอบคุณ!
Linuxios

1
enable_rc6เลิกใช้แล้ว
David von Tamar

@ David Tamar ใช่แล้วเลิกใช้แล้วในขณะนี้ (2020) ... การแก้ปัญหาเฉพาะสำหรับเมล็ดข้าวที่มีอายุมากกว่า
mzalazar

0

ฉันมี Jumper Ezbook3 Pro, Linux Mint 18.3 และมีข้อผิดพลาดที่คล้ายกัน: i915 0000: 00: 02.0: รีเซ็ต bcs0 หลังจาก gpu hang

ในกรณีของฉันข้อผิดพลาดดังกล่าวเกิดขึ้นเมื่อฉันเปิดตัวงานกราฟิกเข้มข้นเช่นสตูดิโอ OBS ผลที่ตามมาจาก gpu hang, Xorg จะหยุดเป็นวินาทีทุก ๆ 10-20 วินาที ฉันสังเกตเห็นว่ามันเกิดขึ้นเฉพาะเมื่อแล็ปท็อปที่ใช้พลังงานแบตเตอรี่

ดังนั้นในกรณีของฉันมันจะต้องเป็นแบตเตอรี่ที่ผิดปกติซึ่งไม่สามารถจ่ายน้ำผลไม้ให้เพียงพอสำหรับซีพียูและ gpu ที่โหลดเต็ม

เคอร์เนล: "4.15.0-46 ทั่วไป" อินเทลเฟิร์มแวแพทช์ไม่ได้ปรับปรุง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.