ฉันใช้งานอนุพันธ์ Ubuntu 12.04 (amd64) และฉันมีปัญหาแปลก ๆ เมื่อเร็ว ๆ นี้ ดูเหมือนสีน้ำเงิน X จะหยุดอย่างสมบูรณ์ชั่วขณะหนึ่ง (1-3 นาที) จากนั้นระบบจะรีบูต ระบบนี้ถูกโอเวอร์คล็อก แต่มีเสถียรภาพมากเมื่อผ่านการตรวจสอบใน Windows ซึ่งทำให้ฉันเชื่อว่าฉันมีความตื่นตระหนกของเคอร์เนลหรือมีปัญหากับหนึ่งในโมดูลของฉัน แม้ใน Linux ฉันสามารถเรียกใช้ LINPACK และจะไม่เห็นความผิดพลาดแม้จะวางภาระที่น่าขันบน CPU ดูเหมือนว่าการขัดข้องจะเกิดขึ้นแบบสุ่มแม้ในขณะที่เครื่องไม่ได้ทำงาน
ฉันจะดีบักสิ่งที่ระบบขัดข้องได้อย่างไร
สำหรับลางสังหรณ์ว่าอาจเป็นไดรเวอร์ NVIDIA ที่เป็นกรรมสิทธิ์ฉันได้ย้อนกลับไปเป็นไดรเวอร์รุ่นเสถียรรุ่น 304 และฉันยังคงพบกับความผิดพลาด
ทุกคนสามารถแนะนำขั้นตอนการดีบักที่ดีหลังจากเกิดความผิดพลาดได้หรือไม่? ฉันยินดีเป็นอย่างยิ่งที่จะบูตลงใน thumb drive และโพสต์ไฟล์การกำหนดค่าความผิดพลาดทั้งหมดของฉันฉันไม่แน่ใจว่ามันจะเป็นอะไร ฉันจะทราบได้อย่างไรว่าระบบของฉันหยุดทำงาน
ต่อไปนี้เป็นบันทึกการกระทำผิดปกติ
.xsession-errors : http://pastebin.com/EEDtVkVm
/var/log/Xorg.0.log : http://pastebin.com/ftsG5VAn
/var/log/kern.log : http://pastebin.com/Hsy7jcHZ
/ var / log / syslog : http://pastebin.com/9Fkp3FMz
ฉันไม่สามารถแม้แต่จะค้นหาระเบียนของการชนเลยแม้แต่น้อย
การทริกเกอร์ข้อผิดพลาดนั้นไม่ง่ายนักดูเหมือนว่าจะเกิดขึ้นเมื่อ GPU พยายามวาดหลายอย่างพร้อมกัน หากฉันใส่วิดีโอ YouTube แบบเต็มหน้าจอและปล่อยให้ทำซ้ำสักครู่หรือเลื่อนดู GIF จำนวนหนึ่งและการแจ้งเตือนของ Skype ปรากฏขึ้นบางครั้งก็เกิดปัญหาขึ้น เกาหัวของฉันทั้งหมดในอันนี้
ซีพียูโอเวอร์คล็อกที่ 4.8GHz แต่มันมีเสถียรภาพอย่างสมบูรณ์และมีชีวิตรอดจากการทำงานของ LINPACK ขนาดใหญ่และ Prime95 9 ชั่วโมงเมื่อวานนี้โดยไม่ผิดพลาดเพียงครั้งเดียว
ปรับปรุง
ผมเคยติดตั้งkdump
, crash
และlinux-crashdump
เช่นเดียวกับสัญลักษณ์เคอร์เนลแก้ปัญหาสำหรับรุ่นเคอร์เนลของฉัน 3.2.0-35 เมื่อฉันรันapport-unpack
ไฟล์เคอร์เนลที่ล้มเหลวและจากนั้นcrash
ไปที่VmCore
dump dump นี่คือสิ่งที่ฉันเห็น:
KERNEL: /usr/lib/debug/boot/vmlinux-3.2.0-35-generic
DUMPFILE: Downloads/crash/VmCore
CPUS: 8
DATE: Thu Jan 10 16:05:55 2013
UPTIME: 00:26:04
LOAD AVERAGE: 2.20, 0.84, 0.49
TASKS: 614
NODENAME: mightymoose
RELEASE: 3.2.0-35-generic
VERSION: #55-Ubuntu SMP Wed Dec 5 17:42:16 UTC 2012
MACHINE: x86_64 (3499 Mhz)
MEMORY: 8 GB
PANIC: "[ 1561.519960] Kernel panic - not syncing: Fatal Machine check"
PID: 0
COMMAND: "swapper/5"
TASK: ffff880211251700 (1 of 8) [THREAD_INFO: ffff880211260000]
CPU: 5
STATE: TASK_RUNNING (PANIC)
เมื่อฉันเรียกใช้log
จากcrash
ยูทิลิตี้ฉันเห็นสิ่งนี้ที่ด้านล่างของบันทึก:
[ 1561.519943] [Hardware Error]: CPU 4: Machine Check Exception: 5 Bank 3: be00000000800400
[ 1561.519946] [Hardware Error]: RIP !INEXACT! 33:<00007fe99ae93e54>
[ 1561.519948] [Hardware Error]: TSC 539b174dead ADDR 3fe98d264ebd MISC 1
[ 1561.519950] [Hardware Error]: PROCESSOR 0:206a7 TIME 1357862746 SOCKET 0 APIC 1 microcode 28
[ 1561.519951] [Hardware Error]: Run the above through 'mcelog --ascii'
[ 1561.519953] [Hardware Error]: CPU 0: Machine Check Exception: 4 Bank 3: be00000000800400
[ 1561.519955] [Hardware Error]: TSC 539b174de9d ADDR 3fe98d264ebd MISC 1
[ 1561.519957] [Hardware Error]: PROCESSOR 0:206a7 TIME 1357862746 SOCKET 0 APIC 0 microcode 28
[ 1561.519958] [Hardware Error]: Run the above through 'mcelog --ascii'
[ 1561.519959] [Hardware Error]: Machine check: Processor context corrupt
[ 1561.519960] Kernel panic - not syncing: Fatal Machine check
[ 1561.519962] Pid: 0, comm: swapper/5 Tainted: P M C O 3.2.0-35-generic #55-Ubuntu
[ 1561.519963] Call Trace:
[ 1561.519964] <#MC> [<ffffffff81644340>] panic+0x91/0x1a4
[ 1561.519971] [<ffffffff8102abeb>] mce_panic.part.14+0x18b/0x1c0
[ 1561.519973] [<ffffffff8102ac80>] mce_panic+0x60/0xb0
[ 1561.519975] [<ffffffff8102aec4>] mce_reign+0x1f4/0x200
[ 1561.519977] [<ffffffff8102b175>] mce_end+0xf5/0x100
[ 1561.519979] [<ffffffff8102b92c>] do_machine_check+0x3fc/0x600
[ 1561.519982] [<ffffffff8136d48f>] ? intel_idle+0xbf/0x150
[ 1561.519984] [<ffffffff8165d78c>] machine_check+0x1c/0x30
[ 1561.519986] [<ffffffff8136d48f>] ? intel_idle+0xbf/0x150
[ 1561.519987] <<EOE>> [<ffffffff81509697>] ? menu_select+0xe7/0x2c0
[ 1561.519991] [<ffffffff815082d1>] cpuidle_idle_call+0xc1/0x280
[ 1561.519994] [<ffffffff8101322a>] cpu_idle+0xca/0x120
[ 1561.519996] [<ffffffff8163aa9a>] start_secondary+0xd9/0xdb
bt
ส่งออก backtrace:
PID: 0 TASK: ffff880211251700 CPU: 5 COMMAND: "swapper/5"
#0 [ffff88021ed4aba0] machine_kexec at ffffffff8103947a
#1 [ffff88021ed4ac10] crash_kexec at ffffffff810b52c8
#2 [ffff88021ed4ace0] panic at ffffffff81644347
#3 [ffff88021ed4ad60] mce_panic.part.14 at ffffffff8102abeb
#4 [ffff88021ed4adb0] mce_panic at ffffffff8102ac80
#5 [ffff88021ed4ade0] mce_reign at ffffffff8102aec4
#6 [ffff88021ed4ae40] mce_end at ffffffff8102b175
#7 [ffff88021ed4ae70] do_machine_check at ffffffff8102b92c
#8 [ffff88021ed4af50] machine_check at ffffffff8165d78c
[exception RIP: intel_idle+191]
RIP: ffffffff8136d48f RSP: ffff880211261e38 RFLAGS: 00000046
RAX: 0000000000000020 RBX: 0000000000000008 RCX: 0000000000000001
RDX: 0000000000000000 RSI: ffff880211261fd8 RDI: ffffffff81c12f00
RBP: ffff880211261e98 R8: 00000000fffffffc R9: 0000000000000f9f
R10: 0000000000001e95 R11: 0000000000000000 R12: 0000000000000003
R13: ffff88021ed5ac70 R14: 0000000000000020 R15: 12d818fb42cfe42b
ORIG_RAX: ffffffffffffffff CS: 0010 SS: 0018
--- <MCE exception stack> ---
#9 [ffff880211261e38] intel_idle at ffffffff8136d48f
#10 [ffff880211261ea0] cpuidle_idle_call at ffffffff815082d1
#11 [ffff880211261f00] cpu_idle at ffffffff8101322a
ความคิดใด ๆ
tail -f /var/log/kern.log
ทำงานและพยายามที่จะจับมันเป็นอย่างนั้น
/var/log/kern.log
syslog