LInux: ฉันจะวินิจฉัย / แยกสิ่งที่ทำให้เกิด "สุ่ม" แฮงค์และรีบูตเองได้อย่างไร


20

(โพสต์ครั้งแรกบนเซิร์ฟเวอร์ผิดพลาด )

ดังนั้นแทนที่จะคาดเดาว่าสาเหตุคืออะไร (ถึงแม้ว่าเงินของฉันจะอยู่ในไดรเวอร์ของ NVIDIA) ฉันจะเริ่มมองหาข้อเท็จจริงบางอย่างได้จากที่ใด

ฉันเคยผ่าน / var / log หลายครั้ง แต่มีหลายสิ่งในนั้นและฉันไม่สามารถ (ยัง) พบบิตสำคัญ


พื้นหลัง: เวอร์ชั่นสั้น

ฉันย้ายจาก WinXP ไปที่ Ubuntu Karmic หลังจากที่เปิดให้ใช้งานแล้ว

ตั้งแต่นั้นมาฉันมีชุดของข้อขัดข้องแบบสุ่มที่ดูเหมือนว่าจะเป็น:

  • รีบูตเอง
  • การล็อคที่สมบูรณ์แบบด้วยแป้นพิมพ์และเมาส์ USB ของฉันไม่ตอบสนอง (ขวาลงไปที่ไฟ LED จะดับลง) นอกจากนี้ฉันมักจะไม่สามารถ ssh ไปที่กล่องเมื่อสิ่งนี้เกิดขึ้น

ฉันได้ทำการค้นหามากมายและ Nvidia ดูเหมือนจะเป็นผู้ต้องสงสัยคนสำคัญ แต่ฉันไม่รู้ว่าจะเริ่มมองหาวิธีการทำงานที่แท้จริงได้อย่างไร

ผู้ใช้ serverfault แนะนำให้ตรวจสอบ RAM ด้วย MemtextX86 + ไม่พบข้อผิดพลาด การตรวจสอบอุณหภูมิของการ์ดแสดงผลได้รับการแนะนำเช่นกันซึ่งตอนนี้ฉันกำลังพิจารณาอยู่

นอกเหนือจากนั้นแนะนำใครไหม?



พื้นหลัง: รุ่นยาว

บางครั้งฉันสามารถไปได้ทั้งสัปดาห์โดยไม่มีข้อผิดพลาดจากนั้นมี 5 ใน 2 วัน

แรงบันดาลใจจากความปรารถนาที่จะกำจัดผู้ต้องสงสัยที่เป็นไปได้ฉันได้ทำการเปลี่ยนแปลงเล็กน้อยเมื่อเวลาผ่านไปโดยไม่มีประโยชน์:

  • เดิมทีฉันใช้ KVM สำหรับการจำลองเสมือนตอนนี้ฉันใช้ VirtualBox OSE
  • ฉันมี NFS ที่ทำงานอยู่ในเคอร์เนล แต่ตอนนี้ใช้ Samba
  • ฉันใช้ Compiz แต่ได้ปิดไว้
  • ฉันได้รีดจาก Karmic 64 บิตเป็น 32 บิต (ด้วยเหตุผลอื่นเช่นกัน)
  • ฉันลอง Ubuntu, Kubuntu และ Xubuntu แล้ว ปัญหาเดียวกันทุกครั้ง (แม้ว่าจะมาสายดูเหมือนว่าจะบ่อยขึ้นใน Gnome มากกว่าใน XFCE)
  • ฉันกลิ้งไดรเวอร์ Nvidia จากรุ่น 185 กลับไปเป็นรุ่น 96 (โมดูลเคอร์เนล NVIDIA Linux x86 96.43.13 พฤ. 25 มิ.ย. 18:42:21 PDT 2009) นี้ดูเหมือนว่าจะมีการลดความถี่ของข้อผิดพลาด


ในแง่ของสิ่งที่ทำงานในเวลานี้อาจแตกต่างกันไป ต่อไปนี้เป็นเรื่องปกติ แต่ไม่จำเป็นต้องทำงานทุกครั้งที่เกิดการขัดข้อง:

  • Firefox 3.5
  • OSE VirtualBox พร้อมด้วย VMware Windows XP 1 หรือ 2
  • Skype
  • Rhythmbox หรือ Exaile


ฮาร์ดแวร์ของฉันอายุ 2 - 3 ปี:

  • Core 2 Duo 6300
  • 4GB RAM
  • มาเธอร์บอร์ด Intel บางรุ่น
  • การ์ดแสดงผลสองหัวของ Asus พร้อมชิปเซ็ต Nvdia GeForce 7300 GS
  • 2 x SATA HDDs
  • จอภาพสองจอ (ด้วยเหตุนี้ฉันจึงต้องพึ่งพาไดรเวอร์ NVIDIA ที่เป็นกรรมสิทธิ์)


ฉันติดตามการอัปเดตระบบของฉันอยู่เสมอ

หวังว่าข้อมูลข้างต้นอาจแจ้งให้บางคนแนะนำประเภทการบันทึกหรือการกำหนดค่าที่ควรค่าแก่การตรวจสอบ


อัปเดต 1

เพิ่งเกิดความผิดพลาดในการที่ลำโพงไปถั่ว ทำ googling บ้างและดูเหมือนว่า PulseAudio มีปัญหาเล็กน้อยในอดีต ยังไม่แน่ใจว่าเกี่ยวข้องหรือไม่ แต่ PulseAudio จะทำงานทุกครั้งที่เกิดข้อผิดพลาด


อัปเดต 2

การติดตามลิงก์ของ @ CarlF ไปยัง Debian Sysadmin Guide ได้นำฉันไปสู่คีย์ sysrq เวทย์มนตร์ซึ่งฉันจะลองดูที่ความผิดพลาดครั้งต่อไป ไม่ใช่ว่าจะให้เบาะแสเกี่ยวกับสาเหตุ แต่อย่างน้อยฉันก็หวังว่าจะสามารถปิดระบบได้อย่างสง่างาม


อัปเดต 3

lm-sensors รายงาน GPU ของฉันทำงานที่เกือบ 70C / 158F - น่าสนใจ ถ้าฉันต้องเดาฉันจะบอกว่านี่เป็นเบาะแสที่สำคัญ


อัปเดต 4

เข้าชม insides ของระบบด้วย airduster หลังจากการอัพเดตครั้งล่าสุดของฉัน - ผลสุทธิ: มีเพียงหนึ่งการชนหลังจากนั้น ฉันจะเรียกมันว่าปัญหาความร้อน


3
ข้อมูลการจัดรูปแบบและพื้นหลังที่ยอดเยี่ยมฉันหวังว่าคำถามทั้งหมดเป็นเช่นนี้ +1
John T

คำตอบ:


8

มีคำแนะนำที่ดีจากคู่มือผู้ดูแลระบบ Debian ที่นี่: http://www.debian-administrator.org/articles/492


น่าสนใจที่จะเห็นสิ่งที่พวกเขาพูดเกี่ยวกับบันทึกที่ไม่ให้ข้อมูลซึ่งเป็นสัญญาณของปัญหาฮาร์ดแวร์จริง ฉันมีช่องว่างหกชั่วโมงระหว่างรายการ / var / log / ข้อความสุดท้ายและการรีบูต hmmmm
LRE

ยอมรับในเหตุผลที่ลิงก์ทำให้ชัดเจนว่าไม่มีสิ่งใดในบันทึกเท่ากับปัญหาฮาร์ดแวร์ - นำฉันไปในทิศทางที่ถูกต้อง
LRE

4

สิ่งแรกที่คุณอาจต้องการตรวจสอบว่ามีปัญหาฮาร์ดแวร์ระหว่างการบู๊ตหรือไม่ /var/log/boot.logขั้นตอนการบูตเครื่องจะบันทึกข้อมูลจากบัฟเฟอร์แหวนเคอร์เนลเข้า หลังจากระบบถูกบูตข้อความใหม่จะถูกฟลัชในบัฟเฟอร์นี้และคุณสามารถดูสถานะปัจจุบันด้วยdmesgคำสั่ง /var/log/messagesบันทึกที่สำคัญคุณยังจะต้องการตรวจสอบคือ สิ่งนี้จะมีการประทับเวลาสิ่งอำนวยความสะดวกและลำดับความสำคัญของข้อผิดพลาดและแอปพลิเคชันที่สร้างพวกเขา การมีการประทับเวลาเป็นสินทรัพย์ที่มีค่าเมื่อทำการแก้ไขข้อผิดพลาด

การสุ่มล็อกฮาร์ดแวร์เสียงที่เกี่ยวข้องแน่นอนว่า ลองทำการติดตั้งฮาร์ดแวร์ทั้งหมดใหม่บนแผงวงจรหลักแล้วเรียกใช้memtest86 +


ฉันเห็นบรรทัดใน / var / log / ข้อความที่ระบุว่า "imklog 4.2.0, แหล่งบันทึก = / var / run / rsyslog / kmsg เริ่มต้น" นี่เป็นตัวบ่งชี้ที่ดีของการบูทระบบหรือไม่? ถ้าเป็นเช่นนั้นฉันสามารถใช้เพื่อระบุพื้นที่ของบันทึกที่ฉันสามารถสแกนกลับมาได้
LRE

ใช่ฉันเชื่อว่ามันเป็นหนึ่งในคนแรกถ้าไม่ใช่บรรทัดแรกหลังจากบูต เป็นโมดูลอินพุตบันทึกเคอร์เนล
จอห์น T

2

คุณลองนั่งหน่วยความจำตัวประมวลผลและชิปอื่น ๆ อีกครั้งหรือไม่ นอกจากนี้คุณอาจต้องการลองใช้ระบบปฏิบัติการอื่น (FreeDOS) เพื่อกำจัดความเป็นไปได้บางอย่าง

คุณควรใช้สองจอภาพผ่าน Gnome ได้อย่างดีโดยไม่ต้องใช้ไดรเวอร์ nvidia


ดีที่สุดที่ฉันสามารถบอกได้ว่าฉันต้องการไดรเวอร์ propireary ของ NVIDIA เพื่อใช้จอภาพสองจอแน่นอน คุณสามารถชี้ให้ฉันในทิศทางที่ถูกต้องเพื่อไม่ต้องการพวกเขา?
LRE

ฉันอาจไม่ถูกต้อง ฉันแหย่ไปเล็กน้อยและดูการอ้างอิงถึง xinerama (ซึ่งฉันคิดว่าคนขับมีส่วนขยาย) แต่ไม่มีอะไรเกี่ยวข้องกับไดรเวอร์ที่ไม่ใช่กรรมสิทธิ์ น่าเสียดายที่ฉันไม่มีเครื่องที่ใช้การ์ด nVidia เล่นอยู่ด้วย
Nerdfest
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.