BUG: soft lockup - CPU # ค้างอยู่เป็นเวลา x วินาที


33

ผมเคยเห็นรายงานข้อผิดพลาดและไม่กี่คำถาม (บน stackexchange และที่อื่น ๆ ) "BUG: soft lockup - CPU#<n> stuck for <dt>s!"เรื่องจู้จี้ จนถึงตอนนี้ฉันยังไม่พบเบาะแสเกี่ยวกับสิ่งที่ต้องทำหรือลอง (แทนที่จะเป็นเบาะแสที่ฉันพบและติดตามไม่ได้ทำให้สิ่งนี้เกิดขึ้น) ฉันกังวลมากขึ้นเกี่ยวกับเรื่องนี้เพราะ:

  1. ความถี่ของเหตุการณ์เหล่านี้ดูเหมือนจะเพิ่มขึ้นอย่างช้า ๆ เมื่อเร็ว ๆ นี้ (มากกว่า 700 ต่อเดือน)
  2. yum update และรีบูตช้าลงเล็กน้อยในขณะที่ แต่ฉันได้เห็นบาง lockups เริ่มเกิดขึ้นอีกครั้ง
  3. กระบวนการหลายอย่าง (ถ้าไม่ใช่โฮสต์ทั้งหมดมันยากที่จะบอก) แน่นอนว่ารวมถึงเชลล์แบบโต้ตอบทั้งหมดของฉันถูกตรึงไว้นานพอสมควรเมื่อมันเกิดขึ้น
  4. ฉันไม่แน่ใจว่าเกี่ยวข้องหรือไม่ แต่ฉันเห็นบันทึกจำนวนมาก / ข้อความที่เกี่ยวข้องกับ ntpd ไม่สามารถอัพเดทนาฬิกาได้

ต่อไปนี้เป็นข้อความที่ตัดตอนมาจาก$(grep 'soft lockup' /var/log/messages*):

Mar 22 10:02:35 localhost kernel: BUG: soft lockup - CPU#15 stuck for 10s! [kjournald:1048]
Mar 22 10:02:36 localhost kernel: BUG: soft lockup - CPU#0 stuck for 10s! [postgres:5372]
Mar 22 10:02:36 localhost kernel: BUG: soft lockup - CPU#8 stuck for 10s! [postgres:5368]
Mar 22 10:02:37 localhost kernel: BUG: soft lockup - CPU#0 stuck for 10s! [postgres:5372]
Mar 22 10:02:37 localhost kernel: BUG: soft lockup - CPU#8 stuck for 10s! [postgres:5368]
Mar 22 10:02:38 localhost kernel: BUG: soft lockup - CPU#0 stuck for 10s! [postgres:5372]
Mar 22 10:02:38 localhost kernel: BUG: soft lockup - CPU#8 stuck for 10s! [postgres:5368]
Mar 22 10:02:39 localhost kernel: BUG: soft lockup - CPU#0 stuck for 10s! [postgres:5372]
Mar 22 10:02:39 localhost kernel: BUG: soft lockup - CPU#8 stuck for 10s! [postgres:5368]
Mar 22 10:02:40 localhost kernel: BUG: soft lockup - CPU#15 stuck for 25s! [swapper:0]
Mar 22 15:42:16 localhost kernel: BUG: soft lockup - CPU#8 stuck for 25s! [kjournald:1048]
Mar 22 18:22:13 localhost kernel: BUG: soft lockup - CPU#15 stuck for 10s! [postgres:21356]
Mar 22 18:22:20 localhost kernel: BUG: soft lockup - CPU#7 stuck for 10s! [java:8653]
Mar 22 18:22:20 localhost kernel: BUG: soft lockup - CPU#8 stuck for 72s! [kjournald:1048]
Mar 22 21:21:37 localhost kernel: BUG: soft lockup - CPU#12 stuck for 29s! [kjournald:1048]
Mar 22 21:22:07 localhost kernel: BUG: soft lockup - CPU#12 stuck for 27s! [kjournald:1048]
Mar 23 02:01:47 localhost kernel: BUG: soft lockup - CPU#8 stuck for 10s! [kblockd/8:276]
Mar 23 02:02:22 localhost kernel: BUG: soft lockup - CPU#8 stuck for 34s! [kblockd/8:276]

สิ่งนี้เกิดขึ้นกับกระบวนการสุ่มและดูเหมือนว่าจะมีการกระจายค่อนข้างดีใน 16 คอร์ "" ของโฮสต์เสมือนนั้น

โฮสต์เป็นอินสแตนซ์ "cc1.4x large" AWS EC2 โดยมี AMI ชื่อ "EC2 CentOS 5.5 GPU HVM AMI (ไดรเวอร์ 260.19.29) (ami-42a2532b)" ดูเหมือนว่าจะถูกจำลองเสมือนจริงกับ Xen

cat /etc/redhat-releaseCentOS release 5.9 (Final)อัตราผลตอบแทน 'free'รายงาน RAM 21G

หัวของdmesgคือ:

Linux version 2.6.18-348.3.1.el5 (mockbuild@builder10.centos.org) (gcc version 4.1.2 20080704 (Red Hat 4.1.2-54)) #1 SMP Mon Mar 11 19:39:25 EDT 2013
Command line: ro root=/dev/VolGroup00/LogVol00 rhgb quiet console=tty0 console=ttyS0,115200n8
BIOS-provided physical RAM map:
 BIOS-e820: 0000000000010000 - 000000000009fc00 (usable)
 BIOS-e820: 000000000009fc00 - 00000000000a0000 (reserved)
 BIOS-e820: 00000000000e0000 - 0000000000100000 (reserved)
 BIOS-e820: 0000000000100000 - 00000000c0000000 (usable)
 BIOS-e820: 00000000fc000000 - 0000000100000000 (reserved)
 BIOS-e820: 0000000100000000 - 00000005dd800000 (usable)
DMI 2.4 present.
DMI: Xen HVM domU, BIOS 3.4.3-2.6.18 08/29/2012
ACPI: RSDP (v002    Xen                                ) @ 0x00000000000ea020
ACPI: XSDT (v001    Xen      HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc0062b0
ACPI: FADT (v004    Xen      HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc005ee0
ACPI: MADT (v002    Xen      HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc005fe0
ACPI: SRAT (v001    Xen      HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc0060c0
ACPI: SLIT (v001    Xen      HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc006240
ACPI: HPET (v001    Xen      HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc006270
ACPI: DSDT (v002    Xen      HVM 0x00000000 INTL 0x20090220) @ 0x(null)

ต่อไปนี้แสดงให้เห็นว่าการนับสะสมของเหล่านี้ "ค้างอ่อน" ในช่วงเวลาที่ผ่านมา (Redline คือเมื่อฉันไม่ได้สุดท้ายyum updateตามด้วย):reboot นับจำนวน lockups อ่อน

แสดงให้เห็นว่าต่อไปนี้ histogram ของระยะเวลา ฮิสโตแกรมระยะเวลา(นานแค่ไหนเป็นเจ้าภาพติด):


1
สาเหตุที่เป็นไปได้มากมาย ฉันมีครั้งเดียวในอินสแตนซ์ของ KVM สาเหตุคือไดรเวอร์เครือข่ายโฮสต์ (realtek) ซึ่งจะทำบางสิ่งบางอย่างบนเครือข่ายสูงโหลด virtualization ไม่ได้คาดหวังและ voila คุณติด CPU ใน VMs ดังนั้นโดยพื้นฐานแล้วข้อผิดพลาดในไดรเวอร์เครือข่ายซึ่งทำให้เกิดข้อบกพร่องอื่น ๆ เพิ่มเติมตามถนน วิธีแก้ไขคือการสลับไปใช้เคอร์เนลเวอร์ชันอื่น (บนโฮสต์) ซึ่งไม่ได้เรียกใช้ลักษณะการทำงานเฉพาะดังกล่าว
frostschutz

1
เราได้รับข้อความแสดงข้อผิดพลาดนี้เนื่องจาก VMs บางตัวมีการกำหนดค่า vcpus มากกว่า CPU จริงในเซิร์ฟเวอร์ใหม่เราจึงย้ายโฮสต์ Xen ของเราไป
Jörg Ludwig

คำตอบ:


11

ฉันยังมีปัญหานี้ใน Xen 4.2 ที่มี 3.6 และ 3.8 Kernel (AlpineLinux)

ฉัน googled ไปรอบ ๆ และด้วยการเพิ่ม clockource = jiffies ให้กับเคอร์เนลของฉันฉันแก้ไข แทนที่จะเป็นระยะเวลาสั้น ๆ คุณสามารถลอง "พิท"

นอกจากนี้ยังมีรายงานการปิดการใช้งาน C-รัฐที่อยู่ในไบออส


4
พารามิเตอร์เคอร์เนลเหล่านั้นทำอะไร
Burhan Ali

2
Clocksource ดูเหมือนจะค่อนข้างชัดเจนสำหรับฉันและ c-state คือสถานะพลังงานของ CPU
Franz Bettag

+1 การปิดใช้งาน c-states ทำงานสำหรับฉัน
Andrew Ensley

2

ฉันมีปัญหาเดียวกันกับ Thinkpad T520 แต่แทนที่จะแฮ็คที่เคอร์เนลฉันทำอะไรที่ง่ายกว่า ก่อนอื่นฉันใช้ Centos7 ฉันติดตั้งระบบฐานทำงานได้ดี จากนั้นฉันก็เพิ่ม GNOME GUI ในภายหลังซึ่งเมื่อฉันเริ่มรับปัญหาที่กล่าวถึงข้างต้น ฉันสังเกตเห็นว่าผู้ผลิตจำนวนมากติดตั้งสำหรับการติดตั้ง Windows โดยปกติการ์ดกราฟิกจะได้รับการตั้งค่าสำหรับ Win7 (NVIDIA OPTIMUS) ฉันจะรีเซ็ตเป็นโหมดกราฟิกรวมและไม่มีการหยุด / ข้อผิดพลาดอีกต่อไป ทำอย่างไร? รีบูต Thinkpad ของคุณกดปุ่ม ThinkVantage F1 หรือสีน้ำเงินเพื่อเข้าสู่ BIOS ไปที่กราฟิกเลือกกราฟิกในตัวจากนั้นกด F10 เพื่อบันทึกและออก มีการตั้งค่า 3 สำหรับการ์ดนี้: รวม, แยกและ NVIDIA OPTIMUS (Win7 เท่านั้น?) หวังว่านี่จะช่วยประหยัดเวลาได้บ้างไหม?


ถอนหายใจเหมือนส่วนใหญ่ทุกอย่างอื่นการติดตั้งสิ่งแยกต่างหากคือไม่ กลับไปที่รุ่นเดสก์ท็อปที่ป่องด้วย Office และอึอื่น ๆ :(
killjoy
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.