คำถามติดแท็ก troubleshooting

การแก้ไขปัญหาเป็นรูปแบบหนึ่งของการแก้ปัญหาซึ่งมักใช้เพื่อซ่อมแซมผลิตภัณฑ์หรือกระบวนการที่ล้มเหลว

13
ตัวแปรสภาพแวดล้อมของกระบวนการทำงานบน Unix?
ฉันต้องการแก้ไขปัญหาบางอย่างที่เกี่ยวข้องกับตัวแปรสภาพแวดล้อมในระบบ Unix บน Windows ฉันสามารถใช้เครื่องมือเช่น ProcessExplorer เพื่อเลือกเฉพาะกระบวนการและดูค่าของตัวแปรสภาพแวดล้อมแต่ละตัว ฉันจะทำสิ่งเดียวกันใน Unix ได้อย่างไร echoingและenvcmd เพียงแสดงค่าในเวลาปัจจุบัน แต่ฉันต้องการดูค่าที่กระบวนการกำลังใช้อยู่ในปัจจุบัน

3
ไฟล์ ibdata1 ในไดเร็กทอรี / var / lib / mysql ของฉันคืออะไร
การเข้าสู่แผงควบคุม Webmin ของฉันฉันสังเกตเห็นว่าพื้นที่ว่างในดิสก์ของฉันเต็มทั้งหมด ฉันค้นหาไฟล์ / ไดเรกทอรีที่ใหญ่ที่สุดสิบอันดับในระบบของฉันและพบว่าไฟล์ที่ชื่อว่า ibdata1 ใช้พื้นที่ประมาณ 94GB มันอยู่ในไดเรกทอรี / var / lib / mysql ของฉัน ibdata1 ทำอะไร ฉันปลอดภัยที่จะลบหรือไม่ ข้อสันนิษฐานของฉันคือมันเป็นกองขยะบางอย่าง แต่นั่นเป็นเพียงการคาดเดาที่รุนแรง

7
การใช้งาน CPU สูง แต่ภาระเฉลี่ยต่ำ
เราพบกับพฤติกรรมแปลก ๆ ที่เราเห็นการใช้งาน CPU สูง แต่มีภาระเฉลี่ยค่อนข้างต่ำ พฤติกรรมดังกล่าวจะแสดงให้เห็นได้ดีที่สุดจากกราฟต่อไปนี้จากระบบตรวจสอบของเรา เมื่อเวลาประมาณ 11:57 น. การใช้งาน CPU เพิ่มขึ้นจาก 25% เป็น 75% โหลดเฉลี่ยไม่เปลี่ยนแปลงอย่างมีนัยสำคัญ เราเรียกใช้เซิร์ฟเวอร์ที่มี 12 คอร์ที่มีเธรดไฮเปอร์ 2 ตัว ระบบปฏิบัติการเห็นว่านี่เป็น 24 CPUs ข้อมูลการใช้งาน CPU จะถูกรวบรวมโดยเรียกใช้/usr/bin/mpstat 60 1ในแต่ละนาที ข้อมูลสำหรับallแถวและ%usrคอลัมน์จะแสดงในแผนภูมิด้านบน ฉันมั่นใจว่านี่จะแสดงค่าเฉลี่ยต่อข้อมูล CPU ไม่ใช่การใช้ "แบบซ้อน" ในขณะที่เราเห็นการใช้ 75% ในรูปที่เราเห็นเป็นกระบวนการที่แสดงจะใช้ประมาณ 2000% "ซ้อน" CPU topใน ตัวเลขค่าเฉลี่ยการโหลดจะถูกนำมาจาก/proc/loadavgแต่ละนาที uname -a ให้: Linux ab04 2.6.32-279.el6.x86_64 #1 …

3
การจัดสรรหน้าล้มเหลว - ฉันมีหน่วยความจำไม่เพียงพอหรือไม่
เมื่อเร็ว ๆ นี้ฉันสังเกตเห็นรายการเช่นนี้ในkern.logเซิร์ฟเวอร์ของฉัน: Feb 16 00:24:05 aramis kernel: swapper: page allocation failure. order:0, mode:0x20 ฉันอยากรู้: ข้อความนั้นหมายความว่าอะไร? เซิร์ฟเวอร์ของฉันมีหน่วยความจำไม่เพียงพอหรือไม่ การใช้ swap ค่อนข้างต่ำ (น้อยกว่า 10%) และจนถึงตอนนี้ฉันไม่ได้สังเกตเห็นว่ากระบวนการใดถูกฆ่าเนื่องจากขาดหน่วยความจำ ข้อมูลเพิ่มเติม: เซิร์ฟเวอร์เป็นอินสแตนซ์ Xen (DomU) ที่เรียกใช้ Debian 6.0 มี RAM 512 MB และพาร์ติชัน swap 512 MB โหลด CPU ภายในเครื่องเสมือนแสดงค่าเฉลี่ย 0.25

9
กฎการแก้ไขปัญหาของคุณวิธีการแก้ไขปัญหา? [ปิด]
ปิด คำถามนี้เป็นคำถามความคิดเห็นตาม ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้สามารถตอบข้อเท็จจริงและการอ้างอิงได้โดยแก้ไขโพสต์นี้ ปิดให้บริการใน5 ปีที่ผ่านมา คุณมีกฎทั่วไปที่คุณใช้ในการแก้ปัญหาเครือข่าย / ฮาร์ดแวร์ / ซอฟต์แวร์ที่ยากลำบากหรือไม่? เช่น: "ฉันแยกแหล่งที่มาของปัญหาด้วยการทดสอบอุปกรณ์ต่อพ่วงกับคอมพิวเตอร์เครื่องที่สอง" หรือ "ฉันลบฮาร์ดแวร์มากที่สุดเท่าที่จะเป็นไปได้เพื่อเปิดเครื่องอุปกรณ์แล้วเพิ่มส่วนประกอบทีละชิ้นจนกว่าจะทำซ้ำปัญหา" ฯลฯ

8
การแก้ไขปัญหาเครือข่าย“ ช้า”
เราทุกคนมีข้อร้องเรียนว่า "เครือข่าย" เป็น "ช้า" ในบางจุด: อาจแปลเป็นหนึ่งห้อง (สวิตช์) หรือคอมพิวเตอร์หนึ่งเครื่องอาจเป็นเพียงอินเทอร์เน็ต (DNS ปัญหาเบราว์เซอร์?) อาจเป็นแอปพลิเคชันเดียว (การสืบค้น SQL ที่ใช้เวลานานหรือไม่การสแกน AV กำลังทำงานอยู่) เมื่อคุณตัดปัญหาระบบและ / หรือแอปพลิเคชันที่เห็นได้ชัดออกไปคุณจะทำการทดสอบเครือข่ายเพื่อหาพฤติกรรมที่ช้าหรือผิดปกติได้อย่างไร คุณทำงานเพิ่มเลเยอร์ OSI หรือไม่ ถ้าเป็นเช่นนั้นจะตรวจสอบแต่ละเลเยอร์ได้อย่างไร คุณจะทำอย่างไรเพื่อให้แน่ใจว่าเครือข่ายทางกายภาพนั้นใช้ได้ในสภาพแวดล้อมที่ไม่รู้จัก ออกอากาศหรือพายุออกอากาศมากเกินไป ชั้นที่ 3 ขึ้นไป traceroute? เคล็ดลับวิธีการความคิดอื่น ๆ คุณสมบัติและเครื่องมือที่ต้องมี (การทำมิเรอร์พอร์ต, SNMP, การตรวจสอบและอื่น ๆ ) สำหรับเครือข่ายทุกขนาด?

23
ไม่สามารถออกจากระบบตัดการเชื่อมต่อหรือรีเซ็ตผู้ใช้เซิร์ฟเวอร์เทอร์มินัลในสภาพแวดล้อมการใช้งานจริง
ฉันกำลังค้นหาแนวคิดบางอย่างเกี่ยวกับวิธีตัดการเชื่อมต่อออกจากระบบหรือรีเซ็ตเซสชันของผู้ใช้ในเซิร์ฟเวอร์เทอร์มินัล 2008 (ไม่สามารถเข้าสู่ระบบในฐานะผู้ใช้อย่างใดอย่างหนึ่งเนื่องจากถูกล็อคไว้อย่างสมบูรณ์) นี่เป็นสภาพแวดล้อมที่ใช้งานจริงดังนั้นการรีบูตเซิร์ฟเวอร์หรือทำบางสิ่งที่ทั้งระบบไม่สามารถทำได้ในตอนนี้ ลูกเล่น Powershell ใดที่จะช่วยพวกเราในเรื่องนี้? เราได้พยายามตัดการเชื่อมต่อออกจากระบบของผู้ใช้และรีเซ็ตเซสชั่นเช่นเดียวกับการฆ่ากระบวนการของเซสชั่นโดยตรงจากเซิร์ฟเวอร์เทอร์มินัลเดียวกัน (จากตัวจัดการงาน, Terminal Services Manager และ Resource Monitor) โดยไม่มีผลลัพธ์ ช่วยด้วย! UPDATE: เราสิ้นสุดการรีบู๊ตเซิร์ฟเวอร์เนื่องจากไม่มีความพยายามอื่น ๆ ที่เราคิดว่าใช้ได้ ฉันจะเปิดคำถามนี้ไว้โดยหวังว่าบางคนอาจมีข้อมูลเพิ่มเติมเกี่ยวกับปัญหานี้และอาจแก้ไขได้

10
มารยาทในการแก้ไขปัญหาในพื้นที่ทำงานของผู้อื่น
เพื่อนร่วมงานที่อารมณ์เสียอย่างเห็นได้ชัดเข้าหาทีมสนับสนุนด้านเทคนิคของเราเมื่อเช้านี้ เธอสังเกตเห็นว่าสมาชิกคนหนึ่งของทีมของเราได้เปลี่ยนพื้นที่ทำงานของเธอ: จอมอนิเตอร์ของเธอปิดอยู่ (เธอคาดว่าจะอยู่ในโหมดแสตนด์บาย) เก้าอี้ของเธอเปลี่ยนไป เธอออกจากระบบด้วยชื่อสมาชิกในทีมของเราในช่องลงชื่อเข้าใช้ Windows ปัญหาแรกดูเหมือนจะนำไปสู่ความสับสนและความยุ่งยากในขณะที่เธอสงสัยว่าทำไมเธอไม่เห็นพีซีของเธอกลับมาทำงานจากโหนดสแตนด์บาย ประเด็นที่สองดูเหมือนจะเป็นตัวกระตุ้นให้ต้องเคารพและปลอบโยน เห็นได้ชัดว่าต้องใช้เวลาพอสมควรในการหาสถานที่ที่เหมาะสมที่จะรู้สึกสะดวกสบาย ปัญหาที่สามดูเหมือนจะเกิดจากความปรารถนาของเธอที่จะปิดงานก่อนที่จะลาสามเดือนใน 1-2 วัน อาจใช้เวลา 1-2 ชั่วโมงในการสแกนไวรัสองค์กรของเราบนพีซีรุ่นเก่าของเธอเพื่อทำการสแกนรายสัปดาห์ซึ่งดูเหมือนว่าจะถูกเรียกใช้ในการเข้าสู่ระบบ สิ่งนี้จะลดความสามารถในการผลิตของเธอ หลังจากที่เธอรู้สึกได้ยินเกี่ยวกับสาเหตุที่ทีมของเราอาจต้องทำสิ่งเหล่านี้เธอกลับสู่สภาพที่น่าพอใจ แต่ฉันสงสัยว่า "มารยาท" อาจจะหลีกเลี่ยง / ย่อให้เล็กสุดที่เรียกปฏิกิริยาเหล่านี้ทั้งหมดในตัวเธอ การค้นหาโดย Google คร่าวๆและการค้นหาที่นี่ไม่มีอะไรแสดงถึงความชาญฉลาดเป็นพิเศษ ดังนั้นฉันคิดว่าฉันจะเชิญผู้อ่านตอบเพื่อสร้างรายการของแนวปฏิบัติที่ดีที่สุดเมื่อแก้ไขปัญหาในพื้นที่ทำงานของผู้อื่น ขอบคุณล่วงหน้าสำหรับผลงานใด ๆ

6
ทำไม ping ของฉันตอบโดยที่อยู่ IP ที่แตกต่างจากที่ pinged
ในขณะที่พยายามตั้งค่าโซลูชันการทำคลัสเตอร์ MSSQL ฉันกำลังประสบปัญหาที่อยู่นอกเหนือความเชี่ยวชาญของฉันที่เกี่ยวข้องกับระบบเครือข่าย ฉันพยายามหา IP ฟรีที่ใช้สำหรับโหนดของฉัน ฉันขอให้ผู้ดูแลระบบเครือข่ายมอบที่อยู่ IP ฟรีให้ฉัน และเพื่อประโยชน์ในการโต้แย้งเขาให้ฉัน IP จาก 10.40.1.205 ซึ่งควรจะไม่ได้ใช้ เมื่อพยายามใช้ IP ที่ได้รับระหว่างการตั้งค่าการทำคลัสเตอร์การร้องเรียน SQL ที่ใช้งาน IP ฉันลองกระตุก IP จากเซิร์ฟเวอร์ของฉันและได้รับการตอบกลับจากพูดว่า ... 10.40.59.69 ... ? ความคิดใด ๆ ที่อาจก่อให้เกิดสิ่งนี้และที่สำคัญกว่านั้นคือวิธีการแก้ไขปัญหา

7
วิธีการตรวจสอบเซิร์ฟเวอร์ลินุกซ์ที่ไม่คาดคิดปิดตัวลง?
ในเซิร์ฟเวอร์ Xeon 55XX ใหม่ที่มี 4xSSD ที่ raid 10 กับ Debian 6 ฉันได้พบกับการปิดระบบแบบสุ่ม 2 ครั้งภายในสองสัปดาห์หลังจากเซิร์ฟเวอร์ถูกสร้างขึ้น การดูล็อกแบนด์วิดท์ก่อนที่จะปิดเครื่องไม่ได้แสดงว่ามีอะไรผิดปกติ โหลดเซิร์ฟเวอร์มักจะต่ำมาก (ประมาณ 1) และอยู่ไกลกันมากดูเหมือนจะไม่มีไฟฟ้าดับในขณะที่เซิร์ฟเวอร์หยุดทำงาน ฉันรู้ว่าฉันดู / var / log แต่ไม่แน่ใจว่าฉันควรตรวจสอบบันทึกใดและควรมองหาอะไร ขอบคุณคำแนะนำของคุณ

8
โปรแกรมทำงานไม่ถูกต้องตามภารกิจที่กำหนดไว้
สถานการณ์ ฉันมีสคริปต์แบทช์ที่เตรียมไฟล์บางไฟล์รันโปรแกรม ( .exe) แล้วลบไฟล์ที่กล่าว งานนี้ควรทำงานทุกชั่วโมงดังนั้นฉันจึงพยายามกำหนดค่านี้โดยใช้งานที่กำหนดเวลาไว้ ปัญหาคือโปรแกรมที่กล่าวถึงก่อนหน้านี้ทำงานไม่ถูกต้องเมื่อเรียกใช้จากงาน (ไม่ผ่าน.batสคริปต์หรือเมื่อโทร.exeโดยตรง) แต่ฉันไม่ได้รับคำเตือนหรือข้อความแสดงข้อผิดพลาดในบันทึก ติดตั้ง งานได้รับการกำหนดค่าให้ทำงานเป็นบัญชีบริการ Windows ที่มีการตั้งค่าสิทธิ์ทั้งหมดอย่างถูกต้อง เมื่อใช้บัญชีนี้เพื่อเข้าสู่ระบบผ่าน RDP ฉันสามารถดำเนินการ.batและ.exeโดยตรงโดยไม่มีปัญหา แต่ก็ยังมีงานที่ดูเหมือนจะไม่ทำอะไรเลย สิ่งนี้สามารถสังเกตได้ง่ายเนื่องจากโปรแกรมจะทำการปรับเปลี่ยนไฟล์เสมอและการแก้ไขในการประทับเวลาจะไม่เปลี่ยนแปลงไปตามภารกิจ ในบันทึกภารกิจที่กำหนดเวลาไว้ฉันจะได้รับข้อความข้อมูลสำหรับงานที่เริ่มต้นกระบวนการออก ฯลฯ อย่างไรก็ตาม "รหัสผลลัพธ์" คือ111(พยายามที่จะใช้ Google โดยไม่มีโชคการเชื่อมโยงเดียวที่ฉันได้รับคือ "ชื่อไฟล์ยาวเกินไป "ซึ่งเป็น AFAIK ที่ไม่เกี่ยวข้องอย่างสมบูรณ์) ในบันทึกของแอปพลิเคชันฉันไม่ได้รับสิ่งใดเลย สิ่งที่ฉันสงสัยว่าเป็นปัญหา โปรแกรมนี้เป็นสิ่งที่น่ารังเกียจอย่างยิ่งที่วางไข่หน้าจอสแปลบางส่วน (จริงๆแล้วมันเป็นหน้าต่างปกติ) แม้ว่าจะไม่จำเป็นต้องใช้ GUI เพราะมันไม่ต้องการการโต้ตอบและปิดตัวเองหลังจากการทำงาน หน้าต่างจะปรากฏขึ้นประมาณ 2 วินาที ฉันสงสัยว่าข้อกำหนดนี้สำหรับ GUI มีส่วนเกี่ยวข้องกับงานที่ล้มเหลว แต่ฉันไม่แน่ใจ เมื่อฉันเข้าสู่ระบบด้วยผู้ใช้ที่งานภายใต้ (ผ่าน RDP) ไม่มีหน้าต่างปรากฏขึ้นเมื่อฉันเริ่มงานที่กำหนด แก้ไขเกี่ยวกับ GUI ฉันได้สร้างโปรแกรมปฏิบัติการ …

4
วิธีใช้ kdump / crash เพื่อตรวจสอบปัญหา OOM?
ปัญหา เซิร์ฟเวอร์ทำงานล้มเหลวหลังจากมีข้อความ "หน่วยความจำไม่พอ" หลายข้อความและฉันพยายามระบุผู้กระทำผิด หากอยู่ใน userland - กระบวนการใด หากอยู่ในเคอร์เนล - โมดูลเคอร์เนลใด รายละเอียด ฉันพยายามค้นหาวิธีใช้ยูทิลิตีความผิดพลาดเพื่อตรวจสอบสิ่งที่เรียกใช้ OOM บนเซิร์ฟเวอร์ ในฐานะที่เป็นส่วนหนึ่งของการติดตั้งคู่ใหม่ของเซิร์ฟเวอร์ที่ฉันเริ่มต้นการเริ่มต้นของ 14TB DRBDอุปกรณ์ ในช่วงเวลานั้นขณะที่เล่นกับการกำหนดค่าอัตราการซิงค์ DRBD และทำให้อินเทอร์เฟซเครือข่ายถูกผูกมัดบางส่วนขึ้นและลงเซิร์ฟเวอร์ตัวใดตัวหนึ่งทำงานล้มเหลว ในช่วงเวลา 30 วินาทีมันผลิต 39 Out of memory: Kill process ####ข้อความ จากนั้นมันก็ล้มเหลวด้วย: Kernel panic - not syncing: Out of memory and no killable processes... ความผิดพลาดของระบบเรียกkdump ตอนนี้ฉันมีvmcore.flatไฟล์ที่ดีซึ่งควรตรงไปตรงมาเพื่อใช้ในการตรวจสอบปัญหา แต่ฉันมีเวลายากที่จะหาว่าหน่วยความจำทั้งหมดไปที่ใด ทรัพยากรเท่านั้นฉันรู้คือเว็บไซต์ของ Dedoimedoซึ่งมีคำแนะนำที่ดีและเคอร์เนลชนหนังสือ สิ่งเหล่านี้ก็เป็นแหล่งข้อมูลเดียวที่แนะนำในคำตอบดังนั้นฉันคิดว่านั่นcrashเป็นวิธีเดียวที่จะตรวจสอบ …

4
คุณจะแก้ไขปัญหาไร้สายได้อย่างไร
บางครั้งฉันต้องแก้ไขปัญหาเครื่องบน LAN ที่มีการเชื่อมต่อไร้สายที่ไม่สม่ำเสมอโดยไม่มีเหตุผลใด ๆ ตรงกันข้ามกับการเชื่อมต่อเครือข่าย "ปกติ" ในกรณีส่วนใหญ่ฉันไม่รู้ว่าจะเริ่มต้นที่ไหนเพื่อแก้ไขข้อบกพร่องหรือแก้ปัญหา คำใบ้ใด ๆ ขอบคุณ!

1
Harddisks ล้มออฟไลน์โดยไม่ทราบสาเหตุ
ฉันมี 7 ระบบที่ใช้งานการตั้งค่าด้านล่าง ตอนนี้และจากนั้นดิสก์ที่แตกต่างกันออฟไลน์ แต่ในการตรวจสอบอย่างใกล้ชิดดิสก์เป็นสิ่งที่ดีและไม่ผิดพลาดและทำงานได้อย่างไม่มีที่ติเป็นเวลาอย่างน้อยอีกหนึ่งปี เนื่องจากสิ่งนี้เกิดขึ้นกับทั้ง 7 ระบบฉันพบว่าไม่น่าเป็นไปได้ที่จะมีส่วนเดียวที่ทำหน้าที่ (เช่นสายเคเบิล) แต่เป็นการรวมกันของบางส่วนที่เข้ากันไม่ได้ ปัญหาคือการหาจุดที่แน่นอนที่เข้ากันไม่ได้ (หากคุณมีวิธีแก้ปัญหาที่คุณสามารถทำฮาร์ดดิสก์เสมือนใหม่ได้จากบรรทัดคำสั่งคุณอาจสามารถตอบ/server/523315/re-activate-device - นั่นคือถือว่าตายแล้ว ) ฮาร์ดแวร์เซิร์ฟเวอร์: Dell 1950, Dell R815, Dell R715 ระบบปฏิบัติการ: $ uname -a Linux franklin 3.2.0-4-amd64 #1 SMP Debian 3.2.41-2+deb7u2 x86_64 GNU/Linux ควบคุม: $ lspci |grep 22: 22:00.0 Serial Attached SCSI controller: LSI Logic / Symbios Logic …

12
อะไรคือสิ่งแรกที่คุณตรวจสอบเมื่อเซิร์ฟเวอร์ unix ที่ไม่มีใครแตะต้องเริ่มบ้าดีเดือด
ดังนั้นคุณมีเซิร์ฟเวอร์ unix ที่ติดตั้งอย่างเรียบร้อยและมันเร็วสุด ๆ และใช้งานได้ดีและทุกอย่างยอดเยี่ยมเป็นเวลาหลายเดือนและทันใดนั้นข้อผิดพลาดแปลก ๆ ทุกชนิดก็เริ่มปรากฏขึ้นเพื่อบริการที่หลากหลาย น้อยกว่ากันมาก อะไรคือสิ่งที่ถูกที่คุณควรตรวจสอบทันทีที่คุณได้รับเซสชั่น ssh ของคุณไปยังเครื่อง? ฉันสนใจเรื่องการบาดเจ็บเป็นพิเศษที่เน้นคำสั่งที่ไม่ชัดเจนและสถานการณ์ที่หายาก แต่ฉันเดาว่าสิ่งที่เห็นได้ชัดนั้นแตกต่างกันไปในแต่ละบุคคลดังนั้นเราจึงสามารถเขียนรายการทั้งหมดได้อย่างอิสระ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.