ทำการวิเคราะห์หาสาเหตุ


9

ฉันต้องการเรียนรู้เพิ่มเติมเกี่ยวกับวิธีการวิเคราะห์สาเหตุที่แท้จริง หลายครั้งกว่าที่แผนกของเราบอกให้ผู้ใช้ลองรีบูตเครื่อง (ระบบ Windows XP ของพวกเขา) ซึ่งจริงๆแล้ว "แก้ไข" ปัญหาจำนวนมาก เมื่อฉันรีบ (และบางครั้งการจ่ายเงินมีส่วนช่วยในการนี้) ฉันอาจพยายามหาวิธีแก้ปัญหาเพื่อแก้ไขปัญหาได้อย่างรวดเร็วแทนที่จะทำการวิเคราะห์สาเหตุที่แท้จริง

เวลาส่วนใหญ่ที่ฉันกำลังค้นหาในล็อกไฟล์หรือตัวแสดงเหตุการณ์สำหรับข้อมูลนี้ บางครั้งฉันจะใช้เครื่องมือ Sysinternals หรือเรียกใช้แพ็คเก็ตดมกลิ่นเป็นครั้งคราว ฉันอาจไม่ใช้โปรแกรม Sysinternals มากเท่าที่ควร ข้อมูลเชิงลึกเฉพาะบางประการเกี่ยวกับวิธีที่คุณใช้เครื่องมือเหล่านี้เมื่อใดและเพราะเหตุใดจะเป็นประโยชน์เช่นกัน

ฉันรู้ว่านี่เป็นคำถามเปิดกว้าง แต่คุณช่วยอธิบายวิธีการเครื่องมือและอื่น ๆ ที่คุณใช้ในเวลาสั้น ๆ ได้ไหม ดูเหมือนว่าผู้ดูแลระบบจำนวนมากใน SF ใช้กระบวนการเชิงลึกมากขึ้นซึ่งฉันต้องการเรียนรู้เพิ่มเติมเกี่ยวกับ หากสิ่งนี้ช่วย จำกัด คำถามให้แคบลงฉันจะสนใจเครื่องมือเคล็ดลับกลอุบาย ฯลฯ ที่เกี่ยวข้องกับเซิร์ฟเวอร์และไคลเอนต์ Windows ภายในสภาพแวดล้อมโฆษณามากที่สุด

คำตอบ:


5

การหาสาเหตุของปัญหานั้นขึ้นอยู่กับปัญหา - สัญชาตญาณเริ่มต้นของคุณในการดูไฟล์บันทึก / เครื่องมือ sysinternals / เครื่องมือตรวจจับแพ็คเก็ตโดยทั่วไปนั้นถูกต้อง
ฉันจะเพิ่มการเรียกใช้เครื่องมือกำจัด MS Malicious Software และโปรแกรม AV ที่ดีในระบบ Windows (และรับรองว่าพวกเขาไม่มีสิ่งใดเช่น CyberDefender หรือ AV-trojan-Malware อื่น ๆ

ผู้คนในการแลกเปลี่ยนสแต็คเป็นผู้เสนอวิธี "5 Whys" ( http://en.wikipedia.org/wiki/5_Whysซึ่งเป็นไฟล์ PDF สั้น ๆ ที่ดีที่แสดงให้เห็นในทางปฏิบัติ ) มันเป็นเครื่องมือที่มีค่าสำหรับการวิเคราะห์สาเหตุของปัญหา


นอกเหนือจากนั้นฉันจะเขียนสองหมวดหมู่กว้าง ๆ และคำถามที่ฉันมักจะถาม / สิ่งที่ฉันตรวจสอบ:

พฤติกรรมลึกลับที่ไม่เกี่ยวข้องกับเครือข่าย
เช่น "Word หยุดทำงานกับฉัน"

คำถามพื้นฐานที่จะถาม:

  1. มีการเปลี่ยนแปลงอะไร
    (อย่าใช้คำว่า "ไม่มี" เพื่อเป็นคำตอบ - มันเป็นคำโกหกคำแรกซอฟต์แวร์ใหม่แผ่นปะและอื่น ๆ ทั้งหมดนับ)
  2. คุณกำลังทำอะไรเมื่อมีปัญหา?
    (พยายามดึงรายละเอียดให้มากที่สุดเท่าที่จะทำได้ที่นี่ - ในตัวอย่างด้านบน "ฉันกดปุ่มลัดเพื่อแทรกชื่อย่อและโปรแกรมขัดข้อง")
  3. มันเคยทำงานมาก่อนหรือไม่
    (ถ้าเป็นเช่นนั้นเริ่มมองสิ่งต่าง ๆ จาก (1) ด้านบน)
  4. คุณสามารถสร้างปัญหาบนระบบของคุณได้หรือไม่?
    (หากเป็นเช่นนั้นเป็นสัญญาณที่ดี: การโทรติดต่อฝ่ายสนับสนุนด้านเทคนิคแก่ผู้ขายอาจช่วยได้หากไม่ใช่คุณจะต้องดูที่ระบบของผู้ใช้สำหรับคำถามที่เหลือทั้งหมด)
  5. สภาพแวดล้อมของผู้ใช้แตกต่างจากสภาพแวดล้อมของคุณอย่างไร
  6. เป็นฮาร์ดแวร์ของผู้ใช้หรือไม่ (เรียกใช้การทดสอบหน่วยความจำมองหาข้อผิดพลาด SMART จากฮาร์ดไดรฟ์ ฯลฯ )
  7. หากคุณได้รับสิ่งนี้ (ตรวจสอบฮาร์ดแวร์ตรวจสอบซอฟต์แวร์ไม่มีไวรัสไม่มีมัลแวร์) ไปเยี่ยมผู้ใช้เป็นเวลาหนึ่งวัน สังเกตพฤติกรรมการทำงานของพวกเขา
    บริษัท ของฉันเคยมีการล็อกระบบลึกลับที่เกี่ยวข้องกับการคลิกเมาส์ที่ความถี่เฉพาะ (เรายังไม่รู้ว่าทำไม แต่เราต้องดูผู้ใช้ที่ทำมันและฝึกฝนเป็นเวลาหนึ่งวันเพื่อให้สามารถทำซ้ำได้ มันน่าเชื่อถือ)

ปัญหาที่เกี่ยวข้องกับเครือข่าย

สิ่งนี้คล้ายกันมาก แต่มีคำแนะนำเฉพาะเพิ่มเติมบางอย่าง

  1. มีการเปลี่ยนแปลงอะไร
    (ใช่คุณเริ่มต้นเสมอ)
  2. มีอะไรแตก
    • คุณสามารถเข้าถึงหน้าเว็บได้หรือไม่ มันเป็นเพียงหนึ่งที่ลง? ถ้าเป็นเช่นนั้นจะลงสำหรับทุกคนหรือเพียงแค่คุณ ?
    • คุณสามารถ ping สิ่งของบนอินเทอร์เน็ตด้วยชื่อได้ไหม
      แล้ว IP ล่ะ Traceroute ไปได้ไกลแค่ไหน?
  3. เมื่อไหร่มันจะแตก
    • เวลาเดียวกันของวันเสมอ
    • สำหรับช่วงเวลาสั้น ๆ ทุก N วัน?
    • สุ่ม (มันสุ่มจริงๆไหมวางแผนบนปฏิทิน ... )
  4. มีสิ่งแปลก ๆ เกี่ยวกับไซต์ระยะไกลหรือไม่
    • ดู DNS - ถ้าเป็นแบบเวียนจะมีการแตกด้านระยะไกล
    • เรากำลังพูดถึงปลายอีกด้านของ VPN หรือไม่? เกิดอะไรขึ้นกับ VPN (บันทึก!)
  5. มีเรื่องแปลก ๆ เกี่ยวกับไซต์ท้องถิ่นบ้างไหม
    • ตรวจสอบไฟร์วอลล์ในเครื่องของคุณ
    • ตรวจสอบ "ซอฟต์แวร์ตัวกรอง" ใด ๆ
  6. ตรวจสอบกับ ISP ของคุณเพื่อดูว่ามีปัญหาใด ๆ ที่ทราบหรือไม่
  7. ตรวจสอบไซต์เช่นhttp://www.internetpulse.net/สำหรับปัญหาทั่วทั้งเครือข่ายที่ทราบ
  8. ตรวจสอบเครื่องของผู้ใช้
    (การตั้งค่า TCP ฯลฯ - โดยปกติจะไม่ใช่ปัญหา แต่บางครั้งก็เป็นไปได้)

1

นอกจากการตอบสนองที่ยอดเยี่ยมจนถึงตอนนี้ฉันจะเพิ่ม:

  • ระบุวันที่ / เวลาที่มีปัญหา สิ่งนี้อาจดูเหมือนชัดเจน แต่ฉันเห็นปัญหามากเกินไปซึ่งนี่ไม่ใช่เอกสารและต่อมาได้มีการตั้งสมมติฐานที่ไม่ถูกต้อง สิ่งนี้มีความสัมพันธ์ที่ดีกับขั้นตอน "สิ่งที่เปลี่ยนแปลง"

  • ปัญหานี้เกิดขึ้นซ้ำ ๆ หรือไม่สม่ำเสมอหรือไม่ นี่เป็นสิ่งสำคัญเนื่องจากอาการที่ทำซ้ำได้ง่ายกว่าและเร็วกว่าที่จะแก้ไขได้มากกว่าอาการที่ไม่สม่ำเสมอ หากสามารถทำซ้ำได้ให้ตรวจสอบว่ามีการบันทึกขั้นตอนไว้

  • ระบุอาการ โปรดทราบว่าเราแยกความแตกต่างระหว่าง "อาการ" ซึ่งเป็นการรวมตัวกันของสาเหตุที่แท้จริงและสาเหตุของปัญหา / สาเหตุที่แท้จริง

    1. มีกิจกรรมอื่น ๆ ที่สามารถทำให้เกิดอาการได้หรือไม่?
    2. มีอาการอื่น ๆ อีกหรือไม่?
    3. หากปัญหานั้นไม่สม่ำเสมอเราสามารถระบุกิจกรรมที่จะทำให้เกิดขึ้นได้หรือไม่?
    4. ในสถานการณ์ใดที่เราสามารถป้องกันไม่ให้เกิดอาการ ปัญหาเกิดขึ้นเฉพาะเมื่อเข้าสู่ระบบโดยใช้บัญชีเครือข่าย แต่ทำงานได้ดีถ้าเข้าสู่ระบบในเครื่องหรือไม่ ปัญหาเกิดขึ้นเมื่อเข้าสู่ระบบในฐานะผู้ใช้ปกติ แต่ทำงานได้ดีถ้าเข้าสู่ระบบด้วยสิทธิ์ยกระดับ มันเกิดขึ้นในระบบเดียวเท่านั้น แต่ระบบอื่นที่ควรมีลักษณะคล้ายกันนั้นไม่แสดงอาการ
  • แปลปัญหาให้เป็นองค์ประกอบการทำงานที่ผิดปกติ หากมีข้อผิดพลาดในเว็บแอปพลิเคชันจะมีรหัสแอปพลิเคชันเว็บเซิร์ฟเวอร์ระบบปฏิบัติการที่โฮสต์เว็บเซิร์ฟเวอร์เครือข่ายหรือปลายทางระยะไกลหรือไม่ นี่คือการคาดเดาที่ดีที่สุด ณ จุดนี้เพื่อให้ทรัพยากรมุ่งเน้นไปที่สาเหตุที่อาจเกิดขึ้นดังนั้นให้แน่ใจว่าคนอื่น ๆ รู้ว่านี่คือทฤษฎี / การคาดเดา

  • ตั้งคำถามกับข้อสันนิษฐานของคุณและพยายามรวบรวมข้อมูลเชิงประจักษ์เพื่อสนับสนุนสมมติฐานและข้อสรุป มันค่อนข้างแย่ที่จะบอกใครสักคนว่าไม่มีปัญหากับ x และมันถูกค้นพบในภายหลังว่ามีอยู่จริง โดยปกติเมื่อมีวิธีแก้ไขปัญหาที่ไม่ถูกต้องอาจมีข้อมูลสนับสนุนการแก้ไขปัญหาที่ถูกต้อง


0

ดูเหมือนว่าคุณกำลังขอความช่วยเหลือในการแก้ไขปัญหาทั่วไปเช่นกฎการแก้ไขปัญหาแนวทางในการแก้ไขปัญหาของคุณหรือไม่ มากกว่าวิธีการทำ RCA ชนิดใดประเภทหนึ่ง ( http://en.wikipedia.org/wiki/Root_cause_analysis )

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.