การบันทึกการหยุดทำงานสำหรับการตรวจสอบภายหลังการตาย


14

เรามีเหตุการณ์ที่ร้ายแรงในสัปดาห์ที่ผ่านมาซึ่งส่งผลกระทบต่อบริการหลายอย่างซึ่งทำให้เราออกจาก SLA กับลูกค้า ตอนนี้ทุกอย่างได้รับการแก้ไขแล้วฉันกำลังทำการตรวจสอบภายหลังชันสูตร

จากการตรวจสอบนี้ฉันต้องการที่จะเกิดขึ้นกับเอกสารภายในที่อธิบายถึงการดับ, ผลกระทบ, การตอบสนองของเราและการแก้ปัญหา ฉันต้องการที่จะเกิดขึ้นกับรูปแบบมาตรฐานที่ค่อนข้างยุติธรรมสำหรับการใช้ซ้ำในอนาคต ฉันได้รวมความคิดของฉันไว้ด้านล่าง แต่สิ่งอื่น ๆ ที่ควรรวมอยู่ด้วย หากนี่เป็นเหตุการณ์ที่เกี่ยวข้องกับความปลอดภัยคุณจะเพิ่มอะไร

  • ข้อมูลอย่างย่อสรุประดับบริหารของเหตุการณ์
  • บริการที่ได้รับผลกระทบ
  • ผลกระทบผู้ใช้และ SLA ของเราคืออะไร มีค่าใช้จ่ายในแง่ดอลลาร์การทำธุรกรรมที่ไม่ได้รับลูกค้าที่หายไป ฯลฯ หรือไม่
  • ระยะเวลาหยุดทำงานสำหรับบริการที่ได้รับผลกระทบแต่ละรายการหากมีความแตกต่าง
  • สาเหตุรวมถึงสาเหตุหลักและรอง
  • มติ
  • ระยะเวลาของเหตุการณ์การแจ้งเตือนการติดต่อกับผู้ขายภายนอกการแจ้งเตือนลูกค้าการตอบกลับและอื่น ๆ
  • มีปัญหากับคำตอบของเราสิ่งต่าง ๆ ไม่เป็นไปตามที่วางแผนไว้กับการตอบสนองต่อไฟดับหรือไม่? คนที่ถูกต้องแจ้งเตือน? ผู้ขายปฏิบัติตามภาระผูกพันตามสัญญาหรือไม่?
  • มาตรการป้องกันที่จะทำเราจะป้องกันไม่ให้เกิดการหยุดชะงักนี้อีกครั้งหรือลดผลกระทบได้อย่างไร
  • วิธีการตรวจจับเราตรวจพบไฟดับนี้ดีแค่ไหนและเราจะปรับปรุงการตรวจจับในอนาคตได้อย่างไร
  • การเปลี่ยนแปลงที่จะทำในการตอบสนองการดับในอนาคต

พยายามที่จะเก็บโพสต์ลงในรายการเดียวและคำอธิบายและโพสต์นี้สามารถปรับปรุงด้วยคำตอบโหวตด้านบน

คำตอบ:


6

แม้ว่าจะสามารถครอบคลุมในมาตรการป้องกันได้แต่ฉันขอแนะนำให้มีส่วนวิธีการตรวจสอบที่คุณสามารถใช้เพื่อบันทึกสิ่งที่เป็นอาการจริงและวิธีที่คุณสามารถตรวจสอบปัญหา (เร็วขึ้น) ถ้ามันเกิดขึ้นอีกครั้งโดยใช้ระบบอัตโนมัติ


เพิ่มในวิกิแล้ว
Doug Luxem

2

ดูดี. ฉันจะเพิ่มเฉพาะต่อไปนี้:

ผลกระทบ / ผลที่ตามมา : อะไรคือผลของการดับ - ผู้ที่ได้รับผลกระทบ SLA ใดที่ถูกละเมิด (ถ้ามี) มีผลกระทบแบบน็อคออนหรือไม่?


1

บริการที่ได้รับผลกระทบและระยะเวลาการหยุดทำงานเพียงแค่บอกคุณว่าส่วนใดของไฟดับ คุณต้องการทราบว่าผลกระทบต่อธุรกิจคืออะไร

ผลกระทบ : สิ่งนี้มีผลกระทบต่อผู้ใช้อย่างไรและมีการรับรู้อย่างไร เงินนี้มีค่าใช้จ่ายเท่าไหร่ (โดยการขาด SLA, คำสั่งซื้อที่หายไป ฯลฯ )


ฉันชอบความแตกต่างระหว่างบริการที่ได้รับผลกระทบและผลกระทบทางธุรกิจ แต่ฉันจะจัดหมวดหมู่เป็น "ผลกระทบทางธุรกิจ" และไม่ใช่เพียงแค่ผลกระทบ (เพื่อแยกความแตกต่างระหว่างบริการนั้นกับข้อมูลบริการ / ระยะเวลาที่ได้รับผลกระทบ) พลัสก็จะวาดตาของผู้บริหารที่จะต้องตระหนักถึงผลกระทบทางธุรกิจหากไม่ได้ทุกรายละเอียดทางเทคนิคของสิ่งที่ให้บริการได้รับผลกระทบ ...
มิลเนอร์

1

การเปิดตัวสาธารณะและการเปิดตัวภายใน

นี่เป็นสิ่งที่ผู้บริหารจะต้องตัดสินใจเพิ่มเติม แต่คุณอาจจะต้องรวมสิ่งที่ควรเปิดเผยให้กับลูกค้าเกี่ยวกับเรื่องนี้หรือคำแนะนำของคุณ อีกทั้งยังสามารถลงชื่อออกจากการจัดการด้วยถ้อยคำที่แน่นอนของสิ่งที่จะปล่อยให้ลูกค้าก่อนปล่อยอะไร

การเผยแพร่สู่สาธารณะควรรวมอยู่ในสิ่งนี้เพื่อให้ทุกคนใน บริษัท รู้ว่าพวกเขาได้รับอนุญาตให้บอกลูกค้าอย่างไร


ฉันคิดว่าเอกสารภายในนี้สามารถใช้ในการสร้างรุ่นภายนอกให้กับลูกค้า สิ่งที่จะบอกกับลูกค้านั้นขึ้นอยู่กับผู้บริหารและการตลาด / การสื่อสารของเรา
Doug Luxem
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.