เรามีเหตุการณ์ที่ร้ายแรงในสัปดาห์ที่ผ่านมาซึ่งส่งผลกระทบต่อบริการหลายอย่างซึ่งทำให้เราออกจาก SLA กับลูกค้า ตอนนี้ทุกอย่างได้รับการแก้ไขแล้วฉันกำลังทำการตรวจสอบภายหลังชันสูตร
จากการตรวจสอบนี้ฉันต้องการที่จะเกิดขึ้นกับเอกสารภายในที่อธิบายถึงการดับ, ผลกระทบ, การตอบสนองของเราและการแก้ปัญหา ฉันต้องการที่จะเกิดขึ้นกับรูปแบบมาตรฐานที่ค่อนข้างยุติธรรมสำหรับการใช้ซ้ำในอนาคต ฉันได้รวมความคิดของฉันไว้ด้านล่าง แต่สิ่งอื่น ๆ ที่ควรรวมอยู่ด้วย หากนี่เป็นเหตุการณ์ที่เกี่ยวข้องกับความปลอดภัยคุณจะเพิ่มอะไร
- ข้อมูลอย่างย่อสรุประดับบริหารของเหตุการณ์
- บริการที่ได้รับผลกระทบ
- ผลกระทบผู้ใช้และ SLA ของเราคืออะไร มีค่าใช้จ่ายในแง่ดอลลาร์การทำธุรกรรมที่ไม่ได้รับลูกค้าที่หายไป ฯลฯ หรือไม่
- ระยะเวลาหยุดทำงานสำหรับบริการที่ได้รับผลกระทบแต่ละรายการหากมีความแตกต่าง
- สาเหตุรวมถึงสาเหตุหลักและรอง
- มติ
- ระยะเวลาของเหตุการณ์การแจ้งเตือนการติดต่อกับผู้ขายภายนอกการแจ้งเตือนลูกค้าการตอบกลับและอื่น ๆ
- มีปัญหากับคำตอบของเราสิ่งต่าง ๆ ไม่เป็นไปตามที่วางแผนไว้กับการตอบสนองต่อไฟดับหรือไม่? คนที่ถูกต้องแจ้งเตือน? ผู้ขายปฏิบัติตามภาระผูกพันตามสัญญาหรือไม่?
- มาตรการป้องกันที่จะทำเราจะป้องกันไม่ให้เกิดการหยุดชะงักนี้อีกครั้งหรือลดผลกระทบได้อย่างไร
- วิธีการตรวจจับเราตรวจพบไฟดับนี้ดีแค่ไหนและเราจะปรับปรุงการตรวจจับในอนาคตได้อย่างไร
- การเปลี่ยนแปลงที่จะทำในการตอบสนองการดับในอนาคต
พยายามที่จะเก็บโพสต์ลงในรายการเดียวและคำอธิบายและโพสต์นี้สามารถปรับปรุงด้วยคำตอบโหวตด้านบน