4
การบันทึกการหยุดทำงานสำหรับการตรวจสอบภายหลังการตาย
เรามีเหตุการณ์ที่ร้ายแรงในสัปดาห์ที่ผ่านมาซึ่งส่งผลกระทบต่อบริการหลายอย่างซึ่งทำให้เราออกจาก SLA กับลูกค้า ตอนนี้ทุกอย่างได้รับการแก้ไขแล้วฉันกำลังทำการตรวจสอบภายหลังชันสูตร จากการตรวจสอบนี้ฉันต้องการที่จะเกิดขึ้นกับเอกสารภายในที่อธิบายถึงการดับ, ผลกระทบ, การตอบสนองของเราและการแก้ปัญหา ฉันต้องการที่จะเกิดขึ้นกับรูปแบบมาตรฐานที่ค่อนข้างยุติธรรมสำหรับการใช้ซ้ำในอนาคต ฉันได้รวมความคิดของฉันไว้ด้านล่าง แต่สิ่งอื่น ๆ ที่ควรรวมอยู่ด้วย หากนี่เป็นเหตุการณ์ที่เกี่ยวข้องกับความปลอดภัยคุณจะเพิ่มอะไร ข้อมูลอย่างย่อสรุประดับบริหารของเหตุการณ์ บริการที่ได้รับผลกระทบ ผลกระทบผู้ใช้และ SLA ของเราคืออะไร มีค่าใช้จ่ายในแง่ดอลลาร์การทำธุรกรรมที่ไม่ได้รับลูกค้าที่หายไป ฯลฯ หรือไม่ ระยะเวลาหยุดทำงานสำหรับบริการที่ได้รับผลกระทบแต่ละรายการหากมีความแตกต่าง สาเหตุรวมถึงสาเหตุหลักและรอง มติ ระยะเวลาของเหตุการณ์การแจ้งเตือนการติดต่อกับผู้ขายภายนอกการแจ้งเตือนลูกค้าการตอบกลับและอื่น ๆ มีปัญหากับคำตอบของเราสิ่งต่าง ๆ ไม่เป็นไปตามที่วางแผนไว้กับการตอบสนองต่อไฟดับหรือไม่? คนที่ถูกต้องแจ้งเตือน? ผู้ขายปฏิบัติตามภาระผูกพันตามสัญญาหรือไม่? มาตรการป้องกันที่จะทำเราจะป้องกันไม่ให้เกิดการหยุดชะงักนี้อีกครั้งหรือลดผลกระทบได้อย่างไร วิธีการตรวจจับเราตรวจพบไฟดับนี้ดีแค่ไหนและเราจะปรับปรุงการตรวจจับในอนาคตได้อย่างไร การเปลี่ยนแปลงที่จะทำในการตอบสนองการดับในอนาคต พยายามที่จะเก็บโพสต์ลงในรายการเดียวและคำอธิบายและโพสต์นี้สามารถปรับปรุงด้วยคำตอบโหวตด้านบน