ผู้ใช้ไม่สามารถเข้าถึงอีเมลของตนได้ CEO ไม่สามารถไปที่โฮมเพจของ บริษัท ได้และเพจเจอร์ของคุณเพิ่งออกไปด้วยรหัส "911" คุณจะทำอย่างไรเมื่อทุกอย่างระเบิด
ผู้ใช้ไม่สามารถเข้าถึงอีเมลของตนได้ CEO ไม่สามารถไปที่โฮมเพจของ บริษัท ได้และเพจเจอร์ของคุณเพิ่งออกไปด้วยรหัส "911" คุณจะทำอย่างไรเมื่อทุกอย่างระเบิด
คำตอบ:
คำตอบแรกคือสงบสติ! ฉันเรียนรู้ว่าวิธีที่ยากลำบากในการตื่นตระหนกมักทำให้เรื่องแย่ลง เมื่อประสบความสำเร็จสิ่งต่อไปคือการตรวจสอบให้แน่ใจว่าปัญหาคืออะไร การร้องเรียนจากผู้ใช้และผู้จัดการจะมาหาคุณจากทุกมุมมองโดยบอกคุณว่าพวกเขาทำอะไรไม่ได้ แต่ไม่ใช่สิ่งที่เป็นปัญหา
เมื่อคุณรู้ปัญหาแล้วคุณสามารถเริ่มวางแผนแก้ไขและเริ่มให้เวลากับผู้ใช้ที่โกรธของคุณได้!
อยู่ในความสงบ
อย่าออกนอกลู่นอกทาง หายใจ! (จากไดอะแฟรมมันช่วยได้) หากคุณศึกษาการทำสมาธิก็สามารถช่วยได้เช่นกัน
เมื่อต้องเผชิญกับความเครียดที่รุนแรงร่างกายของคุณจะเข้าสู่โหมดการบินหรือต่อสู้เนื่องจากร่างกายของคุณคิดว่ามันอยู่ในสถานการณ์ที่มีชีวิตหรือตาย ในเวลานี้ร่างกายของคุณจะสูบฉีดเลือดน้อยลงในสมองบางส่วนของคุณลดการทำงานเช่นการใช้เหตุผล การทำเช่นนี้จะช่วยลด IQ ของคุณในฐานะที่เป็นสัญชาตญาณแทนที่จะเป็นเหตุเป็นผลเริ่มครอบงำการทำงานของสมองของคุณ หากคุณเคยเข้าร่วมหรือเป็นพยานในการโต้เถียงอย่างรุนแรงคุณอาจรับรู้ถึงอาการเหล่านี้เมื่ออารมณ์ของผู้คนลุกเป็นไฟและมีเหตุผลเกิดขึ้นในช่วงวันหยุด ต่อมาเมื่อผู้คนมีโอกาสที่จะทำให้เย็นลงพวกเขาจะมีแนวโน้มที่จะยอมรับว่าทำผิดพลาดหรือทำผิดและมีความสามารถที่จะเห็นอีกด้านหนึ่ง แต่ในเวลาอันสั้น
การรักษาความสงบของคุณและการรักษาสติปัญญาของคุณเกี่ยวกับคุณจะทำให้สมองของคุณทำงานได้อย่างเต็มประสิทธิภาพและให้แน่ใจว่าคุณตัดสินใจอย่างมีเหตุผลตามหลักฐานและเหตุผลมากกว่าอารมณ์และความกลัว
triage
การใช้ทรัพยากรอย่าง จำกัด อย่างมีประสิทธิภาพเพื่อให้เกิดประโยชน์สูงสุดในราคาที่ถูกที่สุดเป็นสิ่งสำคัญยิ่ง ตัดสินใจให้เร็วที่สุดเท่าที่จะเป็นไปได้ซึ่งสิ่งต่าง ๆ จะต้องได้รับการแก้ไขทันทีซึ่งสามารถรอสักครู่ (ชั่วโมงวัน) และสามารถรอได้อย่างไม่มีกำหนด เรียนรู้ที่จะตระหนักถึงเมื่อมีบางสิ่งที่ไม่สามารถกู้คืนได้และไม่คุ้มค่ากับการประหยัด (เช่นครึ่งเราเตอร์ละลายแม้ว่าคุณจะเป็นเพียงคนเดียวคุณก็ไม่สามารถบันทึกซื้อใหม่และนำไปไว้บนเว็บไซต์ได้ทันที เติมช่องว่างชั่วคราว)
รักษาความตระหนักในสถานการณ์
อย่าปล่อยให้ความสนใจของคุณติดกับปัญหาที่น่าสนใจหรือบางอย่างที่คุณยังไม่เข้าใจ มุ่งเน้นไปที่ภาพรวมและทำให้สิ่งที่สำคัญที่สุดทำงาน
ใช้วิธีการทางวิทยาศาสตร์
รูปแบบสมมติฐาน กำหนดว่าคุณจะทดสอบสมมติฐานนี้อย่างไร รวบรวมข้อมูลเพื่อทดสอบสมมติฐาน มองหาข้อมูลที่ไม่ยืนยันเช่นกัน ปรับสมมติฐานของคุณและทำซ้ำหลาย ๆ รอบตามความจำเป็นจนกว่าคุณจะมีความมั่นใจเพียงพอในสมมติฐานของคุณที่จะดำเนินการ
เน้นการปฏิบัติ
ตอนนี้ไม่ใช่เวลาสำหรับความเชื่อ ไม่เป็นไรที่จะใช้ทางลัดสองสามตัวที่นี่และเมื่อหายจากความเสียหาย นี่คือการเก็บหนี้ทางเทคนิคเป็นหลัก ในหลาย ๆ บริษัท ความล้มเหลวจากหายนะหมายถึงการสูญเสียรายได้อย่างมหันต์ มันจะดีกว่าถ้าคุณทำสิ่งต่าง ๆ ให้ทำงานแม้ว่าจะอยู่ในสภาพสั่นคลอนมากกว่าที่จะโง่เขลาและเสี่ยงชีวิตของ บริษัท ของคุณ และเช่นเคยการตัดสินนั้นสำคัญอย่างยิ่งที่นี่ บางครั้งมันก็สมเหตุสมผลที่จะประคองแฟนกล่องที่ชี้ไปที่แร็คเซิร์ฟเวอร์บางครั้งก็ไม่เป็นเช่นนั้น
ดูแลตัวเอง
คุณทำงานฉุกเฉินนี้มานานเท่าไหร่แล้ว? ครั้งสุดท้ายที่คุณดื่มน้ำคือเมื่อไหร่? ครั้งสุดท้ายที่คุณกินข้าวเมื่อไหร่? คุณตื่นมานานแค่ไหนแล้ว? อย่าทำให้ตัวเองเบื่อหน่ายเพราะมีเหตุฉุกเฉินใช้เวลาในการดื่มน้ำให้อาหารและพักผ่อน (ในกรณีที่เป็นเวลานานหลายวัน)
รับความช่วยเหลือ
มี บริษัท ที่มีความสามารถหลายคนใน บริษัท ของคุณที่มีแรงจูงใจและมีความสามารถในการปล่อยสินเชื่อ ระวังที่จะทำให้หลายคนวิ่งไปมาและก่อให้เกิดปัญหาซึ่งกันและกัน ยังต้องระวังคนที่น่ารำคาญด้วยการใส่พวกเขาผ่าน "firedrill" ค้นหาผู้ที่ต้องการความช่วยเหลืออยู่แล้วให้พวกเขาทำงานตามเป้าหมายและให้แน่ใจว่าผู้คนกำลังสื่อสารกัน
สื่อสาร
การสื่อสารเป็นสิ่งสำคัญ ไม่มีอะไรที่น่ากลัวเท่าที่ไม่รู้จัก เมื่อผู้คนไม่รู้อะไรเลยนอกจากสิ่งที่แตกสลายคำสั่งที่ว่างเปล่าว่าการสำรองข้อมูลในชั่วโมง X นั้นเป็นเพียงการให้ความมั่นใจเพียงเล็กน้อยเท่านั้น (ยิ่งมั่นใจน้อยลงหลังจากผ่านไปสิบชั่วโมง แรงกดดันขณะเล่นสามารถบังคับคุณให้ประเมิน WAG เวลาในแง่ดีเกินไป แต่นี่เป็นหลักสูตรที่ผิด อย่าเพิ่งพูดว่าคุณกำลังทำอยู่อย่าเพิ่งพูดว่าทุกสิ่งจะได้รับการแก้ไขในเวลา X เปิดกว้างแสดงขั้นตอนรายละเอียดความคืบหน้าและความพ่ายแพ้ของคุณ ให้ข้อมูลเชิงลึกเกี่ยวกับปัญหากระบวนการของคุณในการติดตามและวางแผนในการแก้ไขสิ่งต่าง ๆ (แม้ว่าจะไม่ทำให้ผู้คนจมน้ำตายในเรื่องย่อ) แสดงว่าปัญหาไม่ได้ยากแสดงให้เห็นว่าสิ่งต่าง ๆ จะถูกต้องในที่สุดแสดงให้เห็นว่ามีคนที่มีความสามารถในปัญหา
อย่าตกใจ
ขั้นตอนที่ 0 ตรวจสอบว่าไม่ใช่ระบบการตรวจสอบที่ผิดปกติ
ล็อกอินเข้าสู่ serverfault
จองเที่ยวบินไปยังประเทศที่ไม่ส่งผู้ร้ายข้ามแดนทันที
ตรวจสอบพื้นฐานก่อนดูเหมือนว่าโง่ แต่สิ่งต่าง ๆ เช่น
ฉันรู้ว่าหลายครั้งอาจสูญเปล่าที่กำลังมองหาวิธีการแก้ปัญหาเมื่อปัญหาต้นน้ำ
ฉัน ping stuff เกิดอะไรขึ้นหลังจากนั้นจะแตกต่างกันอย่างมากขึ้นอยู่กับผลลัพธ์ของการ ping
ขออภัยคำถามนี้ได้รับคำตอบที่สมบูรณ์ในการ์ตูน sysadmin ที่ชื่นชอบ :
ตำหนิเครือข่าย
(มันเป็นเรื่องตลก!)
RTFLF - อ่านไฟล์บันทึกของ Frakkin '
(ฉันไม่สามารถใช้เครดิตสำหรับสิ่งนี้ได้ทุกอย่างจะไปที่Scott Hanselman )
อย่าพยายามแก้ไขอะไรเลย
ตรวจสอบให้แน่ใจว่าคุณรู้แน่ชัดว่าปัญหาที่แท้จริงที่แฝงอยู่คืออะไร ตอนนี้เริ่มแก้ไขสิ่งต่าง ๆ หากมีหลายสิ่งที่ต้องแก้ไขให้พิจารณาอย่างรอบคอบว่าสิ่งใดที่อาจล่าช้า (หวังว่าจะถึงวันทำการถัดไปอย่างน้อยที่สุด!) และสิ่งใดที่จะต้องแก้ไขอย่างแน่นอน
แต่ที่สำคัญที่สุด: เมื่อทุกอย่างทำงานแล้วถามว่า "ทุกอย่างระเบิด" ทำไม คุณจะทำอย่างไรเพื่อป้องกันไม่ให้เกิดเหตุการณ์เช่นนี้อีก? จะมีขั้นตอนใด ๆ ที่จะทำให้การแก้ปัญหาได้ง่ายขึ้นถ้ามันไม่เกิดขึ้นอีกครั้งหรือไม่
บอกให้ทุกคนรู้ว่าคุณอยู่บนนั้นและถ้าเป็นไปได้ให้พวกเขาประมาณว่าเมื่อใดที่สิ่งต่างๆ
สำหรับการแก้ไขปัญหาที่แท้จริงนั้นขึ้นอยู่กับสิ่งที่ผิด ฉันมักจะเก็บรวบรวมสคริปต์ "ตรวจสอบสถานะ" สำหรับบริการต่างๆ
ตรวจสอบสายเคเบิล! ฉันเสียเวลาหลายชั่วโมงในการตรวจสอบสิ่งอื่น ๆ เมื่อการสลับสายเคเบิล Eth0 ง่าย ๆ จะแก้ไขปัญหาได้ ...
คุณควรมีแผนฉุกเฉิน
ระบบที่สำคัญควรได้รับการออกแบบโดยมีการล้มเหลวอัตโนมัติหรือแผนการกู้คืนที่ทำเป็นเอกสารและทดสอบ
ยิ่งระบบมีความสำคัญมากเท่าใดคุณก็จะต้องมีความยืดหยุ่นมากขึ้นเท่านั้นและยิ่งมีระบบอัตโนมัติมากขึ้นเท่านั้น
หากคุณไม่มีมันก็ไม่สำคัญเลยใช่ไหม
ตรวจสอบให้แน่ใจว่าการสำรองข้อมูลของคุณปลอดภัยแล้ว :) จากนั้น
ค้นหา commonalities มีอะไรเกิดขึ้นกับระบบทั้งหมดที่ได้รับผลกระทบ
ค้นหาสิ่งที่เปลี่ยนแปลง คุณควรมีการจัดการการเปลี่ยนแปลงอย่างเป็นทางการในองค์กรของคุณ
ผู้ชายคนใหม่อยู่ที่ไหน ... เจ้านายอยู่ที่ไหน ... ? หนึ่งในนั้นใช้ทางลัดหรือไม่ (เป็นเพียงรีบูตเซิร์ฟเวอร์ด่วนสิ่งที่อาจเป็นอันตรายได้)
เป็นเรื่องยากจากคำแถลงที่จะให้การกระทำที่เฉพาะเจาะจง ท่าแรกของคุณจะขึ้นอยู่กับ:
เห็นได้ชัดว่าคุณต้องใจเย็น ๆ และตื่นตัวเกี่ยวกับปัญหานี้ ประสบการณ์ของคุณเกี่ยวกับการแก้ไขปัญหาเครือข่ายจะสอนคุณว่าสิ่งนี้อาจเป็นเรื่องเล็กน้อยเช่น:
ต้องบอกว่ามันอาจเป็นสิ่งที่ร้ายแรงในหมวดหมู่ของ:
องค์ประกอบสำคัญคือคุณรู้เกี่ยวกับปัญหานี้มากแค่ไหน จุดอ้างอิงของคุณคืออะไร (จากมุมมอง 'ระบบลง' คืออะไร)
ตรวจสอบ DNS
เริ่มง่ายและทำงานต่อไร้สาระ
พลังงาน?
อีเธอร์เน็ต?
โปรแกรมกำลังทำงานอยู่หรือ
...
มนุษย์ต่างดาว?