รายการตรวจสอบของคุณคืออะไรเมื่อทุกอย่างระเบิดขึ้น?


40

ผู้ใช้ไม่สามารถเข้าถึงอีเมลของตนได้ CEO ไม่สามารถไปที่โฮมเพจของ บริษัท ได้และเพจเจอร์ของคุณเพิ่งออกไปด้วยรหัส "911" คุณจะทำอย่างไรเมื่อทุกอย่างระเบิด

คำตอบ:


35

คำตอบแรกคือสงบสติ! ฉันเรียนรู้ว่าวิธีที่ยากลำบากในการตื่นตระหนกมักทำให้เรื่องแย่ลง เมื่อประสบความสำเร็จสิ่งต่อไปคือการตรวจสอบให้แน่ใจว่าปัญหาคืออะไร การร้องเรียนจากผู้ใช้และผู้จัดการจะมาหาคุณจากทุกมุมมองโดยบอกคุณว่าพวกเขาทำอะไรไม่ได้ แต่ไม่ใช่สิ่งที่เป็นปัญหา

เมื่อคุณรู้ปัญหาแล้วคุณสามารถเริ่มวางแผนแก้ไขและเริ่มให้เวลากับผู้ใช้ที่โกรธของคุณได้!


3
นี่คือแผนปฏิกิริยา แผนการกู้คืนความเสียหายที่แท้จริงได้รับการเขียนและทดสอบแล้วสำหรับทุกกระบวนการทางธุรกิจที่สำคัญ
spoulson

3
แน่ใจว่า spaulson: แต่สิ่งแรกที่ต้องทำคือคิดออกถ้าคุณต้องการใช้งานแผนหรือถ้าการพลิกตัวตัดวงจรจะแก้ไขได้ทั้งหมด
pjz

1
อันที่จริงแล้วนี่เป็นสิ่งที่ดีที่สุดที่จะทำ POST PERFECT! หลังจากที่คุณต้องสามารถกดดันทุกอย่างที่ด้านหลังของคุณเพราะดังที่กล่าวไว้ในความคิดเห็นข้างต้นทุกคนจะรีบไปที่สำนักงานของคุณเพื่อบอกคุณว่าพวกเขาสามารถไปในที่ที่พวกเขาต้องการ ที่จริงแล้วผู้ใช้ส่วนใหญ่เห็นแก่ตัวจริง ๆ ในขณะนี้และพวกเขาไม่ต้องการเข้าใจเลยพวกเขาแค่ต้องการให้พวกเขาทำงานและพวกเขาไม่สนใจที่เหลือ ... ดังนั้นฉันเห็นด้วยกับโพสต์ของคุณ !
Marc-Andre R.

+1 สำหรับการแยกแยะ "ปัญหา" ออกจากอาการ
bmb

59

อยู่ในความสงบ

อย่าออกนอกลู่นอกทาง หายใจ! (จากไดอะแฟรมมันช่วยได้) หากคุณศึกษาการทำสมาธิก็สามารถช่วยได้เช่นกัน

เมื่อต้องเผชิญกับความเครียดที่รุนแรงร่างกายของคุณจะเข้าสู่โหมดการบินหรือต่อสู้เนื่องจากร่างกายของคุณคิดว่ามันอยู่ในสถานการณ์ที่มีชีวิตหรือตาย ในเวลานี้ร่างกายของคุณจะสูบฉีดเลือดน้อยลงในสมองบางส่วนของคุณลดการทำงานเช่นการใช้เหตุผล การทำเช่นนี้จะช่วยลด IQ ของคุณในฐานะที่เป็นสัญชาตญาณแทนที่จะเป็นเหตุเป็นผลเริ่มครอบงำการทำงานของสมองของคุณ หากคุณเคยเข้าร่วมหรือเป็นพยานในการโต้เถียงอย่างรุนแรงคุณอาจรับรู้ถึงอาการเหล่านี้เมื่ออารมณ์ของผู้คนลุกเป็นไฟและมีเหตุผลเกิดขึ้นในช่วงวันหยุด ต่อมาเมื่อผู้คนมีโอกาสที่จะทำให้เย็นลงพวกเขาจะมีแนวโน้มที่จะยอมรับว่าทำผิดพลาดหรือทำผิดและมีความสามารถที่จะเห็นอีกด้านหนึ่ง แต่ในเวลาอันสั้น

การรักษาความสงบของคุณและการรักษาสติปัญญาของคุณเกี่ยวกับคุณจะทำให้สมองของคุณทำงานได้อย่างเต็มประสิทธิภาพและให้แน่ใจว่าคุณตัดสินใจอย่างมีเหตุผลตามหลักฐานและเหตุผลมากกว่าอารมณ์และความกลัว

triage

การใช้ทรัพยากรอย่าง จำกัด อย่างมีประสิทธิภาพเพื่อให้เกิดประโยชน์สูงสุดในราคาที่ถูกที่สุดเป็นสิ่งสำคัญยิ่ง ตัดสินใจให้เร็วที่สุดเท่าที่จะเป็นไปได้ซึ่งสิ่งต่าง ๆ จะต้องได้รับการแก้ไขทันทีซึ่งสามารถรอสักครู่ (ชั่วโมงวัน) และสามารถรอได้อย่างไม่มีกำหนด เรียนรู้ที่จะตระหนักถึงเมื่อมีบางสิ่งที่ไม่สามารถกู้คืนได้และไม่คุ้มค่ากับการประหยัด (เช่นครึ่งเราเตอร์ละลายแม้ว่าคุณจะเป็นเพียงคนเดียวคุณก็ไม่สามารถบันทึกซื้อใหม่และนำไปไว้บนเว็บไซต์ได้ทันที เติมช่องว่างชั่วคราว)

รักษาความตระหนักในสถานการณ์

อย่าปล่อยให้ความสนใจของคุณติดกับปัญหาที่น่าสนใจหรือบางอย่างที่คุณยังไม่เข้าใจ มุ่งเน้นไปที่ภาพรวมและทำให้สิ่งที่สำคัญที่สุดทำงาน

ใช้วิธีการทางวิทยาศาสตร์

รูปแบบสมมติฐาน กำหนดว่าคุณจะทดสอบสมมติฐานนี้อย่างไร รวบรวมข้อมูลเพื่อทดสอบสมมติฐาน มองหาข้อมูลที่ไม่ยืนยันเช่นกัน ปรับสมมติฐานของคุณและทำซ้ำหลาย ๆ รอบตามความจำเป็นจนกว่าคุณจะมีความมั่นใจเพียงพอในสมมติฐานของคุณที่จะดำเนินการ

เน้นการปฏิบัติ

ตอนนี้ไม่ใช่เวลาสำหรับความเชื่อ ไม่เป็นไรที่จะใช้ทางลัดสองสามตัวที่นี่และเมื่อหายจากความเสียหาย นี่คือการเก็บหนี้ทางเทคนิคเป็นหลัก ในหลาย ๆ บริษัท ความล้มเหลวจากหายนะหมายถึงการสูญเสียรายได้อย่างมหันต์ มันจะดีกว่าถ้าคุณทำสิ่งต่าง ๆ ให้ทำงานแม้ว่าจะอยู่ในสภาพสั่นคลอนมากกว่าที่จะโง่เขลาและเสี่ยงชีวิตของ บริษัท ของคุณ และเช่นเคยการตัดสินนั้นสำคัญอย่างยิ่งที่นี่ บางครั้งมันก็สมเหตุสมผลที่จะประคองแฟนกล่องที่ชี้ไปที่แร็คเซิร์ฟเวอร์บางครั้งก็ไม่เป็นเช่นนั้น

ดูแลตัวเอง

คุณทำงานฉุกเฉินนี้มานานเท่าไหร่แล้ว? ครั้งสุดท้ายที่คุณดื่มน้ำคือเมื่อไหร่? ครั้งสุดท้ายที่คุณกินข้าวเมื่อไหร่? คุณตื่นมานานแค่ไหนแล้ว? อย่าทำให้ตัวเองเบื่อหน่ายเพราะมีเหตุฉุกเฉินใช้เวลาในการดื่มน้ำให้อาหารและพักผ่อน (ในกรณีที่เป็นเวลานานหลายวัน)

รับความช่วยเหลือ

มี บริษัท ที่มีความสามารถหลายคนใน บริษัท ของคุณที่มีแรงจูงใจและมีความสามารถในการปล่อยสินเชื่อ ระวังที่จะทำให้หลายคนวิ่งไปมาและก่อให้เกิดปัญหาซึ่งกันและกัน ยังต้องระวังคนที่น่ารำคาญด้วยการใส่พวกเขาผ่าน "firedrill" ค้นหาผู้ที่ต้องการความช่วยเหลืออยู่แล้วให้พวกเขาทำงานตามเป้าหมายและให้แน่ใจว่าผู้คนกำลังสื่อสารกัน

สื่อสาร

การสื่อสารเป็นสิ่งสำคัญ ไม่มีอะไรที่น่ากลัวเท่าที่ไม่รู้จัก เมื่อผู้คนไม่รู้อะไรเลยนอกจากสิ่งที่แตกสลายคำสั่งที่ว่างเปล่าว่าการสำรองข้อมูลในชั่วโมง X นั้นเป็นเพียงการให้ความมั่นใจเพียงเล็กน้อยเท่านั้น (ยิ่งมั่นใจน้อยลงหลังจากผ่านไปสิบชั่วโมง แรงกดดันขณะเล่นสามารถบังคับคุณให้ประเมิน WAG เวลาในแง่ดีเกินไป แต่นี่เป็นหลักสูตรที่ผิด อย่าเพิ่งพูดว่าคุณกำลังทำอยู่อย่าเพิ่งพูดว่าทุกสิ่งจะได้รับการแก้ไขในเวลา X เปิดกว้างแสดงขั้นตอนรายละเอียดความคืบหน้าและความพ่ายแพ้ของคุณ ให้ข้อมูลเชิงลึกเกี่ยวกับปัญหากระบวนการของคุณในการติดตามและวางแผนในการแก้ไขสิ่งต่าง ๆ (แม้ว่าจะไม่ทำให้ผู้คนจมน้ำตายในเรื่องย่อ) แสดงว่าปัญหาไม่ได้ยากแสดงให้เห็นว่าสิ่งต่าง ๆ จะถูกต้องในที่สุดแสดงให้เห็นว่ามีคนที่มีความสามารถในปัญหา


2
ดีมาก - ฉันยังจะเพิ่มความช่วยเหลือสมัครถ้าเป็นไปได้
Brent

@Brent ah ใช่ฉันหมายถึงการเพิ่มที่ ฉันยังไม่เข้าใจคำที่ถูกต้องสำหรับหัวข้อนั้น
Wedge

24

อย่าตกใจ


4
ตัวอักษรสีแดงขนาดใหญ่ที่เป็นมิตร
Spoike

1
ฉันได้ยินมาว่าสีชมพูเป็นสีที่สงบเงียบ
Sophie Alpert

11
หยิบผ้าเช็ดตัวแล้วฝากข้อความไว้ว่า "นานมากแล้วขอบคุณปลาทุกตัว"
Jauder Ho

1
พวกเขากล่าวว่า taupe มากผ่อนคลาย
เกล็น Slaven

มันอยู่ครึ่งทางที่ฉลาดกว่า!
Andrew Grimm

22

ขั้นตอนที่ 0 ตรวจสอบว่าไม่ใช่ระบบการตรวจสอบที่ผิดปกติ


ฮ่า ๆ! ทำได้ดีนี่! สิ่งนี้เกิดขึ้นหลายครั้ง: P
Marc-Andre R.



8

ตรวจสอบพื้นฐานก่อนดูเหมือนว่าโง่ แต่สิ่งต่าง ๆ เช่น

  1. กำลังเปิดเครื่องที่เซิร์ฟเวอร์หรือไม่ (ถ้าคุณโฮสต์นอกไซต์)
  2. ผู้ให้บริการโฮสต์ของคุณไม่ทำงานหรือไม่

ฉันรู้ว่าหลายครั้งอาจสูญเปล่าที่กำลังมองหาวิธีการแก้ปัญหาเมื่อปัญหาต้นน้ำ


2
อ๋อ - ถ้ามันจะลง - ตรวจสอบศูนย์ข้อมูล - และฟอรัมสนับสนุนของพวกเขา หากมีคนออนไลน์ 30 คนโดยปกติจะมี 3 คน - มันเป็นการชนแฟน ๆ
Alister Bulman

6

ฉัน ping stuff เกิดอะไรขึ้นหลังจากนั้นจะแตกต่างกันอย่างมากขึ้นอยู่กับผลลัพธ์ของการ ping


ใช้วิธีนี้วันนี้ พีซีจำนวนมากไม่สามารถพิมพ์ได้ พยายามที่จะ ping เซิร์ฟเวอร์ฐานข้อมูลตกลง พยายามที่จะ ping เซิร์ฟเวอร์เซิร์ฟเวอร์ใบอนุญาตไม่มีการตอบสนอง ผล = เซิร์ฟเวอร์ผิดพลาด!
Swinders

จุดดี;) ฉันทำอย่างนั้นหลายครั้งต่อวันก่อนที่จะทำอะไรอย่างอื่น อันที่จริงมันช่วยประหยัดเวลาได้มาก: P
Marc-Andre R.



3

RTFLF - อ่านไฟล์บันทึกของ Frakkin '

(ฉันไม่สามารถใช้เครดิตสำหรับสิ่งนี้ได้ทุกอย่างจะไปที่Scott Hanselman )


นี่ไม่ควรเป็นขั้นตอนแรก แต่ต้องเป็นหนึ่งในสิ่งเหล่านี้
Marc-Andre R.

2

อย่าพยายามแก้ไขอะไรเลย

ตรวจสอบให้แน่ใจว่าคุณรู้แน่ชัดว่าปัญหาที่แท้จริงที่แฝงอยู่คืออะไร ตอนนี้เริ่มแก้ไขสิ่งต่าง ๆ หากมีหลายสิ่งที่ต้องแก้ไขให้พิจารณาอย่างรอบคอบว่าสิ่งใดที่อาจล่าช้า (หวังว่าจะถึงวันทำการถัดไปอย่างน้อยที่สุด!) และสิ่งใดที่จะต้องแก้ไขอย่างแน่นอน

แต่ที่สำคัญที่สุด: เมื่อทุกอย่างทำงานแล้วถามว่า "ทุกอย่างระเบิด" ทำไม คุณจะทำอย่างไรเพื่อป้องกันไม่ให้เกิดเหตุการณ์เช่นนี้อีก? จะมีขั้นตอนใด ๆ ที่จะทำให้การแก้ปัญหาได้ง่ายขึ้นถ้ามันไม่เกิดขึ้นอีกครั้งหรือไม่


1

บอกให้ทุกคนรู้ว่าคุณอยู่บนนั้นและถ้าเป็นไปได้ให้พวกเขาประมาณว่าเมื่อใดที่สิ่งต่างๆ

สำหรับการแก้ไขปัญหาที่แท้จริงนั้นขึ้นอยู่กับสิ่งที่ผิด ฉันมักจะเก็บรวบรวมสคริปต์ "ตรวจสอบสถานะ" สำหรับบริการต่างๆ


ทำไมสิ่งนี้อ่อนล้า ดูเหมือนว่าเป็นจุดที่ถูกต้องสำหรับฉัน
Adriano Varoli Piazza

นี่เป็นจุดที่ยอดเยี่ยม การป้องกันเป็นกุญแจสำคัญในการหลีกเลี่ยงภัยพิบัติขนาดใหญ่;)
มาร์คอังเดรอาร์

1

ตรวจสอบสายเคเบิล! ฉันเสียเวลาหลายชั่วโมงในการตรวจสอบสิ่งอื่น ๆ เมื่อการสลับสายเคเบิล Eth0 ง่าย ๆ จะแก้ไขปัญหาได้ ...


ที่จริงแล้วสายเคเบิลไม่ได้ตายโดยไม่มีเหตุผล ถ้ามันไม่เรียงซ้อนห่อหรือวิธีการป้องกันอื่น ๆ และทุกคนสามารถเล่นกับมันจริง ๆ แล้วใช่ว่าสายเคเบิลมีแนวโน้มที่จะแตก มิฉะนั้นจะไม่มีเหตุผล
Marc-Andre R.

0

คุณควรมีแผนฉุกเฉิน

ระบบที่สำคัญควรได้รับการออกแบบโดยมีการล้มเหลวอัตโนมัติหรือแผนการกู้คืนที่ทำเป็นเอกสารและทดสอบ

ยิ่งระบบมีความสำคัญมากเท่าใดคุณก็จะต้องมีความยืดหยุ่นมากขึ้นเท่านั้นและยิ่งมีระบบอัตโนมัติมากขึ้นเท่านั้น

หากคุณไม่มีมันก็ไม่สำคัญเลยใช่ไหม


0

ตรวจสอบให้แน่ใจว่าการสำรองข้อมูลของคุณปลอดภัยแล้ว :) จากนั้น

ค้นหา commonalities มีอะไรเกิดขึ้นกับระบบทั้งหมดที่ได้รับผลกระทบ

ค้นหาสิ่งที่เปลี่ยนแปลง คุณควรมีการจัดการการเปลี่ยนแปลงอย่างเป็นทางการในองค์กรของคุณ

ผู้ชายคนใหม่อยู่ที่ไหน ... เจ้านายอยู่ที่ไหน ... ? หนึ่งในนั้นใช้ทางลัดหรือไม่ (เป็นเพียงรีบูตเซิร์ฟเวอร์ด่วนสิ่งที่อาจเป็นอันตรายได้)



0

เป็นเรื่องยากจากคำแถลงที่จะให้การกระทำที่เฉพาะเจาะจง ท่าแรกของคุณจะขึ้นอยู่กับ:

  • คุณอยู่ไหน
  • คุณสามารถบีบข้อมูลจากบุคคลที่ติดต่อคุณได้มากน้อยเพียงใด
  • คุณมีเครื่องมืออะไรในทันทีสำหรับการแก้ไขปัญหา (หรือการค้นหาข้อมูล)
  • ความรู้ของคุณเกี่ยวกับเส้นทางกายภาพและตรรกะสำหรับเครือข่ายของคุณ
  • คุณมีความช่วยเหลือมากแค่ไหน (เป็นส่วนหนึ่งของทีมหรือนินจาผู้โดดเดี่ยว?)

เห็นได้ชัดว่าคุณต้องใจเย็น ๆ และตื่นตัวเกี่ยวกับปัญหานี้ ประสบการณ์ของคุณเกี่ยวกับการแก้ไขปัญหาเครือข่ายจะสอนคุณว่าสิ่งนี้อาจเป็นเรื่องเล็กน้อยเช่น:

  • สายเคเบิลที่ถูกตัดการเชื่อมต่อ
  • การบำรุงรักษาที่ไม่แจ้งล่วงหน้า (เทคโนโลยีอื่น 'แก้ไข')
  • ซีอีโอของคุณมีปฏิกิริยาตอบโต้อย่างมากเกี่ยวกับ บริษัท ที่ถูกลงโทษอย่างสมบูรณ์หลังจากการเชื่อมต่อไร้สายในแล็ปท็อปของเขาหายไปเนื่องจากเขา / เธอกำลังทำพิซซ่าชีส

ต้องบอกว่ามันอาจเป็นสิ่งที่ร้ายแรงในหมวดหมู่ของ:

  • การขนส่งทางกายภาพ (การเชื่อมต่อ)
  • ฮาร์ดแวร์ (เราเตอร์ \ switch \ เซิร์ฟเวอร์)
  • ที่เก็บข้อมูล (ไม่สามารถเข้าถึงได้ \ ที่ถูกบุกรุกถูกลบ)
  • ซอฟต์แวร์ (บริการ> กำหนดค่าผิดพลาด \ โจมตี \ ออฟไลน์)

องค์ประกอบสำคัญคือคุณรู้เกี่ยวกับปัญหานี้มากแค่ไหน จุดอ้างอิงของคุณคืออะไร (จากมุมมอง 'ระบบลง' คืออะไร)



0

เริ่มง่ายและทำงานต่อไร้สาระ

พลังงาน?

อีเธอร์เน็ต?

โปรแกรมกำลังทำงานอยู่หรือ

...

มนุษย์ต่างดาว?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.