Cliffhanger: การสำรองข้อมูลถูกต้อง…ที่นี่…ใช่มั้ย


28

ที่ทำงานของฉันการสำรองข้อมูลมีลำดับความสำคัญต่ำอย่างน่าประหลาดใจ กลยุทธ์การสำรองข้อมูลถูกนำมาใช้ในขณะที่ผ่านมาและตั้งแต่นั้นเป็นเพียงการสำรองข้อมูลก็ถือว่าใช้ได้ หากคุณถามผู้ดูแลระบบพวกเขาจะบอกว่าทุกอย่างสำรองไว้

แต่เมื่อคุณขอการสำรองข้อมูลเฉพาะครึ่งเวลาที่พวกเขาไม่ได้อยู่ที่นั่น:

  • ดิสก์เต็ม
  • เทปล้มเหลว
  • ดูเหมือนว่ามีคนปิดการใช้งานการสำรองข้อมูล
  • การเชื่อมต่อเครือข่ายหยุดทำงาน
  • เราสั่งให้ดิสก์นั้นเมื่อหลายปีก่อน แต่การเงินไม่ได้อนุมัติใบสั่งซื้อ
  • ไฟล์เสียหาย
  • ไฟล์มีฐานข้อมูลผิด
  • สำรองข้อมูลบันทึกธุรกรรมเท่านั้น (ไร้ประโยชน์หากไม่มีข้อมูลเต็ม)

ไม่กี่สัปดาห์ที่ผ่านมาภัยพิบัติเข้ามาใกล้อย่างแท้จริงเนื่องจากเซิร์ฟเวอร์หนึ่งตัวสูญเสียดิสก์การโจมตีจำนวนมากเกินไป โชคดีที่มีดิสก์หนึ่งแผ่นยังคงเพียงพอที่จะคัดลอกข้อมูลถ้าคุณลองหลายครั้ง

แต่หลังจากนั้นใกล้ถึงหายนะฉันไม่สามารถโน้มน้าวผู้ดูแลระบบให้ปรับปรุงสถานการณ์ได้ ดังนั้นฉันสงสัยว่าเคล็ดลับสำหรับการเปิดตาของผู้คน? ดูเหมือนว่าเรากำลังเดินไปตามขอบหน้าผา


17
ดังนั้นคุณกำลังบอกว่าไม่เพียง แต่ระบบดูแลระบบของคุณจะไร้ความสามารถเพียงพอที่จะสูญเสียชุด RAID แต่ยังไร้ประโยชน์มากพอที่จะไม่มีการสำรองข้อมูลสำหรับระบบนั้น ดูเหมือนจะเป็นกรณีที่ดีสำหรับการรับผู้ดูแลใหม่
PowerApp101

คำตอบ:


24

คุณต้องแก้ไขสิ่งเหล่านี้จากด้านบนเสมอ

กลยุทธ์การสำรองข้อมูลปัจจุบันสนับสนุนและเข้าใจโดยผู้บริหารหรือไม่ ถ้าไม่มันไร้ประโยชน์

ผู้บริหารระดับสูงจำเป็นต้องทราบเกี่ยวกับปัญหาและความเสี่ยงที่เกี่ยวข้อง (การสูญเสียข้อมูลทางการเงินที่คุณจำเป็นต้องนำออกมาอย่างถูกกฎหมายเพื่อความอยู่รอดหรือข้อมูลลูกค้าที่ใช้เวลาหลายปีในการรวบรวม?) และตัดสินใจในการตัดสินใจ ปล่อยให้ใครบางคน (เช่นคุณ) ดำเนินการ

หากคุณไม่สามารถจัดการได้ลองใช้ตัวควบคุมทางธุรกิจหรือสถานะทางการเงินอื่น ๆ ที่การดึงข้อมูลและความสมบูรณ์ของรายงานมีความสำคัญอย่างยิ่งต่อรายงานของ บริษัท พวกเขาสามารถ "เริ่มต้นพายุ" ได้ถ้าต้องการ ...


ฉันเกลียดการเมืองการทำงานโดยสิ้นเชิงและผู้คน "เริ่มต้นพายุ" แต่ถ้าคุณบอกความจริงอย่างตรงไปตรงมาเกี่ยวกับสถานการณ์ "ไปที่จุดสูงสุด" และการเริ่ม "พายุ" อื่น ๆ น่าจะเป็นวิธีที่ดีที่สุด / อย่างเดียว
คนขี้ขลาดนิรนาม

เห็นด้วยมันพัด (ไม่มีเล่นสำนวนเจตนา) มันเป็นเพียงหนึ่งในสิ่งเหล่านั้นที่บางครั้งต้องทำแม้ว่ามันทั้งน่ารำคาญและเสี่ยงต่อการเป็นผู้เริ่มต้นพายุ แต่เมื่อพูดถึงปัญหาร้ายแรงเช่นนี้จะมีตัวเลือกมากที่สุดสามตัวเลือก: ไม่สนใจปล่อยหรือโจมตี และการเพิกเฉยข้อบกพร่องแบบนี้ไม่ได้ฟังดูดีนัก
Oskar Duveborn

14

จะเริ่มที่ไหนดี นี่คือหายนะที่รอให้เกิดขึ้น ฟังก์ชันงานหลักของ Sysadmins คือเพื่อให้แน่ใจว่าข้อมูลได้รับการสำรองและกู้คืนได้ ทุกอย่างอื่นเป็นเรื่องรอง ไม่ใช่ถ้าไม่ใช่ แต่

นี่คือบางสิ่งที่คุณสามารถทำได้:

  1. ติดตาม KPIs เพื่อคืนค่า มันควรจะเป็นไปได้ที่จะจัดทำรายงานที่แสดงจำนวนคำขอคืนค่าที่ประสบความสำเร็จ ควรตรวจสอบสิ่งใดที่น้อยกว่า 100% อย่างละเอียด รายงานความรักการจัดการและนี่คือหลักฐานที่ยาก

  2. ควรมีเอกสารขั้นตอนปฏิบัติสำหรับการสำรองข้อมูลและเรียกคืนข้อมูลทั้งหมดรวมถึงระบบทั้งหมดและกลยุทธ์การสำรองข้อมูลการหมุนเทปตารางเวลาเส้นทางการเลื่อนระดับการทดสอบคืนค่า ฯลฯ ขอให้ดู

  3. พูดคุยกับผู้จัดการของผู้ดูแลระบบและแจ้งข้อกังวลของคุณ ใช้อาวุธพร้อมหลักฐานที่เรียกคืนไม่ได้ ถ้าไม่มีความสุขก็ยิ่งสูงขึ้นไป

อย่างจริงจัง - เตะเอะอะ สิ่งเช่นนี้สามารถทำลาย บริษัท ได้


อย่าลืมใช้การแจกแจงแบบเบต้าใน "สถิติ" ของคุณในสามครั้ง :-P stats.stackexchange.com/q/47771/9487
Tobias Kienzler

5

เสนอการทดสอบการกู้คืนระบบรายปี (อย่างน้อย) งานที่จำเป็นในการดำเนินการทดสอบที่ประสบความสำเร็จควรเปิดเผยข้อบกพร่อง


5

ฉันทำงานที่ไหนเรามีแผนกไอทีที่ดีอย่างจริงจังทุก ๆ ปีพวกเขามารวมตัวกันจากสำนักงานทุกแห่งทั่วยุโรปและมี 'เรียกคืนงานรื่นเริง' บนเซิร์ฟเวอร์ที่ให้เช่าในศูนย์ข้อมูลซึ่งจำลองสถานการณ์ได้อย่างมีประสิทธิภาพหากพนักงานมาทำงาน ออฟฟิศถูกไฟไหม้ตอนกลางคืน

ทำให้หัวหน้าใหญ่เข้ามาเตือนเขาว่าถ้าภัยพิบัติเกิดขึ้นเขาจะไม่ได้รับโบนัสในปีนั้น (หรือแย่กว่านั้น!) และดังนั้นจึงอาจเป็นการรอบคอบที่จะจัดให้มีแบบฝึกหัดการกู้คืนความเสียหายที่คล้ายคลึงกัน ไม่ควรใช้เวลานานหรือเสียค่าใช้จ่ายมากผู้ดูแลระบบจะส่งเทปสำรองนอกสถานที่และบอกให้นำสภาพแวดล้อมการทำงานที่เหมือนกันมาใช้

จากนั้นนั่งลงและดูไอทีดีขึ้น - เมื่อผู้บริหารทราบว่าข้อมูลของ บริษัท ใกล้จะสูญหายอย่างถาวรแล้วประกายไฟก็จะบิน (จากจรวดที่จะถูกวางไว้อย่างเป็นระบบในผู้ดูแลระบบดังกล่าว)


1
มันยอดเยี่ยมมาก!
Oskar Duveborn

4

มันง่ายที่จะตำหนิผู้ดูแลระบบ - แต่ออสการ์มีสิทธิ์: สิ่งเหล่านี้ถูกขับเคลื่อนจากด้านบน หากผู้บริหารจะไม่ใช้เงินในการสำรองข้อมูลลำดับความสำคัญ sysadmins มักจะโชคไม่ดีและทำสิ่งที่ดีที่สุดที่พวกเขาสามารถทำได้ด้วยทรัพยากรที่พวกเขามี

กุญแจสำคัญหากคุณเป็นหนึ่งในผู้ดูแลระบบที่โชคร้ายและฉันอยู่ในเรือลำนี้สำหรับการนัดหมายกับลูกค้า - คือคุณมั่นใจได้ว่าการจัดการได้รับการบรรยายสรุปซ้ำ ๆ ซ้ำ ๆ และในทางที่ยืนยันได้ว่าเป็น ความเสี่ยงต่อธุรกิจ

กลยุทธ์ของฉันคือการตอกย้ำปัญหาอย่างต่อเนื่อง ถ้าคุณทำอย่างนั้นบางครั้งปัญหาจะได้รับการแก้ไข แต่ส่วนใหญ่แล้วเพื่อให้ใครก็ตามที่ฉันรายงานว่าไม่สามารถซ่อนอยู่ด้านหลังข้ออ้าง "ฉันไม่เคยสรุป" ในฐานะที่ปรึกษาฉันมักจะทำได้ดีกว่านี้ ฉันสามารถทำให้หัวหน้าของฉันสรุปผู้บริหารระดับสูงมากกว่าที่ฉันเห็นได้ว่ามีช่องโหว่ สิ่งนี้แพร่กระจายความผิดไปรอบ ๆ หรืออย่างน้อยก็เน้นที่ระดับที่สูงกว่าฉัน

ในเวลาเดียวกันคุณต้องสร้างสรรค์และทำงานอย่างหนักเพื่อลดความเสี่ยงด้วยทรัพยากรที่ลูกค้าสามารถจัดหาให้ได้

ในบางกรณีผู้ดูแลระบบอาจน่าตำหนิผู้บริหารมีความรับผิดชอบอยู่เสมอไม่ว่าจะรู้ถึงความเสี่ยงและไม่เพียงพอที่จะลดความเสี่ยงหรือจ้างคนที่ไม่เตือนพวกเขาถึงความเสี่ยงเหล่านี้


3

ฉันมีหน้าที่รับผิดชอบเซิร์ฟเวอร์ประมาณ 200 เครื่องกระจายอยู่ทั่วทางตะวันตกเฉียงเหนือของสหราชอาณาจักรและเห็นได้ชัดว่ามีมากเกินกว่าที่จะตรวจสอบด้วยตนเอง

ฉันกำหนดค่าการสำรองข้อมูลเพื่อที่จะเสร็จสิ้นจะเรียกใช้สคริปต์ (VBScript) ที่มองผ่านบันทึกการสำรองข้อมูลทำงานว่าการสำรองข้อมูลทำงานหรือไม่และเขียนบันทึกลงในฐานข้อมูลกลางพร้อมผลการสำรองข้อมูล จากนั้นที่สำนักงานใหญ่ฉันเรียกใช้สคริปต์ที่สอบถามฐานข้อมูลนี้และแสดงรายการไซต์ที่มีการสำรองข้อมูลรายงานข้อผิดพลาดหรือไม่มีรายงานจากไซต์

ผลลัพธ์ที่ได้คือเมื่อฉันนั่งลงที่โต๊ะของฉันฉันมีรายการของเว็บไซต์ทั้งหมดที่ฉันต้องการตรวจสอบการสำรองข้อมูล

ประเด็นทั้งหมดนี้คือข้อสันนิษฐานเริ่มต้นคือการสำรองข้อมูลล้มเหลวและการสำรองข้อมูลจะถือว่าใช้งานได้ก็ต่อเมื่อ VBScript ของฉันตรวจพบว่าไม่มีข้อผิดพลาดและเขียนข้อสรุปนี้ลงในฐานข้อมูลของฉัน สิ่งนี้ทำให้แน่ใจได้ว่าความล้มเหลวในการสำรองข้อมูลไม่ได้ถูกเปิดเผย

เซิร์ฟเวอร์บางตัวใช้ Backup Exec, NTBackup บางตัวและบางตัวก็เพียงคัดลอกไฟล์ไปยังเซิร์ฟเวอร์อื่นทั่วทั้งเครือข่าย ไม่สำคัญว่าเซิร์ฟเวอร์สำรองชนิดใดจะทำเช่นนั้นเพราะมันง่ายที่จะปรับแต่ง VBScript ของฉันเพื่อตรวจสอบข้อผิดพลาด สคริปต์ของฉันค่อนข้างพื้นฐานแล้วมันเพิ่งเปิดรายงานสำรองเป็นไฟล์ข้อความและ greps สำหรับวลีเช่น "ล้มเหลวในการเมานต์", "เทปเต็ม", "ข้อผิดพลาด CRC" ฯลฯ ฯลฯ ฉันมั่นใจว่าโปรแกรมเมอร์มืออาชีพจะทำ งานสั่นไหว อย่างไรก็ตามสิ่งทั้งหมดนั้นง่ายและมีประสิทธิภาพและเป็นเชิงรุกในแง่ที่ว่าฉันเห็นรายงานความล้มเหลวในการสำรองข้อมูลว่าฉันต้องการหรือไม่และฉันจะไม่สังเกตเห็นข้อผิดพลาดหากฉันตัดสินใจที่จะเพิกเฉยต่อรายงานอย่างมีสติ

จูเนียร์

PS 99% ของความล้มเหลวในการสำรองข้อมูลเป็นเพราะผู้ใช้ลืมเปลี่ยนเทปสำรองข้อมูล คุณไม่เพียงแค่รัก lusers :-)


หรือหุ่นยนต์ลดลงเทป (แช่งหุ่นยนต์) ^^ (ที่เกิดขึ้นบ่อยกว่าหนึ่งไว้คิดว่า)
ออสการ์ Duveborn

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.