แนวทางปฏิบัติที่ดีที่สุดสำหรับการตรวจสอบข้อมูลสำรอง?


21

มันเป็นสถานการณ์ทั่วไปเมื่อผู้ดูแลระบบสร้างระบบสำหรับการสำรองข้อมูลอัตโนมัติและลืมมันไป หลังจากที่ระบบแจ้งผู้ดูแลระบบล้มเหลวระบบสำรองข้อมูลนั้นเสียก่อนหรือการสำรองข้อมูลนั้นไม่สามารถทำได้เนื่องจากข้อผิดพลาดบางอย่างและเขาไม่มีการสำรองข้อมูลปัจจุบันที่จะกู้คืนจาก ... ดังนั้นวิธีปฏิบัติที่ดีที่สุดในการหลีกเลี่ยงสถานการณ์ดังกล่าวคืออะไร?


เรามีการตรวจสอบการสำรองข้อมูลในสคริปต์ ... มันจะถูกรวมเข้ากับการตรวจสอบอื่น ๆ และถูกส่งไปยังผู้ดูแลระบบทุกวัน หากการสำรองข้อมูลเต็มถูกข้ามไป (หรือเสร็จสมบูรณ์เพียงบางส่วนเท่านั้น) อีเมลจะระบุสิ่งนี้
ปี๊บปี๊บ

คำตอบ:


27

เรียกใช้การฝึกซ้อมหนีไฟ ... ทุก ๆ สองสามเดือนมันเป็นความคิดที่ดีที่จะพูดว่าระบบ XYZ หยุดทำงาน ... จากนั้นก็ผ่านการเคลื่อนไหวของการนำมันกลับมาออนไลน์กับ VM ฯลฯ ใหม่ ฯลฯ มันช่วยให้สิ่งต่าง ๆ ซื่อสัตย์และช่วยให้คุณจับ ข้อผิดพลาด


เราทำสิ่งนี้เพื่อทดสอบว่าการสำรองข้อมูลที่มองเห็นอย่างปลอดภัยของเราทำงานได้อย่างดีโชคดีที่พวกเขา
Jared

10

โหมด Soapbox: ON

ฉันจะบอกว่ามันง่ายที่การสำรองข้อมูลที่ไม่ได้ทดสอบเป็นประจำนั้นไม่มีค่า

งานก่อนหน้าของฉันเรามีนโยบายที่ทุกระบบ (การผลิตการทดสอบการตรวจสอบการพัฒนาและอื่น ๆ ) ควรได้รับการทดสอบทุก 6 เดือน

นี่เป็นหน้าที่ของผู้ดูแลระบบที่มากที่สุดเพื่อให้เอกสารเป็นปัจจุบัน จูเนียร์ถูกกำหนดโดยจำนวนเงินที่เขา / เธอทำงานในระบบที่เฉพาะเจาะจงบางครั้ง (ค่อนข้างบ่อย) เป็น "ผู้จัดการกลุ่ม" ที่ทำ

เรามีฮาร์ดแวร์พิเศษที่อุทิศให้กับสิ่งนี้ (หนึ่ง Intel และหนึ่งกล่อง IBM / AIX) ที่มีสเปคต่ำสำหรับทุกอย่างยกเว้น diskspace เนื่องจากเราไม่จำเป็นต้องเรียกใช้อะไรจริง ๆ บนโฮสต์ที่เรียกคืน

การทำงานค่อนข้างมากในสองสามรอบแรก แต่มันทำให้เราปรับปรุงกระบวนการกู้คืนซึ่งเป็นส่วนสำคัญของการสำรองข้อมูล


7

เนื่องจากคุณดูเหมือนจะอ้างถึงความจริงที่ว่าผู้ดูแลระบบไม่สังเกตเห็นว่างานสำรอง "หยุด" และไม่มากที่การสำรองข้อมูลที่ใช้งานได้ไม่ถูกต้องฉันจึงขอแนะนำให้สร้างสคริปต์การตรวจสอบรอบการสำรองข้อมูลบางประเภท

เมื่อสร้างโซลูชันสำรองข้อมูลที่ปลูกในบ้านฉันจะทำสิ่งนี้:

  • สร้างสคริปต์เพื่อสำรองข้อมูลของคุณ
  • ทำการคืนค่าการทดสอบเพื่อให้แน่ใจว่าสคริปต์ทำงานอย่างถูกต้อง
  • ในสคริปต์หรือใช้วิธีอื่นในการติดตามสถานะการสำรองข้อมูล (สำเร็จ, ล้มเหลว, วิ่ง, ไม่ได้ทำงาน)
  • ตรวจสอบสถานะการติดตาม (อีเมล, ฐานข้อมูล, บางอย่าง)

เมื่อทำสิ่งเหล่านี้เสร็จสิ้นแล้วคุณควรจะสบายดี อีกสิ่งหนึ่งที่ต้องทำคือทำการทดสอบคืนสภาพปกติ หากคุณมีฮาร์ดแวร์เพิ่มเติมที่จะบริจาคให้กับสาเหตุที่เป็น

ฉันทำงานที่ไหนเรามีไซต์ที่อบอุ่นเดือนละครั้งเราสุ่มเลือกระบบหรือฐานข้อมูลและไปที่ไซต์ที่อบอุ่นของเราและทำการทดสอบการคืนค่าการทดสอบบนโลหะเปลือยเพื่อให้แน่ใจว่าสามารถกู้คืนข้อมูลของเราได้

จริงๆแล้วถ้าข้อมูลของคุณสำคัญกับคุณมากก็จะเป็นการดีที่สุดที่คุณจะลงทุนในซอฟต์แวร์บางอย่างเพื่อจัดการการสำรองข้อมูลของคุณ มีหลายร้อยผลิตภัณฑ์ออกมีสำหรับเรื่องนี้จากราคาถูกและง่ายไปจนถึงระดับองค์กร

หากคุณพึ่งพาชุดของสคริปต์ที่เขียนด้วยมือซึ่งทำงานอยู่ใน crontab สำหรับการสำรองข้อมูล บริษัท ของคุณไม่ช้าก็เร็วคุณจะมีโอกาสถูกไฟไหม้


4

เรามีรุ่น 'อ้างอิง' ขนาด 60% ของระบบ 'การผลิต' ของเราเราใช้พวกเขาสำหรับการทดสอบขั้นสุดท้ายของการเปลี่ยนแปลงเราเรียกคืนการสำรองข้อมูล 'การผลิต' ไปยังระบบเหล่านี้ - มันทดสอบการสำรองข้อมูล .


1

วิธีหนึ่งคือสคริปต์งาน "กู้คืน" เพื่อเรียกใช้เป็นระยะ ๆ ตัวอย่างหนึ่งที่คว้าไฟล์ข้อความที่ระบุจากข้อมูลสำรองล่าสุดและส่งอีเมลถึงคุณถึงเนื้อหา หากเป็นไปได้ควรทำอย่างน้อยในบางครั้งโดยใช้กล่องที่แตกต่างจากกล่องที่สร้างหรือสำรองข้อมูลเพียงเพื่อให้แน่ใจว่าจะใช้งานได้หากคุณจำเป็นต้องทำเช่นนั้น ข้อได้เปรียบคือคุณสามารถมั่นใจได้ว่ากลไกการเข้ารหัส / ถอดรหัสการบีบอัดและการจัดเก็บของคุณทำงานได้ดี

นี่เป็นเรื่องเล็กน้อยที่เกี่ยวข้องกับการสำรองข้อมูลพิเศษเช่นอีเมลและเซิร์ฟเวอร์ฐานข้อมูลแม้ว่าจะทำการกู้คืนข้อมูลขนาดเล็กบางส่วนจากฐานข้อมูลขนาดเล็กหรือการสำรองข้อมูลกล่องจดหมายระดับอิฐและการตรวจสอบเนื้อหานั้นเป็นไปได้อย่างแน่นอน

วิธีนี้ยังไม่ควรแทนที่การคืนค่าเต็มรูปแบบเป็นระยะเพื่อให้แน่ใจว่าคุณสามารถกู้คืนข้อมูลในกรณีฉุกเฉิน - เพียงช่วยให้คุณมีความมั่นใจมากขึ้นเกี่ยวกับความสมบูรณ์ของงานสำรองข้อมูลประจำวันของคุณ


1

เมื่อทำการทดสอบการกู้คืนฉันไม่รู้สึกสะดวกสบาย ณ จุด "นี่ดูดีไฟล์ถูกกู้คืนดูเหมือนว่าไม่มีไฟล์ใดหายไปแม้แต่ขนาดที่ตรงกัน" หรือที่จุด "นี่ดูดีฉันเริ่มต้นแอปพลิเคชันของฉัน .. ไม่ผิดพลาดแสดงข้อมูลที่เหมาะสม "

ฉันต้องการที่จะเรียกคืน / เซิร์ฟเวอร์คลัสเตอร์จากรอยขีดข่วนและหลังจากนั้นจะใช้งานจริงสำหรับการผลิต ไม่ได้สำหรับนาทีไม่ได้สำหรับชั่วโมง แต่อย่างถาวร หากคุณอ้างว่าการกู้คืนสำเร็จแล้วไม่มีเหตุผลที่จะไม่เริ่มต้นการผลิต นี่ไม่ใช่ระบบ "สกปรก" ที่ควรลืม นี่คือระบบที่คุณจะต้องเผชิญหลังจากเกิดภัยพิบัติจริง ดังนั้นถ้ามันผ่านด่าน "ดูดี" ให้ใช้ชีวิตกับมัน สำรองในคืนถัดไป ลืมเรื่องเดิม คุณอาจจะค้นพบความบกพร่องบางโดยใช้วิธีการนี้และคุณจะถูกบังคับให้ไปแก้ไขทั้งหมดของพวกเขา การคืนค่าครั้งต่อไปของระบบเดียวกันมีโอกาสเหมาะสมที่จะประสบความสำเร็จ 100%

ซึ่งรวมถึงซอฟต์แวร์สำรองและเซิร์ฟเวอร์ของคุณ ใช่คุณต้องกู้คืนสิ่งเหล่านี้ด้วย


ไม่มีงบประมาณในการซื้อฮาร์ดแวร์เฉพาะสำหรับการกู้คืนหรือไม่

  • สร้างจุดที่คุณต้องการงบประมาณอย่างแน่นอน ในทุกโอกาสเตือนผู้มีอำนาจตัดสินใจว่าถูกต้องตลอดการทดสอบการเรียกคืนยังไม่เกิดขึ้น (และใช่รวบรวมหลักฐานเพื่อปกปิดตูดของคุณโลกที่ยากลำบาก)
  • ในองค์กรส่วนใหญ่มีบางครั้งที่ธุรกิจจำเป็นต้องย้ายระบบไปยังฮาร์ดแวร์อื่นดังนั้นใช้โอกาสนี้ เลือกวิธี "กู้คืนจากการสำรองข้อมูล" เสมอสำหรับการย้ายข้อมูลโดยอ้างว่าคุณเพิ่งสูญเสียฮาร์ดแวร์ดั้งเดิม ใช่มันหมายถึงการหยุดทำงานมากขึ้นขอโทษเกี่ยวกับที่ อย่างน้อยคุณจะมั่นใจได้ว่าข้อมูลสำรองของคุณมีประโยชน์
  • ไม่มีการโยกย้าย? บางทีคุณสามารถยืมอุปกรณ์บางอย่างเป็นเวลาสองสัปดาห์และทำการทดสอบการกู้คืนสองครั้ง (กู้คืนไปยังฮาร์ดแวร์ที่ยืมมาแล้วรอมากกว่าหนึ่งสัปดาห์คืนค่าจากการกู้คืนเป็นแบบดั้งเดิม โดยปกติหากมีฮาร์ดแวร์ใหม่ที่ซื้อมาสำหรับระบบใหม่และคุณจัดการสิ่งต่าง ๆ อย่างถูกต้องคุณสามารถยืมได้ง่าย - โดยเสนอให้ทดสอบอย่างละเอียดเป็นเวลาสองสัปดาห์ หากฮาร์ดแวร์ใหม่ไม่เหมือนฮาร์ดแวร์เดิม 100% นั่นจะทำให้การทดสอบของคุณดียิ่งขึ้น คุณจะรู้ได้อย่างไรว่าคุณได้รับฮาร์ดแวร์ที่เหมือนกันในกรณีที่เกิดภัยพิบัติจริง
  • คุณกำลังนำระบบใหม่ใด ๆ มาใช้ในตอนนี้? คุณสามารถทดสอบการกู้คืนได้ทันทีหรือไม่ อย่าใช้ฮาร์ดแวร์เพิ่มเติมเพียงเขียนทับระบบใหม่เนื่องจากคุณมีความรู้ใหม่เกี่ยวกับวิธีการนำฮาร์ดแวร์กลับมาใช้ใหม่อย่างรวดเร็ว วิธีนี้ใช้ได้ผลหากยังไม่มีข้อมูลที่สำคัญ ไปที่การผลิตในเวอร์ชันที่กู้คืนไม่ใช่เวอร์ชันที่ติดตั้งใหม่

1
  1. การฝึกซ้อมดับเพลิง
  2. นโยบายในการทดสอบการสำรองข้อมูลทุก ๆ 6 เดือนเป็นความคิดที่ดีมาก
  3. เมื่อพูดถึงการทดสอบคุณต้องดูที่แต่ละแอปพลิเคชันหรือระบบสำรองข้อมูลของคุณ ตามหลักการแล้วสิ่งที่ถือเป็นการสำรองข้อมูล "ที่ประสบความสำเร็จ" หรือ "กู้คืนได้" ควรระบุไว้ในคำอธิบายบริการหรือ SOP (เอกสารประกอบการปฏิบัติงาน) สำหรับการสำรองข้อมูลของคุณพร้อมกับรายละเอียดอื่น ๆ เช่นเวลาการเก็บรักษา

คุณอาจพบว่าบางประเภทการสำรองข้อมูลสามารถกู้คืน - ทดสอบได้ง่ายโดยสคริปต์ (เช่นฐานข้อมูล) ในขณะที่คนอื่นต้องการการป้อนข้อมูลด้วยตนเอง (การคืนค่า Active Directory) ทำให้เป็นอัตโนมัติมากที่สุดเท่าที่จะทำได้ตรวจสอบให้แน่ใจว่ามีการรายงานบางประเภทและแน่ใจว่า "ใครบางคน" ทำการทดสอบด้วยตนเองในช่วงเวลาปกติเช่นกัน สภาพแวดล้อมแบบแยกส่วน (สำเนาของผลิตภัณฑ์ที่ลดขนาด) จะทำให้การทดสอบคืนค่าง่ายขึ้น


1
ยกโทษให้กับคำถาม แต่คำตอบนี้เพิ่มสิ่งที่ยังไม่ได้พูดหรือไม่?
MadHatter สนับสนุนโมนิก้า

ทุกๆ 6 เดือน? ฉันทำสิ่งเล็ก ๆ ทุกสองสามสัปดาห์
tombull89

0

ในขณะที่เราไม่ได้ทดสอบการสำรองข้อมูลเรามีการตรวจสอบการสำรองข้อมูลจากส่วนกลางและส่วนประกอบการรายงานในระบบที่เราพัฒนา BackupRadar.com อย่าลังเลที่จะตรวจสอบเพื่อดูว่ามันช่วยด้วยองค์ประกอบนั้น มันแนบสำเนาของอีเมลความสำเร็จ / ความล้มเหลวกับนโยบายการสำรองข้อมูลและจะแนบภาพหน้าจอหากซอฟต์แวร์สำรองข้อมูลของคุณสามารถส่งได้เช่นกัน

ขอบคุณแพทริค


-1

ตรวจสอบให้แน่ใจว่ามีการบันทึกกิจกรรมการสำรองข้อมูลจากนั้นเขียนบางสิ่ง (ตามความเหมาะสม) ที่แยกวิเคราะห์บันทึกเหล่านั้นเพื่อค้นหาความล้มเหลวกลั่นลงแล้วส่งเป็นอีเมลรายวัน


2
สิ่งนี้ไม่ได้จัดการกับสถานการณ์ที่แผนการสำรองข้อมูลของตัวเองผิดพลาด
Jared
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.