Evan hit เป็นจุดที่ดี แต่นี่อาจเป็นวิธีที่คุ้มค่าในการใช้เวลากู้คืน 1 ชั่วโมงเมื่อเผชิญกับความล้มเหลว
ธุรกิจขนาดเล็กน่าจะหมายถึงฮาร์ดแวร์ขนาดเล็กดังนั้นจึงอาจไม่ต้องเสียค่าใช้จ่ายมากนักในการทำสิ่งง่ายๆที่เพิ่มความยืดหยุ่นจำนวนมากในการเผชิญกับปัญหา แนวคิดหลักคือมีฮาร์ดแวร์พิเศษพร้อมใช้งาน
ขั้นแรกทำความคุ้นเคยกับความคิดของ IP เสมือน นั่นคือที่อยู่ IP ที่ผู้ใช้จะพูดคุย แต่สามารถอยู่ในเซิร์ฟเวอร์ใดก็ได้ที่คุณให้ไว้ นี่คือที่อยู่ IP ที่คุณเป็นผู้ใช้และแอปพลิเคชันจะต้องการพูดคุยกับ และมันจะเป็นประโยชน์อย่างมากสำหรับการแก้ปัญหาที่คุณต้องการ การมี VIP หมายความว่าคุณไม่ควรตั้งค่าแอพพลิเคชั่นใหม่ ๆ เมื่อล้มเหลว นอกจากนี้โปรดทราบว่าการมีฮาร์ดแวร์ที่ซ้ำซ้อนยังมีผลกระทบของการเพิ่มโอเวอร์เฮดการบริหารโดยทำการอัปเดตการกำหนดค่าสองรายการแทน 1
หากเราเริ่มต้นด้วยคุณกำหนดเส้นทาง / เว็บพรอกซีเซิร์ฟเวอร์อาจเป็นวิธีที่ง่ายที่สุดเนื่องจากจะไม่อยู่ในสถานะจริงใด ๆ ที่จะต้องเก็บไว้ในกล่อง ดังนั้นเพียงแค่ได้รับซ้ำของกล่องเดียวกันและกำหนดค่าเดียวกัน ฉันจะเสียบปลั๊กทั้งคู่ในส่วนของ LAN และสมมติว่าคุณใช้อินเทอร์เน็ตอยู่ในอินเทอร์เฟซอื่นให้สลับสายเคเบิลหากเกิดความล้มเหลว จากเปอร์สเปคทีฟการกำหนดเส้นทางคุณตั้งค่าทั้งหมดที่คุณใช้กับไคลเอนต์ LAN เพื่อกำหนดเป้าหมายที่อยู่. 1 (VIP) สำหรับเส้นทางเริ่มต้นและพร็อกซีเซิร์ฟเวอร์ให้เซิร์ฟเวอร์ A .2 ที่อยู่และเซิร์ฟเวอร์ B ที่อยู่. 3 วิธีนี้พวกเขาทั้งสองสามารถจัดการเพื่ออัปเดตการกำหนดค่า (ใช้ได้กับทั้งคู่) และสิ่งที่คุณต้องทำเพื่อล้มเหลวคือลบการกำหนด IP .1 จาก .2 และย้ายไปที่. 3 และย้ายการเชื่อมต่ออินเทอร์เน็ตไปยังอินเทอร์เฟซอื่น มันไม่ซับซ้อนมากง่ายต่อการทำและเข้าใจ และต้นทุนฮาร์ดแวร์เพิ่มเติมของกล่องที่สอง หากคุณสามารถทำซ้ำซ้อนบนฝั่งอินเทอร์เน็ตคุณสามารถเพิ่มความซับซ้อนและรับ failover อัตโนมัติโดยใช้บางอย่างเช่น VRRP
มันยากที่จะพูด แต่คุณเป็นเว็บเซิร์ฟเวอร์ที่เรียบง่าย เพิ่มเซิร์ฟเวอร์ที่สองด้วยการกำหนดค่าเหมือนกันสร้าง vIP ระหว่างสองและย้าย VIP ไปที่การสำรองข้อมูลเมื่อเผชิญกับความล้มเหลว โดยทั่วไปฉันไม่คิดว่าสถานะเซสชันจะหายไปเมื่อเกิดความล้มเหลว (เป็นปัญหาสำคัญที่จะทำให้เกิดความล้มเหลว) ดังนั้นหากผู้ใช้ต้องเข้าสู่ระบบอีกครั้งไม่มีเรื่องใหญ่ อีกครั้ง vrrp สามารถใช้สำหรับการเฟลโอเวอร์อัตโนมัติ
การย้ายเข้าสู่ฐานข้อมูลของคุณนั้นซับซ้อนกว่านี้มาก ฐานข้อมูลส่วนใหญ่มีรูปแบบหลัก / รองบางประเภทที่คุณสำรองฐานข้อมูลต้นฉบับไปยังรองและคัดลอกบันทึกธุรกรรมทั้งหมดหรือเปลี่ยนฐานข้อมูลเป็นรอง อีกครั้งคุณสามารถรวมสิ่งนี้กับวีไอพีสำหรับแอปพลิเคชัน / ผู้ใช้ที่เข้าถึงฐานข้อมูลได้ อย่างไรก็ตามความล้มเหลวมีความซับซ้อนมากขึ้น ขึ้นอยู่กับความล้มเหลวของหลักคุณอาจจำเป็นต้องเรียกใช้ไดรฟ์และเรียกใช้เพื่อคัดลอกและบันทึกธุรกรรมที่เหลือ จากนั้นนำมารองใช้งาน หากคุณสามารถทนต่อข้อมูลที่สูญหายบางส่วนคุณสามารถนำข้อมูลรองที่ใช้งานได้ทันที หลังจากเกิดความล้มเหลวตอนนี้เซิร์ฟเวอร์ B เป็นตัวหลักและคุณจะต้องทำการคืนค่าเซิร์ฟเวอร์ A และเปลี่ยนเป็นการสำรองข้อมูลใหม่ดังนั้นจึงพร้อมที่จะล้มเหลวเมื่อเซิร์ฟเวอร์ b มีปัญหาในที่สุด
ไฟล์เซิร์ฟเวอร์มักเป็นส่วนที่ยากที่สุดเนื่องจากไม่เหมือนกับฐานข้อมูลจึงเป็นเรื่องยากที่จะมีระบบไฟล์ในตัว อย่างไรก็ตามความยืดหยุ่นบางระดับสามารถทำได้โดยมีเซิร์ฟเวอร์ตัวที่สองและเขียนสคริปต์ที่สแกนระบบไฟล์เพื่อหาการเปลี่ยนแปลงและคัดลอกไฟล์ใหม่ใด ๆ ไปยังคุณรอง โดยทั่วไปคุณสามารถเรียกใช้ rsync กับ cron ที่ฉันเชื่อว่าทำได้ อีกครั้งคุณใช้วีไอพีที่คุณมอบให้กับผู้ใช้ที่คุณย้ายไปถ้าคุณทำล้มเหลว ในสคริปต์ของคุณฉันขอแนะนำให้คุณตรวจสอบเพื่อให้แน่ใจว่าระบบเป็นเจ้าของวีไอพีก่อนที่จะถ่ายโอนไฟล์ คุณไม่ต้องการให้ rsync ทำงานในทิศทางที่ผิดและเขียนทับการเปลี่ยนแปลงที่คุณทำ การทำเช่นนี้อาจทำให้ไฟล์บางไฟล์หายไปหากไฟล์เหล่านั้นล้มเหลว
ฉันไม่รู้ว่าคุณจะทำอย่างไรกับระบบโทรศัพท์ของคุณ ... มันขึ้นอยู่กับผู้ขายและวิธีการตั้งค่า ผู้ขายอาจมีโซลูชันชั้นวางเพื่อความยืดหยุ่น
คำเตือนบางคำสุดท้าย ให้แน่ใจว่าคุณทดสอบการตั้งค่าใด ๆ ที่คุณจะไปด้วย ตรวจสอบให้แน่ใจว่าคุณรู้วิธีล้มเหลวโดยไม่สูญเสียข้อมูลที่สำคัญนั้น ทดสอบทดสอบทดสอบเพื่อให้แน่ใจว่ามันจะทำงานเมื่อคุณต้องการ ตรวจสอบให้แน่ใจว่าคุณมีกระบวนการที่มีการเปลี่ยนแปลงการกำหนดค่าอัปเดตซอฟต์แวร์ ฯลฯ ได้ถูกนำไปใช้อย่างเหมาะสมกับทั้งระบบหลักและสำรอง ข่าวดีก็คือคุณสามารถควบคุมความล้มเหลวได้เมื่อคุณต้องการให้เซิร์ฟเวอร์อัปเกรดเป็นต้นซึ่งไม่ใช่การตั้งค่าแบบแอ็คทีฟดังนั้นคุณจึงไม่มีความคิดว่ารองจะทำงานเมื่อคุณต้องการ
ฉันทำงานด้านโทรคมนาคมและอุปกรณ์ของเราซ้ำซ้อนสูงมากรวมถึงในกรณีส่วนใหญ่ความซ้ำซ้อนทางภูมิศาสตร์กราฟิก จุดที่ล้มเหลวอันดับ 1 ของเราคือการซ้ำซ้อนไม่ได้รับการทดสอบหลังจากการเปลี่ยนแปลงและผู้ใช้ทำการเปลี่ยนแปลงที่ไม่ทราบว่ารูปแบบความซ้ำซ้อนทำงานอย่างไร อย่างไรก็ตามเรามีปัญหาเพิ่มเติมที่อุปกรณ์ทั้งหมดของเราต้องการรองรับการ failover อัตโนมัติในไม่เกินไม่กี่วินาที คุณสามารถทนต่อการขัดจังหวะด้วยมือในกรณีที่คุณล้มเหลวหากคุณจำเป็นต้องเปิดใช้งานและทำงานภายใน 30 - 60 นาที คุณแค่ต้องเตรียมพร้อม โชคดี.