คำถามติดแท็ก fault-tolerance

3
ความพร้อมใช้งานสูงหลายเว็บไซต์
เรามีแอปพลิเคชัน SaaS ที่เราต้องการให้มีให้ใช้งานสูง เรามีคลัสเตอร์ล้มเหลว Hyper-V ที่มีราคาแพงและได้รับการบำรุงรักษาเป็นอย่างดี แต่วันนี้ศูนย์ข้อมูลที่เราโฮสต์นั้นมีไฟดับห้าชั่วโมงซึ่งทำให้เราออฟไลน์โดยสิ้นเชิง ตอนนี้เรากำลังสงสัยว่าวิธีการที่ดีกว่าอาจใช้เซิร์ฟเวอร์ที่ศูนย์ข้อมูลสองแห่งแยกกันหรือไม่ สมมติว่าเราได้รับการจำลองแบบไฟล์แบ็คเอนด์ทั้งหมดและการเรพลิเคทข้อมูลทำงานระหว่างสองไซต์นี้เราสงสัยว่าจะจัดการกับการกำหนดเส้นทางส่วนหน้าได้อย่างไร - ไม่น่าแปลกใจที่เราจัดการกับปัญหา จุดเดียวของความล้มเหลว ดังนั้นคำถามคือ ... เราจะตั้งค่าการทำโหลดบาลานซ์ระหว่างสองเว็บไซต์ที่โฮสต์ได้อย่างไรซึ่ง load balancer ไม่ใช่จุดเดียวที่ล้มเหลว มีวิธีการใช้ตัวโหลดบาลานซ์สองตัวแยกกันหรือไม่ เราควรพิจารณา DNS แบบปัดเศษหรือไม่

1
Systemd ไม่ได้เริ่มบริการใหม่แม้ว่าจะเริ่มใหม่ = เสมอ
นี่คือไฟล์หน่วยของฉันของบริการ systemd: [Unit] Description=Tunnel For %i After=network.target [Service] User=autossh ExecStart=/usr/bin/autossh -M 0 -N -o "ExitOnForwardFailure yes" -o "ConnectTimeout=1" -o "ServerAliveInterval 60" -o "ServerAliveCountMax 3" -R 40443:installserver:40443 -R 8080:installserver:8080 tunnel@%i Restart=always [Install] WantedBy=multi-user.target หน่วยล้มเหลว 15 วันที่ผ่านมาและ systemd ไม่รีสตาร์ทแม้ว่า "เริ่มใหม่ = เสมอ" อยู่ในไฟล์หน่วยด้านบน นี่คือสถานะเอาท์พุทของบริการนี้: salt:/srv # systemctl status autossh@eins-work autossh@eins-work.service - Tunnel …

4
ฉันต้องการคอนโทรลเลอร์ RAID ตัวที่สองเพื่อการป้องกันข้อผิดพลาดหรือไม่
ฉันมีเซิร์ฟเวอร์ที่ติดตั้งฮาร์ดไดรฟ์ 3 ตัวและมีความจุทั้งหมดที่ 6 เรากำลังวางแผนที่จะใช้งานได้สูงสุด แต่ที่ปรึกษาของเรายังแนะนำให้ใช้ตัวควบคุม RAID ตัวที่สอง "เพื่อความซ้ำซ้อน" เพื่อรองรับไดรฟ์ใหม่ สำหรับฉันแล้วมันไม่สมเหตุสมผลเลย แม้ว่าตัวควบคุม RAID ตัวที่สองที่ทำงานครึ่งหนึ่งของดิสก์เรายังคงติดอยู่กับดิสก์ / โปรแกรม / ข้อมูลของเราเพียงครึ่งเดียวหากตัวควบคุมตัวใดตัวหนึ่งเสียชีวิต (ซึ่งไม่ดีไปกว่าการทำงานโดยไม่มีเลย) เรากำลังวาง vmware ไว้บนเซิร์ฟเวอร์และเขากล่าวถึงคุณสมบัติการยอมรับ / ข้อผิดพลาดขั้นสูงบางอย่างโดยไม่ได้ตั้งใจ แต่ถ้าดิสก์ไม่สามารถเข้าถึงได้เนื่องจากคอนโทรลเลอร์ล้มเหลวมันควรจะทำงานอย่างไร การนับเหตุผลเพียงอย่างเดียวสำหรับความซ้ำซ้อนไม่ใช่ประสิทธิภาพทำไมฉันจึงต้องการตัวควบคุม RAID ตัวที่สองในเซิร์ฟเวอร์ของฉัน

4
NFS ที่ป้องกันความผิดพลาดได้หรือไม่
อาจเป็นคำถามที่พบบ่อย แต่ฉันไม่พบสิ่งใดที่มีประโยชน์หลังจากการค้นหาสักพัก: ฉันสามารถตั้งค่า NFS ในลักษณะที่ทุกข้อผิดพลาดเดียว (เช่นเซิร์ฟเวอร์ CPU, ฮาร์ดดิสก์, ตัวควบคุม hd, อะแดปเตอร์เครือข่าย, สายเคเบิลเครือข่าย, แหล่งจ่ายไฟ) ถูกหลอกลวงโดยไม่จำเป็นต้องแทรกแซงทันทีหรือไม่? ฉันมีคำตอบสำหรับปัญหาบางส่วนเท่านั้น: RAID, แหล่งจ่ายไฟซ้ำซ้อน, อะแดปเตอร์เครือข่ายซ้ำซ้อน ฉันจะจัดการซีพียูที่ล้มเหลวของเซิร์ฟเวอร์ NFS ได้อย่างไรเพื่อให้ไคลเอนต์ล้มเหลวอย่างโปร่งใส
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.