คุณแนะนำเอกสารใดเกี่ยวกับการจัดการข้อผิดพลาดในระบบกระจาย
คุณแนะนำเอกสารใดเกี่ยวกับการจัดการข้อผิดพลาดในระบบกระจาย
คำตอบ:
คุณอาจต้องการดูผลงานที่ชนะ Tushar D. Chandra, Vassos Hadzilacos และ Sam Toueg รางวัลEdsger W. Dijkstra ในปี 2010 :
เอกสารเหล่านี้นำเสนอแนวคิดของเครื่องตรวจจับความล้มเหลวในระบบกระจายในกรอบทั่วไปและแม่นยำ พวกเขาพยายามศึกษาข้อมูลความล้มเหลวจำนวนน้อยที่สุดที่จำเป็นในการแก้ปัญหาฉันทามติ ปรากฎว่าคุณไม่จำเป็นต้องใช้เครื่องตรวจจับความล้มเหลวที่สมบูรณ์แบบในการแก้ฉันทามติ แม้แต่เครื่องตรวจจับความล้มเหลวที่ไม่น่าเชื่อถือซึ่งเป็นไปตามเงื่อนไขขั้นต่ำบางอย่างก็เพียงพอสำหรับงานนี้ เอกสารเหล่านี้มีอิทธิพลอย่างมากในการจัดการกับความล้มเหลวในระบบกระจาย
ความผิดพลาดประเภทใดในระบบคุณกำลังมองหาวิธีการแก้ไขข้อผิดพลาดแบบไบแซนไทน์หรือเป็นเพียงแค่ตัวแบบการหยุดแบบคลาสสิก? การแก้ไขต่อหน้า Byzantine nodes ในระบบกระจายเป็นปัญหาที่น่าสนใจมากขึ้น ปัญหาได้รับการกรงเล็บโดย Leslie Lamport (ปัญหา Byzantine Generals 'และ 1999 กระดาษโดย Barbara Liskov และ Miguel Castro นำเสนอวิธีแก้ปัญหาการทำงานที่ใกล้เคียงที่สุด' Practical Byzantine fault-tolerance 'แบบจำลองที่เป็นทางการดั้งเดิมเพื่อจัดการกับ fault-tolerance วิธีการใช้เครื่องจักรของ Fred Schneider และการจำลองแบบที่มีการประทับมุมมอง ฉันเห็นด้วยกับคำถามทั่วไปมากเขตข้อมูลมีขนาดมหึมาและทฤษฎีเป็นพื้นฐานของระบบส่วนใหญ่ที่ทำงานในโลกออนไลน์ทุกวันนี้บางทีแบบจำลองความผิดพลาดที่เฉพาะเจาะจงมากขึ้น คำตอบที่ดีกว่า
นี่คือชุดของรูปแบบสำหรับการจัดการข้อผิดพลาดในระบบกระจาย:
อีกทางหนึ่งสำหรับการทำงานทั่วไปเพิ่มเติมมีหนังสือแนะนำการเขียนโปรแกรมกระจายความน่าเชื่อถือโดย Rachid Guerraoui และ Luis Rodrigues ซึ่งมีอัลกอริทึมการปฏิบัติที่หลากหลายรวมถึงอัลกอริทึมการกู้คืนความล้มเหลวของหลาย ๆ อัลกอริธึมแบบกระจายข้อความแบบคลาสสิกมากขึ้น โดย Nancy Lynch ครอบคลุมพื้นที่ที่คล้ายกันจากมุมมองเชิงทฤษฎีมากขึ้น