ความล้มเหลวของตัวประมวลผลในการคำนวณแบบกระจายที่ไม่ผิดพลาดหรือไบแซนไทน์


13

มีความล้มเหลวของตัวประมวลผลหลักสองประเภทในแบบจำลองการคำนวณแบบกระจาย:

(1) ความล้มเหลวของข้อผิดพลาด: ตัวประมวลผลหยุดทำงานและจะไม่เริ่มต้นอีกครั้ง (2) ความล้มเหลวของไบแซนไทน์: โปรเซสเซอร์ทำงานผิดพลาดเป็นอันตราย

คำถามของฉันคือ:

มีความล้มเหลวของตัวประมวลผลประเภทอื่น ๆ อีกบ้างที่ได้รับการศึกษาซึ่งไม่ลดความผิดพลาดหรือความล้มเหลวของไบแซนไทน์

นอกจากนี้คำถามที่เฉพาะเจาะจงมากขึ้น:

มีการศึกษารูปแบบที่มีความน่าจะเป็นบางอย่างกระบวนการอยู่ที่ขั้นตอนเวลาและอื่น ๆ ออก? ดังนั้นแต่ละกระบวนการจะเปิดและปิดตามที่เคยเป็นt

ฉันสนใจมากที่สุดว่าความล้มเหลวเหล่านี้เกี่ยวข้องกับฉันทามติและปัญหาข้อตกลงการกระจายอื่น ๆ อย่างไร

ขอขอบคุณ.


@Aaron: ฉันมีหลักสูตรเกี่ยวกับ "ระบบกระจาย" และอีกหนึ่งใน "ระบบป้องกันความผิดพลาด" เมื่อหลายปีก่อน แต่ฉันไม่ได้อยู่ในหัวข้อเหล่านั้นจริงๆ แต่ฉันคิดว่าตัวแก้ไขข้อผิดพลาดแบบไดนามิกสามารถช่วยคุณ
MS Dousti

1
ฉันเดาว่าแบบจำลองความล้มเหลวที่ใช้ในพื้นที่ของการทำให้เสถียรตัวเองไม่ได้ลดความผิดพลาดที่ล้มเหลวหรือความล้มเหลวของไบแซนไทน์ วิธีหนึ่งในการเชื่อมโยงกับความล้มเหลวของไบแซนไทน์: คุณสามารถมีพฤติกรรมไบแซนไทน์ชั่วคราวได้แต่ถ้าและเมื่อพฤติกรรมดังกล่าวหยุดลง
Jukka Suomela

1
เกี่ยวกับคำถามที่เฉพาะเจาะจงมากขึ้นของคุณ: หากตัวประมวลผลถ้า "เปิด" ด้วยความน่าจะเป็นมันฟังดูคล้ายกับแบบจำลองแบบอะซิงโครนัสที่โปรเซสเซอร์เปิดอยู่เสมอ แต่ข้อความใช้เวลาพูด1 / pรอบโดยคาดหวังว่า คุณอาจอธิบายได้ไหมว่าสิ่งนี้แตกต่างจากโมเดลที่คุณนึกไว้อย่างไร p1/p
Jukka Suomela

1
@Aaron: ฉันไม่รู้จริง ๆ ว่ามีการศึกษารูปแบบนี้มากแค่ไหน แต่ผมคิดว่าถ้าคุณมีการกำหนดขั้นตอนวิธีการซิงโครกับการทำงานเวลาทีคุณก็สามารถใช้α -synchroniser เพื่อจำลองในรูปแบบที่ไม่ตรงกันและผมคิดว่าเวลาทำงานคาดว่าจะเป็นสิ่งที่ชอบT / P (ซิงโครไนซ์αรับประกันได้ว่าเพื่อนบ้านของคุณจะไม่ก้าวไปข้างหน้าหรือข้างหลังคุณในการจำลองA ) ไม่เกิน 1 ครั้งATαAT/pαA
Jukka Suomela

2
@Aaron: ฉันใช้ทฤษฎีของการคำนวณแบบกระจายกับ Michel Raynal และเขาอธิบายถึงแบบจำลองที่สามซึ่งข้อความสามารถลดลงแบบสุ่ม ในรูปแบบนั้นข้อความสามารถล้มเหลวในการส่งอย่างเงียบ ๆ แต่นั่นไม่ได้หมายความว่าโหนดล้มเหลว มันเกี่ยวกับความล้มเหลวของการเชื่อมโยงมากกว่าความล้มเหลวของโหนด "โมเดลการสูญเสียที่ยุติธรรม" คุณสามารถอ่านเพิ่มเติมได้ที่นี่: Quiescent Uniform เชื่อถือได้ออกอากาศเป็นการสำรวจเบื้องต้นเพื่อตรวจจับความล้มเหลว Oracles - Michel Raynal ( ftp.irisa.fr/techreports/2000/ PI-1356.ps.gz )
M. Alaggan

คำตอบ:


12

คัดลอกมาจากความคิดเห็นเกี่ยวกับคำถามตามคำขอ

ฉันใช้ทฤษฎีการคำนวณแบบกระจายกับ Michel Raynal และเขาอธิบายแบบจำลองที่สามซึ่งข้อความสามารถถูกสุ่มลดลง ในรูปแบบนั้นข้อความสามารถล้มเหลวในการส่งอย่างเงียบ ๆ แต่นั่นไม่ได้หมายความว่าโหนดล้มเหลว มันเกี่ยวกับความล้มเหลวของการเชื่อมโยงมากกว่าความล้มเหลวของโหนด "โมเดลการสูญเสียที่ยุติธรรม" คุณสามารถอ่านเพิ่มเติมได้ที่นี่: Quiescent Uniform เชื่อถือได้ออกอากาศเป็นการสำรวจเบื้องต้นเพื่อตรวจจับความล้มเหลว Oracles - Michel Raynal (ftp.irisa.fr/techreports/2000/ PI-1356.ps.gz)


10

เนื่องจากต้นทุนทรัพยากรสูงที่เกี่ยวข้องกับการยอมรับความผิดพลาดของไบแซนไทน์โมเดลความล้มเหลวที่มีสมมติฐานที่แข็งแกร่งขึ้นได้รับการวิเคราะห์โดยเฉพาะอย่างยิ่ง WRT กับความต้องการทรัพยากรเพื่อทนต่อความผิดพลาดประเภทที่ จำกัด ( Azadmanesh และ Kieckhafer, 2002 ) ให้อนุกรมวิธานที่ดีมาก (ดูรูปที่ 1)

3f+1f+12f+1f

อีกวิธีหนึ่งในการตั้งสมมติฐานโหมดความล้มเหลวของโมเดลคือการย้ายออกจากมุมมองของโหนดเป็นศูนย์กลางซึ่งการสูญเสียข้อความถูกจำลองเป็นความผิดของผู้ส่งไปยังโมเดลการเชื่อมโยง - ข้อผิดพลาดซึ่งเป็นเพียงมุมมองแบบคู่เมื่อไม่สอดคล้องกัน ระบบได้รับการพิจารณา แบบจำลองนี้ได้รับการตรวจสอบโดย ( Schmid, Weiss และ Rushby, 2002 ) เพื่อหลีกเลี่ยงผลที่เป็นไปไม่ได้ของ ( Gray, 1978 ) แสดงวิธีแก้ไขปัญหาของปัญหาการประสานงานการโจมตีภายใต้ความผิดพลาดของลิงก์


8

ฉันไม่รู้ว่า @M Alaggan กำลังพูดถึงข้อผิดพลาดประเภทนี้ แต่พวกเขาก็ดูเหมือนกัน: ความผิดปกติชั่วคราว

ในรูปแบบของDVFSที่หนึ่งสามารถปรับเปลี่ยนความถี่และแรงดันไฟฟ้าเพื่อลดการใช้พลังงาน Zhu และ Aydin ในบทความนี้(pdf) ใช้แบบจำลองความผิดพลาดสำหรับ DVFS พวกเขาพิจารณาความล้มเหลวชั่วคราวซึ่งเป็นข้อบกพร่องที่เกิดจากข้อผิดพลาดของซอฟต์แวร์เช่น พวกเขาทำให้การทำงานของงานปัจจุบันเท่านั้นและตัวประมวลผลภายใต้ความล้มเหลวนั้นจะสามารถกู้คืนและดำเนินการงานที่ตามมาที่ได้รับมอบหมาย (ถ้ามี)

λ

λ(f)=λpedfmaxffmaxfmin,
fminffmaxd0λpfmaxpTipfi
Ri(fi)=eλ(fi)×Execution Time(Ti,fi).

ขออภัยที่โพสต์นี้นานหลังจากโพสต์ต้นฉบับ แต่ฉันพบคำถามนี้ในขณะที่ฉันกำลังทำงานในเรื่องนี้ :) เมื่อไม่ได้ศึกษา DVFS ข้อบกพร่องเหล่านี้ยังคงมีอยู่สูตรอาจยังคงใช้ได้ (หรือปรับเปลี่ยนได้) คุณสามารถค้นหาข้อมูลเพิ่มเติมเกี่ยวกับความล้มเหลวชั่วคราวโดยไม่ต้อง DVFS ที่นี่


4

เกี่ยวกับแบบจำลองความล้มเหลวของการละเลยที่กล่าวไปแล้วนั้นให้ดูที่NeigerTouegซึ่งพิจารณาประเภทที่แตกต่างกัน

มีการศึกษารูปแบบที่มีความน่าจะเป็นบางอย่างกระบวนการอยู่ที่ขั้นตอนเวลา t และอื่น ๆ ออก? ดังนั้นแต่ละกระบวนการจะเปิดและปิดตามที่เคยเป็น

ดูเหมือนว่ารูปแบบการกู้คืนความผิดพลาด ฉันไม่ได้ตระหนักถึงรูปแบบใด ๆ ที่กระบวนการเปิด / ปิดน่าจะเป็น นอกจากนี้ยังมีตัวแปรที่โปรเซสเป็น Byzantine อยู่พักหนึ่งแล้วกู้คืนเมื่อเวลาผ่านไปโพรเซสทั้งหมดสามารถเป็น Byzantine ได้

โปรดทราบว่าหากคุณปิดการใช้งานคุณเพียง แต่หมายความว่ากระบวนการไม่เพียงทำให้เกิดความคืบหน้าเท่านั้น (ไม่ทำให้สถานะหายไปและไม่ได้รับข้อความใดหายเนื่องจากผู้รับถูก "ปิด") สิ่งที่คุณกำลังดูนั้นเรียกว่าแบบอะซิงโครนัส ระบบ. ในบริบทหน่วยความจำที่ใช้ร่วมกันคำถามของคุณอาจเกี่ยวข้องกับกระดาษAspnesนี้อย่างใกล้ชิด


1

มีความล้มเหลวประเภทอื่น ๆ ได้ ตัวอย่างเช่นตัวประมวลผลบางตัว (เช่นภายใต้การออกอากาศหรือโปรโตคอลแบบหลายผู้รับ) อาจทำงานหนักเกินไปและจะไม่สามารถประมวลผลข้อความขาเข้าทั้งหมดได้ สิ่งนี้ส่งผลให้ตัวประมวลผลปรากฏเป็นออฟไลน์สำหรับโปรเซสเซอร์บางตัวในระบบกระจาย

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.