การประมาณความน่าจะเป็นข้อผิดพลาดของฮาร์ดแวร์


13

สมมติว่าฉันใช้การคำนวณซูเปอร์คอมพิวเตอร์บนแกน 100k เป็นเวลา 4 ชั่วโมงในhttp://www.nersc.gov/users/computational-systems/edison/configurationแลกเปลี่ยนข้อมูลประมาณ 4 PB ผ่านเครือข่ายและดำเนินการประมาณ 4 TB ของ I / ทุม การคำนวณเป็นจำนวนเต็มทั้งหมดดังนั้นผลลัพธ์อาจถูกหรือผิด (ไม่มีข้อผิดพลาดตัวเลขกลาง)

สมมติว่ารหัสถูกต้องฉันต้องการประเมินความน่าจะเป็นที่การคำนวณผิดเนื่องจากฮาร์ดแวร์ล้มเหลว เป็นวิธีที่ดีที่จะไปเกี่ยวกับเรื่องนี้คืออะไร? มีแหล่งข้อมูลที่ดีสำหรับตัวเลขที่ต้องใช้ในการประมาณการดังกล่าวหรือไม่?


ฉันคิดว่าผลลัพธ์ของ CPU / ram นั้นเสถียรมากเมื่อเทียบกับการพิจารณาเครือข่ายและดิสก์
meawoppl

คำตอบ:


5

O(108)

ความทรงจำของฉันคือในบรรดาโหมดความล้มเหลวที่หลากหลายบิตเดียวที่พลิกในหน่วยความจำหรือในแกนประมวลผลไม่ใช่ประเด็นที่สำคัญที่สุด แต่มันเป็นโหนดทั้งหมดที่จะลงเช่นเนื่องจากความล้มเหลวของดิสก์, ความผิดพลาดของระบบปฏิบัติการ ฯลฯ การออกแบบ exascale ปัจจุบันดังนั้นทุกคนจึงเรียกจุดตรวจรหัสเป็นระยะเป็นแฟลชแรมโดยเฉพาะอย่างยิ่งการส่งข้อมูลด่านนอกโหนด รหัสจะต้องสามารถเริ่มต้นใหม่ได้ทันทีจากสถานะที่บันทึกไว้ก่อนหน้านี้หากระบบพบว่ามีโหนดหนึ่งหายไปแทนที่โหนดนี้ด้วยโหนดเริ่มร้อนที่อื่นในระบบ


ฟังดูเหมือนสิ่งที่ฉันต้องการ คุณมีตัวอย่างที่เฉพาะในใจหรือไม่?
Geoffrey Irving

1
ฉันจะดูว่ามีอะไรในรายงาน DoE ต่างๆที่คุณสนใจหรือไม่ ฉันคิดว่าคุณรู้เรื่องexascale.org ด้วยหรือเปล่า? ควรมีมากมายให้อ่านสำหรับคุณ
Wolfgang Bangerth

1
Geoff รายงาน exascale ขั้นสุดท้ายคือโดย Peter Kogge และสามารถออนไลน์ได้ ดูที่ความยืดหยุ่นของคำ ที่กล่าวว่าฉันสามารถชี้ให้คุณเห็นคนไม่กี่คนที่ NERSC ซึ่งอาจมีข้อมูลเฉพาะเพิ่มเติมเกี่ยวกับเครื่องนั้น
Aron Ahmadia

@AronAhmadia: ขอบคุณเอกสารที่ดูดี ฉันยอมรับคำตอบนี้เนื่องจากควรครอบคลุมข้อผิดพลาดของชั้นเรียนที่ฉันสนใจมากขึ้น
Geoffrey Irving

@ Wolfgang: นี่ทำให้ฉันนึกถึงยุคสงครามเย็นของฉันเมื่อ Minuteman missiles ถูกตั้งโปรแกรมด้วยจุดตรวจเพื่อที่ว่าหากมีแฟลชนิวตรอนเกิดขึ้นในบริเวณใกล้เคียงทำให้โปรเซสเซอร์ปิดตัวลงทันทีมันสามารถรีสตาร์ทจากจุดตรวจล่าสุดได้ หากใช้จุดตรวจสอบในเวลาที่ถูกต้องจะถูกเรียกว่า "ป้องกันการรีสตาร์ท"
Mike Dunlavey

9

ฉันเดาว่าคุณเริ่มต้นด้วยการรวบรวมอัตราความผิดพลาดของส่วนประกอบเช่น DRAM เช่น Google วิจัยเกี่ยวกับข้อผิดพลาด DRAM ในป่า: การศึกษาภาคสนามขนาดใหญ่พวกเขาพบว่าโอกาส 1% ที่จะได้รับข้อผิดพลาดที่ไม่สามารถแก้ไขได้หนึ่งครั้งต่อปี

ฉันไม่แน่ใจว่านั่นคือสิ่งที่คุณสนใจ ฉันจะสนใจข้อผิดพลาดที่ตรวจไม่พบมากขึ้น ข้อผิดพลาดเช่นนั้นวิธีการตรวจสอบข้อผิดพลาดทั่วไปจะไม่ตรวจพบ ตัวอย่างเช่นเมื่อคุณส่งแพ็กเก็ตเหนือเลนส์พวกมันจะมาพร้อมกับ CRC บางประเภทซึ่งจะช่วยให้เกิดข้อผิดพลาดเล็กน้อยในการเลื่อนดู

UPDATE: บทความนี้สถาปัตยกรรมสำหรับตรวจหาข้อผิดพลาดออนไลน์และการกู้คืนในตัวประมวลผลแบบมัลติคอร์พูดถึงสถาปัตยกรรมแบบมัลติคอร์ที่เชื่อถือได้ แต่พวกเขายังครอบคลุมด้านต่าง ๆ ของความน่าเชื่อถือของระบบและมีบรรณานุกรม


การศึกษาที่ยอดเยี่ยม มันยืนยันสัญชาตญาณจำนวนมากเก่าร้อนใช้บ่อย RAM เกือบเต็มมีความน่าเชื่อถือน้อยกว่า ฉันค่อนข้างประหลาดใจที่ไม่มีความล้มเหลวใด ๆ จากผู้ขายหรือสถาปัตยกรรมที่แย่ลง
meawoppl

3

มีแหล่งข้อมูลที่ดีสำหรับตัวเลขที่ต้องใช้ในการประมาณการดังกล่าวหรือไม่?

คุณอาจลองถามผู้ดูแลระบบของคลัสเตอร์ที่คุณกำลังคำนวณ ฉันจินตนาการว่าเป็นส่วนหนึ่งของกระบวนการตรวจสอบความถูกต้องพวกเขาประสบปัญหาในการประเมินโอกาสที่จะเกิดข้อผิดพลาดของฮาร์ดแวร์


ขอบคุณ! เห็นได้ชัดว่ามีปัญหาย้อนหลัง แต่ก็ไม่ได้เกิดขึ้นกับฉัน
Geoffrey Irving

2

ฟังดูยอดเยี่ยม หากไม่มีใครทำการทดลองนี้คุณอาจลองใช้แกนประมวลผลแยกกัน 100k ทำบางอย่างเช่นการทำอินพุต sha1 ซ้ำแล้วซ้ำอีกเพื่อดูว่าอัตราความผิดพลาดนั้นคืออะไร (ฉันสงสัยว่าไม่สามารถวัดค่าได้) จากที่นั่นทำเช่นเดียวกัน แต่ให้พวกเขาแลกเปลี่ยนผลแฮชเชนทุก ๆ ครั้งเพื่อรับอัตราความผิดพลาดของเครือข่ายของคุณ ฉันคิดว่ามันเล็กมาก แต่ฉันคิดว่าคุณสามารถใช้ Supercluster ของคุณอย่างน้อยสองสามชั่วโมง :)

วิธีนี้ทำให้มั่นใจได้ว่าการคำนวณทุกอย่างถูกต้องเนื่องจากการแฮ็ชมีความอ่อนไหวอย่างมากต่อการแลกเปลี่ยนบิตเดียวในขณะที่การคำนวณจำนวนเต็มอย่างเดียวอาจซ่อนข้อผิดพลาดในสาขาเช่นการคำนวณทั้งหมดจะไม่เป็นรูปไข่ในแต่ละหน่วยความจำ

ฉันทำงานเพื่อให้แน่ใจว่าโค้ดทำงานอย่างถูกต้องโดยกลุ่มภายนอกที่มีแรงจูงใจที่จะโกงโดยการส่งผลลัพธ์ที่ปลอม ทางออกที่ฉันบรรจบกันก็คือการรวมแฮชเข้ากับการคำนวณด้วยความถี่ที่ทำให้การโกงมีประสิทธิภาพน้อยกว่าการทำงาน


2
น่าเสียดายที่โครงการของคุณสำหรับการขุด bitcoins จะไม่ได้รับการอนุมัติ :)
Geoffrey Irving

ทีฮีฮิ มันเป็นเพียงหลักฐานการทำงานจริงๆ : P
meawoppl
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.