หน่วยประมวลผลที่ทันสมัยมีหน่วยความจำสำรองเพื่อชดเชยความผิดพลาดในการผลิตหรือไม่?


10

โปรเซสเซอร์ที่ทันสมัยประกอบด้วยทรานซิสเตอร์หลายพันล้านตัวและเทคโนโลยีการผลิตใหม่มักจะมีปัญหากับผลผลิตอย่างน้อยในเดือนแรก แต่ฉันเดาว่าแม้หลังจากหลายปีจะมีชิปที่ผิดพลาดอยู่ตลอดเวลา

ฉันรู้ว่าในบล็อกขนาดใหญ่ (เช่นแคช) มีความเป็นไปได้ที่จะปิดการใช้งานบางส่วนของมันและโดยการลดจำนวนหน่วยความจำที่มี (เพื่อให้คุณสามารถขายชิปในราคาที่ต่ำกว่าแทนที่จะทิ้งมันไป) แต่มีบางอย่างที่คล้ายกันสำหรับหน่วยตรรกะหรือไม่ ฉันทราบว่ามี ALU หลายตัวสำหรับการแจกจ่าย แต่เป็นสิ่งที่จะปิดใช้งานหนึ่งในนั้นหากมีข้อผิดพลาดในการผลิตหรือไม่ หรือมี ALU สำรองเพิ่มเติมหรือไม่ เพราะสำหรับฉันมันยากที่จะเชื่อว่า fabs เพียงกำจัดชิปทุกตัวที่มีทรานซิสเตอร์ผิดพลาดในส่วนตรรกะในขณะที่การปิดใช้งาน ALU ที่สมบูรณ์จะช่วยลดกำลังการประมวลผลได้อย่างมาก


แค่เดาของฉัน ราคาของการผลิตแผ่นเวเฟอร์ซิลิคอนค่อนข้างต่ำในปริมาณมากและคุณสามารถทดสอบได้ก่อนที่จะอยู่ในเคสดังนั้นคุณสามารถผลิตชิปที่สมบูรณ์ด้วยอัตราความล้มเหลวค่อนข้างต่ำ > 50% ของราคาเป็นการตลาดที่บริสุทธิ์ นอกจากนี้ฉันคิดว่าโปรเซสเซอร์หลายรุ่นในตระกูลเดียวกันนั้นทำบนทอพอโลยีเดียวกันและแตกต่างกันเฉพาะในคุณสมบัติปิด / คอร์ / แคช (ตามที่คุณเขียน) ดังนั้นผู้ผลิตจึงมีช่องว่างขนาดใหญ่เพื่อรักษาอัตราความล้มเหลวในการผลิตต่ำ หน่วยที่เสียหาย แต่ฉันสงสัยว่าพวกเขามีสมมติว่า ALU ที่สงวนไว้หลายตัวสำหรับแกนเดียวกัน
cyclone125

ฉันคิดว่าตัวอย่างที่เป็นที่รู้จักมากที่สุดคือ Intel 486SX ซึ่งเป็นแบบเดียวกับ DX ที่มี FPU สำหรับผู้พิการ แต่ฉันสนใจที่จะฟังว่าสถานะของสิ่งนี้คืออะไร
pjc50

ฉันสงสัยอย่างมาก จำนวนของลอจิกและเวลาในการออกแบบที่จำเป็นสำหรับการสำรองข้อมูลในระดับต่ำที่ความเร็วของโปรเซสเซอร์ร่วมสมัยจะไม่คุ้มค่า ความซ้ำซ้อนระดับบล็อก (หลัก, fpu, แคช) หรือเพียงแค่ปิดการใช้งานบล็อกจะมากเกินพอที่จะเพิ่มผลผลิตอย่างมีนัยสำคัญ และในราคาโปรเซสเซอร์ปัจจุบันและขนาดเวเฟอร์แม้แต่อัตราผลตอบแทน 5% อาจทำกำไรได้
Edgar Brown

ดังนั้นคุณคิดว่าเมื่อใดก็ตามที่ ALU ไม่สามารถใช้งานได้พวกเขาเพียงแค่ปิดการใช้งานแกนกลาง ใช่อาจเป็นไปได้ ฉันหวังว่าจะมีใครบางคนที่นี่รู้จริง ๆ
jusaca

1
ใช่พวกเขาจะปิดการใช้งานหลัก มันเป็นแบบฝึกหัดที่เรียกว่า "binning"
DKNguyen

คำตอบ:


3

ดังที่คนอื่น ๆ กล่าวว่าเป็นการยากที่จะเห็นตรรกะ ALU ที่ซ้ำซ้อนภายในแกนหลัก

แกนถูกออกแบบมาเพื่อเพิ่มประสิทธิภาพการรับส่งข้อมูล ตรรกะเพิ่มเติมใด ๆ สำหรับ ALU ซ้ำซ้อนจะส่งผลกระทบต่อประสิทธิภาพการทำงานและพื้นที่ที่เพิ่มขึ้นจะทำให้แกนหลักทั้งหมดช้าลง เมื่อเทคโนโลยีวิวัฒนาการขึ้นซิลิคอนก็เล็กลงทำให้แกนเร็วขึ้น แต่โดยพื้นฐานแล้วใช้ทรัพย์สินทางปัญญาแบบเดียวกัน เหตุใดจึงมี ALU ซ้ำซ้อนเมื่อมีพื้นที่ว่างสำหรับแกนสำรองเพื่อเพิ่มผลผลิต

ในปี 2554 อินเทลได้ยื่นจดสิทธิบัตรอย่างน้อย 32 คอร์ที่มีการใช้งาน 16 ครั้งและ 16 สต็อก สถานะสิทธิบัตรที่ล้มเหลวในแกนจะมีอุณหภูมิสูงขึ้นทำให้สามารถเปลี่ยนแกนสำรองได้โดยพื้นฐานแล้วการจัดสรรแกนแบบไดนามิกตามต้องการ

คุณสามารถจัดสรรแกนหลักพลังงานสูงและพลังงานต่ำได้ตามความต้องการของงาน หรือเปลี่ยนแกนที่ไม่ดีที่ตรวจพบโดยระดับอุณหภูมิที่สูงขึ้น ใช้งานแกนในแบบกระดานหมากรุกเพื่อลดความร้อน

สิทธิบัตรของ Intel: การเพิ่มความน่าเชื่อถือของโปรเซสเซอร์หลายคอร์


นั่นเป็นเหตุผลที่สมเหตุสมผลฉันไม่ได้คิดถึงผลกระทบด้านประสิทธิภาพว่าพื้นที่ซิลิคอนสำรองในแกนเดียวสามารถมีได้ การปิดใช้งานคอร์ทั้งหมดดูเหมือนจะเป็นวิธีที่จะไปเช่นเดียวกับคำตอบอื่น ๆ ที่บ่งบอกถึง
jusaca

5

ไม่ได้อยู่ในตรรกะ

อย่างไรก็ตามหากมีความทรงจำขนาดใหญ่ (SRAM) เป็นเรื่องปกติที่จะใช้หน่วยความจำที่มี 'ความซ้ำซ้อน' เหล่านี้มีตรรกะพิเศษซึ่งสามารถตั้งโปรแกรมให้แทนที่พื้นที่ซึ่งมักจะเป็นจำนวนแถวหรือคอลัมน์

ตรวจพบพื้นที่ที่ล้มเหลวในระหว่างการทดสอบจากนั้นหน่วยความจำสำรองถูกตั้งโปรแกรมให้เปลี่ยนตำแหน่งที่ผิดพลาด

อย่างไรก็ตาม 'การแทนที่' นี้จะต้องตั้งค่าโดยใช้บิต OTP (One-Time-Programmable) หรือหน่วยความจำอื่นที่เก็บค่าไว้ ดังนั้นความทรงจำเหล่านี้จะถูกใช้ในชิปที่มีคุณสมบัติ 'หน่วยความจำถาวร' เท่านั้นหรือต้องเพิ่มฟีเจอร์การเขียนโปรแกรมด้วยค่าใช้จ่ายทั้งหมดที่เกิดขึ้น


คุณคิดว่าบิต OTP เหล่านี้ได้รับการตั้งโปรแกรมทางอิเล็กทรอนิกส์เช่นการเผาฟิวส์หรือบางสิ่งบางอย่างหรือผู้ผลิตรายใหญ่ต้องไปตายโดยตรงด้วยการตัดด้วยเลเซอร์
jusaca

1
OTP เป็นฟิวส์แบบ on-chip ซึ่งสามารถตั้งโปรแกรมแบบอิเล็กทรอนิกส์ (เรียงลำดับคล้าย EEPROM แต่อย่างถาวร) ผู้ใช้ยังสามารถเขียนหมายเลขซีเรียลที่อยู่อีเทอร์เน็ตคีย์การเข้ารหัส ฯลฯ
Oldfart

4

นี่ไม่ใช่กรณีสำหรับ MCU อย่างง่ายหรือโปรเซสเซอร์แกนเดี่ยวทั่วไป ค่าใช้จ่ายในการมีบล็อคสำรองจะไม่คุ้มค่าและโปรเซสเซอร์เหล่านั้นไม่ได้ใช้กระบวนการแกะสลักที่ทันสมัยและไม่ต้องการพื้นที่ซิลิคอนขนาดใหญ่ดังนั้นผลผลิตจึงดีพอ

อย่างไรก็ตามสิ่งนี้ทำสำหรับโปรเซสเซอร์แบบมัลติคอร์บางตัวซึ่งพื้นที่ซิลิคอนค่อนข้างใหญ่และใช้กระบวนการแกะสลักที่ละเอียดกว่าซึ่งสามารถนำไปสู่อัตราข้อบกพร่องที่สูงขึ้น ในโปรเซสเซอร์เหล่านี้คอร์ทั้งหมดสามารถปิดใช้งาน (ซึ่งเป็นบล็อกลอจิกขนาดใหญ่ที่มีมากกว่า ALU) เมื่อมีข้อบกพร่อง โปรเซสเซอร์นั้นขายเป็นรุ่นล่างสุด

ที่มา: /skeptics/15704/are-low-spec-computer-parts-just-faulty-high-spec-computer-parts


3

ฉันไม่สามารถตอบคำถามของคุณได้อย่างแน่นอน มันไม่สมเหตุสมผลเลยที่จะปิดการใช้งานหน่วยที่เล็กกว่า 1 คอร์เนื่องจากมันกลายเป็น "ชุดคุณลักษณะ" ที่มีความละเอียดมากซึ่งสามารถเปิดใช้งานได้หรือไม่และผลิตภัณฑ์คาร์ทีเซียนของคุณลักษณะที่เป็นไปได้ทั้งหมดจะทำให้ CPU รุ่นต่างๆ มีจำนวนมากของแบบจำลอง CPU แล้วทำให้พวกเขา 10-100 ครั้งมากขึ้นแน่นอนจะได้ช่วย!

อีกแง่มุมหนึ่งคือการใช้ทรานซิสเตอร์เป็นพันล้าน (ส่วนใหญ่) ในการทำแคชและสำหรับทรานซิสเตอร์ที่มีข้อบกพร่องผู้ผลิตจะขายซีพียูอย่างแน่นอนโดยปิดการแคชแคชในตัว (เช่นดู, AMD Thorton และ AMD Barton)

แต่ฉันสามารถบอกเรื่องเล็ก ๆ น้อยที่คุณได้ยินจากคนที่ฉันไว้ใจได้ นานมาแล้วฉันเป็นโอเวอร์คล็อกเกอร์ที่อยากรู้อยากเห็น ในวันของฉันงบประมาณโอเวอร์คล็อกที่เลือก CPU คือ AMD Athlon Thoroughbred:

พันธุ์ Athlon

เมื่อทำการติดตั้งโซลูชันการทำความเย็นแบบกำหนดเองเราต้องระวังอย่างมากในขณะที่ติดตั้งฮีทซิงค์เนื่องจากมันกดลงตรงกับแม่พิมพ์ หากคุณใช้แรงดันที่ไม่สม่ำเสมอแม่พิมพ์นั้นมีชื่อเสียงในการแคร็กที่มุมได้ง่ายถ้าคุณใช้แรงที่มุมหนึ่งก่อน

บุคคลนี้ทำสิ่งเดียวกันอย่างแน่นอนส่วนสำคัญของมุมหนึ่งหายไป แต่ CPU ทำงานได้ดีอย่างน่าอัศจรรย์แม้ว่าจะมีประสิทธิภาพของหน่วยความจำลดลงมาก มุมบรรจุ L2 แคชเท่านั้นดังนั้นเมื่อส่วนนั้นหายไปโปรโตคอลการแคชก็ทำงานกับdie ที่มีข้อบกพร่องอย่างมากในขณะนี้ มันอาจจะรายงานว่าแคชหายไปสำหรับการสืบค้นทั้งหมดในส่วนนั้นดังนั้น CPU จึงถูกลดเหลือเพียง L1 Cache (หรือเพียงบางส่วนของ L2) ดังนั้นมันจึงช้ากว่ามากในการทดสอบส่วนใหญ่

ในแนวความคิดเดียวกันอาจเป็นไปได้ว่าหาก ALU มีข้อบกพร่องและสามารถส่งสัญญาณกลับว่าปฏิเสธการทำงานซีพียูอาจจะล้มลงใน ALU อื่นได้ ไม่ทราบว่าจะมีการดำเนินการโดยผู้ผลิตซีพียูหรือไม่ (และฉันสงสัย) แต่ตัวอย่างแคช (จาก 15 ปีที่แล้ว) แสดงให้เห็นว่าสามารถทำได้อย่างแน่นอน


แน่นอนว่ามันน่าประทับใจมากและมันก็ดูเหมือนจะเป็นกระบวนการแบบไดนามิกบางอย่างเพราะระบบตรวจพบชิ้นส่วนที่ผิดพลาดด้วยตัวเอง เมื่อถามคำถามฉันมีการตรวจจับมากขึ้นโดยระบบการทดสอบในสายการผลิตในใจ แต่เรื่องนี้น่าสนใจอย่างแน่นอน;)
jusaca
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.