จำเป็นต้องเบิร์นอิน RAM สำหรับฮาร์ดแวร์ระดับเซิร์ฟเวอร์หรือไม่


31

เมื่อพิจารณาถึงความจริงที่ว่าระบบระดับเซิร์ฟเวอร์จำนวนมากติดตั้งECC RAMจำเป็นหรือมีประโยชน์ในการเบิร์น DIMM หน่วยความจำก่อนการปรับใช้หรือไม่

ฉันพบสภาพแวดล้อมที่RAM เซิร์ฟเวอร์ทั้งหมดถูกวางผ่านกระบวนการเบิร์นอิน / การทดสอบความเครียดที่ยาวนาน สิ่งนี้มีความล่าช้าในการปรับใช้ระบบในบางโอกาสและส่งผลกระทบต่อเวลารอคอยสินค้าของฮาร์ดแวร์

ฮาร์ดแวร์เซิร์ฟเวอร์ส่วนใหญ่จะเป็นSupermicroดังนั้น RAM จึงมีที่มาจากผู้ขายหลายราย ไม่ได้โดยตรงจากผู้ผลิตเช่นDell PowerEdgeหรือเซิร์ฟเวอร์ HP ProLiant

นี่เป็นการออกกำลังกายที่มีประโยชน์หรือไม่? จากประสบการณ์ที่ผ่านมาฉันใช้ RAM ของผู้จำหน่ายนอกกรอบ การทดสอบหน่วยความจำPOSTไม่ควรจับหน่วยความจำ DOA หรือไม่ ฉันตอบสนองข้อผิดพลาด ECC นานก่อนที่ DIMM จะล้มเหลวจริง ๆ เนื่องจากเกณฑ์ ECC มักเป็นตัวกระตุ้นให้มีการรับประกัน

  • คุณเผาไหม้RAM ของคุณหรือไม่
  • ถ้าเป็นเช่นนั้นคุณใช้วิธีใดในการทำข้อสอบ?
  • มันระบุปัญหาใด ๆ ก่อนการปรับใช้หรือไม่?
  • กระบวนการเบิร์นอินส่งผลให้มีเสถียรภาพของแพลตฟอร์มเพิ่มเติมหรือไม่ดำเนินการตามขั้นตอนนั้นหรือไม่
  • คุณจะทำอย่างไรเมื่อเพิ่ม RAM ลงในเซิร์ฟเวอร์ที่รันอยู่

คำตอบ:


25

ฉันพบเอกสารโดย KINGSTON ซึ่งให้รายละเอียดว่าพวกเขาทำงานอย่างไรกับหน่วยความจำเซิร์ฟเวอร์ฉันเชื่อว่าปกติแล้วกระบวนการนี้จะเหมือนกันสำหรับผู้ผลิตที่รู้จักกันดี ชิปหน่วยความจำเช่นเดียวกับอุปกรณ์เซมิคอนดักเตอร์ทั้งหมดเป็นไปตามรูปแบบความน่าเชื่อถือ / ความล้มเหลวโดยเฉพาะที่รู้จักกันในชื่ออ่างอาบน้ำโค้ง:

ป้อนคำอธิบายรูปภาพที่นี่

เวลาแสดงในแกนนอนเริ่มต้นจากการจัดส่งจากโรงงานและดำเนินการต่อไปตามช่วงเวลาที่แตกต่างกันสามช่วงเวลา:

  • Early Life Failures: ความล้มเหลวส่วนใหญ่เกิดขึ้นในช่วงการใช้งานก่อน อย่างไรก็ตามเมื่อเวลาผ่านไปจำนวนของความล้มเหลวลดลงอย่างรวดเร็ว ช่วงเวลาความล้มเหลวในชีวิตก่อนแสดงเป็นสีเหลืองประมาณ 3 เดือน

  • ชีวิตที่มีประโยชน์: ในช่วงเวลานี้ความล้มเหลวหายากมาก ช่วงชีวิตที่มีประโยชน์แสดงเป็นสีน้ำเงินและคาดว่าจะมีอายุ 20 ปีขึ้นไป

  • จุดสิ้นสุดของชีวิตล้มเหลว: ในที่สุดผลิตภัณฑ์สารกึ่งตัวนำชำรุดและล้มเหลว ช่วงเวลาสิ้นสุดของชีวิตแสดงเป็นสีเขียว

ขณะนี้เนื่องจาก KINGSTON ตั้งข้อสังเกตว่าอัตราความล้มเหลวสูงจะเกิดขึ้นในช่วงสามเดือนแรก (หลังจากสามเดือนนี้หน่วยจะถือว่าดีจนกระทั่ง EOL ประมาณ 15 - 20 ปีต่อมา) พวกเขาออกแบบการทดสอบโดยใช้หน่วยที่เรียกว่า KT2400 ซึ่งทดสอบโมดูลหน่วยความจำเซิร์ฟเวอร์อย่างไร้ความปราณีเป็นเวลา 24 ชั่วโมงที่อุณหภูมิ 100 องศาเซลเซียสที่แรงดันสูงโดยทุกเซลล์ของชิป DRAM ทุกรุ่นจะออกกำลังกายอย่างต่อเนื่อง การทดสอบความเครียดระดับสูงนี้มีผลต่อการทำให้โมดูลเสื่อมสภาพอย่างน้อยสามเดือน (ดังที่ระบุไว้ก่อนช่วงเวลาวิกฤติที่โมดูลส่วนใหญ่แสดงความล้มเหลว)

ผลการวิจัยพบว่า:

ในเดือนมีนาคม 2547 คิงส์ตันเริ่มการทดลองใช้หกเดือนโดยหน่วยความจำเซิร์ฟเวอร์ 100 เปอร์เซ็นต์ได้รับการทดสอบใน KT2400 มีการติดตามผลลัพธ์อย่างใกล้ชิดเพื่อวัดการเปลี่ยนแปลงในความล้มเหลว ในเดือนกันยายน 2547 หลังจากรวบรวมข้อมูลการทดสอบและวิเคราะห์แล้วผลการวิจัยพบว่ามีความล้มเหลวลดลง 90% ผลลัพธ์เหล่านี้เกินความคาดหมายและแสดงถึงการปรับปรุงที่สำคัญสำหรับสายผลิตภัณฑ์ที่มีอยู่แล้วในระดับสูงสุด

เหตุใดการเขียนในหน่วยความจำจึงไม่มีประโยชน์สำหรับหน่วยความจำเซิร์ฟเวอร์ เพียงเพราะมันทำโดยผู้ผลิตของคุณ!


10
ผู้ผลิตชิปและอาจเป็นผู้ขายเซิร์ฟเวอร์อาจทดสอบชิปบางอย่าง แต่ส่วนประกอบ mst เป็นเพียงการทดสอบตัวอย่างวันนี้เพื่อลดต้นทุน แม้ว่าชิปหรือหน่วยความจำ DIMM ทั้งหมดของคุณเคยผ่านการทดสอบมาแล้ว แต่ก็ไม่ได้บอกคุณว่ารายชื่อหรือ PCB นั้นถูกปรับแต่งหรือทำให้ยุ่งเหยิงในระหว่างการประกอบหรือจัดส่ง เรามี MemTEst86 ในการค้นหาปัญหาเกี่ยวกับหน่วยความจำจากเซิร์ฟเวอร์สองเครื่องที่แตกต่างกันออกจากผู้จำหน่ายเซิร์ฟเวอร์ "Tier 1" สองตัวที่แตกต่างกัน หากพวกเขาทำเพื่อการผลิต ECC อาจช่วยเราได้ แต่ความเสียหายของฐานข้อมูลแบบเงียบก็อาจเป็นผลเช่นกัน
rmalayter

7
เส้นโค้งอ่างอาบน้ำนี้ไม่ได้มีไว้สำหรับเซมิคอนดักเตอร์เท่านั้น ส่วนประกอบส่วนใหญ่ที่สร้างขึ้นด้วยการควบคุมคุณภาพทุกระดับนั้นตามมาด้วยฮาร์ดไดรฟ์ SSD แหล่งจ่ายไฟ (ส่วนใหญ่เป็นเพราะตัวเก็บประจุ) พัดลมและอื่น ๆ
voretaq7

6
นี่คือหนึ่งในเหตุผลที่ฉันไม่เคยซื้อการรับประกันเพิ่มเติมสำหรับอุปกรณ์อิเล็กทรอนิกส์ อุปกรณ์ (หรือส่วนประกอบ) อาจจะล้มเหลวในสองสามเดือนแรกหรือจะมีอายุการใช้งานที่เหลือตลอดไป สิ่งนี้แสดงให้เห็นว่าทำไมมันเป็นเรื่องสำคัญที่จะต้องกำจัดแอปเปิ้ลที่ไม่ดีออกไปก่อนเพื่อที่คุณจะได้ไปล่องเรือที่ราบรื่นได้โดยเร็วที่สุด
Atari911

@rmalayter ดังนั้นคุณจะสนับสนุนการเผาแรมหรือไม่
ewwhite

2
@ ขาวขาวฉันจะทดสอบ ใช้เวลาเพียงไม่กี่ชั่วโมงในการบูต memtest86 และให้ตรวจสอบ RAM 384 GB เราเบิร์นในระบบย่อยหน่วยเก็บข้อมูลทั้งหมดเช่นกันโดยใช้ IOmeter ด้วยเหตุผลเดียวกัน มีตัวควบคุม RAID หลายตัวหรือไดรฟ์เสียชีวิตระหว่างการเบิร์นอินในช่วงหลายปีที่ผ่านมาแม้ว่าพวกเขาจะทำงานได้ดีในระหว่างการติดตั้งระบบปฏิบัติการ บางครั้งมันเป็นสิ่งที่เฟิร์มแวร์ที่ไม่ดีบางครั้งแคช RAM ผิดพลาดบนคอนโทรลเลอร์ RAID บางครั้งก็เป็น "ผู้รู้ - RMA!"
rmalayter

30

เลขที่

เป้าหมายของการเผาไหม้ในฮาร์ดแวร์คือการเน้นไปที่การเร่งให้เกิดความล้มเหลวในส่วนประกอบ

การทำเช่นนี้กับฮาร์ดไดรฟ์เชิงกลจะได้ผลลัพธ์บางอย่าง แต่มันจะไม่ทำมากสำหรับ RAM ลักษณะขององค์ประกอบดังกล่าวคือปัจจัยด้านสภาพแวดล้อมและอายุมีแนวโน้มที่จะเป็นสาเหตุของความล้มเหลวมากกว่าการอ่านและการเขียนลงใน RAM (แม้จะใช้แบนด์วิดท์สูงสุดเป็นเวลาไม่กี่ชั่วโมงหรือวัน)

สมมติว่า RAM ของคุณมีคุณภาพสูงพอที่ประสานจะไม่ละลายในครั้งแรกที่คุณเริ่มใช้งานจริงกระบวนการเบิร์นอินจะไม่ช่วยคุณหาข้อบกพร่อง


15

เราซื้อเบลดและโดยทั่วไปแล้วเราจะซื้อบล็อกขนาดใหญ่พอสมควรในแต่ละครั้งดังนั้นเราจึงนำไปติดตั้งและติดตั้งผ่านทาง DAYS ก่อนพอร์ตเครือข่ายของเราพร้อมใช้ ดังนั้นเราจึงใช้เวลานั้นในการใช้ memtest ประมาณ 24 ชั่วโมงบางครั้งก็นานกว่านั้นในช่วงสุดสัปดาห์ - เมื่อเสร็จแล้วเราจะสเปรย์ ESXi และ IP พื้นฐานพร้อมสำหรับโปรไฟล์โฮสต์ที่จะนำไปใช้เมื่อเครือข่ายของมันหมด ดังนั้นใช่เราทดสอบมันเสียโอกาสมากกว่าความจำเป็น แต่มันจับไดแอนติมาไม่กี่ตัวก่อนหน้านี้และมันไม่ใช่ฉันที่ทำมันทางกายภาพดังนั้นจึงไม่ต้องใช้ความพยายามเลย ฉันมัน


3
"การทดสอบโอกาส" เหมาะสมแล้ว - ให้โอกาสฉันทำ ถ้ามันเป็นไปเพื่อการใช้งานล่าช้าที่ฉันจะมีความเสี่ยงที่ไม่ดีและ DIMM แสง ECC :-)
voretaq7

2
หากคุณสร้างการทดสอบในแผนการปรับใช้คุณจะต้องซื้อเวลาเองถ้าคุณทำทุกอย่างให้เร็วที่สุดคุณจะสามารถเตรียมตัวสำหรับการวิจารณ์ในภายหลัง การจัดการที่แข็งแกร่งแขนเมื่อใดก็ตามที่คุณสามารถ :)
Chopper3

@ Chopper3 ดังนั้นหากคุณกำลังกำหนดนโยบายทำเช่นนั้นเสมอหรือไม่ , ทำมันไม่เคย? หรือทำเมื่อคุณสามารถ? .
ewwhite

@ whitewhite - ฉันจะบอกว่าหลังแม้ว่าเรามักจะสร้างมันขึ้นมาในแผนการปรับใช้มาตรฐานดังนั้นจึงมีโอกาสสูงในแต่ละครั้ง
Chopper3

11

ฉันเดาว่ามันขึ้นอยู่กับว่ากระบวนการของคุณคืออะไร ฉันเรียกใช้ MemTest86 ในหน่วยความจำเสมอก่อนที่จะใส่ลงในระบบ (เซิร์ฟเวอร์หรืออย่างอื่น) หลังจากที่คุณใช้งานระบบได้แล้วปัญหาที่เกิดจากหน่วยความจำที่ผิดปกติอาจแก้ไขได้ยาก

ในความเป็นจริง "การทดสอบความเครียด" หน่วยความจำ; ฉันยังไม่ได้ดูว่าทำไมสิ่งนี้ถึงมีประโยชน์เว้นแต่คุณจะทำการทดสอบเพื่อการโอเวอร์คล็อก


MemTest86 บอกอะไรคุณ คุณพบปัญหาเกี่ยวกับ RAM ก่อนที่จะติดตั้งในเซิร์ฟเวอร์โดยใช้วิธีนี้หรือไม่?
ewwhite

4
ฉันพบข้อผิดพลาดมากมายกับ MemTest86 + ที่การวินิจฉัยหน่วยความจำ BIOS และ Windows จะไม่พบ ฉันขอแนะนำอย่างยิ่ง ใช่ ECC จะพบข้อผิดพลาดเดียวกัน แต่ memtest จะช่วยคุณค้นหาข้อผิดพลาดเหล่านั้นล่วงหน้า
โอเว่นจอห์นสัน

6
MemTest จะแจ้งให้คุณทราบหากมีข้อบกพร่องในหน่วยความจำภายใน มันทำได้โดยการจัดเก็บรูปแบบของไบต์เช่นเดียวกับชุดสุ่มไบต์ในหน่วยความจำในความพยายามที่จะก่อให้เกิดข้อผิดพลาด โปรแกรมสามารถเรียกใช้ "ผ่าน" เพื่อแจ้งให้คุณทราบว่าหน่วยความจำดี แต่โดยทั่วไปฉันเรียกใช้หลายผ่านข้ามคืนเพียงเพื่อให้แน่ใจ สิ่งที่ดีเกี่ยวกับ MemTest คือมันบอกฉันว่าหน่วยความจำไม่ดีก่อนที่ฉันจะปรับใช้ระบบ มันทำให้ RMA หลายครั้งและช่วยให้ฉันปวดหัวมาก เมื่อเครื่องถูกปรับใช้ความเจ็บปวดใน @ss ถึง RMA หน่วยความจำ
Atari911

2
@OwenJohnson โดยทั่วไปเมื่อคุณเรียกใช้ MemTest86 (+) คุณหวังที่จะทริกเกอร์ข้อผิดพลาด ECC เหล่านั้นก่อนที่คุณจะนำเครื่องไปใช้งาน :-)
voretaq7

6

ฉันทำไม่ได้ แต่ฉันเคยเห็นคนที่ทำ ฉันไม่เคยเห็นพวกเขาได้อะไรจากมัน แต่ฉันคิดว่ามันอาจจะเป็นอาการเมาค้างหรือความเชื่อโชคลาง

โดยส่วนตัวแล้วฉันชอบคุณในเรื่องที่ว่าอัตราความผิดพลาดของ ECC นั้นมีประโยชน์มากกว่าสำหรับฉันโดยสมมติว่า RAM ไม่ใช่กรมวิชาการเกษตร แต่คุณจะรู้ว่าอย่างไรก็ตาม


6

สำหรับ non-ECC ram ที่ทำงานเป็นเวลา 30 นาทีใน memtest86 + นั้นมีประโยชน์เนื่องจากไม่มีวิธีการที่เชื่อถือได้ในการตรวจจับข้อผิดพลาดบิตเมื่อระบบกำลังทำงาน
Blue-กลั่นกรองไม่ถือว่าเป็นวิธีที่เชื่อถือได้ ...
และ RAM ที่ไม่สม่ำเสมอมักจะไม่แสดงทันทีหลังจากระบบได้เห็นโหลดหน่วยความจำเต็มแล้วถ้าข้อมูลใน RAM นั้นเป็นรหัสที่ใช้และ ขัดข้องแล้ว การทุจริตของข้อมูลอาจไม่ถูกสังเกตเป็นระยะเวลานาน

สำหรับ ECC ram มันจะไม่ทำอะไรเลยตัวควบคุมหน่วยความจำจะไม่ทำดังนั้นมันจึงไม่สมเหตุสมผล มันเสียเวลาเปล่า

จากประสบการณ์ของฉันคนที่ยืนยันเรื่องการเผาไหม้มักจะเป็นคนแก่ที่ทำแบบนี้มาตลอดและผู้ที่ทำมันให้เป็นนิสัยโดยที่ไม่ต้องคิดอะไรจริง
หรือพวกเขาเป็นคนหนุ่มสาวที่ทำตามขั้นตอนที่กำหนดไว้ที่เขียนโดยคนเก่าเหล่านั้น


ความรู้ที่ไม่ดีส่งลงมาหลายชั่วอายุ?
ewwhite

@ ขาวใช่ใช่เท่าที่ฉันรู้ และฉันมี Bsc ในด้านเทคโนโลยีฮาร์ดแวร์คอมพิวเตอร์ดังนั้นฉันควรจะรู้ว่าสิ่งที่ผมพูดเกี่ยวกับ :-)
Tonny

ยกเว้นเหตุการณ์ทั้งหมดของผู้ที่พบข้อผิดพลาดตามที่แสดงในเธรด นอกจากนี้หากไม่ชัดเจนมีความแตกต่างในการสลับส่วนต่าง ๆ ก่อนนำเซิร์ฟเวอร์ไปใช้งานจริงหรือเปลี่ยน ram บนเซิร์ฟเวอร์ DB ที่ทำงานใน 24x7 เว้นแต่จะทำเป็นว่ามันเป็น "ข้อผิดพลาดที่โตขึ้น" และทุกคนก็แก่และทำสิ่งของลัทธิสินค้า แต่ก็ยังคงทำให้เกิดการสูญเสียที่จะมีเซิร์ฟเวอร์แยงออฟไลน์
Florian Heigl

1
@ FlorianHeigl ฉันไม่สนับสนุนการเขียนใน RAM เพื่อประโยชน์ของมัน แต่ฉันจะไม่รับรองการวางเซิร์ฟเวอร์ในการผลิตโดยไม่ต้องทดสอบความเครียดอย่างน้อย 24 ชั่วโมง RAM มักจะไม่ใช่ปัญหา HDD, คอนโทรลเลอร์ RAID, การ์ด IPMI ที่ไม่สม่ำเสมอ, อุปกรณ์จ่ายไฟ, ซีพียู, VRM's ... ฉันเห็นทุกอย่างแล้ว (และบ่อยครั้งที่เซิร์ฟเวอร์ยังมีชีวิตรอดจากการติดตั้งครั้งแรกได้ดีมันเป็นโหลดและ / หรือเฮลธ์ที่ทำงานได้เมื่อมันต้องใช้งานจริง ๆ )
Tonny

3

มันขึ้นอยู่กับ.

หากคุณปรับใช้ RAM ใหม่ 50,000 และคุณรู้ว่าฮาร์ดแวร์นี้มีอัตราความล้มเหลว 0.01% หลังจากทำงานน้อยกว่าหนึ่งวันการพูดเชิงสถิติจะต้องมีหลายตัวที่จะล้มเหลวในวันแรก การเผาในนั้นหมายถึงการจับสิ่งนั้น ด้วยการปรับใช้ในระดับนั้นคาดว่าจะเกิดความล้มเหลวไม่ใช่สถานการณ์พิเศษ

หากคุณกำลังปรับใช้เพียงไม่กี่ร้อยรายการสถิติมีแนวโน้มที่ด้านข้างของคุณมากที่สุดเท่าที่คุณจะต้องโชคร้ายมากที่จะได้รับชิ้นส่วนที่ล้มเหลว


คุณมีประเด็น Btu มาเผชิญหน้ากันพวกเราส่วนใหญ่จะไม่ทำการปรับใช้ครั้งใหญ่ (ยกเว้นว่าคุณกำลังสร้างศูนย์ข้อมูล Google ใหม่) โดยทั่วไปเราส่วนใหญ่จะใช้งานเซิร์ฟเวอร์ 5 ถึง 10 เครื่องในเวลาเดียวกัน ที่ใหญ่ที่สุดที่ฉันเคยทำคือ 16 ESX nodes (4x-node 16 clusters) ซึ่งแต่ละอันใช้เวลา 8 DIMM นั่นคือ 3 ปีที่ผ่านมาและตั้งแต่นั้น 1 DIMM ล้มเหลว (2 เดือนที่ผ่านมา) ต้องเปลี่ยนอุปกรณ์จ่ายไฟ 5 ตัวสำหรับเครื่องเดียวกัน ครั้งแรก 1 หลังจากสัปดาห์ที่แล้ว แต่เนื่องจากสิ่งเหล่านี้คือ HP Proliants เราจึงคาดหวังไว้ (HP และวัสดุสิ้นเปลือง .. อย่าเพิ่งเริ่มต้น ... )
Tonny
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.