ฉันควรใช้ไบออส“ Advanced ECC” ใน Dell PowerEdge R710 Bios กับ ECC DIMM หรือไม่


15

ฉันมี Dell PowerEdge R710 พร้อมด้วย Intel Xeon E5503 ซีพียูคู่ มี 96GB (12x8GB) ของ ECC DIMM ใน BIOS หน่วยความจำถูกกำหนดค่าสำหรับ "Advanced ECC"

คำถามของฉันคือถ้า DIMM ของฉันเป็น ECC แล้วมันสมเหตุสมผลหรือไม่ที่จะเปิดใช้งานโหมด "Advanced ECC" ใน BIOS หรือฉันควรเปลี่ยนไปใช้ "Optimized" หรือไม่?

Dell อธิบายโหมดเหล่านี้ดังนี้:

โหมด ECC ขั้นสูงโหมด นี้ใช้ MCH สองตัวและ“ เชื่อมโยง” เข้าด้วยกันเพื่อจำลองบัสข้อมูล DIMM 128 บิต สิ่งนี้ถูกใช้เพื่อบรรลุการแก้ไขข้อมูลอุปกรณ์เดียว (SDDC) สำหรับ DIMM ตามเทคโนโลยี x8 DRAM รองรับ SDDC ด้วย DIMM ที่ใช้ x4 ในทุกโหมดหน่วยความจำ MCH หนึ่งรายการถูกยกเลิกการใช้งานอย่างสมบูรณ์และหน่วยความจำใด ๆ ที่ติดตั้งในช่องนี้จะสร้างข้อความเตือนระหว่าง POST

โหมดเพิ่มประสิทธิภาพหน่วยความจำในโหมดนี้ MCHs จะทำงานแยกจากกัน ตัวอย่างเช่นหนึ่งสามารถไม่ได้ใช้งานอย่างใดอย่างหนึ่งสามารถทำการดำเนินการเขียนและอื่น ๆ สามารถเตรียมสำหรับการดำเนินการอ่าน หน่วยความจำอาจถูกติดตั้งในช่องหนึ่งสองหรือสามช่อง เพื่อให้ทราบถึงประสิทธิภาพการใช้งานอย่างเต็มที่ของโหมดปรับแต่งหน่วยความจำควรเติมข้อมูลทั้งสามช่องสัญญาณต่อ CPU นี่หมายความว่าการกำหนดค่าหน่วยความจำ 'ผิดปรกติ' บางอย่างเช่น 3GB, 6GB หรือ 12GB จะให้ประสิทธิภาพที่ดีที่สุด นี่เป็นโหมดที่แนะนำเว้นแต่จำเป็นต้องใช้คุณสมบัติ RAS ที่เฉพาะเจาะจง

คู่มือสำหรับเจ้าของระบบฮาร์ดแวร์ Dell PowerEdge R710 Systems (PDF)

คำตอบ:


24

มันสร้างความแตกต่างได้ก็ต่อเมื่อคุณต้องการฟีเจอร์ RAS (ความน่าเชื่อถือความพร้อมใช้งานและบริการ) บนอุปกรณ์ x4 หรือ x8 และทำความเข้าใจเกี่ยวกับการแลกเปลี่ยนความต้องการของคุณ รายละเอียดเพิ่มเติมสามารถอธิบายในกระดาษสีขาว Dell Dell ™ PowerEdge ™ Servers 2009 - หน่วยความจำ

นอกจากนี้การกำหนดค่าและเค้าโครงที่มีรายละเอียดเฉพาะสำหรับ R710 นั้นมีอยู่ในคู่มือทางเทคนิคสำหรับ PowerEdge R710 - (Google นี่เป็นเพราะฉันไม่มีชื่อเสียงในการเชื่อมโยง)

ปัญหาที่สำคัญที่ควรทราบคือความแตกต่างระหว่าง ECC บนชิปและ "Advanced ECC" ที่ BIOS ของ Dell ได้รับสำหรับการแก้ไขข้อมูลอุปกรณ์เดียว (SDDC) คุณจะมีผลกระทบต่อประสิทธิภาพทั้งสองอย่าง ECC จะกู้คืนจากข้อผิดพลาดระหว่างการเขียนไปยังชิป อย่างไรก็ตาม SDDC ก้าวไปอีกขั้นและจะจัดระเบียบบิตเพื่อให้ชิปทั้งหมดล้มเหลวและยังสามารถกู้คืนได้ ดูตัวอย่างและรายละเอียดSDDC E7500 Chipset

ปัญหาคือว่าประสิทธิภาพและ / หรือความน่าเชื่อถือของคุณเป็นเรื่องที่สำคัญที่สุดในการใช้งานเฉพาะของเครื่อง หากความล้มเหลวของชิปจะทำให้สูญเสียข้อมูลสำคัญหรือการใช้งานบนเครื่องนี้และไม่มีการใช้ซ้ำซ้อนในการใช้งาน Advanced ECC อาจเป็นวิธีที่ยอดเยี่ยม อย่างไรก็ตามคุณควรทำเช่นนั้นในแง่ของประสิทธิภาพซึ่งอาจมีความสำคัญต่อคุณมากกว่า

ฉันได้ติดตั้งทั้งสองอย่างลงในเซิร์ฟเวอร์ Dell PowerEdge สำหรับการใช้งาน Microsoft SQL Server เดียว หากฉันสามารถช่วยได้มากขึ้นเพียงแสดงความคิดเห็นเพื่อแจ้งให้เราทราบ

หวังว่าจะช่วย

แก้ไข: การครอบคลุมช่องว่าง / การใช้งาน ECC

ใช่มีช่องว่างที่ครอบคลุมแม้ว่าคุณจะใช้ทั้งสองอย่าง เนื่องจากคุณใช้คลัสเตอร์ของเซิร์ฟเวอร์ความพร้อมใช้งานสูงโดยเฉพาะ IMHO คุณควรใช้ Advanced ECC ผลกระทบต่อประสิทธิภาพการทำงานของคุณนั้นน้อยมากเมื่อเทียบกับประโยชน์ของอุปกรณ์ที่ทำคลัสเตอร์ จากข้อมูลสำคัญคุณมีประสิทธิภาพลดลงเพียง2% ในหน่วยความจำ ECCโดยทั่วไป

ช่องว่างจะเฉพาะเจาะจงมากขึ้นกับประเภทของข้อผิดพลาดที่เกิดขึ้นและวิธีจัดการแต่ละข้อผิดพลาด ในสถานการณ์เฉพาะของคุณไม่ควรแปลข้อมูลสูญหาย เนื่องจากนี่เป็น Enterprise DBMS และข้อผิดพลาดปัญหาการทำงานพร้อมกัน ฯลฯ ได้รับการจัดการในระดับซอฟต์แวร์เพื่อป้องกันข้อมูลสูญหาย ประวัติโดยละเอียดจะถูกเก็บไว้ในการเปลี่ยนแปลงใน DBMS ที่กำหนดค่าไว้อย่างถูกต้องและซอฟต์แวร์ที่ใช้มันมักจะสามารถตั้งค่าให้มีธุรกรรม "ย้อนกลับ" ได้ถ้ามีข้อผิดพลาดร้ายแรงเกิดขึ้น

การนำ ECC ไปใช้

ECC จะพยายามแก้ไขข้อผิดพลาดบิตใด ๆ ในการอ่าน / เขียนหน่วยความจำ อย่างไรก็ตามหากข้อผิดพลาดมีความสำคัญมากกว่านั้นไม่แม้แต่ ECC จะสามารถกู้คืนได้ทำให้เกิดการสูญเสียข้อมูล มีการอภิปรายเพิ่มเติมเกี่ยวกับ ECC เช่นกันที่ServerFault / ECC ram คืออะไรและทำไมจึงดีกว่า

ตามWikipedia บน ECC_Memory

หน่วยความจำ ECC รักษาระบบหน่วยความจำได้อย่างมีประสิทธิภาพปราศจากข้อผิดพลาดบิตเดียว ...

SDDC

หากคุณอ้างถึงเอกสารชิปเซ็ต E7500 ด้านบน (โปรดทราบว่า 55xx / 56xx จาก Intel จำเป็นต้องเข้าสู่ระบบ / การเป็นหุ้นส่วน แต่ความคิดคล้ายกันซึ่งเป็นสาเหตุที่ฉันไม่ได้เชื่อมโยงในตอนแรก) ซึ่งอธิบาย SDDC และเป็นไปได้อย่างไร โดยทั่วไปจะใช้เทคนิคในการจัดระเบียบคำที่เขียนไปยังหน่วยความจำเพื่อให้แน่ใจว่าทั้งหมดจะถูกเขียนในลักษณะที่ทุกคำจะมีเพียงข้อผิดพลาดบิตเดียวคือคำที่ควรจะกู้คืนได้จากข้อผิดพลาดบิตเดียว ต่อไปนี้เป็นคำต่อหนึ่งดังนั้นจึงสามารถกู้คืนได้จากข้อผิดพลาดสูงสุด 4 บิตในอุปกรณ์ x4 (1 ต่อคำ) และข้อผิดพลาด 8 บิตสูงสุดบนอุปกรณ์ x8 (ยัง 1 ต่อคำ) โดยการแก้ไขข้อผิดพลาดแต่ละคำ

ข้อผิดพลาดเพิ่มเติมข้อผิดพลาดบิตเพิ่มเติมความล้มเหลวของหน่วยความจำทั้งหมดความล้มเหลวของช่องทางความล้มเหลวของบัส ฯลฯ อาจยังคงทำให้เกิดปัญหาที่น่ากลัว แต่นั่นเป็นสาเหตุที่คุณมีคลัสเตอร์และ Enterprise DBMS

กล่าวโดยย่อหากคุณเปิดใช้งานทุกอย่างและมีข้อผิดพลาดบิตมากเกินไปสำหรับอัลกอริธึมการแก้ไขข้อผิดพลาดเพื่อแก้ไขคุณจะยังคงมีข้อผิดพลาดเช่นช่องว่างการครอบคลุมข้อผิดพลาด สิ่งเหล่านี้อาจหายากเป็นพิเศษ


หากต้องการเจาะจงมากขึ้นนี่เป็นชุดของ R710 ที่เหมือนกัน 3 ชุดที่รันคลัสเตอร์ Oracle DB ดังนั้นความพร้อมใช้งานของเครื่องเดียวจึงไม่มีความสำคัญสูงสุด อย่างไรก็ตามความเสียหายของข้อมูลเป็นปัญหา ฉันเคยเห็นคู่มือทางเทคนิคของ R710 แล้ว ไม่มีข้อมูลเพิ่มเติมเกี่ยวกับหน่วยความจำมากนัก ดังนั้นด้วย on-dimm ECC มันจะตรวจจับ / แก้ไขข้อผิดพลาดภายในชิปของ dimm หรือไม่ อย่างไรก็ตาม Advanced ECC จะตรวจจับ / แก้ไขข้อผิดพลาดสำหรับ dimm ทั้งหมดหรือไม่ หากเป็นเช่นนั้นจะมีช่องว่างความคุ้มครองระหว่าง 2 วิธีนี้หรือไม่
Mxx

@Mxx ฉันได้อัปเดตคำตอบเพื่อพยายามอธิบาย IMHO เนื่องจากคุณใช้คลัสเตอร์ Oracle DB ฉันสงสัยว่าคุณจะสูญเสียข้อมูล ในเหตุการณ์ที่ไม่ค่อยพบความล้มเหลว DBMS ถูกสร้างขึ้นเพื่อป้องกันข้อมูลสูญหายและปัญหาอื่น ๆ ในกรณีของคุณสำหรับคลัสเตอร์ฉันจะเปิดใช้งาน Advanced ECC เนื่องจากประสิทธิภาพควรน้อยมาก แต่คุณสามารถทดสอบได้ภายใต้โหลดหากคุณมีข้อกังวล
Matthew Reid

ขอบคุณมากสำหรับคำตอบ ฉันขอโทษ แต่ฉันยังไม่ชัดเจนเกี่ยวกับสิ่งหนึ่ง "Advanced ECC ขั้นสูง" อะไรสามารถป้องกันฉันจาก ECC on-dimm นั้นไม่ได้? หากเรากำลังใช้ dbms อยู่จะไม่เหมาะสมที่จะสลับไบออสไปเป็น "โหมดที่เหมาะสมที่สุด" เพื่อรับประโยชน์ด้านประสิทธิภาพของการกำหนดค่าหน่วยความจำสามแชนเนลและจะได้รับการคุ้มครองโดย ECC แบบ on-dimm และ Oracle
Mxx

@Mxx ฉันคิดว่ามันไม่ได้รับประกันอย่างใดอย่างหนึ่ง อย่างไรก็ตามด้วยตัวเลือก ECC ขั้นสูงที่คุณจะสามารถกู้คืนจากข้อผิดพลาดเพิ่มเติมโดยไม่ต้องแทรกแซง (ความน่าจะเป็นโดยรวมที่ต่ำกว่าของข้อผิดพลาดบิต) และประสิทธิภาพการทำงานควรต่ำ แน่นอนว่าการพยายามแก้ไขที่ DBMS น้อยกว่า แม้ว่า DBMS อาจจะสามารถบันทึกข้อมูลของคุณได้ แต่ประสบการณ์ของผู้ใช้อาจยังคงปรากฏในซอฟท์แวร์ล่มและ / หรือย้อนกลับของการดำเนินการที่มีขนาดใหญ่ ฉันสมมติว่ามีการตรวจสอบว่าชิปเกิดข้อผิดพลาดและความถี่ผิดพลาดเพิ่มขึ้น ECC ขั้นสูงอาจให้เวลาคุณแทน DIMM ได้อย่างสมบูรณ์
แมทธิวเรด
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.