การใช้ Consumer MLC SSD ปลอดภัยหรือไม่?

44

เรา (และโดยเราหมายถึงเจฟฟ์) กำลังพิจารณาความเป็นไปได้ของการใช้ Consumer MLC SSD ดิสก์ในศูนย์ข้อมูลสำรองของเรา

เราต้องการที่จะพยายามลดต้นทุนและพื้นที่ใช้งานให้สูงขึ้นดังนั้น Intel X25-E นั้นค่อนข้างจะออกราคาประมาณ 700 $ ต่อหน่วยและความจุ 64GB

สิ่งที่เรากำลังคิดที่จะทำคือการซื้อ SSD ระดับล่างสุดที่ให้กำลังการผลิตที่มากขึ้นในราคาที่ต่ำกว่า เจ้านายของฉันไม่คิดว่าการใช้จ่ายประมาณ 5k สำหรับดิสก์ในเซิร์ฟเวอร์หมดศูนย์ข้อมูลสำรองนั้นคุ้มค่ากับการลงทุน

ไดร์ฟเหล่านี้จะใช้ในอาเรย์ RAID 6 ไดรฟ์บน Lenovo RD120 ตัวควบคุม RAID เป็น Adaptec 8k (Lenovo แบรน)

นี่เป็นวิธีที่อันตรายเพียงใดและสามารถทำอะไรได้บ้างเพื่อลดอันตรายเหล่านี้?

storage

— Zypher
แหล่งที่มา

4

เหตุผลในการใช้ SSD แทนสปินเนอร์คืออะไร ภูมิปัญญาพื้นบ้านเกี่ยวกับประสิทธิภาพของ SSD คือ "จ่ายหรือไม่ต้องรำคาญ" แต่ก็มีแง่มุมอื่น ๆ ที่อาจเป็นประโยชน์

— peterchen

ฉันอยากรู้เกี่ยวกับปัญหาที่คุณพยายามแก้ไขที่นี่ หากเป็นเพียงหนึ่งในค่าใช้จ่ายเหตุใด SSD จึงถูกพิจารณาให้ใช้แทนไดรฟ์ทั่วไป

— John Gardeniers

@peterchen คุณสามารถใช้ SSD ได้สองหรือ 15K แกนห้าสิบ

— Mircea Chirea

@iconiK - คุณหมายถึง "สำหรับเซิร์ฟเวอร์คุณต้องใช้เงินจำนวนมากอยู่ดี" ถ้าใช่ - นั่นคือสาเหตุที่ฉันสงสัยเช่นกัน

— peterchen

61

ความคิดเล็กน้อย

SSD มีหน่วยความจำ 'overcommit' นี่คือหน่วยความจำที่ใช้แทนเซลล์ 'เสียหาย' โดยการเขียน SSD ระดับล่างอาจมีพื้นที่ว่างเกิน 7% เท่านั้น ช่วงกลางประมาณ 28%; และองค์กรดิสก์มากถึง 400% พิจารณาปัจจัยนี้
คุณจะเขียนถึงพวกเขาวันละเท่าไหร่? แม้แต่ SSD ระดับกลางเช่นที่ใช้ชิป 1200 ของ Sandforce ไม่ค่อยชื่นชมมากกว่าการเขียนประมาณ 35GB ต่อวันก่อนที่จะตัดเข้าสู่หน่วยความจำที่มีข้อผิดพลาดอย่างจริงจัง
โดยปกติแล้ววันที่ 1 ของ SSD ใหม่เต็มไปด้วยการเขียนไม่ว่าจะเป็นระบบปฏิบัติการหรือข้อมูล หากคุณมีมากกว่าการเขียนมากกว่า 35GB ในวันแรกให้พิจารณาการคัดลอกข้ามเป็นชุดเพื่อให้ SSD 'เวลาที่เป็นระเบียบเรียบร้อย' ระหว่างแบตช์
หากไม่มีการรองรับ TRIM ประสิทธิภาพการเขียนแบบสุ่มอาจลดลงถึง 75% ภายในไม่กี่สัปดาห์หากมีการเขียนจำนวนมากในช่วงเวลานั้น - หากทำได้ให้ใช้ระบบปฏิบัติการที่รองรับ TRIM
กระบวนการรวบรวมขยะภายในที่ SSD สมัยใหม่ดำเนินการนั้นกระทำโดยเฉพาะในช่วงเวลาที่เงียบและหยุดทำงาน นี่ไม่ใช่ปัญหาสำหรับพีซีเดสก์ท็อปที่ดิสก์อาจเงียบสำหรับ 60% ของรอบการทำงานปกติ 8 ชั่วโมง แต่คุณเรียกใช้บริการ 24 ชั่วโมง ... กระบวนการนี้จะมีโอกาสทำงานเมื่อใด
โดยปกติแล้วจะฝังลึกในรายละเอียด แต่เช่นเดียวกับดิสก์ cheapo 'ปกติ' SSD ราคาไม่แพงก็คาดว่าจะมีรอบการทำงานประมาณ 30% เท่านั้น คุณจะใช้มันเกือบ 100% ตลอดเวลาซึ่งจะส่งผลต่ออัตรา MTBF ของคุณ
ในขณะที่ SSD ไม่ประสบปัญหาทางกลเช่นเดียวกับดิสก์ทั่วไปพวกเขามีข้อผิดพลาดเดียวและหลายบิต - ดังนั้นจึงควรพิจารณา RAIDing พวกเขาอย่างยิ่งแม้ว่าสัญชาตญาณจะไม่ทำ เห็นได้ชัดว่ามันจะส่งผลกระทบต่อความเร็วในการเขียนแบบสุ่มที่น่ารักที่คุณเพิ่งซื้อ แต่ให้พิจารณาอยู่ดี
ยังคงเป็น SATA ไม่ใช่ SAS ดังนั้นการจัดการคิวของคุณจะไม่ดีเท่าในสภาพแวดล้อมเซิร์ฟเวอร์ แต่จากนั้นอีกครั้งการเพิ่มประสิทธิภาพจะเพิ่มขึ้นอย่างน่าทึ่ง

ขอให้โชคดี - อย่าทอดพวกเขาด้วยการเขียน :)

— Chopper3
แหล่งที่มา

2

คุณหมายถึง 400% สำหรับพื้นที่พิเศษหรือ 40%? ฉันจะแก้ไขคำตอบของคุณ แต่ไม่พบการอ้างอิงดังนั้นฉันคิดว่าอาจเป็น 400% (เป็นจุดที่ดีมากโดยวิธี)

— ChrisInEdmonton

9

นอกจากนี้ยังไม่ชัดเจนว่า TRIM รองรับการกำหนดค่า RAID หรือไม่ จำไว้ว่า SSD นั้นถูกแยกออกจากระบบปฏิบัติการด้วย RAID อย่าลืมตรวจสอบกับผู้จำหน่าย RAID

— Matt Sherman

5

ฉันหมายถึง 400 คริสโดยเฉพาะอย่างยิ่งสิ่งที่ใช้ใน FC SANs แต่ก็มีค่าใช้จ่ายสูงมาก

— Chopper3

5

เคล็ดลับหนึ่งในการเพิ่มพื้นที่สำรองจากไดรฟ์คือการลบที่ปลอดภัยแล้วแบ่งพาร์ติชั่นด้วยส่วนที่ไม่ได้ใช้ พื้นที่ว่างนี้จะเพิ่มประสิทธิภาพและอายุการใช้งานของ SSD

— Zan Lynx

1

แค่ต้องการ +1 ด้วย @ZanLynx .. ฉันมักจะแบ่งพาร์ติชั่นประมาณ 80% ของไดรฟ์เมื่อฉันใช้ SSD + Raid

— Tracker1

12

ฉันพบลิงค์นี้ซึ่งมีการวิเคราะห์ที่น่าสนใจและละเอียดถี่ถ้วนเกี่ยวกับ MLC vs SLC SSD ในเซิร์ฟเวอร์

ในมุมมองของฉันโดยใช้อาร์เรย์ MLC แฟลช SSD สำหรับแอปพลิเคชันระดับองค์กรโดยไม่ใช้เอฟเฟกต์การลดขนาด (อ้างสิทธิ์) ของเทคโนโลยีเช่น MFT ของ Easyco เหมือนกับการกระโดดขึ้นเครื่องบินโดยไม่มีร่มชูชีพ

โปรดทราบว่าผู้จำหน่าย MLC SSD บางรายอ้างว่าไดรฟ์ของพวกเขาคือ "enterprisey" มากพอที่จะอยู่รอดได้ในการเขียน:

SandForce มุ่งมั่นที่จะเป็น บริษัท แรกที่มีตัวควบคุมที่รองรับชิปแฟลชเซลล์หลายระดับสำหรับไดรฟ์โซลิดสเตตที่ใช้ในเซิร์ฟเวอร์ ด้วยการใช้ชิป MLC นั้น SF-1500 จะปูทางไปสู่การลดต้นทุนและเพิ่มความต้องการไดรฟ์เซิร์ฟเวอร์ที่มีความหนาแน่นสูง ถึงวันที่แฟลชไดรฟ์สำหรับเซิร์ฟเวอร์ได้ใช้ชิปแฟลชเซลล์ระดับเดียว นั่นเป็นเพราะความอดทนและความน่าเชื่อถือสำหรับชิป MLC นั้นไม่ได้ขึ้นอยู่กับข้อกำหนดของเซิร์ฟเวอร์

มีการวิเคราะห์ต่อไปของการเรียกร้องเหล่านี้เป็นสิ่งที่ AnandTech

นอกจากนี้ขณะนี้ Intel ได้บันทึกไว้ว่าSLC อาจ overkill ในเซิร์ฟเวอร์ 90% ของเวลา :

"เราเชื่อว่าจำเป็นต้องใช้ SLC (เซลล์ระดับเดียว) แต่สิ่งที่เราค้นพบจากการศึกษากับ Microsoft และแม้แต่ Seagate คือแอปพลิเคชันที่ใช้งานแบบคำนวณสูงเหล่านี้ไม่ได้เขียนเท่าที่พวกเขาคิด" วินสโลว์กล่าว "แอปพลิเคชั่นศูนย์ข้อมูลเก้าสิบเปอร์เซ็นต์สามารถใช้ไดรฟ์ MLC [เซลล์หลายระดับ]"

.. ในช่วงปีที่ผ่านมาผู้ค้าต่างตระหนักดีว่าด้วยการใช้ซอฟต์แวร์พิเศษในตัวควบคุมไดรฟ์พวกเขาสามารถเพิ่มความน่าเชื่อถือและความยืดหยุ่นของ MLC SSD ระดับผู้บริโภคของพวกเขาจนถึงจุดที่องค์กรต่างๆ เซิร์ฟเวอร์ศูนย์ข้อมูลประสิทธิภาพสูงและอาร์เรย์หน่วยเก็บข้อมูล ผู้ค้า SSD ได้เริ่มใช้แฟลช NAND คำว่า eMLC (enterprise MLC) เพื่ออธิบาย SSD เหล่านั้น

"จากมุมมองด้านปริมาณเราเห็นว่ามีสภาพแวดล้อมการประมวลผลประสิทธิภาพสูงที่เขียนได้สูงมากซึ่งอาจต้องใช้ SLC แต่นั่นก็เป็น 10% แรกของข้อกำหนดศูนย์ข้อมูลองค์กร" Winslow กล่าว

Intel กำลังให้อาหารที่ 10% ของตลาดดาต้าเซ็นเตอร์ขององค์กรผ่านการร่วมทุนกับ Hitachi Global Storage Technologies Hitachi กำลังผลิตสาย SSD400S ของ Serial Attached SCSI SSD ซึ่งมี 6Gbit / วินาที ปริมาณงาน - สองเท่าของ SATA SSD ที่ใช้ MLC

Intel แม้กระทั่งไดรฟ์ SSD ที่มุ่งเน้นเซิร์ฟเวอร์ของพวกเขาได้ย้ายออกจาก SLC ไปยัง MLC ด้วยพื้นที่ "overprovisioning" ที่สูงมากด้วย Intel SSD 710 seriesใหม่ ไดรฟ์เหล่านี้จัดสรรพื้นที่เก็บข้อมูลโดยรวมสูงสุดถึง 20% สำหรับความซ้ำซ้อนภายใน:

ประสิทธิภาพไม่ใช่สิ่งที่สำคัญที่สุดสำหรับ SSD 710 แต่ Intel มุ่งหวังที่จะมอบความทนทานระดับ SLC ในราคาที่เหมาะสมโดยใช้ eMLC HET NAND ที่ราคาถูกกว่า SSD 710 ยังรองรับการ overprovisioning ที่ผู้ใช้สามารถกำหนดเองได้ (20%) ซึ่งเพิ่มความทนทานของไดรฟ์อย่างมาก การรับประกัน SSD 710 คือ 3 ปีหรือจนกว่าตัวบ่งชี้การสึกหรอจะถึงระดับหนึ่งแล้วแต่ว่าจะถึงอย่างใดก่อน นี่เป็นครั้งแรกที่เราเห็นการรับประกัน SSD จำกัด ในลักษณะนี้

— Jeff Atwood
แหล่งที่มา

7

ยึดถือสิ่งต่าง ๆ เหล่านี้เป็นข้อเท็จจริงเสมอมากกว่าที่จะคาดเดา ในกรณีนี้การรวบรวมข้อเท็จจริงเป็นเรื่องง่าย: บันทึกโปรไฟล์การอ่าน / เขียน IOPS ระยะยาวของระบบการผลิตของคุณและจากนั้นหาสิ่งที่คุณสามารถมีชีวิตอยู่ในสถานการณ์การกู้คืนความเสียหาย คุณควรใช้เปอร์เซ็นไทล์ที่ 99 เช่นเดียวกับการวัดของคุณ ไม่ได้ใช้ค่าเฉลี่ยเมื่อวัด IOPS cpacity - ยอดเขาเป็นสิ่งที่สำคัญ! จากนั้นคุณต้องซื้อความจุและ IOPS ที่จำเป็นสำหรับไซต์ DR ของคุณ SSD อาจเป็นวิธีที่ดีที่สุดในการทำเช่นนั้นหรืออาจจะไม่ใช่

ตัวอย่างเช่นหากแอปพลิเคชั่นที่ใช้ในการผลิตของคุณต้องการ 7500 IOPS ที่ไทล์ไทล์ที่ 99 คุณอาจตัดสินใจว่าคุณจะอยู่กับ 5,000 IOPS ในภัยพิบัติ แต่นั่นคือดิสก์อย่างน้อย 25K ที่จำเป็นในไซต์ DR ของคุณดังนั้น SSD อาจเป็นตัวเลือกที่ดีกว่าถ้าความต้องการด้านความจุของคุณมีน้อย (ฟังดูเหมือนจะเป็น) แต่ถ้าคุณวัดว่าคุณใช้งาน 400 IOPS เพียงแค่ซื้อไดรฟ์ SATA 6 ตัวประหยัดเหรียญด้วยตัวคุณเองและใช้พื้นที่เพิ่มเติมเพื่อเก็บสแน็ปช็อตสำรองที่ไซต์ DR คุณยังสามารถแยกอ่านและเขียนในการรวบรวมข้อมูลของคุณเพื่อค้นหาว่า SSD ที่ไม่ใช่องค์กรใช้งานได้นานเท่าไรสำหรับภาระงานของคุณตามข้อมูลจำเพาะ

โปรดจำไว้ว่าระบบ DR อาจมีหน่วยความจำขนาดเล็กกว่าการผลิตซึ่งหมายถึงต้องการ IOPS เพิ่มขึ้น (การสลับและแคชระบบไฟล์น้อยลง)

— rmalayter
แหล่งที่มา

5

แม้ว่า MLS SSD จะใช้งานได้เพียงหนึ่งปีเท่านั้นในเวลาหนึ่งปีการทดแทนจะมีราคาถูกกว่ามาก ดังนั้นคุณสามารถรับมือกับการเปลี่ยน MLS SSD เมื่อพวกเขาอยู่ที่ไหน?

— Ian Ringrose
แหล่งที่มา

จุดที่ดีโดยเฉพาะอย่างยิ่งเนื่องจากพวกเขาจะอยู่ในอาเรย์ RAID .. ตราบใดที่ "มากเกินไป" ของพวกเขาจะไม่ล้มเหลวในครั้งเดียวสิ่งนี้เป็นไปได้จริง

— Jeff Atwood

@ เจฟฟ์, ถ้าคุณสามารถสลับเข้าและออกด้วยพีซีบนโต๊ะทำงานของคุณ, เพื่อให้ไม่ได้รับการใช้งานบางอย่างของ patten, สิ่งนี้จะทำให้มันน้อยลง

— Ian Ringrose

@ Jeff ผมคิดว่าการที่มีขนาดใหญ่ขยาย Fail == "เริ่มต้นที่จะทำสิทธิช้ามาก" rathern แล้ว "dan't อ่านข้อมูล"

— เอียน Ringrose

คุณไม่ชอบการแก้ไขอัตโนมัติ :-)

— Jeroen Wiert Pluimers

3

หากเรากำหนดปัญหาปริมาณการเขียนไว้ (หรือพิสูจน์ว่า SSD ระดับผู้บริโภคสามารถจัดการได้) ฉันคิดว่า SSD นั้นเป็นสิ่งที่ดีในการเพิ่มให้กับสภาพแวดล้อมระดับองค์กร คุณอาจจะใช้ SSD ในอาเรย์ RAID RAID5 หรือ RAID6 และปัญหาเหล่านี้ก็คือหลังจากความล้มเหลวของไดรฟ์เดียวอาเรย์จะกลายเป็นความเสี่ยงต่อความล้มเหลวมากขึ้น และเวลาในการสร้างใหม่นั้นขึ้นอยู่กับปริมาณของอาเรย์อย่างมาก อาร์เรย์ TB หลายแห่งอาจใช้เวลาหลายวันในการสร้างขึ้นมาใหม่ในขณะที่เข้าถึงอยู่ ในกรณีของ SSD อาร์เรย์ RAID จะมีขนาดเล็กลงอย่างหลีกเลี่ยงไม่ได้ข) เวลาในการสร้างใหม่จะลดลงอย่างมาก

— Vlad
แหล่งที่มา

3

Whitepaper เกี่ยวกับความแตกต่างระหว่าง SLC และ MLC จาก SuperTalentทำให้ความทนทานของ MLC และอันดับที่ 10 ของความทนทานของ SLC SSD แต่โอกาสที่ MLS SSD จะอยู่ได้นานกว่าฮาร์ดแวร์ที่คุณใช้อยู่ ฉันไม่แน่ใจว่าสถิติ / ข้อเท็จจริงเหล่านั้นน่าเชื่อถือเพียงใดจาก SuperTalent

สมมติว่าคุณได้รับการสนับสนุนในระดับใกล้เคียงกันจากซัพพลายเออร์ของ MLC SSD แล้วราคาที่ต่ำกว่าทำให้คุ้มค่ากับการยิง

— chunkyb2002
แหล่งที่มา

1

อายุการใช้งาน 5 ปีสำหรับการใช้เดสก์ท็อปทั่วไปถูกกล่าวถึง หากนั่นเป็นการประเมินที่ถูกต้องพวกเขาจะไม่รอดชีวิตเซิร์ฟเวอร์ในสภาพแวดล้อมของศูนย์ข้อมูล!

— JamesRyan

@JamesRyan: แม้ว่าจะไม่แสดงในการคำนวณส่วนใหญ่อายุการใช้งานขึ้นอยู่กับสัดส่วนของพื้นที่ว่าง

— Ben Voigt

1

ในองค์กรที่ฉันทำงานมาเรามักจะรีเฟรชฮาร์ดแวร์เซิร์ฟเวอร์เป็นเวลา 3 ปี ฉันอยู่ภายใต้การแสดงผลที่เป็นที่ยอมรับกันโดยทั่วไปว่าเป็นการปฏิบัติที่ดีที่สุด แต่แก้ไขให้ถูกต้องถ้าฉันผิด

— chunkyb2002

3

คุณควรคำนวณจำนวนการเขียนรายวันที่คุณมีกับการตั้งค่าปัจจุบันของคุณและเปรียบเทียบกับสิ่งที่ผู้ผลิตรับประกันว่าไดรฟ์ SSD สามารถรักษาได้ Intel น่าจะเป็นผู้ที่เกี่ยวข้องกับเรื่องนี้มากที่สุดตัวอย่างเช่นลองดูเอกสารข้อมูลไดรฟ์ SSD หลัก: http://www.intel.com/design/flash/nand/mainstream/technicaldocuments.htm

มาตรา 3.5 (3.5.4 โดยเฉพาะ) ของเอกสารข้อกำหนดบอกว่าคุณรับประกันว่าจะใช้งานไดรฟ์ของคุณอย่างน้อย 5 ปีโดยมีการเขียน 20GB ต่อวัน ฉันถือว่าเป็นการคำนวณเมื่อใช้ความจุของไดรฟ์ทั้งหมดและไม่ได้เตรียมพื้นที่ว่างใด ๆ สำหรับการเขียนด้วยตนเอง

ที่น่าสนใจคือแผ่นข้อมูลเกี่ยวกับการใช้ SSD หลักในสภาพแวดล้อมขององค์กร

— cearny
แหล่งที่มา

น่าเสียดายที่มันไม่ได้ง่ายอย่างนั้นเพราะระดับการสึกหรอจะขยายการเขียน (โปรดจำไว้ว่ามันถูกออกแบบมาเพื่อกระจายการเขียนไม่ลดพวกเขา) ในลักษณะที่เป็นกรรมสิทธิ์และสามารถแตกต่างกันอย่างมากในประสิทธิภาพตามรูปแบบการใช้งาน

— JamesRyan

หืมจุดดีมาก นอกจากนี้การสูญเสียคำสั่ง TRIM หากใช้ไดรฟ์ในการตั้งค่า RAID ควรเพิ่มการขยายการเขียน ฉันเดาว่าทั้งหมดนั้นมาจากแนวคิดของรูปแบบการใช้งานทั่วไป

— cearny

2

ฉันปรับใช้ SLC 32GB สองสามปีที่ผ่านมาเป็นบัฟเฟอร์สำหรับแอพที่ออกแบบมาอย่างไม่ดีที่เราใช้อยู่

แอปพลิเคชันมีขนาดเล็ก 90% เขียน (<4k) และทำงานอย่างต่อเนื่อง (24/7) ที่ 14k w / s หนึ่งครั้งบนไดรฟ์ SSD พวกเขากำหนดค่า RAID 1 ทุกอย่างเป็นสีดอกกุหลาบความล่าช้าอยู่ในระดับต่ำ!

อย่างไรก็ตามประมาณหนึ่งเดือนในและไดรฟ์แรกบรรจุอย่างแท้จริงภายใน 3 ชั่วโมงไดรฟ์ที่สองก็เสียชีวิตเช่นกัน RAID 1 ไม่ใช่แผนการที่ดีเลย :)

ฉันจะเห็นด้วยกับโปสเตอร์อื่น ๆ ใน RAID 6 บางประเภทหากไม่มีสิ่งอื่นใดที่จะแพร่กระจายสิ่งเหล่านั้นออกไปในไดรฟ์อื่น ๆ

ตอนนี้จำไว้ว่าเมื่อสองสามปีก่อนและสิ่งเหล่านี้น่าเชื่อถือมากขึ้นในตอนนี้และคุณอาจไม่มีโปรไฟล์ I / O ที่คล้ายกัน

แอปได้รับการออกแบบใหม่ แต่เป็นช่องว่างหยุดซึ่งอาจจะช่วยคุณได้หรือไม่เราสร้าง ram ดิสก์ขนาดใหญ่สร้างสคริปต์บางส่วนเพื่อสร้าง / สำรองข้อมูลดิสก์ ram และใช้เวลาประมาณหนึ่งชั่วโมงหรือสูญเสียข้อมูล /เวลาการกู้คืน.

อีกครั้งวงจรชีวิตของข้อมูลของคุณอาจแตกต่างกัน

— sysboy
แหล่งที่มา