ความถี่ / อายุการใช้งานแคชของฮาร์ดแวร์คอนโทรลเลอร์ RAID มีความล้มเหลวหรือไม่


14

ฉันอยู่ในสภาพแวดล้อมที่มีเซิร์ฟเวอร์Supermicroจำนวนมากที่ติดตั้งคอนโทรลเลอร์ RAID ฮาร์ดแวร์AdaptecและLSI MegaRAID คอนโทรลเลอร์เหล่านี้มีโมดูลแคชแบตเตอรี่สำรองเพื่อช่วยเพิ่มประสิทธิภาพการเขียนและปกป้องข้อมูลระหว่างการขนส่ง

ปัญหาการสนับสนุนบ่อยครั้งคือความล้มเหลวของแบตเตอรี่คอนโทรลเลอร์ RAID สิ่งนี้จะเลื่อนอาร์เรย์จากโหมดเขียนกลับเป็นโหมดเขียนผ่าน มีผลกระทบด้านลบอย่างชัดเจนเมื่อระบบทำงานด้วยความเร็วในการเขียนที่ลดลง สิ่งนี้จะคงอยู่จนกระทั่งหน้าต่างดาวน์ไทม์สามารถสร้างขึ้นเพื่อจ่ายพลังงานให้กับระบบและเปลี่ยนแบตเตอรี่

นี่เป็นการดำเนินงานตามปกติสำหรับเรา เกือบทุกสัปดาห์ในเซิร์ฟเวอร์ที่มีอยู่จริงหลายพันเครื่อง ... เรายังมีสถานีชาร์จเพื่อเตรียมแบตเตอรีสำรองเพื่อที่จะสามารถเปลี่ยนได้โดยไม่ต้องเสียค่าใช้จ่าย

บางทีฉันอาจจะเสียเวลามากกับเซิร์ฟเวอร์ HP ProLiant และตัวควบคุม Smart Array RAIDแต่โดยทั่วไปแล้วระบบ HP จะมีอายุการใช้งานแบตเตอรี่ประมาณ 4-6 ปี ในที่สุดพวกเขาตัดการใช้แบตเตอรี่ RAID ประมาณปี 2009 พวกเขาถูกแทนที่ด้วยโมดูลหน่วยความจำสำรอง supercapacitor (แคชเขียนสำรองแฟลชหรือ FBWC) และไม่จำเป็นต้องเปลี่ยนการกำจัดหรือวงจรการชาร์จเริ่มต้นที่ยาวนาน

เนื่องจากฉันเห็น Adaptec และ LSI คอนโทรลเลอร์ของแบตเตอรี่เกิดข้อผิดพลาดบางครั้งเกิดขึ้นกับระบบที่ให้บริการน้อยกว่า 12 เดือนฉันสงสัยว่านี่เป็นเรื่องปกติในสภาพแวดล้อมอื่น ๆ

หากเป็นเรื่องปกติสภาพแวดล้อมเซิร์ฟเวอร์ขนาดใหญ่อื่น ๆ จะจัดการกับสิ่งนี้ได้อย่างไร

  • มีคำแนะนำหรือเคล็ดลับในการจัดการการเปลี่ยนแบตเตอรี่ RAID หรือไม่?
  • มีพารามิเตอร์การกำหนดค่าใด ๆ ที่สามารถช่วยได้?
  • สิ่งนี้มีความยุ่งยากต่อการดำเนินงานในสภาพแวดล้อมของคุณอย่างไร
  • การระบายความร้อนของแชสซีและอุณหภูมิไม่ดีเป็นปัจจัยหรือไม่?
  • พวกเรากำลังทำอะไรผิดหรือเปล่า?
  • LSI คอนโทรลเลอร์ของ Dell ทำโดย LSI สภาพแวดล้อมของ Dell มีประสบการณ์การใช้งานแบตเตอรี่ที่สั้นเหมือนกันหรือไม่?

เอกสารกำกับผลิตภัณฑ์ LSI สรุปแบตเตอรี่รุ่นใหม่ที่สามารถใช้งานได้นานกว่า 1 ปี ป้อนคำอธิบายรูปภาพที่นี่

เซิร์ฟเวอร์ HP ProLiant DL585 G2 พร้อมเวลาในการใช้งานมากกว่า 1,000 วันและแบตเตอรี่ RAID ความสุข ...

# uptime 
 05:38:08 up 1031 days, 44 min, 31 users,  load average: 0.49, 0.64, 0.99

# hpacucli
   Cache Board Present: True
   Cache Status: OK
   Accelerator Ratio: 50% Read / 50% Write
   Total Cache Size: 512 MB
   Battery Pack Count: 1
   Battery Status: OK

2
เป็นเพียงคำใบ้: ตัวควบคุม Adaptec รุ่นล่าสุดใช้ Supercaps / Flash แทนแบตเตอรี่เช่นกัน
สเวน

โอ้ฉันทราบดีว่าผู้ผลิตทุกรายมีโซลูชันที่ใช้ซูเปอร์แคปในปัจจุบันแต่จากการติดตั้งที่มีอยู่แล้วมันยากที่จะเปลี่ยนแปลงโครงสร้างพื้นฐานในวงกว้าง
ewwhite

2
ฉันไม่เคยทำสิ่งนี้มาก่อน (อาจเป็นเพราะความคิดที่ไม่ดีและฉันไม่ได้มีปัญหาบ่อยเท่าที่คุณเป็น) แต่คุณสามารถลองเปลี่ยนแบตเตอรี่ RAID บนเซิร์ฟเวอร์ทดสอบในขณะที่เปิดอยู่ เลื่อนออกถอดฝาครอบถอดแบตเตอรี่ที่ไม่ดีออกและเชื่อมต่อแบตเตอรี่แล้วกลับเข้าที่ชั้นวาง ... หากทุกอย่างเป็นไปด้วยดีคุณมีกระบวนการเปลี่ยนแบตเตอรี่ใหม่ที่ไม่เกี่ยวข้องกับการหยุดทำงาน
สิงหาคม

2
@August Uhm ตามขั้นตอนที่มีความเสี่ยงไปเสียงนี้ค่อนข้างสูงในรายการ "OMG WHERE DID MY DATA GO"
Dan

2
ใช่แน่ใจหรือไม่ ... ฉันเห็นด้วยดูเหมือนว่าความคิดที่น่ากลัว แต่ได้รับสถานการณ์และข้อกำหนดสำหรับการหยุดทำงานไม่มันอาจจะคุ้มค่ากับการยิงบนเซิร์ฟเวอร์ทดสอบ (หรือสามสิบเซิร์ฟเวอร์ทดสอบ ... ) เพื่อดูว่ามันเป็น เป็นไปได้ อะไรคือตัวเลือกอื่นนอกเหนือจากการทำซ้ำโครงสร้างพื้นฐานเพื่อไม่ให้ใช้แบตเตอรี่ RAID แต่ละตัวในเซิร์ฟเวอร์นับพัน
สิงหาคม

คำตอบ:


9

ฉันสงสัยว่า Supermicros ของคุณใช้งานไม่ทางใดก็ทางหนึ่ง - อาจเป็นเพราะแบตเตอรี่ร้อนเกินไป LSI ล่าสุดจะรายงานอุณหภูมิผ่าน MegaCLI - คุณอาจต้องการตรวจสอบค่านี้บนเซิร์ฟเวอร์ที่จำเป็นต้องเปลี่ยนใหม่

root@host:~/SOLARIS# ./MegaCli -AdpBbuCmd -GetBbuStatus -aALL

BBU status for Adapter: 0

BatteryType: BBU
[...]
Temperature: 41 C

ฉันเห็นระบบ Dell และ Fujitsu สองสามเครื่องที่มีคอนโทรลเลอร์ LSI BBU แต่ไม่มีการเปลี่ยนแบตเตอรี่เป็นประจำทุกปี เวลาชีวิตโดยทั่วไปได้รับประมาณ 3 ถึง 5 ปี


4
ฉันจะเพิ่มว่าถ้าระบบอย่างชัดเจนอนุญาตทดแทนร้อนของ RAID BBU ฉันจะไม่พยายามมัน ฉันไม่เคยเห็นระบบที่ต้องการการเปลี่ยนแบตเตอรี่แคช RAID เป็นประจำทุกปี 3-5 ปีเป็นอายุการใช้งานทั่วไป
voretaq7

ฉันคิดว่าคุณเข้าใจแล้ว!
ewwhite

1

อายุแบตเตอรี่เฉลี่ยควรอยู่ที่ 3-5 ปี และอย่าลืมว่า FBWC ที่ทำงานด้วยแฟลชก็ล้มเหลวเช่นกัน ฉันไม่รู้ว่าทำไม / อย่างไร แต่เราเปลี่ยนพวกมันเป็นประจำบนเซิร์ฟเวอร์ HP ของเรา ฉันควรจะนานกว่าแบตเตอรี แต่ฉันไม่มีสถิติจากเซิร์ฟเวอร์ของเราแต่ละคน

วิธีมาตรฐานในการป้องกันผลกระทบของแบตเตอรี่ที่ล้มเหลวและการเรียนรู้แบตเตอรี่คือการมีแบตเตอรี่หลายก้อน นี่คือวิธีที่ที่เก็บข้อมูล HP (เช่น HP EVA) มี คุณมีแบตเตอรี่ hot-plug 2 ก้อนและในขณะที่แบตเตอรี่มีประจุเหลือน้อยหรือเปลี่ยนใหม่คอนโทรลเลอร์จะทำงานกับแบตเตอรี่ที่เหลือ ฉันไม่แน่ใจว่าเป็นไปได้หรือไม่ที่จะมีแบตเตอรี่หลายก้อนเชื่อมต่อกับ SmartArray แต่hpacucli diagเอาต์พุตแนะนำว่าควรได้รับการสนับสนุน:

Battery 1 firmware is up to date.
Battery 2 not present.
Battery 3 not present.

Battery Status:    Battery 1      Battery 2      Battery 3
---------------    ---------      ---------      ---------
Present:              YES             NO             NO
Responding:           YES            N/A            N/A
PIC Revision:          52              .              .         
Status:              0x80              .              .         
Extra Status:        0x01              .              .         
   Enabled:         FALSE              .              .         
   Charging:        FALSE              .              .         
   Good:             TRUE              .              .         
   Open:            FALSE              .              .         
   Shorted:         FALSE              .              .         
   Sample Err:      FALSE              .              .         
Control:             0x00              .              .         
Load Current: (0x70) 24.6mA            .              .    
   Per Memory Chip:  4920uA            .              .         
Voltage:      (0xae) 5640mV            .              .         
Capacity:             100%             .              .         
Depletion count:     0x00              .              .         

1

ประสบการณ์ของฉันกับแพลตฟอร์ม LSI เวอร์ชัน IBM ในการติดตั้งสองสามร้อยครั้งคือแบตเตอรี่โดยเฉลี่ยแทบจะทำให้ 2yrs และ supercap นั้นไม่ดีไปกว่านี้ซึ่งบางส่วนสามารถแก้ไขได้ด้วยการอัปเดตเฟิร์มแวร์ แต่ LSI ไม่ได้รับมัน ขวา. ฉันมีความล้มเหลว supercap ประมาณ 75% ใน 2 ปีแรก

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.