Harddisks ล้มออฟไลน์โดยไม่ทราบสาเหตุ


11

ฉันมี 7 ระบบที่ใช้งานการตั้งค่าด้านล่าง ตอนนี้และจากนั้นดิสก์ที่แตกต่างกันออฟไลน์ แต่ในการตรวจสอบอย่างใกล้ชิดดิสก์เป็นสิ่งที่ดีและไม่ผิดพลาดและทำงานได้อย่างไม่มีที่ติเป็นเวลาอย่างน้อยอีกหนึ่งปี เนื่องจากสิ่งนี้เกิดขึ้นกับทั้ง 7 ระบบฉันพบว่าไม่น่าเป็นไปได้ที่จะมีส่วนเดียวที่ทำหน้าที่ (เช่นสายเคเบิล) แต่เป็นการรวมกันของบางส่วนที่เข้ากันไม่ได้

ปัญหาคือการหาจุดที่แน่นอนที่เข้ากันไม่ได้

(หากคุณมีวิธีแก้ปัญหาที่คุณสามารถทำฮาร์ดดิสก์เสมือนใหม่ได้จากบรรทัดคำสั่งคุณอาจสามารถตอบ/server/523315/re-activate-device - นั่นคือถือว่าตายแล้ว )

ฮาร์ดแวร์เซิร์ฟเวอร์: Dell 1950, Dell R815, Dell R715

ระบบปฏิบัติการ:

$ uname -a
Linux franklin 3.2.0-4-amd64 #1 SMP Debian 3.2.41-2+deb7u2 x86_64 GNU/Linux

ควบคุม:

$ lspci |grep 22: 
22:00.0 Serial Attached SCSI controller: LSI Logic / Symbios Logic SAS2008 PCI-Express Fusion-MPT SAS-2 [Falcon] (rev 03)
$ sas2flash -listall
LSI Corporation SAS2 Flash Utility
Version 15.00.00.00 (2012.11.06) 
Copyright (c) 2008-2012 LSI Corporation. All rights reserved

    Adapter Selected is a LSI SAS: SAS2008(B2)   

Num   Ctlr            FW Ver        NVDATA        x86-BIOS         PCI Addr
----------------------------------------------------------------------------

1  SAS2008(B2)     15.00.00.00    0f.00.00.04    07.29.00.00     00:22:00:00

    Finished Processing Commands Successfully.
    Exiting SAS2Flash.

SAS / SATA-expander Supermicro 4U แบ็คเพลน Expander SAS / SATA พร้อมชิพ Expander LSI SAS2X36 เดียว:

cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:21/end_device-5:0:21/target5:0:21/5:0:21:0/model
SAS2X36         
cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:21/end_device-5:0:21/target5:0:21/5:0:21:0/rev
0717

ดิสก์:

$ cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:1/end_device-5:0:1/target5:0:1/5:0:1:0/model
Hitachi HDS72404
$ cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:1/end_device-5:0:1/target5:0:1/5:0:1:0/rev
A3B0

ดิสก์ในระบบเดียว:

$ cat /sys/devices/pci0000:20/0000:20:0b.0/0000:23:00.0/host5/port-5:0/expander-5:0/port-5:0:8/end_device-5:0:8/target5:0:8/5:0:8:0/model
ST3000DM001-9YN1
$ cat /sys/devices/pci0000:20/0000:20:0b.0/0000:23:00.0/host5/port-5:0/expander-5:0/port-5:0:8/end_device-5:0:8/target5:0:8/5:0:8:0/rev
CC4C

syslog:

sd 5:0:22:0: [sdw] Unhandled error code
mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
sd 5:0:22:0: [sdw] Unhandled error code
mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
sd 5:0:22:0: [sdw]
mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 b9 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982694144
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 b7 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982693632
sd 5:0:22:0: [sdw] Unhandled error code
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Read(16):
sd 5:0:22:0: [sdw] Unhandled error code
 88 00 00 00 00 01 43 e2 f2 d0 00 00 00 10 00 00
end_request: I/O error, dev sdw, sector 5433914064
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 bd 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982695168
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
md/raid:md4: Disk failure on sdw, disabling device.
md/raid:md4: Operation continuing on 9 devices.
scsi 5:0:22:0: [sdw] Unhandled error code
scsi 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
scsi 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 b8 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982693888
scsi 5:0:22:0: [sdw] Unhandled error code
scsi 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
scsi 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 bc 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982694912
mpt2sas1: removing handle(0x0021), sas_addr(0x500304800182694c)

9
+1 สำหรับการเริ่มต้นที่จะถามคำถามที่สำคัญ :)
สเวน

สายเคเบิลที่ไม่ดีที่ไม่มีระบบป้องกันอาจทำให้เกิดปัญหากับ checksums [จึงก่อให้เกิดปัญหาการอ่านและเขียน] คุณลองเปลี่ยนสายเคเบิลหรือไม่?
พระสงฆ์

สายเคเบิลถูกแทนที่ด้วยสินค้าที่รู้จัก นอกจากนี้ฉันคาดว่า Linux จะลองคำสั่งอีกครั้งหลังจากรีเซ็ต scsi บัส
Ole Tange

2
จากสิ่งที่ฉันจัดการเพื่อขุดจนถึงข้อความแสดงว่ามีปัญหาการเชื่อมต่อ - ไม่เตือน SMART .. บางทีคนอื่นที่มีประสบการณ์ BiY ที่กว้างขวางสามารถช่วย สิ่งที่ฉันรู้คือพวกเขาอยู่ห่างจากดิสก์ S-ATA ในการตั้งค่าขนาดใหญ่เนื่องจากไม่มีคำสั่ง / คิวเมื่อเทียบกับ SAS ฉันจะขอให้สองสามคนดูที่นี่
pauska

@pauska คุณช่วยอธิบายรายละเอียดเกี่ยวกับสิ่งที่คุณขุดขึ้นมาได้ไหม?
Ole Tange

คำตอบ:


1

เราไม่มีข้อมูลที่นี่ คุณกำลังแนะนำว่าคุณมีดิสก์ 24-45 ดิสก์ต่อเซิร์ฟเวอร์ในการตั้งค่าที่เก็บข้อมูลนี้

  • คุณใช้คอนโทรลเลอร์เฉพาะรุ่นใด
  • เนื่องจากจำนวนดิสก์คุณอาจมีไดรฟ์บางตัวในกล่องหุ้มภายนอก โปรดระบุยี่ห้อ / รุ่นของกล่องหุ้มไดรฟ์ภายนอกที่ใช้งานอยู่
  • คุณใช้ไดรฟ์รุ่นใดเป็นพิเศษ มีทั้งหมดของไดรฟ์ดิสก์สก์ท็อปเกรด?
  • คุณใช้ระบบไฟล์อะไร
  • อธิบายถึงดิสก์และโครงร่าง RAID
  • นี่เป็นปัญหาหรือพัฒนาตลอดเวลาหรือไม่
  • เป็นซูเปอร์ไมโครมีส่วนเกี่ยวข้องใด ๆ ในการตั้งค่านี้?

ขึ้นอยู่กับการตั้งค่ากล่องหุ้มคุณอาจพบกับการหมดเวลาของ SATA หรือข้อผิดพลาดของบัส สิ่งนี้อาจส่งผลเสียต่อไดรฟ์ทั้งหมดที่ต่ออยู่กับคอนโทรลเลอร์

ปัญหาอื่นอาจเป็นการเจรจาเชื่อมโยง SAS / SATA ที่ไม่ดี ฉันเคยพบสิ่งนี้ในตัวขยาย SAS บางตัวเมื่อไดรฟ์ 1.5Gbps และ 6.0Gbps ผสมกันในบอร์ดเดียวกัน

กรุณาให้ข้อมูลเพิ่มเติม


ฉันสนใจคำถามของคุณเกี่ยวกับซูเปอร์ไมโคร คุณสามารถทำอย่างละเอียด?
Halfgaar

@ Halgagaar คุณสามารถให้ข้อเสนอแนะในคำถามอื่น ๆ ที่ฉันถาม?
ewwhite

โพสต์ต้นฉบับไม่ใช่ของฉัน ฉันแค่อยากรู้เกี่ยวกับคำสั่งนั้น
Halfgaar

1
@Halfgaar Ooops ... ดีฉันพบว่า Supermicro SAS ขยาย / แบ็คเพลนและบางส่วนของ JBOD สิ่งที่แนบมาไม่ทำงานคาดการณ์ในหลายสถานการณ์ หมายเหตุในคำตอบของฉันเกี่ยวกับการลดความเร็วของ SAS / SATA และการต่อรองลิงค์เป็นสิ่งที่ฉันได้สัมผัสกับการปรับปรุงบางอย่างของเกียร์ Supermicro เท่านั้น ฉันไม่สามารถใช้ JBODs ของพวกเขาสำหรับ ZFS ได้อีกต่อไปเนื่องจากพฤติกรรมที่ไม่มั่นคง
ewwhite
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.