ZFS - ผลกระทบของความล้มเหลวของอุปกรณ์แคช L2ARC (Nexenta)


10

ฉันมีเซิร์ฟเวอร์ HP ProLiant G7 รุ่น DL380 ทำงานเป็นหน่วยจัดเก็บ เซิร์ฟเวอร์มี RAM 36GB, ตัวควบคุม LSI 9211-8i 2 ตัว (ไม่มีตัวขยาย SAS), ไดรฟ์ระบบ SAS 2 ตัว, ไดรฟ์ข้อมูล SAS 12 ตัว, ดิสก์ hot-spare, แคช Intel X25-M L2ARC และตัวเร่งความเร็ว DDRdrive PCI ZIL ระบบนี้ทำหน้าที่ NFS ไปยังหลายโฮสต์ VMWare ฉันยังมีข้อมูลซ้ำซ้อนประมาณ 90-100GB ในอาเรย์

ฉันมีเหตุการณ์สองเหตุการณ์ที่ประสิทธิภาพการทำงานของแท็งก์โดยกระทันหันทำให้แขก VM และ Nexenta SSH / เว็บคอนโซลไม่สามารถเข้าถึงได้และต้องการการรีบูตอาร์เรย์ทั้งหมดเพื่อคืนค่าฟังก์ชันการทำงาน ในทั้งสองกรณีเป็น Intel X-25M L2ARC SSD ที่ล้มเหลวหรือเป็น "ออฟไลน์" NexentaStor ล้มเหลวในการแจ้งเตือนฉันเกี่ยวกับความล้มเหลวของแคชอย่างไรก็ตามการแจ้งเตือน ZFS FMA ทั่วไปสามารถมองเห็นได้บนหน้าจอคอนโซล (ไม่ตอบสนอง)

ป้อนคำอธิบายรูปภาพที่นี่

zpool statusเอาท์พุทแสดงให้เห็นว่า:

  pool: vol1
 state: ONLINE
 scan: scrub repaired 0 in 0h57m with 0 errors on Sat May 21 05:57:27 2011
config:

        NAME                        STATE     READ WRITE CKSUM
        vol1                        ONLINE       0     0     0
          mirror-0                  ONLINE       0     0     0
            c8t5000C50031B94409d0   ONLINE       0     0     0
            c9t5000C50031BBFE25d0   ONLINE       0     0     0
          mirror-1                  ONLINE       0     0     0
            c10t5000C50031D158FDd0  ONLINE       0     0     0
            c11t5000C5002C823045d0  ONLINE       0     0     0
          mirror-2                  ONLINE       0     0     0
            c12t5000C50031D91AD1d0  ONLINE       0     0     0
            c2t5000C50031D911B9d0   ONLINE       0     0     0
          mirror-3                  ONLINE       0     0     0
            c13t5000C50031BC293Dd0  ONLINE       0     0     0
            c14t5000C50031BD208Dd0  ONLINE       0     0     0
          mirror-4                  ONLINE       0     0     0
            c15t5000C50031BBF6F5d0  ONLINE       0     0     0
            c16t5000C50031D8CFADd0  ONLINE       0     0     0
          mirror-5                  ONLINE       0     0     0
            c17t5000C50031BC0E01d0  ONLINE       0     0     0
            c18t5000C5002C7CCE41d0  ONLINE       0     0     0
        logs
          c19t0d0                   ONLINE       0     0     0
        cache
          c6t5001517959467B45d0     FAULTED      2   542     0  too many errors
        spares
          c7t5000C50031CB43D9d0     AVAIL   

errors: No known data errors

สิ่งนี้ไม่ได้เรียกการแจ้งเตือนใด ๆ จากภายใน Nexenta

ฉันรู้สึกว่า L2ARC ล้มเหลวจะไม่ส่งผลกระทบต่อระบบ แต่ในกรณีนี้มันเป็นผู้ร้ายแน่นอน ฉันไม่เคยเห็นคำแนะนำใด ๆ สำหรับ RAID L2ARC การลบ SSD ที่ไม่ดีทั้งหมดออกจากเซิร์ฟเวอร์ทำให้ฉันกลับมาทำงานอีกครั้ง แต่ฉันกังวลเกี่ยวกับผลกระทบของความล้มเหลวของอุปกรณ์ (และอาจขาดการแจ้งเตือนจาก NexentaStor เช่นกัน)

แก้ไข - ปัจจุบันSSD ที่เป็นทางเลือกที่ดีที่สุดสำหรับแอพพลิเคชั่นแคช L2ARC คืออะไรในปัจจุบัน?


เป็นไปได้ว่า SSD หรือพอร์ต SATA ของคุณกำลังมีปัญหาฮาร์ดแวร์?
tegbains

มันเป็นแบ็คเพลน HP SAS ฉันไม่เคยเห็นใครล้มเหลวหรือมีปัญหาในการปรับใช้ (Linux) มากมาย แต่ฉันค่อนข้างมั่นใจว่าความล้มเหลวนั้นเป็นหน้าที่ของ SSD ระดับผู้บริโภค ฉันสามารถยอมรับความล้มเหลวได้ แต่ผลกระทบต่อดิสก์ที่เหลือและระบบจัดเก็บข้อมูลโดยรวมเป็นปัญหาที่ใหญ่กว่า
ewwhite

โดยเฉพาะอย่างยิ่ง Pogo Linux (ที่ฉันเข้าใจว่าเป็นผู้รวบรวม / ผู้ค้าปลีกรายใหญ่ที่สุดของ Nexenta) ไม่ได้นำเสนออุปกรณ์ Intel X25 เป็นตัวเลือกสำหรับ L2ARC หรือ ZIL เนื่องจากปัญหากับเฟิร์มแวร์ของ Intel รุ่นที่ใหม่กว่า
Skyhawk

และการเปลี่ยนที่แนะนำคือ (ทำ, รุ่น, ราคา)?
ewwhite

1
อย่างไรก็ตาม Intel 320 series ใหม่น่าสนใจที่จะลองเป็น L2ARC หรือแม้แต่อุปกรณ์ ZIL: เป็นตัวเก็บประจุสำรองและแม้ว่าความอดทนในการเขียนจะ จำกัด (สูงสุด 60 เทราไบต์ขึ้นอยู่กับรุ่น) เปอร์เซ็นต์การสึกหรอที่เหลืออยู่สามารถ ถูกติดตามโดยใช้แอตทริบิวต์ SMART E9 (เริ่มต้นที่ 100 และนับได้ถึง 1) ฉันสงสัยว่าผู้ใช้ ZFS จำนวนมากสามารถเปลี่ยนอุปกรณ์นี้ได้บ่อยเท่าที่ต้องการเพื่อป้องกัน E9 ไม่ให้เข้าใกล้ 1 โดยไม่มีค่าใช้จ่ายสะสมแม้กระทั่งใกล้ถึงค่าใช้จ่ายของไดรฟ์ SLC ที่มีขนาดเปรียบเทียบกัน
Skyhawk

คำตอบ:


10

ZFS ไม่ทำดิสก์ I / O ไดรเวอร์อุปกรณ์ด้านล่าง ZFS ทำดิสก์ I / O หากอุปกรณ์ไม่ตอบสนองในเวลาที่เหมาะสมหรืออย่างเช่นในกรณีนี้รบกวนอุปกรณ์อื่น ๆ ทั้งหมดในเครื่องขยายสัญญาณดังนั้นจะไม่สามารถมองเห็น ZFS ได้ ZFS ทั้งหมดเห็นว่าเป็น I / O ที่ช้า

มีข้อผิดพลาดในเฟิร์มแวร์ Intel X-25M ที่ส่งผลกระทบต่อพฤติกรรมของพวกเขาในระหว่างการโหลดหนักและอาจทำให้เกิดพายุรีเซ็ต ปัญหานี้ส่งผลกระทบต่อระบบปฏิบัติการทั้งหมดและไม่สามารถแก้ไขได้ที่ชั้นระบบปฏิบัติการ กรุณาติดต่อผู้จำหน่ายฮาร์ดแวร์ของคุณสำหรับการแก้ไขหรือแก้ไข

หากการอ่านคาดว่าจะได้รับความพึงพอใจจาก L2ARC การอ่านจะถูกดำเนินการที่นั่น จากนั้น ZFS อาศัยไดร์เวอร์เลเยอร์ที่ต่ำกว่าเพื่อรายงานข้อผิดพลาด สำหรับกรณีนี้ไดรฟ์ยังคงรีเซ็ตและลองอีกครั้งนานถึง 5 นาทีก่อนที่จะประกาศ I / O ว่าล้มเหลวขึ้นอยู่กับไดรเวอร์อุปกรณ์และการตั้งค่าการหมดเวลาเริ่มต้น หลังจากไดรเวอร์เลเยอร์ที่ต่ำกว่าประกาศ I / O ตามที่ล้มเหลวแล้ว ZFS จะลองอีกครั้งบนพูล

นักวิ่งตรวจสอบปริมาณข้อมูลและตัวตรวจสอบดิสก์ของ NexentaStor ค้นหาข้อความแสดงข้อผิดพลาดเพิ่มเติมและแจ้งเตือนคุณผ่านอีเมลและบันทึกข้อผิดพลาด ตัวตรวจสอบดิสก์ได้รับการปรับปรุงในรุ่น 3.1 เพื่อช่วยเตือนคุณเกี่ยวกับเงื่อนไขที่แสดงโดยเฟิร์มแวร์ที่ใช้งานไม่ได้ใน SSD

บรรทัดล่าง: ฮาร์ดแวร์ของคุณมีข้อบกพร่องและจะต้องมีการแก้ไขหรือเปลี่ยน


2
ขอบคุณ. ดังนั้นฉันจะไม่ใช้ Intel X-25 อีกต่อไป ฉันต้องการทดสอบแนะนำสำหรับอุปกรณ์ L2ARC SSD ใหม่เพื่อแทนที่
ewwhite

3

คุณกำลังเชื่อมต่อ X25-M SSD เข้ากับ backplane หรือไม่? มีปัญหาที่รู้จักกับ Nexenta และเข้าถึง L2ARC ผ่านแบ็คเพลน ทางออกที่ดีที่สุดของคุณคือเชื่อมต่อ SSD เข้ากับพอร์ต SATA บนเมนบอร์ดโดยตรง ตรวจสอบให้แน่ใจว่าได้กำหนดค่าให้ใช้ AHCI เช่นกัน

หากคุณกำลังทำภารกิจที่สำคัญบนเซิร์ฟเวอร์นี้ฉันจะเปลี่ยนเป็น SLC SSD (เช่น X25-E หรือ STEC SSD) ที่ถูกกล่าวว่าคุณอาจจะตกลงกับ X25-M ถ้ามันไม่ได้


ใช่ฉันกำลังเชื่อมต่อผ่านช่องไดรฟ์ปกติ ฉันมีการติดตั้งอื่นที่มี Intel SSD ชุดเดียวกันกับ L2ARC (ใน Sun และฮาร์ดแวร์ HP) อันนี้ทำให้ฉันมีปัญหา แต่ งานวิจัยของฉันดูเหมือนจะบ่งชี้ว่า L2ARC ไม่จำเป็นต้องแข็งแกร่งเท่ากับ ZIL (ดังนั้นการใช้โซลูชั่น ZIL ที่ใช้ SLC และ PCI และไดรฟ์สำหรับผู้บริโภคสำหรับ L2ARC) สิ่งนี้มีการเปลี่ยนแปลงหรือไม่?
ewwhite

ฉันจะลองเสียบ SSD โดยตรงกับเมนบอร์ดและดูว่าใช้งานได้หรือไม่ หากคุณมีอะไหล่สำรอง X25-M คุณสามารถลองเปลี่ยนชิ้นส่วนปัจจุบันและดูว่าตัว SSD นั้นเสียหรือไม่ ใน SLC SSD: ขึ้นอยู่กับระดับความเสี่ยงของคุณ หากคุณกำลังใช้งานซอฟต์แวร์บน SLA ที่ไม่เคยหยุดทำงานและต้องทำงานอย่างรวดเร็วอาจมีราคาถูกกว่าถ้าคุณซื้อ SSD ระดับสูง
กำลังใจ

ฉันพยายามจะพูดว่า Intel X25-M ได้รับการแนะนำสำหรับ L2ARC ในบทความและการสนทนาส่วนใหญ่ที่ฉันเคยเห็นออนไลน์ หากไม่มีอีกต่อไปอุปกรณ์ที่ต้องการคืออะไร
ewwhite

1
@ewwhite: ในทางทฤษฎีแล้วความล้มเหลวของอุปกรณ์ L2ARC นั้นไม่ควรรบกวนเนื่องจาก ZFS สามารถถอยกลับไปอ่านดิสก์ได้ ในทางปฏิบัติ .. ดีดูเหมือนว่าคุณจะได้รับข้อผิดพลาดไดรเวอร์ ZFS หรือ scsi ที่เกิดจากพฤติกรรมของ SSD
Tom Shaw

1
@ ขาว: ฉันอาจจะให้คำแนะนำการปฏิบัติเพิ่มเติม หากคุณต้องการที่จะสร้างความผิดพลาดของระบบการถ่ายโอนข้อมูลครั้งต่อไปที่เวดจ์ระบบของคุณทำตามคำแนะนำที่นี่ การถ่ายโอนข้อมูลชนิดนี้อาจเป็นประโยชน์ต่อนักพัฒนา Illumos
Tom Shaw

0

เอ็ดมีหลายอย่างที่คุณสามารถใช้ได้ตั้งแต่ราคาค่อนข้างสมเหตุสมผลไปจนถึงราคาแพง ฉันชอบที่จะปรับใช้ SAS SSD ในทุกกรณีและทำได้ดีมากกับทั้ง STEC และ Pliant ตอนนี้ทั้งคู่มีไดรฟ์ MLC ที่สามารถใช้งานได้กับอุปกรณ์ L2ARC ยังไม่ได้ทดสอบ แต่เร็ว ๆ นี้คือข้อเสนอ SSD จาก Seagate ที่เป็น SLC SAS 2.0 และมีข่าวลือว่า "ไม่แพง" คอยติดตาม....

-PB

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.