หนึ่งในเว็บไซต์ของลูกค้าของฉันได้รับผลกระทบโดยตรงจากสัปดาห์ก่อน (บังเอิญเมื่อวันศุกร์ที่ 13! )
ฉันอยู่ห่างไกลจากไซต์ แต่ทำงานกับคนที่อยู่นอกสถานที่ฉันค้นพบความเสียหายแปลก ๆ ลิงก์อินเทอร์เน็ตทั้งคู่ไม่ทำงานเซิร์ฟเวอร์ส่วนใหญ่ไม่สามารถเข้าถึงได้ ความเสียหายส่วนใหญ่เกิดขึ้นในMDFแต่IDF ที่เชื่อมต่อกับเส้นใยหนึ่งตัวก็หายไป 90% ของพอร์ตในสมาชิกสวิทช์สแต็ก พอสวิทช์สำรองเพียงพอที่จะแจกจ่ายสายเคเบิลที่อื่นและ reprogram แต่มีการหยุดทำงานในขณะที่เราไล่ล่าอุปกรณ์ที่ได้รับผลกระทบ ..
นี่เป็นอาคารใหม่ / คลังสินค้าและการวางแผนมากมายไปสู่การออกแบบห้องเซิร์ฟเวอร์ ห้องเซิร์ฟเวอร์หลักของAPC SmartUPS RT 8000VA เป็นระบบแปลงคู่ออนไลน์ของAPCซึ่งได้รับการสนับสนุนจากเครื่องกำเนิดไฟฟ้า มีการกระจายพลังงานที่เหมาะสมไปยังอุปกรณ์ที่เชื่อมต่อทั้งหมด มีการจำลองข้อมูลนอกสถานที่และสำรองระบบ
ในทุกความเสียหาย (ที่ฉันรู้) คือ:
- ล้มเหลวบัตรสาย 48 พอร์ตบนสวิตช์ Cisco 4507R-E
สวิตช์ Cisco 2960 ล้มเหลวในสแต็ก 4 สมาชิก(อุ้ย ... สายเคเบิลเรียงซ้อนหลวม)- พอร์ตที่ไม่สม่ำเสมอหลายแห่งบนสวิตช์ Cisco 2960
- HP ProLiant DL360 G7 มาเธอร์บอร์ดและแหล่งจ่ายไฟ
- ตัวเชื่อมโยงElfiq WAN
- โมเด็มโทรสาร Multitech หนึ่งตัว
- WiMax / เสาอากาศอินเทอร์เน็ตไร้สายคงที่และหัวฉีดไฟฟ้า
- อุปกรณ์เชื่อมต่อ PoE จำนวนมาก (โทรศัพท์ VoIP, จุดเชื่อมต่อ Cisco Aironet, กล้องรักษาความปลอดภัย IP)
ปัญหาส่วนใหญ่เชื่อมโยงกับการสูญเสียสวิตช์เบลดทั้งหมดใน Cisco 4507R-E สิ่งนี้มีเครือข่าย VMware NFS บางส่วนและอัปลิงค์ไปยังไฟร์วอลล์ของไซต์ โฮสต์ VMWare ล้มเหลว แต่ HA ดูแลการเชื่อมต่อเครือข่ายพื้นที่เก็บข้อมูลของ VM เมื่อคืนค่าแล้ว ฉันถูกบังคับให้ต้องรีบูท / จ่ายพลังงานอุปกรณ์จำนวนหนึ่งเพื่อล้างสถานะพลังงานขี้ขลาด ดังนั้นเวลาในการพักฟื้นจึงสั้น แต่ฉันอยากรู้ว่าควรเรียนรู้บทเรียนอะไร ...
- ควรมีการป้องกันอะไรเพิ่มเติมเพื่อป้องกันอุปกรณ์ในอนาคต
- ฉันจะเข้าใกล้การรับประกันและการเปลี่ยนได้อย่างไร Cisco และ HP กำลังเปลี่ยนสินค้าภายใต้สัญญา เครื่องมือสร้างสมดุลการเชื่อมโยง Elfiq WAN มีราคาแพงมีการแจ้งเตือนบนเว็บไซต์ของตนว่าโดยทั่วไปแล้วพูดว่า "แย่มากใช้เครือข่ายอุปกรณ์ป้องกันไฟกระชาก " (ดูเหมือนว่าพวกเขาคาดหวังความล้มเหลวประเภทนี้)
- ฉันอยู่ในวงการไอทีมานานพอที่จะพบกับความเสียหายจากพายุไฟฟ้าในอดีต แต่มีผลกระทบ จำกัด มาก เช่นอินเทอร์เฟซเครือข่ายของพีซีราคาถูกหรือการทำลายของสวิตช์ขนาดเล็ก
- มีอะไรอีกบ้างที่ฉันสามารถทำได้เพื่อตรวจสอบอุปกรณ์ที่อาจเป็นขุยหรือฉันต้องรอพฤติกรรมแปลก ๆ
- นี่เป็นเพียงโชคร้ายทั้งหมดหรือสิ่งที่ควรนำมาใช้ในการกู้คืนจากความเสียหาย?
ด้วย $$$ ที่เพียงพอคุณสามารถสร้างความซ้ำซ้อนในสภาพแวดล้อมได้ทุกประเภท แต่อะไรคือความสมดุลที่สมเหตุสมผลของการออกแบบเชิงป้องกัน / รอบคอบและการใช้ทรัพยากรอย่างมีประสิทธิภาพที่นี่