ฉันจะนำเซิร์ฟเวอร์ HP ไปส่งอีเมลฉันได้อย่างไรเมื่อไดรฟ์ล้มเหลว


11

เป็นการดีที่ติดตั้งง่ายที่สุดและไม่ต้องรีบูตเซิร์ฟเวอร์ ส่วนใหญ่DL380 G5'sถ้ามันช่วย


ความอัปยศไม่ใช่ G7s หรือคุณสามารถใช้ HP Insight Manager
Tom O'Connor

เซิร์ฟเวอร์ของคุณใช้ Windows หรือ Linux หรือไม่
Tom O'Connor

คุณใช้ระบบปฏิบัติการใดบนเซิร์ฟเวอร์เหล่านี้
ewwhite

พวกเขาทั้งหมด 2003 หรือ 2008 ทั้งวานิลลาและ R2 ฉันเล่นกับ SIM แต่ไม่สามารถพูดคุยกับ G5 ของฉันได้
DrZaiusApeLord

SIM ควรยังคงใช้งานได้กับ G5 ProLiants คุณมีตัวแทนติดตั้งเมื่อคุณลองมาก่อนหรือไม่
ewwhite

คำตอบ:


16

ขึ้นอยู่กับระบบปฏิบัติการที่คุณใช้บนเซิร์ฟเวอร์เล็กน้อย แต่โดยทั่วไปคุณสามารถรับการแจ้งเตือนจากเซิร์ฟเวอร์ HP ProLiant และตัวควบคุม Smart Array RAID

เต็มไดรเวอร์และซอฟต์แวร์ที่สนับสนุนรายการสำหรับระบบ G5 DL380 อยู่ที่นี่

SNMP และโซลูชันการตรวจสอบเป็นวิธีที่ดีที่สุด ... แต่คุณสามารถเพิ่มประสิทธิภาพด้วยเครื่องมือบางอย่างของ HP HP เสนอHP Systems Insight Managerซึ่งมีให้ดาวน์โหลดและยังมาพร้อมกับเซิร์ฟเวอร์ สิ่งนี้เหมาะสำหรับการรวบรวมเซิร์ฟเวอร์ หากคุณกำลังมองหาการแจ้งเตือนแบบครั้งเดียวโดยไม่ต้องสร้างโครงสร้างพื้นฐานด้านการจัดการหรือการตรวจสอบคุณสามารถติดตั้งHP Management Agent (aka ProLiant Support Pack )

สำหรับระบบ Linux แบบสแตนด์อโลนฉันจะให้ตัวแทนส่งกับดักทางอีเมล โดยปกติฉันจะกำหนดค่าชุดการสนับสนุนด้วยค่าเริ่มต้นหรือชุดข้อมูลที่กำหนดเองจากนั้นแก้ไข/opt/hp/hp-snmp-agents/cma.confและเปลี่ยนtrapemailบรรทัดให้ชี้ไปยังที่อยู่ผู้รับ:

########################################################################
# trapemail is used for configuring email command(s) which will be
# executed whenever a SNMP trap is generated.
# Multiple trapemail lines are allowed.
# Note: any command that reads standard input can be used. For example:
#             trapemail /usr/bin/logger
#       will log trap messages into system log (/var/log/messages).
########################################################################
trapemail /bin/mail -s 'HP Insight Management Agents Trap Alarm' systems@1234.net

หากคุณใช้ Linux และไม่ต้องการติดตั้งชุดการจัดการ HP แบบเต็มคุณสามารถพัฒนาสคริปต์รอบยูทิลิตีcciss_vol_statusเพื่อค้นหาสถานะคอนโทรลเลอร์ / ดิสก์ได้ ดูเพิ่มเติมที่: การติดตั้ง HP Agent บน OpenFiler


วิธีที่สวยงามในการทดสอบการแจ้งเตือนสำหรับความล้มเหลวของอาร์เรย์ RAID นอกเหนือจากการดึงไดรฟ์ออกจากช่องเสียบ? ฉันมีProLiant DL360 G7เซิร์ฟเวอร์สองเครื่องและ HP SIM ตั้งค่าเพื่อตรวจสอบ
Banjer

ไม่ใช่ที่ฉันรู้ ตัวแทน Insight ทำงานได้อย่างแน่นอน หากคุณสามารถดูสถานะอาร์เรย์ผ่านยูทิลิตี้ hpacucli และคุณรู้ว่าคุณได้รับการแจ้งเตือนใน HP SIM ฉันคิดว่ามันยุติธรรมที่จะถือว่าสิ่งต่าง ๆ ใช้งานได้
ewwhite


3

ฉันใช้โปรแกรมน้ำหนักเบาที่ @Wewite พูดถึงในคำตอบของเขา: cciss_vol_status

/usr/local/bin/cciss_vol_statusถ้าคุณทำตามคำแนะนำที่มาพร้อมกับการติดตั้งสคริปต์ที่ถูกวางไว้ใน

นี่คือสคริปต์ตัวตัดคำที่ฉันใช้เพื่อ grep ผลลัพธ์ของ cciss_vol_status และส่งอีเมลหากอาร์เรย์ใดมีสถานะ FAILED

#!/bin/bash
#
# Check status of RAID volumes on HP Smart Array controllers.  Send an email
# alert if any volumes have a FAILED status.
#
status=`/usr/local/bin/cciss_vol_status /dev/sd*`

# email lock file
lockfile=/tmp/raid.check.hp.smartarray.lock
# how often to send an email (minutes)
_notification_freq=59
_host=`hostname`
# To: email
_toemail=root

# create email lock file
[ ! -f ${lockfile} ] && /bin/touch ${lockfile}

if echo $status | grep -q FAILED
then
    # make sure we haven't sent a notification in the last X minutes
    if test `find ${lockfile} -mmin +${_notification_freq}`
    then
        echo -e "${status}" | /bin/mail -s "System Alert! RAID failure on ${_host}" ${_toemail}

        # update lock file mod time
        /bin/touch ${lockfile}
    fi
fi

เรียกสคริปต์ข้างต้นเป็น cron ฉันเรียกใช้การตรวจสอบทุกสองนาที:

*/2 * * * * /usr/local/bin/raid.check.hp.smartarray.sh

เราใช้HP System Insight Managerเพื่อตรวจสอบว่า HP ของเราพร้อมใช้งานหรือไม่ ฉันพบว่าตัวแทน Linux ทำงานหนักเกินไปสำหรับเราเนื่องจากเรามีโซลูชันการตรวจสอบอื่น ๆ อยู่ด้วยดังนั้นสคริปต์นี้ใช้เพื่อจุดประสงค์เฉพาะ

UPDATE

เพียงแค่เคล็ดลับการแก้ไขปัญหาในกรณีที่คุณพบปัญหานี้ สคริปต์นี้มีประโยชน์เมื่อเช้านี้เมื่อฉันได้รับอีเมลเกี่ยวกับอาร์เรย์ที่ล้มเหลวด้วย:

ถึงขีด จำกัด แคชสกปรกแล้ว

/proc/partitionsอุปกรณ์ไปอ่านอย่างเดียวและไม่ได้อยู่ในที่มองเห็นได้ ฉันรีบูตเซิร์ฟเวอร์และเห็นข้อความเหล่านี้เมื่อบู๊ต:

ปิดการใช้งานไดรฟ์แบบลอจิคัลเนื่องจากข้อมูลสูญหาย เลือก "F1" เพื่อปิดการใช้งานไดรฟ์แบบลอจิคัลเลือก "F2" เพื่อยอมรับการสูญเสียข้อมูลและเปิดใช้งานไดรฟ์แบบลอจิคัลใหม่

ฉันเลือก F2 แล้ว RAID ก็ดีและติดตั้งตอนบูต


โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.