เป็นการดีที่ติดตั้งง่ายที่สุดและไม่ต้องรีบูตเซิร์ฟเวอร์ ส่วนใหญ่DL380 G5's
ถ้ามันช่วย
เป็นการดีที่ติดตั้งง่ายที่สุดและไม่ต้องรีบูตเซิร์ฟเวอร์ ส่วนใหญ่DL380 G5's
ถ้ามันช่วย
คำตอบ:
ขึ้นอยู่กับระบบปฏิบัติการที่คุณใช้บนเซิร์ฟเวอร์เล็กน้อย แต่โดยทั่วไปคุณสามารถรับการแจ้งเตือนจากเซิร์ฟเวอร์ HP ProLiant และตัวควบคุม Smart Array RAID
เต็มไดรเวอร์และซอฟต์แวร์ที่สนับสนุนรายการสำหรับระบบ G5 DL380 อยู่ที่นี่
SNMP และโซลูชันการตรวจสอบเป็นวิธีที่ดีที่สุด ... แต่คุณสามารถเพิ่มประสิทธิภาพด้วยเครื่องมือบางอย่างของ HP HP เสนอHP Systems Insight Managerซึ่งมีให้ดาวน์โหลดและยังมาพร้อมกับเซิร์ฟเวอร์ สิ่งนี้เหมาะสำหรับการรวบรวมเซิร์ฟเวอร์ หากคุณกำลังมองหาการแจ้งเตือนแบบครั้งเดียวโดยไม่ต้องสร้างโครงสร้างพื้นฐานด้านการจัดการหรือการตรวจสอบคุณสามารถติดตั้งHP Management Agent (aka ProLiant Support Pack )
สำหรับระบบ Linux แบบสแตนด์อโลนฉันจะให้ตัวแทนส่งกับดักทางอีเมล โดยปกติฉันจะกำหนดค่าชุดการสนับสนุนด้วยค่าเริ่มต้นหรือชุดข้อมูลที่กำหนดเองจากนั้นแก้ไข/opt/hp/hp-snmp-agents/cma.conf
และเปลี่ยนtrapemail
บรรทัดให้ชี้ไปยังที่อยู่ผู้รับ:
########################################################################
# trapemail is used for configuring email command(s) which will be
# executed whenever a SNMP trap is generated.
# Multiple trapemail lines are allowed.
# Note: any command that reads standard input can be used. For example:
# trapemail /usr/bin/logger
# will log trap messages into system log (/var/log/messages).
########################################################################
trapemail /bin/mail -s 'HP Insight Management Agents Trap Alarm' systems@1234.net
หากคุณใช้ Linux และไม่ต้องการติดตั้งชุดการจัดการ HP แบบเต็มคุณสามารถพัฒนาสคริปต์รอบยูทิลิตีcciss_vol_statusเพื่อค้นหาสถานะคอนโทรลเลอร์ / ดิสก์ได้ ดูเพิ่มเติมที่: การติดตั้ง HP Agent บน OpenFiler
ProLiant DL360 G7
เซิร์ฟเวอร์สองเครื่องและ HP SIM ตั้งค่าเพื่อตรวจสอบ
ตรวจสอบ HP Insight Manager
https://www.hpe.com/us/en/product-catalog/detail/pip.489496.html#
ฉันเชื่อว่าควรทำงานกับเซิร์ฟเวอร์ของคุณ
ฉันใช้โปรแกรมน้ำหนักเบาที่ @Wewite พูดถึงในคำตอบของเขา: cciss_vol_status
/usr/local/bin/cciss_vol_status
ถ้าคุณทำตามคำแนะนำที่มาพร้อมกับการติดตั้งสคริปต์ที่ถูกวางไว้ใน
นี่คือสคริปต์ตัวตัดคำที่ฉันใช้เพื่อ grep ผลลัพธ์ของ cciss_vol_status และส่งอีเมลหากอาร์เรย์ใดมีสถานะ FAILED
#!/bin/bash
#
# Check status of RAID volumes on HP Smart Array controllers. Send an email
# alert if any volumes have a FAILED status.
#
status=`/usr/local/bin/cciss_vol_status /dev/sd*`
# email lock file
lockfile=/tmp/raid.check.hp.smartarray.lock
# how often to send an email (minutes)
_notification_freq=59
_host=`hostname`
# To: email
_toemail=root
# create email lock file
[ ! -f ${lockfile} ] && /bin/touch ${lockfile}
if echo $status | grep -q FAILED
then
# make sure we haven't sent a notification in the last X minutes
if test `find ${lockfile} -mmin +${_notification_freq}`
then
echo -e "${status}" | /bin/mail -s "System Alert! RAID failure on ${_host}" ${_toemail}
# update lock file mod time
/bin/touch ${lockfile}
fi
fi
เรียกสคริปต์ข้างต้นเป็น cron ฉันเรียกใช้การตรวจสอบทุกสองนาที:
*/2 * * * * /usr/local/bin/raid.check.hp.smartarray.sh
เราใช้HP System Insight Managerเพื่อตรวจสอบว่า HP ของเราพร้อมใช้งานหรือไม่ ฉันพบว่าตัวแทน Linux ทำงานหนักเกินไปสำหรับเราเนื่องจากเรามีโซลูชันการตรวจสอบอื่น ๆ อยู่ด้วยดังนั้นสคริปต์นี้ใช้เพื่อจุดประสงค์เฉพาะ
UPDATE
เพียงแค่เคล็ดลับการแก้ไขปัญหาในกรณีที่คุณพบปัญหานี้ สคริปต์นี้มีประโยชน์เมื่อเช้านี้เมื่อฉันได้รับอีเมลเกี่ยวกับอาร์เรย์ที่ล้มเหลวด้วย:
ถึงขีด จำกัด แคชสกปรกแล้ว
/proc/partitions
อุปกรณ์ไปอ่านอย่างเดียวและไม่ได้อยู่ในที่มองเห็นได้ ฉันรีบูตเซิร์ฟเวอร์และเห็นข้อความเหล่านี้เมื่อบู๊ต:
ปิดการใช้งานไดรฟ์แบบลอจิคัลเนื่องจากข้อมูลสูญหาย เลือก "F1" เพื่อปิดการใช้งานไดรฟ์แบบลอจิคัลเลือก "F2" เพื่อยอมรับการสูญเสียข้อมูลและเปิดใช้งานไดรฟ์แบบลอจิคัลใหม่
ฉันเลือก F2 แล้ว RAID ก็ดีและติดตั้งตอนบูต
ติดตั้ง smartmontools เมลคุณก่อนที่ไดรฟ์จะล้มเหลว