ใครสามารถอธิบาย“ ใช้กรณี” สำหรับกราฟ munin เริ่มต้น?


9

เมื่อติดตั้ง munin จะเปิดใช้งานชุดปลั๊กอินเริ่มต้น (อย่างน้อยใน Ubuntu) หรือคุณสามารถเรียกใช้munin-node-configureเพื่อดูว่าปลั๊กอินใดที่ระบบของคุณรองรับ ส่วนใหญ่ของปลั๊กอินเหล่านี้จะลงจุดข้อมูลส่งตรง คำถามของฉันไม่ได้อธิบายลักษณะของข้อมูล (อาจ ... สำหรับบางคน) แต่มันคือสิ่งที่คุณมองหาในกราฟเหล่านี้?

มันง่ายในการติดตั้ง munin และดูกราฟแฟนซี แต่การมีกราฟและไม่สามารถ "อ่าน" ทำให้พวกมันไร้ประโยชน์โดยสิ้นเชิง

ฉันจะไปที่รายการปลั๊กอินมาตรฐานที่เปิดใช้งานโดยค่าเริ่มต้นในระบบของฉัน มันจะเป็นรายการยาว เพื่อความสมบูรณ์ฉันจะลงรายการปลั๊กอินที่ฉันคิดว่าจะเข้าใจและให้คำอธิบายสั้น ๆ เกี่ยวกับสิ่งที่ฉันคิดว่ามันใช้สำหรับ อ้อนวอนถูกต้องถ้าฉันผิดกับพวกเขา

ดังนั้นฉันจะแบ่งคำถามนี้ออกเป็นสามส่วน:

  • ปลั๊กอินที่ฉันไม่เข้าใจข้อมูล
  • ปลั๊กอินที่ฉันเข้าใจข้อมูล แต่ไม่รู้ว่าควรระวังอะไร
  • ปลั๊กอินที่ฉันคิดว่าเข้าใจ

ปลั๊กอินที่ฉันไม่เข้าใจข้อมูล

เหล่านี้อาจมีคำถามที่ไม่จำเป็นต้องมุ่งเป้าไปที่คนเดียว การไม่เข้าใจข้อมูลมักหมายถึงช่องว่างในความรู้พื้นฐานเกี่ยวกับระบบปฏิบัติการ / ฮาร์ดแวร์ .... ;) อย่าลังเลที่จะตอบกลับด้วยคำตอบ "giyf"

นี่คือปลั๊กอินที่ฉันสามารถเดาได้ว่าเกิดอะไรขึ้น ... ฉันแทบจะไม่อยากดู "คาดเดา" เหล่านี้ ...

  • Disk IOs ต่ออุปกรณ์ (IOs / วินาที)
    IO คืออะไร ฉันรู้ว่ามันหมายถึงอินพุต / เอาต์พุต แต่เท่าที่จะไป
  • เวลาแฝงดิสก์ต่ออุปกรณ์ (การรอคอย IO เฉลี่ย)
    ไม่ใช่เงื่อนงำว่า "การรอ IO" คืออะไร ...
  • เวลาให้บริการ IO อัน
    นี้เป็นระเบียบมากและเป็นไปไม่ได้ที่จะเห็นบางสิ่งบางอย่างในกราฟเลย

ปลั๊กอินที่ฉันเข้าใจข้อมูล แต่ไม่รู้ว่าควรระวังอะไร

  • IOStat (บล็อก / วินาทีอ่าน / เขียน)
    ฉันคิดว่าสิ่งที่ต้องระวังในที่นี่คือหนาม? ซึ่งหมายความว่าอุปกรณ์ใช้งานหนัก
  • เอนโทรปีที่มีอยู่ (ไบต์)
    ฉันคิดว่านี่เป็นสิ่งสำคัญสำหรับการสร้างตัวเลขสุ่ม? ทำไมฉันต้องวาดกราฟนี้ จนถึงตอนนี้ค่าก็ใกล้เคียงกับค่าคงที่เสมอ
  • VMStat (การรัน / I / O กระบวนการสลีป)
    อะไรคือความแตกต่างระหว่างกราฟนี้กับกราฟ "กระบวนการ" ทั้งสองแสดงกระบวนการทำงาน / นอนหลับในขณะที่กราฟ "กระบวนการ" ดูเหมือนจะมีรายละเอียดเพิ่มเติม
  • ปริมาณงานของดิสก์ต่ออุปกรณ์ (ไบต์ / วินาทีอ่าน / เขียน)
    ความแตกต่างระหว่างกราฟนี้กับกราฟ "IOStat" คืออะไร?
  • การใช้ตาราง inode
    สิ่งที่ฉันควรมองหาในกราฟนี้?

ปลั๊กอินที่ฉันคิดว่าเข้าใจ

ฉันจะคาดเดาบางสิ่งที่นี่ ... แก้ไขฉันถ้าฉันผิด

  • การใช้งานดิสก์เป็นเปอร์เซ็นต์ (เปอร์เซ็นต์)
    มีการใช้ / เหลือพื้นที่ดิสก์เท่าใด เนื่องจากใกล้ 100% คุณควรพิจารณาการล้างหรือขยายพาร์ติชัน นี่เป็นสิ่งสำคัญอย่างยิ่งสำหรับพาร์ติชันราก
  • ไฟร์วอลล์ทรูพุต (แพ็คเก็ต / วินาที)
    จำนวนแพ็กเก็ตที่ผ่านไฟร์วอลล์ หากสิ่งนี้มีความรวดเร็วเป็นระยะเวลานานอาจเป็นสัญญาณของการโจมตีของ DOS (หรือเราแค่รับไฟล์ขนาดใหญ่) นอกจากนี้ยังสามารถให้แนวคิดเกี่ยวกับประสิทธิภาพของไฟร์วอลล์ของคุณ หากมีการปรับระดับและคุณต้องการ "พลังงาน" มากขึ้นคุณควรพิจารณาปรับสมดุลโหลด ถ้ามันปรับระดับแล้วเห็นความสัมพันธ์กับโหลดซีพียูของคุณก็อาจหมายความว่าฮาร์ดแวร์ของคุณไม่เร็วพอ ความสัมพันธ์กับการใช้งานดิสก์อาจชี้ไปที่เป้าหมาย LOG ที่มากเกินไปในการกำหนดค่า FW ของคุณ
  • ข้อผิดพลาด eth0 (แพ็คเก็ตเข้า / ออก)
    ข้อผิดพลาดเครือข่าย หากค่านี้เพิ่มขึ้นอาจเป็นสัญญาณว่าฮาร์ดแวร์ชำรุด
  • ทราฟฟิก eth0 (บิต / วินาทีเข้า / ออก) ทราฟ
    ฟิกเครือข่ายดิบ สิ่งนี้ควรสัมพันธ์กับปริมาณงานของไฟร์วอลล์
  • จำนวนเธรด
    ค่าที่เพิ่มขึ้นอาจชี้ไปยังกระบวนการที่ไม่ได้ปิดเธรดอย่างถูกต้อง ตรวจสอบ!
  • กระบวนการ
    แยกย่อยของกระบวนการที่ใช้งานอยู่ (รวมถึงการนอนหลับ) เข็มอย่างรวดเร็วในที่นี่อาจชี้ไปที่การวางระเบิด ค่าที่ช้า แต่เพิ่มมากขึ้นอาจชี้ไปที่แอปพลิเคชันที่วางไข่กระบวนการย่อย แต่ไม่ปิดอย่างเหมาะสม ps fauxตรวจสอบการใช้
  • ลำดับความสำคัญของกระบวนการ
    ซึ่งแสดงการกระจายลำดับความสำคัญของกระบวนการ การมีกระบวนการที่มีลำดับความสำคัญสูงนั้นไม่ได้ใช้งานมากนัก พิจารณายกเลิกการจัดลำดับความสำคัญบางอย่าง
  • การใช้ cpu อย่าง
    ตรงไปตรงมา หากสิ่งนี้เกิดขึ้นอย่างรวดเร็วคุณอาจมีการโจมตีเกิดขึ้นหรือกระบวนการกำลังทำงานซีพียู IDF จะเพิ่มขึ้นอย่างช้า ๆ และใกล้ถึงจำนวนสูงสุดในการทำงานปกติคุณควรพิจารณาปรับรุ่นฮาร์ดแวร์ของคุณ (หรือโหลดบาลานซ์)
  • การใช้ตารางไฟล์
    จำนวนไฟล์ที่เปิดอย่างแข็งขัน หากถึงจุดสูงสุดคุณอาจมีการเปิดกระบวนการ แต่ปล่อยไฟล์ไม่ถูกต้อง
  • เฉลี่ยโหลด
    แสดงค่าสรุปสำหรับการโหลดระบบ ควรสัมพันธ์กับการใช้งาน CPU การเพิ่มค่าอาจมาจากหลายแหล่ง ค้นหาสหสัมพันธ์กับกราฟอื่น ๆ
  • การใช้หน่วยความจำการ
    แสดงกราฟิกของหน่วยความจำของคุณ ตราบใดที่คุณมี + แคช + บัฟเฟอร์ที่ไม่ได้ใช้จำนวนมากคุณก็สามารถทำได้
  • swap in / out
    แสดงกิจกรรมบนพาร์ติชัน swap ของคุณ สิ่งนี้ควรเป็น 0 เสมอหากคุณเห็นกิจกรรมนี้คุณควรเพิ่มหน่วยความจำเพิ่มเติมในเครื่องของคุณ!

เป็นคำถามที่ยอดเยี่ยมสามารถใช้กับ Cacti และแอพกราฟอื่น ๆ ได้อย่างง่ายดาย กราฟมักจะดูดี แต่มันก็ยากที่จะเข้าใจว่าพวกเขาหมายถึงอะไรและมีอะไรบางอย่างที่ต้องการความสนใจมากกว่านี้
dunxd

2
สำหรับ "ทำไมฉันจึงวาดกราฟนี้จนถึงตอนนี้ค่าเกือบคงที่เสมอ" ส่วนที่จำไว้ว่าข้อมูลส่วนใหญ่มักจะมีค่าเฉพาะในกรณีที่มีปัญหา
Steve Schnepp

คำตอบ:


11

Disk IOs ต่ออุปกรณ์ (IOs / วินาที)

ด้วยฮาร์ดไดรฟ์แบบดั้งเดิมนี่เป็นตัวเลขที่สำคัญมาก การดำเนินการ I / O เป็นการอ่านหรือเขียนลงดิสก์ ด้วยสปินเดิลแบบหมุนคุณสามารถรับได้ตั้งแต่หลายสิบถึง 200 IOPS ต่อวินาทีขึ้นอยู่กับความเร็วดิสก์และรูปแบบการใช้งาน

นี่ไม่ใช่ทั้งหมด: ระบบปฏิบัติการที่ทันสมัยมีตัวกำหนดเวลา I / O ซึ่งพยายามรวมคำขอ I / O หลายรายการเข้าด้วยกันเป็นหนึ่งเดียวและทำให้สิ่งต่าง ๆ เร็วขึ้น นอกจากนี้ตัวควบคุม RAID และอื่น ๆ จะดำเนินการจัดลำดับคำขอ I / O สมาร์ทใหม่

เวลาแฝงดิสก์ต่ออุปกรณ์ (ค่าเฉลี่ย IO รอ)

ระยะเวลาที่ใช้ในการดำเนินการตามคำขอ I / O ไปยังดิสก์แต่ละแผ่นเพื่อรับข้อมูลจากที่นั่น หากสิ่งนี้วนเวียนอยู่ประมาณสองสามมิลลิวินาทีคุณก็โอเคถ้ามันเป็นหลายสิบ ms คุณก็จะเริ่มเห็นระบบย่อยดิสก์ของคุณเหงื่อออกถ้ามันเป็นหลายร้อย ms คุณกำลังมีปัญหาใหญ่หรืออย่างน้อยก็มีมาก ระบบช้า

เวลาให้บริการ IO

วิธีที่ระบบย่อยดิสก์ของคุณ (อาจมีดิสก์จำนวนมาก) กำลังทำงานโดยรวม

IOStat (บล็อก / วินาทีอ่าน / เขียน)

จำนวนดิสก์บล็อกที่ถูกอ่าน / เขียนต่อวินาที มองหาหนามแหลมและค่าเฉลี่ย ถ้าค่าเฉลี่ยเริ่มต้นใกล้กับปริมาณงานสูงสุดของระบบย่อยดิสก์ของคุณถึงเวลาที่ต้องวางแผนสำหรับการอัพเกรดประสิทธิภาพ ที่จริงแล้ววางแผนด้วยวิธีนั้นก่อนจุดนั้น

เอนโทรปีที่มีอยู่ (ไบต์)

บางแอปพลิเคชันต้องการรับข้อมูลที่ "จริง" เคอร์เนลรวบรวมว่าการสุ่ม 'จริง' จากหลาย ๆ แหล่งเช่นแป้นพิมพ์และกิจกรรมเมาส์ตัวสร้างตัวเลขสุ่มที่พบในเมนบอร์ดจำนวนมากหรือแม้แต่จากไฟล์วิดีโอ / เพลง (วิดีโอเอนโทรปีและออดิโอเอนโทรปีสามารถทำได้)

หากระบบของคุณไม่มีเอนโทรปีแอปพลิเคชันที่ต้องการให้แผงข้อมูลนั้นจนกว่าพวกเขาจะได้รับข้อมูล โดยส่วนตัวในอดีตฉันเคยเห็นสิ่งนี้เกิดขึ้นกับ Cyrus IMAP daemon และบริการ POP3 มันสร้างสตริงแบบสุ่มที่ยาวก่อนการล็อกอินแต่ละครั้งและบนเซิร์ฟเวอร์ไม่ว่างที่ใช้พูลเอนโทรปีอย่างรวดเร็ว

วิธีหนึ่งในการกำจัดปัญหานั้นคือการเปลี่ยนแอปพลิเคชันให้ใช้ข้อมูลแบบกึ่งสุ่มเท่านั้น (/ dev / urandom) แต่นั่นไม่ได้อยู่ในหัวข้อนี้อีกต่อไป

VMStat (กระบวนการสลีปเรียกใช้ / I / O)

ไม่เคยคิดถึงเรื่องนี้มาก่อน แต่ฉันคิดว่านี่จะบอกคุณเกี่ยวกับสถิติ I / O ต่อกระบวนการหรือเป็นหลักถ้าพวกเขาใช้ I / O บางส่วนหรือไม่และถ้า I / O บล็อกกิจกรรม I / O หรือ ไม่.

ดิสก์ปริมาณงานต่ออุปกรณ์ (ไบต์ / วินาทีอ่าน / เขียน)

นี่คือจำนวนไบต์ที่อ่าน / เขียนต่อวินาทีและบ่อยครั้งที่นี่เป็นรูปแบบที่มนุษย์อ่านได้มากกว่าบล็อกซึ่งอาจแตกต่างกันไป ขนาดบล็อกอาจแตกต่างกันเนื่องจากดิสก์ที่ใช้ระบบไฟล์ (และการตั้งค่า) ที่ใช้และอื่น ๆ บางครั้งขนาดบล็อกอาจเป็น 512 ไบต์หรือบางครั้งอาจมีขนาด 4096 ไบต์ซึ่งบางครั้งก็เป็นอย่างอื่น

การใช้ตาราง inode

ด้วยระบบไฟล์ที่มี inodes แบบไดนามิก (เช่น XFS) ไม่มีอะไร ด้วยระบบไฟล์ที่มีแผนที่ inodes แบบคงที่ (เช่น ext3) ทุกอย่าง หากคุณมีการรวมกันของ inode แบบคงที่ระบบไฟล์ขนาดใหญ่และไดเรกทอรีจำนวนมากและไฟล์ขนาดเล็กคุณอาจพบสถานการณ์ที่คุณไม่สามารถสร้างไฟล์เพิ่มเติมในพาร์ติชันนั้นได้แม้ว่าในทางทฤษฎีจะมีพื้นที่ว่างเหลืออยู่มากมาย ไม่มี inodes ฟรี == ไม่ดี


พิจารณาการใช้ inode ขณะนี้ฉันใช้ ext4 และ max-indodes และ open-inodes ในกราฟนั้นใกล้เคียงกันมาก (เปิด: ขนาดตาราง 31.11k: 32.12k) ซึ่งจะทำให้ฉันเหลือประมาณ 1k inodes เนื่องจากระบบติดตั้งใหม่ฉันไม่เชื่อว่านี่จะเป็นปัญหา Ext4 จัดสรร inode แบบไดนามิกหรือไม่? ฉันไม่ได้พบอะไรเกี่ยวกับว่าใน google ...
exhuma

ดูdf -iว่ามันรายงานการใช้งาน inode ปัจจุบันของคุณ ext4 ได้แก้ไข inodes ตัวอย่างเช่น Fedora 16 รายงานของฉันสำหรับพาร์ติชันรูทของฉันrootfs 3276800 238083 3038717 8% /
Janne Pikkarainen

อืม ... น่าสนใจ นี่แสดงว่ากราฟ munin ไม่ถูกต้อง ฉันก็ไม่รู้เหมือนกันว่ากราฟ munin แสดงค่าเดียวเท่านั้น มันควรจะไม่แสดงหนึ่งค่าต่อระบบไฟล์ที่จะเป็นประโยชน์? ดูdf -iภาพหน้าจอ ( i44.tinypic.com/oixkiq.png ) เทียบกับ munin-graph ( i39.tinypic.com/dxl64z.png )
exhuma

... ค่าในกราฟ (25.57k) เป็นจริงไม่เห็นเลยในdfผลลัพธ์
exhuma

เมื่อตรวจสอบต่อไปผมเห็นว่าปลั๊กอิน munin ใช้ค่าจากopen_inodes /proc/sys/fs/inode-nrมันเป็นเคอร์เนลไม่ใช่ค่าระบบไฟล์ googling อีกเล็กน้อยชี้ให้ฉันเห็นสิ่งนี้: mjmwired.net/kernel/Documentation/sysctl/fs.txt#119จากเอกสารนั้นฉันคิดว่าขีด จำกัด สามารถพบinode-maxได้ แต่ไฟล์นี้ไม่มีอยู่ในระบบของฉัน มีความเป็นไปได้ไหมที่เมล็ดพันธุ์ใหม่นี้ไม่เกี่ยวข้องอีกต่อไป? นี่จะทำให้ฉันสามารถลบกราฟนี้ออกจากอินสแตนซ์ของฉัน!
exhuma
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.