ยิ่งฉันมองมันมากเท่าไหร่ฉันก็ยิ่งคิดว่ามีปัญหากับการรวบรวมข้อมูล
ก่อนอื่นมีบางอย่างแปลก ๆ เกิดขึ้นกับ TPS ของคุณ ในขณะที่รูปแบบโดยรวมดูปกติมีการแบ่งที่คมชัดมากเกิดขึ้นเวลาประมาณ 21.00 น. จากนั้นอีกครั้งเวลาประมาณ 7 โมงเช้า แผนภูมิปกติจะราบรื่นกว่ามากในระหว่างการเปลี่ยนเป็นชั่วโมงที่มีการใช้งานน้อย
นั่นแสดงให้เห็นว่ามีการเปลี่ยนแปลงในโปรไฟล์และคุณอาจมีลูกค้า 2 ประเภทที่แตกต่างกัน:
- หนึ่งที่ทำงานระหว่าง 7am (ish) และ 21:00 (ish) ที่ปริมาณสูงและ
- อีกอันที่อาจทำงานได้ตลอดเวลาในระดับเสียงที่ต่ำกว่า
คำใบ้ที่สองประมาณเวลา 18:00 น. ส่วนใหญ่เวลาก่อนและหลังเรามีสูงรายละเอียดปริมาณ - TPS สูงและ latency ต่ำ แต่เวลาประมาณ 18:00 น. จะมีการลดลงอย่างกระทันหันจาก 800-1,000 รอบต่อนาทีเป็นน้อยกว่า 400 รอบต่อนาที อะไรที่อาจทำให้เกิดสิ่งนั้น
คำใบ้ที่สามคือขั้นตอนลงในเวลาตอบสนองเปอร์เซ็นไทล์ที่ 5 ฉันชอบดูเวลาตอบสนองขั้นต่ำ (แต่เปอร์เซ็นไทล์อันดับ 5 อาจดีกว่า) ด้วยเหตุผลสองประการ: มันบอกเวลาให้บริการ (เช่นเวลาตอบสนองลบด้วยการเข้าคิว) และเวลาตอบสนองมักจะตามด้วยการกระจาย Weibull ซึ่งหมายความว่าโหมด (หรือค่าที่พบบ่อยที่สุด) อยู่เหนือระดับต่ำสุด
ดังนั้นการลดระดับลงในเปอร์เซ็นไทล์อันดับที่ 5 จึงบอกกับฉันว่ามีการหยุดกระทันหันในซีรีย์และเวลาบริการลดลงจริง ๆ แล้วทั้งความแปรปรวนและเวลาตอบสนองเฉลี่ยเพิ่มขึ้นอย่างมาก
ขั้นตอนถัดไป
ในขั้นตอนนี้ฉันจะดำดิ่งลงสู่ท่อนซุงเพื่อค้นหาว่าอะไรคือความแตกต่างของตัวอย่างปริมาณต่ำ 18:00 เมื่อเทียบกับตัวอย่างที่มีปริมาณสูงก่อนและหลัง
ฉันจะมองหา:
- ความแตกต่างในที่ตั้งทางภูมิศาสตร์ (ในกรณีเวลาแฝงส่งผลกระทบต่อ $ request_time)
- ความแตกต่างใน URL (ไม่ควรมี)
- ความแตกต่างในวิธี HTTP (POST / GET) (ไม่ควรมี)
- คำขอซ้ำจาก IP เดียวกัน
- และความแตกต่างอื่น ๆ ...
BTW เหตุการณ์ "18:00" เป็นหลักฐานเพียงพอสำหรับฉันที่ว่าไม่มีอะไรเกี่ยวข้องกับความหนาแน่นของศูนย์ข้อมูล / กิจกรรม เพื่อที่จะเป็นจริงความแออัดจะต้องทำให้ลดลงใน TPS ซึ่งเป็นไปได้ที่ 18:00 แต่ไม่น่าเป็นไปได้อย่างยิ่งที่จะทำให้เกิดการยั่งยืนและลดลงอย่างราบรื่นโค้งใน TPS เป็นเวลา 10 ชั่วโมงระหว่าง 21: 00-07: 00