ฉันกำลังดำเนินโครงการวิเคราะห์ข้อมูลซึ่งเกี่ยวข้องกับการตรวจสอบเวลาการใช้งานเว็บไซต์ตลอดระยะเวลาหนึ่งปี สิ่งที่ฉันต้องการจะทำคือการเปรียบเทียบว่า "สอดคล้อง" รูปแบบการใช้พูดว่าใกล้เคียงกับรูปแบบที่เกี่ยวข้องกับการใช้งานเป็นเวลา 1 ชั่วโมงสัปดาห์ละครั้งหรือหนึ่งที่เกี่ยวข้องกับการใช้มันเป็นเวลา 10 นาทีต่อครั้ง 6 สัปดาห์ละครั้ง ฉันตระหนักถึงหลายสิ่งที่สามารถคำนวณได้:
- เอนโทรปีของแชนนอน:วัดว่า "ความแน่นอน" ในผลลัพธ์นั้นแตกต่างกันเท่าใดนั่นคือการกระจายความน่าจะเป็นที่ต่างไปจากชุดที่เป็นเท่าไหร่;
- Kullback-Liebler divergence:วัดว่าการกระจายความน่าจะเป็นหนึ่งที่แตกต่างจากที่อื่น
- Jensen-Shannon divergence:คล้ายกับ KL-divergence แต่มีประโยชน์มากกว่าเมื่อมันส่งคืนค่า จำกัด
- การทดสอบ Smirnov-Kolmogorov : การทดสอบเพื่อตรวจสอบว่าฟังก์ชันการแจกแจงสะสมสองฟังก์ชันสำหรับตัวแปรสุ่มต่อเนื่องมาจากตัวอย่างเดียวกันหรือไม่
- การทดสอบแบบไคสแควร์: การทดสอบความดีพอดีเพื่อตัดสินว่าการกระจายความถี่แตกต่างจากการกระจายความถี่ที่คาดหวังได้ดีเพียงใด
สิ่งที่ฉันต้องการจะทำคือการเปรียบเทียบระยะเวลาการใช้งานจริง (สีฟ้า) แตกต่างจากเวลาการใช้งานที่เหมาะสมที่สุด (สีส้ม) ในการกระจาย การแจกแจงเหล่านี้ไม่ต่อเนื่องและรุ่นด้านล่างจะถูกทำให้เป็นมาตรฐานเพื่อการแจกแจงความน่าจะเป็น แกนนอนแสดงจำนวนเวลา (เป็นนาที) ที่ผู้ใช้ใช้บนเว็บไซต์ สิ่งนี้ถูกบันทึกไว้ในแต่ละวันของปี; หากผู้ใช้ไม่ได้ไปที่เว็บไซต์เลยนับว่าเป็นระยะเวลาเป็นศูนย์ แต่สิ่งเหล่านี้จะถูกลบออกจากการแจกแจงความถี่ ด้านขวาเป็นฟังก์ชันการแจกแจงสะสม
ปัญหาเดียวของฉันคือแม้ว่าฉันจะได้รับ JS-divergence เพื่อคืนค่า จำกัด เมื่อฉันดูผู้ใช้ที่แตกต่างกันและเปรียบเทียบการกระจายการใช้งานของพวกเขากับอุดมคติ แต่ฉันได้รับค่าที่เหมือนกันมากที่สุด (ซึ่งไม่ดี ตัวบ่งชี้ว่ามีความแตกต่างกันเท่าใด) นอกจากนี้ข้อมูลบางส่วนจะหายไปเมื่อ normalizing เป็นการแจกแจงความน่าจะเป็นมากกว่าการแจกแจงความถี่ (พูดว่านักเรียนใช้แพลตฟอร์ม 50 ครั้งจากนั้นการกระจายสีน้ำเงินควรปรับขนาดในแนวตั้งเพื่อให้ความยาวทั้งหมดของแท่งเท่ากับ 50 และ แถบสีส้มควรมีความสูง 50 แทนที่จะเป็น 1) ส่วนหนึ่งของสิ่งที่เราหมายถึงโดย "ความสอดคล้อง" คือไม่ว่าผู้ใช้จะเข้าสู่เว็บไซต์บ่อยแค่ไหนส่งผลต่อจำนวนผู้ใช้ที่ออกไป หากจำนวนครั้งที่พวกเขาเข้าชมเว็บไซต์หายไปจากนั้นการเปรียบเทียบการแจกแจงความน่าจะเป็นนั้นค่อนข้างน่าสงสัย แม้ว่าการแจกแจงความน่าจะเป็นของระยะเวลาของผู้ใช้นั้นใกล้เคียงกับการใช้ "อุดมคติ" ผู้ใช้รายนั้นอาจใช้แพลตฟอร์มเป็นเวลา 1 สัปดาห์ในช่วงปีซึ่งเนื้อหาไม่สอดคล้องกันมากนัก
มีเทคนิคใดบ้างที่ได้รับการยอมรับมาเป็นอย่างดีสำหรับการเปรียบเทียบการแจกแจงความถี่สองแบบและการคำนวณตัวชี้วัดบางอย่างซึ่งแสดงให้เห็นว่ามีความคล้ายคลึงกัน (หรือต่างกัน) อย่างไร