การแจกแจงระยะยาวของเหตุการณ์เวลา


10

สมมติว่าคุณมีบันทึกของเว็บเซิร์ฟเวอร์ ในบันทึกเหล่านี้คุณมีสิ่งอันดับ:

user1, timestamp1
user1, timestamp2
user1, timestamp3
user2, timestamp4
user1, timestamp5
...

เวลาประทับเหล่านี้แสดงเช่นการคลิกของผู้ใช้ ตอนนี้user1จะเข้าชมเว็บไซต์หลายครั้ง (เซสชัน) ในระหว่างเดือนและคุณจะมีจำนวนคลิกจากผู้ใช้แต่ละคนในแต่ละเซสชัน (หากว่าเมื่อผู้ใช้เยี่ยมชมเว็บไซต์ของคุณเขาจะคลิกหลายหน้า)

สมมติว่าคุณต้องการแบ่งการคลิกเหล่านี้ในเซสชันที่สร้างพวกเขา แต่คุณไม่มีแหล่งข้อมูลเพิ่มเติมใด ๆ เพียงรายการของการประทับเวลา หากคุณคำนวณการแจกแจงช่วงเวลาระหว่างการคลิกสองครั้งที่ตามมาจากผู้ใช้เดียวกันคุณจะได้รับการแจกแจงแบบยาว โดยสังเขปคุณจะมองหา "พารามิเตอร์ที่ถูกตัด" เช่น N วินาทีซึ่งถ้าเป็นtimestamp_{i+1} - timestamp{i} > Nเช่นนั้นคุณtimestamp_{i+1}จะเป็นจุดเริ่มต้นของเซสชันใหม่

ปัญหาคือว่าการกระจายตัวนี้ในความเป็นจริงเป็นการผสมผสานของตัวแปรสองตัว: X = "ช่วงเวลาระหว่างการคลิกสองครั้งที่เกิดขึ้นในเซสชันเดียวกัน" และ Y = "ช่วงเวลาระหว่างการคลิกครั้งสุดท้ายของเซสชันก่อนหน้าและครั้งแรกของใหม่"

คำถามคือวิธีประมาณ N นี้ที่หารการแจกแจงสองแบบ (โดยมีการทับซ้อนกันเล็กน้อย) เพียงแค่ดูการระเบิดของการคลิก


เมื่อคุณพูดว่า "เพียงแค่ดูการคลิกจำนวนมาก" หมายความว่าคุณไม่สามารถคำนวณอะไรนอกจาก N
jerad

ฉันหมายความว่าคุณไม่มีแหล่งข้อมูลเพิ่มเติมนอกเหนือจาก tuples (ผู้ใช้, การประทับเวลา) วิธีการตามเกณฑ์ (ตามเดลต้า> N) เป็นเพียงตัวอย่างของวิธีการ บางทีอย่างอื่นก็เป็นไปได้
marcorossi

กระทู้นี้อาจจะเป็นที่สนใจของคุณ: ที่เหมาะสม-การจัดกลุ่ม-เทคนิคสำหรับขมับข้อมูล
gung - Reinstate Monica

คำตอบ:


2

คุณควรพล็อตลอการิทึมของช่วงเวลาระหว่างคลิกแทนค่าดิบ สิ่งนี้จะทำให้การกระจายของคุณแบนและอาจเปิดเผยหลายโหมดในการกระจายของคุณ

วิธีการขั้นสูงเพิ่มเติมได้รับการพัฒนาโดยนักประสาทวิทยาเพื่อแก้ปัญหาที่คล้ายกันมากในการระบุการแตกของเส้นประสาทเส้นประสาท นี้กระดาษคลาสสิกหรือหลายเอกสารอื่น ๆ ที่เกี่ยวข้องบนGoogle Scholar


ฉันพิมพ์บันทึกการใช้งานของการแจกจ่าย มันเป็นเส้นแบน มันช่วยได้อย่างไร คุณจะมองอะไร ขอบคุณสำหรับการอ้างอิงที่ดีขอบคุณ
marcorossi

พล็อตเรื่องความน่าจะเป็นของล็อกเป็นอย่างไร? คือใช้บันทึกของความถี่เท่านั้นไม่ใช่ช่วงเวลา นั่นเป็นการเปิดเผยสองโหมดหรือไม่?
jerad
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.