วิธีการวัด "ระยะทาง" ทางสถิติระหว่างการแจกแจงความถี่สองครั้ง


14

ฉันกำลังดำเนินโครงการวิเคราะห์ข้อมูลซึ่งเกี่ยวข้องกับการตรวจสอบเวลาการใช้งานเว็บไซต์ตลอดระยะเวลาหนึ่งปี สิ่งที่ฉันต้องการจะทำคือการเปรียบเทียบว่า "สอดคล้อง" รูปแบบการใช้พูดว่าใกล้เคียงกับรูปแบบที่เกี่ยวข้องกับการใช้งานเป็นเวลา 1 ชั่วโมงสัปดาห์ละครั้งหรือหนึ่งที่เกี่ยวข้องกับการใช้มันเป็นเวลา 10 นาทีต่อครั้ง 6 สัปดาห์ละครั้ง ฉันตระหนักถึงหลายสิ่งที่สามารถคำนวณได้:

  • เอนโทรปีของแชนนอน:วัดว่า "ความแน่นอน" ในผลลัพธ์นั้นแตกต่างกันเท่าใดนั่นคือการกระจายความน่าจะเป็นที่ต่างไปจากชุดที่เป็นเท่าไหร่;
  • Kullback-Liebler divergence:วัดว่าการกระจายความน่าจะเป็นหนึ่งที่แตกต่างจากที่อื่น
  • Jensen-Shannon divergence:คล้ายกับ KL-divergence แต่มีประโยชน์มากกว่าเมื่อมันส่งคืนค่า จำกัด
  • การทดสอบ Smirnov-Kolmogorov : การทดสอบเพื่อตรวจสอบว่าฟังก์ชันการแจกแจงสะสมสองฟังก์ชันสำหรับตัวแปรสุ่มต่อเนื่องมาจากตัวอย่างเดียวกันหรือไม่
  • การทดสอบแบบไคสแควร์: การทดสอบความดีพอดีเพื่อตัดสินว่าการกระจายความถี่แตกต่างจากการกระจายความถี่ที่คาดหวังได้ดีเพียงใด

สิ่งที่ฉันต้องการจะทำคือการเปรียบเทียบระยะเวลาการใช้งานจริง (สีฟ้า) แตกต่างจากเวลาการใช้งานที่เหมาะสมที่สุด (สีส้ม) ในการกระจาย การแจกแจงเหล่านี้ไม่ต่อเนื่องและรุ่นด้านล่างจะถูกทำให้เป็นมาตรฐานเพื่อการแจกแจงความน่าจะเป็น แกนนอนแสดงจำนวนเวลา (เป็นนาที) ที่ผู้ใช้ใช้บนเว็บไซต์ สิ่งนี้ถูกบันทึกไว้ในแต่ละวันของปี; หากผู้ใช้ไม่ได้ไปที่เว็บไซต์เลยนับว่าเป็นระยะเวลาเป็นศูนย์ แต่สิ่งเหล่านี้จะถูกลบออกจากการแจกแจงความถี่ ด้านขวาเป็นฟังก์ชันการแจกแจงสะสม

การกระจายข้อมูลการใช้งานเว็บไซต์กับข้อมูลการใช้งานในอุดมคติ

ปัญหาเดียวของฉันคือแม้ว่าฉันจะได้รับ JS-divergence เพื่อคืนค่า จำกัด เมื่อฉันดูผู้ใช้ที่แตกต่างกันและเปรียบเทียบการกระจายการใช้งานของพวกเขากับอุดมคติ แต่ฉันได้รับค่าที่เหมือนกันมากที่สุด (ซึ่งไม่ดี ตัวบ่งชี้ว่ามีความแตกต่างกันเท่าใด) นอกจากนี้ข้อมูลบางส่วนจะหายไปเมื่อ normalizing เป็นการแจกแจงความน่าจะเป็นมากกว่าการแจกแจงความถี่ (พูดว่านักเรียนใช้แพลตฟอร์ม 50 ครั้งจากนั้นการกระจายสีน้ำเงินควรปรับขนาดในแนวตั้งเพื่อให้ความยาวทั้งหมดของแท่งเท่ากับ 50 และ แถบสีส้มควรมีความสูง 50 แทนที่จะเป็น 1) ส่วนหนึ่งของสิ่งที่เราหมายถึงโดย "ความสอดคล้อง" คือไม่ว่าผู้ใช้จะเข้าสู่เว็บไซต์บ่อยแค่ไหนส่งผลต่อจำนวนผู้ใช้ที่ออกไป หากจำนวนครั้งที่พวกเขาเข้าชมเว็บไซต์หายไปจากนั้นการเปรียบเทียบการแจกแจงความน่าจะเป็นนั้นค่อนข้างน่าสงสัย แม้ว่าการแจกแจงความน่าจะเป็นของระยะเวลาของผู้ใช้นั้นใกล้เคียงกับการใช้ "อุดมคติ" ผู้ใช้รายนั้นอาจใช้แพลตฟอร์มเป็นเวลา 1 สัปดาห์ในช่วงปีซึ่งเนื้อหาไม่สอดคล้องกันมากนัก

มีเทคนิคใดบ้างที่ได้รับการยอมรับมาเป็นอย่างดีสำหรับการเปรียบเทียบการแจกแจงความถี่สองแบบและการคำนวณตัวชี้วัดบางอย่างซึ่งแสดงให้เห็นว่ามีความคล้ายคลึงกัน (หรือต่างกัน) อย่างไร


4
คุณอาจต้องการเริ่มต้นด้วยการถามตัวคุณเองว่าฟังก์ชั่นการสูญเสียของคุณคืออะไรนั่นคือรูปแบบการใช้งานที่แตกต่างจากความเลวในอุดมคติและจำนวนความเลวนั้นขึ้นอยู่กับว่ามีความแตกต่างกันอย่างไร รอบ ๆ นั้น
สะสม

คำตอบ:


12

คุณอาจจะสนใจในระยะทางที่ผู้เสนอญัตติของโลกยังเป็นที่รู้จักในฐานะเมตริก Wasserstein มันถูกนำมาใช้ในการวิจัย (ดูที่emdistแพคเกจ) และงูหลาม เรายังมีจำนวนของหัวข้อเกี่ยวกับมัน

เมอร์คทำงานได้ทั้งการแจกแจงแบบต่อเนื่องและแบบแยก emdistแพคเกจสำหรับ R ทำงานในการกระจายที่ไม่ต่อเนื่อง

ข้อได้เปรียบเหนือกว่าบางอย่างเช่นสถิติคือ EMD ให้ผลลัพธ์ที่สามารถตีความได้ ลองนึกภาพการกระจายของคุณในรูปของกองดินจากนั้นเมอร์คจะบอกคุณว่าคุณต้องใช้เวลาเท่าไหร่ในการเปลี่ยนการกระจายตัวหนึ่งให้เป็นอีกโลกχ2

ใส่อีกวิธีหนึ่ง: การแจกแจงสองครั้ง (1,0,0) และ (0,1,0) ควรจะ "คล้ายกันมากกว่า" มากกว่า (1,0,0) และ (0,0,1) เมอร์คจะจดจำสิ่งนี้และกำหนดระยะทางที่สั้นกว่าให้กับคู่แรกมากกว่าคู่ที่สอง สถิติที่จะกำหนดระยะทางเดียวกันทั้งคู่เพราะมีความเชื่อในเรื่องของการสั่งซื้อในรายการที่จัดจำหน่ายไม่มีχ2


ทำไมระยะทางนั้น? ดูเหมือนว่าจะได้รับการออกแบบสำหรับการกระจายอย่างต่อเนื่อง OP มีการแจกแจงความถี่ดังนั้นทำไมระยะทางที่ไม่ต่อเนื่องเช่น Chi-square?
user2974951

@ user2974951: ยุติธรรมเพียงพอ ดูการแก้ไขของฉัน
Stephan Kolassa

หากการแจกแจงเป็น 1D ตามที่แนะนำในคำถามการเรียกใช้และตัวแก้ EMD นั้นมากเกินไป สิ่งที่ต้องทำในกรณีนี้ก็คือการคำนวณเมตริกระหว่างฟังก์ชันเชิงปริมาณเชิงประจักษ์ของความหนาแน่นทั้งสอง p.31 ในarxiv.org/abs/1803.00567หรือหากคุณต้องการรายละเอียดบัญชีบทที่ 2 เพิ่มเติมของmath.u-psud.fr/~filippo/OTAM-cvgmt.pdfLพี
Marco Cuturi

@MarcoCuturi: ระยะทางเป็นไปได้อีกอย่างแน่นอน อย่างไรก็ตามมันจะกำหนดระยะห่างเดียวกันระหว่าง (1,0,0) และ (0,1,0) เป็นระหว่าง (1,0,0) และ (0,0,1) ซึ่งเป็นบิตที่ไม่ได้ใช้งานง่าย ความดีที่เพิ่มขึ้นของ EMD นั้นมีค่าหรือไม่ความซับซ้อนที่เพิ่มขึ้นนั้นเป็นสิ่งที่ OP สามารถพิจารณาได้ Lพี
เตฟาน Kolassa

3

หากคุณสุ่มตัวอย่างบุคคลจากการแจกแจงสองแบบคุณสามารถคำนวณความแตกต่างระหว่างพวกเขาได้ หากคุณทำซ้ำหลายครั้งคุณสามารถสร้างการกระจายของความแตกต่างที่มีข้อมูลทั้งหมดที่คุณมีอยู่ คุณสามารถพล็อตการกระจายตัวนี้และอธิบายลักษณะด้วยสถิติสรุปที่คุณต้องการไม่ว่าจะเป็นค่ามัธยฐาน ฯลฯ


1
มีชื่อสำหรับขั้นตอนดังกล่าวหรือไม่?
user2974951

4
ฉันสงสัยว่าใครจะอธิบายความจริงพื้นฐานที่การกระจายความแตกต่างสำหรับการแจกแจงโดยพลการและตัวมันเองจะแตกต่างกันสำหรับการแจกแจงตามอำเภอใจที่แตกต่างกัน คิดว่าคุณ (0,1) กับตัวเองเมื่อเทียบกับ N (0,1) กับตัวเอง ดังนั้นการกระจายความแตกต่างที่คุณจะได้รับการเปรียบเทียบการแจกแจงที่แตกต่างกันสองแบบนั้นยากที่จะประเมินว่าไม่มีพื้นฐานที่ไม่เหมือนใคร ปัญหาจะหายไปหากมีการจับคู่การสังเกตจากนั้นพื้นฐานจะเป็นมวลหน่วยที่ศูนย์
Richard Hardy

@ user2974951 ฉันแน่ใจว่ามีเพราะมันค่อนข้างง่ายและเกี่ยวข้องอย่างชัดเจนกับการบูตสแตรป แต่ฉันไม่รู้ว่าจะเรียกมันว่าอะไรอย่างแม่นยำ
mkt - Reinstate Monica

1
@ mkt ขอบคุณสำหรับการชี้แจงของคุณ โดยไม่ตั้งใจที่จะเถียงเพียงเพื่อประโยชน์ของมันฉันยังคงคิดว่าถ้าไม่มีพื้นฐานที่ไม่ซ้ำกันเราไม่มีไม้บรรทัด แต่ฉันจะทิ้งมันไว้อย่างนั้น มีบางอย่างที่ดีเกี่ยวกับความคิดของคุณอยู่แล้ว
Richard Hardy

1
@RichardHardy ฉันขอขอบคุณการแลกเปลี่ยนที่นี่และคุณอาจจะพูดถูก ฉันจะต้องคิดเรื่องนี้ต่อไป
mkt - Reinstate Monica

0

หนึ่งในตัวชี้วัดคือระยะทาง Hellinger ระหว่างการแจกแจงสองแบบซึ่งมีลักษณะด้วยวิธีการและส่วนเบี่ยงเบนมาตรฐาน แอปพลิเคชันสามารถพบได้ในบทความต่อไปนี้

https://www.sciencedirect.com/science/article/pii/S1568494615005104


ขอบคุณสำหรับสิ่งนั้น ฉันได้เห็นว่ามีทั้งครอบครัวของ divergences (f-divergences) ซึ่งทำในสิ่งที่ฉันต้องการ แต่สะบัดอย่างรวดเร็วผ่านวรรณกรรมดูเหมือนจะไม่บ่งบอกถึงสิ่งที่ดีที่สุดเมื่อ ... คุณรู้วรรณกรรมที่ดีเกี่ยวกับ นี้?
omegaSQU4RED
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.