การวัด "ระยะทาง" ระหว่างการแจกแจงหลายตัวแปรสองค่า


28

ฉันกำลังมองหาคำศัพท์ที่ดีเพื่ออธิบายสิ่งที่ฉันพยายามทำเพื่อให้ง่ายต่อการค้นหาแหล่งข้อมูล

ดังนั้นบอกว่าฉันมีสองกลุ่มของจุด A และ B แต่ละคนที่เกี่ยวข้องกับสองค่า X และ Y และฉันต้องการวัด "ระยะทาง" ระหว่าง A และ B - นั่นคือโอกาสที่พวกเขาถูกสุ่มตัวอย่างจากการกระจายเดียวกัน (ฉันสามารถสันนิษฐานได้ว่าการแจกแจงเป็นเรื่องปกติ) ตัวอย่างเช่นถ้า X และ Y มีความสัมพันธ์ใน A แต่ไม่ใช่ใน B การแจกแจงจะแตกต่างกัน

โดยสังหรณ์ใจฉันจะได้เมทริกซ์ความแปรปรวนร่วมของ A แล้วดูว่าแต่ละจุดใน B น่าจะพอดีกับที่นั่นและในทางกลับกัน (อาจใช้ Someting เหมือนระยะทาง Mahalanobis)

แต่นั่นเป็นบิต "ad-hoc" และอาจมีวิธีการอธิบายที่เข้มงวดกว่านี้ (แน่นอนในทางปฏิบัติฉันมีชุดข้อมูลมากกว่าสองชุดที่มีตัวแปรมากกว่าสองตัว - ฉันพยายามระบุว่าชุดข้อมูลชุดใดของฉัน เป็นค่าผิดปกติ)

ขอบคุณ!


Dunno ทำไม แต่มีการทดสอบหิ้งในด้านหน้าของฉันเมื่อฉันอ่านโพสต์ของคุณ
Roman Luštrik

คำตอบ:


15

นอกจากนี้ยังมีความแตกต่างKullback-Leiblerซึ่งเกี่ยวข้องกับระยะทาง Hellinger ที่คุณกล่าวถึงข้างต้น


2
สามารถคำนวณการเบี่ยงเบนของ Kullback-Leibler ของคะแนนโดยไม่ทำให้สมมติฐานของความหนาแน่นของความน่าจะเป็นพื้นฐานที่คะแนนมาจากไหน
Andre Holzner

16

อืมระยะทาง Bhattacharyyaดูเหมือนจะเป็นสิ่งที่ฉันกำลังมองหาอยู่แม้ว่าระยะทาง Hellingerก็ใช้ได้เช่นกัน


คุณพูดถึง Bhattacharyya และ Helling แล้วยอมรับคำตอบที่พูดเกี่ยวกับ KL ... ในที่สุดคุณมีทางเลือกอะไรและเพราะเหตุใด
Simon C.

1
ฉันเชื่อว่ามันคือ KL divergence แต่ ... นั่นเป็นในปี 2010 และความทรงจำของฉันก็ยังห่างไกลจากความสมบูรณ์แบบ
Emile

อ่าใช่ฉันเดาว่า แต่ขอขอบคุณอยู่ดี!
Simon C.

9

Heuristic

  • คอฟสกีฟอร์ม
  • ถ่วงน้ำหนัก - ค่าความแปรปรวน (WMV)

สถิติทดสอบที่ไม่ใช่พารามิเตอร์

  • 2 (จัตุรัสจิ)
  • Kolmogorov-Smirnov (KS)
  • Cramer / von Mises (CvM)

ความแตกต่างของทฤษฎีสารสนเทศ

  • Kullback-Liebler (KL)
  • เซ่น - แชนนอนแตกต่าง (ตัวชี้วัด)
  • Jeffrey-divergence (ตัวเลขมีเสถียรภาพและสมมาตร)

มาตรการระยะทางพื้นดิน

  • จุดตัดฮิสโตแกรม
  • รูปแบบสมการกำลังสอง (QF)
  • ระยะทางตัวย้ายแผ่นดิน (EMD)


0

อีกไม่กี่มาตรการของ "ความแตกต่างทางสถิติ"

  • การทดสอบการเปลี่ยนรูป (โดยฟิชเชอร์)
  • ทฤษฎีบทขีด จำกัด กลางและทฤษฎีบทของ Slutsky
  • การทดสอบ Mann-Whitney-Wilcoxin
  • แอนเดอร์สัน - ดาร์ลิ่งทดสอบ
  • ทดสอบ Shapiro – Wilk
  • การทดสอบ Hosmer – Lemeshow
  • การทดสอบของ Kuiper
  • ความแตกต่างของเคอร์เนล Stein
  • Jaccard คล้ายคลึงกัน
  • นอกจากนี้การทำคลัสเตอร์แบบลำดับชั้นจะจัดการกับความคล้ายคลึงกันระหว่างกลุ่ม มาตรการที่ได้รับความนิยมมากที่สุดของความคล้ายคลึงกันของกลุ่มอาจเป็นเพียงการเชื่อมโยงเดี่ยวการเชื่อมโยงที่สมบูรณ์และการเชื่อมโยงโดยเฉลี่ย
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.