ทดสอบว่าการกระจายหลายมิติเหมือนกันหรือไม่


15

ให้บอกว่าฉันมีประชากรตัวอย่างสองตัวหรือมากกว่าของเวกเตอร์ที่มีมูลค่าต่อเนื่องแบบมิติ n มีวิธีที่ไม่ใช้พารามิเตอร์เพื่อทดสอบว่าตัวอย่างเหล่านี้มาจากการแจกแจงแบบเดียวกันหรือไม่? ถ้าเป็นเช่นนั้นจะมีฟังก์ชั่นใน R หรือหลามนี้หรือไม่?


2
การทดสอบ Kolmogorov-Smirnov เป็นเครื่องมือทั่วไปที่ไม่ใช่พารามิเตอร์สำหรับการทดสอบว่าการแจกแจงสองแบบเหมือนกันหรือไม่ ฉันไม่คุ้นเคยกับมัน แต่วิกิพีเดียอ้างถึงJustel, A. , Peña, D. และ Zamar, R. (1997) การทดสอบหลายตัวแปรของ Kolmogorov-Smirnov ของความดีที่เหมาะสมสถิติและความน่าจะเป็นจดหมาย 35 (3), 251-259 สำหรับส่วนขยายหลายตัวแปรของการทดสอบนี้
มาโคร

1
มีคำถาม CV ที่อยู่นี้ในสองมิติคือstats.stackexchange.com/questions/25946/... แม้ในสองมิติไม่มีวิธีมาตรฐานที่จะทำ
Flounderer

คำตอบ:


8

ฉันเพิ่งทำการวิจัยหลายอย่างเกี่ยวกับการทดสอบตัวอย่างหลายตัวแปรสองครั้งเมื่อฉันรู้ว่าการทดสอบ Kolmogorov-Smirnov ไม่ใช่หลายตัวแปร ดังนั้นฉันมองไปที่การทดสอบ Chi, Hotelling ของ T ^ 2, Anderson-Darling, เกณฑ์ Cramer-von Mises, Shapiro-Wilk ฯลฯ คุณต้องระวังเพราะการทดสอบเหล่านี้บางตัวอาศัยเวกเตอร์ที่เปรียบเทียบกับสิ่งเดียวกัน ความยาว. อื่น ๆ ใช้เพื่อปฏิเสธข้อสันนิษฐานของภาวะปกติไม่ใช่เพื่อเปรียบเทียบการแจกแจงตัวอย่างสองแบบ

โซลูชันชั้นนำดูเหมือนจะเปรียบเทียบฟังก์ชั่นการแจกแจงสะสมสองตัวอย่างกับการเรียงลำดับที่เป็นไปได้ทั้งหมดซึ่งในขณะที่คุณอาจสงสัยว่ามีความเข้มข้นในการคำนวณมากตามลำดับนาทีสำหรับการเรียกใช้ตัวอย่างเดี่ยวที่มีเร็กคอร์ดสองสามพันรายการ

https://cran.r-project.org/web/packages/Peacock.test/Peacock.test.pdf

ในฐานะที่เป็นเอกสารประกอบของ Xiao การทดสอบ Fasano และ Franceschini เป็นตัวแปรของการทดสอบ Peacock:

http://adsabs.harvard.edu/abs/1987MNRAS.225..155F

การทดสอบ Fasano และ Franceschini นั้นมีจุดประสงค์เฉพาะเพื่อให้ใช้งานกับการคำนวณน้อยลง แต่ฉันไม่พบการใช้งานของพวกเขาใน R

สำหรับผู้ที่ต้องการสำรวจแง่มุมการคำนวณของการทดสอบ Peacock กับ Fasano และ Franceschini ลองดูอัลกอริทึมที่มีประสิทธิภาพเชิงคำนวณสำหรับการทดสอบ Kolmogorov – Smirnov สองมิติ


การกระจายแบบสะสมสำหรับหลายตัวแปรคืออะไร
Aksakal

2
@ Aksakalมีลักษณะทั่วไปถึงหลากหลายรูปแบบและฟังก์ชันการแจกแจงสะสมแบบหลายตัวแปรเชิงประจักษ์มีค่าประมาณใกล้เคียงกันn p F ( x , y ) = n i = 1 I ( X i < x , Y i < y ) / nF(x,y)=P(X<x,Y<y)pF(x,y)=i=1nI(Xi<x,Yi<y)/n
AdamO

2
ดีและรัดกุม AdamO การทดสอบนกยูงดูโง่ ๆ อย่างจริงจังเมื่อไม่ตัดแต่งกิ่งอย่างที่ฟาซาโนและฟรานเชสชิทำ หวังว่าใครบางคนตัดสินใจที่จะเขียนโค้ดขึ้นมาหนึ่งวันสำหรับอาร์มันมีประโยชน์อย่างยิ่งสำหรับความเร็วเมื่อคุณมีการย่อยสลายต่อไปอาจเป็นตัวแปรเด็ดขาดและต้องการดูว่าการย่อยสลายของคุณมาจากการแจกแจงที่แตกต่างกันหรือไม่
L Fischman

1

R package np (ไม่ใช่พารามิเตอร์) มีการทดสอบความเท่าเทียมกันของความหนาแน่นของข้อมูลอย่างต่อเนื่องและเด็ดขาดโดยใช้ความหนาแน่นกำลังสองรวม Li, Maasoumi และ Racine (2009)

เช่นเดียวกับรูปแบบไฟล์ PDF NP เงื่อนไขในมาตรา 6


1

ใช่มีวิธีการทดสอบที่ไม่ใช่พารามิเตอร์หากตัวอย่างหลายตัวแปรสองตัวอย่างมาจากการกระจายข้อต่อเดียวกัน ผมจะพูดถึงรายละเอียดไม่รวมคนที่กล่าวถึงโดยL Fischman ปัญหาพื้นฐานที่คุณถามอาจเรียกว่า 'สองตัวอย่าง - ปัญหา' และมีการวิจัยจำนวนมากที่เกิดขึ้นในวารสารเช่นวารสารการเรียนรู้ของการเรียนรู้ด้วยเครื่องจักรและบันทึกสถิติและอื่น ๆ ด้วยความรู้เล็กน้อยของฉันเกี่ยวกับปัญหานี้ฉันสามารถกำหนดทิศทางได้ดังนี้

  • วิธีหนึ่งในการทดสอบชุดตัวอย่างหลายตัวแปรเมื่อเร็ว ๆ นี้คือการผ่านค่าเฉลี่ยความคลาดเคลื่อนสูงสุด (MMD) วรรณกรรมที่เกี่ยวข้อง: Arthur Gretton 2012 , Bharath 2010และอื่น ๆ วิธีการอื่น ๆ ที่เกี่ยวข้องสามารถพบได้ในบทความวิจัยเหล่านี้ หากสนใจโปรดอ่านบทความที่อ้างถึงบทความเหล่านี้เพื่อรับภาพใหญ่ของสถานะของศิลปะในปัญหานี้ และใช่สำหรับเรื่องนี้มีการใช้งาน R

หากสนใจของคุณคือการเปรียบเทียบชุดจุดต่างๆ (ชุดตัวอย่าง) กับชุดจุดอ้างอิงเพื่อดูว่าพวกเขาอย่างใกล้ชิดใกล้เคียงกับชุดจุดอ้างอิงคุณสามารถใช้F-แตกต่าง

  • หนึ่งในกรณีพิเศษที่เป็นที่นิยมของที่นี่คือKullback-Leibler Divergence สิ่งนี้ใช้ในหลาย ๆ ระบบการเรียนรู้ของเครื่อง สามารถทำได้อีกครั้งในสองวิธี np; ผ่านแนวทาง parzen window (เคอร์เนล) และตัวประมาณ K- ใกล้เคียง PDF

อาจมีวิธีอื่นในการเข้าหาคำตอบนี้ไม่มีทางที่จะรักษาคำถามของคุณได้อย่างสมบูรณ์;)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.