ฉันจะทดสอบได้อย่างไรว่าตัวแปรต่อเนื่องสองตัวนั้นมีความเป็นอิสระ


48

สมมติว่าฉันมีตัวอย่างจากการจัดจำหน่ายร่วมกันของและYฉันจะทดสอบสมมติฐานที่และเป็นอิสระได้อย่างไร(Xn,Yn),n=1..NY X YXYXY

ไม่มีข้อสมมติฐานใด ๆ เกี่ยวกับการแจกแจงแบบร่วมหรือส่วนเพิ่มของและ (อย่างน้อยที่สุดของมาตรฐานร่วมทั้งหมดเนื่องจากในกรณีนั้นความเป็นอิสระนั้นเหมือนกับความสัมพันธ์เป็น )Y 0XY0

ไม่มีการสันนิษฐานเกี่ยวกับลักษณะของความสัมพันธ์ที่เป็นไปได้ระหว่างและ ; มันอาจไม่ใช่แบบเชิงเส้นดังนั้นตัวแปรจะไม่สัมพันธ์กัน ( ) แต่ขึ้นอยู่กับการมีส่วนร่วมสูง ( )YXYr=0I=H

ฉันเห็นสองแนวทาง:

  1. ถังทั้งสองตัวแปรและใช้ฟิชเชอร์การทดสอบที่แน่นอนหรือG-ทดสอบ

    • Pro: ใช้การทดสอบทางสถิติที่มีชื่อเสียง
    • คอนดิชั่น: ขึ้นอยู่กับการ binning
  2. ประเมินการพึ่งพาของและ : (นี้เป็นสำหรับอิสระและและเมื่อพวกเขาสมบูรณ์ตรวจสอบแต่ละอื่น ๆ )Y I ( X ; Y )XYI(X;Y)H(X,Y)XY10XY1

    • Pro: สร้างตัวเลขที่มีความหมายทางทฤษฎีที่ชัดเจน
    • คอนดิชั่น: ขึ้นอยู่กับการคำนวณเอนโทรปีโดยประมาณ (กล่าวคือการ binning อีกครั้ง)

วิธีการเหล่านี้เหมาะสมหรือไม่

มีวิธีอื่นใดที่ผู้คนใช้?


3
มองเข้าไปในความสัมพันธ์ระยะ
Ray Koopman


1
การพึ่งพาไม่สมเหตุสมผลเมื่อพูดถึงตัวแปรต่อเนื่อง ตัวแปรต่อเนื่องมีเอนโทรปีไม่สิ้นสุด ที่นี่คุณไม่สามารถแทนที่สำหรับค่าเอนโทรปีต่างกันได้เนื่องจากค่าเอนโทรปีไม่เหมือนกับข้อมูลร่วมกัน ในขณะที่ข้อมูลร่วมกันมี "แน่นอน" ความหมายเอนโทรปีที่แตกต่างกันอาจจะเป็นบวกศูนย์หรือติดลบขึ้นอยู่กับหน่วยงานที่คุณใช้ในการวัดตัวแปรและY H X YI(X;Y)/H(X;Y)HXY
fonini

@fonini: แน่นอนว่าฉันกำลังพูดถึงตัวแปรที่ถูกขัดจังหวะ ขอบคุณสำหรับความคิดเห็นของคุณแม้ว่า
sds

คำตอบ:


27

นี่เป็นปัญหาที่ยากมากโดยทั่วไปแม้ว่าตัวแปรของคุณจะมีเพียง 1d เท่านั้นที่ช่วยได้ แน่นอนขั้นตอนแรก (เมื่อเป็นไปได้) ควรวางแผนข้อมูลและดูว่ามีอะไรโผล่มาที่คุณหรือไม่ คุณอยู่ใน 2d ดังนั้นควรเป็นเรื่องง่าย

ต่อไปนี้เป็นวิธีการบางอย่างที่ทำงานในหรือการตั้งค่าทั่วไปเพิ่มเติม:Rn


คุณสามารถพูดสั้น ๆ ว่าวิธีการเหล่านี้เปรียบเทียบกับความสัมพันธ์ทางไกลได้อย่างไร? ฉันใช้ DC เพื่อกรองชุดข้อมูลขนาดใหญ่ (ดีมากสำหรับฉัน) ดังนั้นฉันจึงสนใจในความคิดเห็นที่คุณอาจมี ขอบคุณ!
pteetor

1
@ ผู้บรรยายที่น่าสนใจฉันไม่ได้วิ่งข้ามความสัมพันธ์ระยะทางมาก่อน ดูเหมือนว่าจะมีราคาแพงกว่าวิธีการประมาณค่าเอนโทรปีสำหรับตัวอย่างขนาดใหญ่เพราะคุณต้องการเมทริกซ์ระยะทางเต็มรูปแบบ (ซึ่งสำหรับตัวประมาณค่าเอนโทรปีคุณสามารถใช้ดัชนีเพื่อรับkเพื่อนบ้านแรกเท่านั้น) ไม่มีความคิดที่จะเปรียบเทียบในแง่ของพลังทางสถิติ / อื่น ๆ
Dougal

4
สำหรับผู้อ่านในภายหลัง: รายงานความเท่าเทียมกันของสถิติทางไกลและ RKHS บนกระดาษ 2013 ในการทดสอบสมมติฐานโดย Sejdinovic และคณะ แสดงให้เห็นว่าความสัมพันธ์ของระยะทางและระยะทางพลังงานอื่น ๆ เป็นกรณีพิเศษของ MMD ซึ่งเป็นมาตรการพื้นฐานที่อยู่เบื้องหลัง HSIC และกล่าวถึงความสัมพันธ์ในแง่ของพลังการทดสอบและอื่น ๆ
Dougal

18

Hoeffding พัฒนาทดสอบอิงพารามิเตอร์ทั่วไปของความเป็นอิสระของตัวแปรทั้งสองอย่างต่อเนื่องโดยใช้ตำแหน่งร่วมกันเพื่อทดสอบ(y) การทดสอบปี 1948 นี้มีการใช้งานในฟังก์ชั่นของแพ็คเกจRH0:H(x,y)=F(x)G(y)Hmischoeffd


6

บทความนี้เกี่ยวกับ:

http://arxiv.org/pdf/0803.4101.pdf

"การวัดและทดสอบการพึ่งพาอาศัยโดยสหสัมพันธ์ของระยะทาง" Székelyและ Bakirov มีสิ่งที่น่าสนใจอยู่เสมอ

มีรหัส MATLAB สำหรับการใช้งาน:

http://www.mathworks.com/matlabcentral/fileexchange/39905-distance-correlation

หากคุณพบว่ามีการทดสอบอื่น ๆ (ใช้งานง่าย) เพื่อความเป็นอิสระแจ้งให้เราทราบ


2
ยินดีต้อนรับสู่เว็บไซต์ @JLp เราหวังว่าจะสร้างที่เก็บถาวรของข้อมูลสถิติคุณภาพสูงในรูปแบบของคำถาม & คำตอบ ดังนั้นสิ่งหนึ่งที่เรากังวลคือ linkrot โดยที่คุณคิดคุณจะให้บทสรุปของสิ่งที่อยู่ในกระดาษนั้น / วิธีตอบคำถามในกรณีที่การเชื่อมโยงจะไปตาย นอกจากนี้ยังจะช่วยให้ผู้อ่านในอนาคตของหัวข้อนี้ตัดสินใจว่าพวกเขาต้องการลงทุนเวลาอ่านหนังสือพิมพ์หรือไม่
gung - Reinstate Monica

@gung: นี่เหมือนกับพลังงาน
sds

5

การเชื่อมโยงระหว่างการแปรผันของระยะทางกับการทดสอบเคอร์เนล (อิงตามเกณฑ์ความเป็นอิสระของฮิลแบร์ตชมิดท์) ได้รับการเผยแพร่ในเอกสาร:

Sejdinovic, D. , Sriperumbudur, B. , Gretton, A. และ Fukumizu, K. , การเปรียบเทียบสถิติทางไกลและ RKHS-based ในการทดสอบสมมติฐาน, บันทึกสถิติ, 41 (5), pp.2263-2702, 2013

มันแสดงให้เห็นว่าการแปรปรวนทางไกลเป็นกรณีพิเศษของสถิติเคอร์เนลสำหรับครอบครัวของเมล็ด

หากคุณตั้งใจที่จะใช้ข้อมูลร่วมกันการทดสอบที่อิงจากการประเมินค่า MI ของ binned คือ:

Gretton, A. และ Gyorfi, L. , การทดสอบ Nonparametric ที่สอดคล้องกับความเป็นอิสระ, วารสารการวิจัยการเรียนรู้ของเครื่อง, 11, pp.1391--1423, 2010

หากคุณสนใจที่จะได้รับพลังการทดสอบที่ดีที่สุดคุณก็ควรใช้การทดสอบเคอร์เนลแทนการใช้ข้อมูลและร่วมกัน

ที่กล่าวว่าเนื่องจากตัวแปรของคุณไม่แปรเปลี่ยนการทดสอบอิสระแบบไม่มีพารามิเตอร์แบบคลาสสิกเช่น Hoeffding อาจทำได้ดี


4

คุณสามารถแสดงให้เห็นว่าสถิติตัวอย่างของคุณ = ค่าคะแนนน้อยมาก (ไม่?) คุณสามารถทดสอบกับค่าจุดและแยกออกหรือไม่รวมพวกเขา แต่ลักษณะของสถิติคือมันเกี่ยวกับการตรวจสอบข้อมูลตัวแปร เนื่องจากมีความแปรปรวนอยู่เสมอดังนั้นจึงไม่มีทางที่จะรู้ได้ว่าบางสิ่งไม่ตรงกับความสัมพันธ์แบบปกติแบบเกาส์เซียน ฯลฯ คุณสามารถรู้ได้เฉพาะค่าของช่วง คุณสามารถทราบว่าค่าถูกแยกออกจากช่วงของค่าที่เป็นไปได้หรือไม่ ตัวอย่างเช่นง่ายต่อการแยกความสัมพันธ์และให้ช่วงของค่าสำหรับความสัมพันธ์ขนาดใหญ่

ดังนั้นการพยายามแสดงให้เห็นว่าไม่มีความสัมพันธ์โดยพื้นฐานแล้วคุณค่าของการrelationship = 0ไม่ประสบความสำเร็จ หากคุณมีช่วงของการวัดความสัมพันธ์ที่ยอมรับได้ประมาณ 0 แล้วมันจะเป็นไปได้ที่จะทำการทดสอบ

สมมติว่าคุณสามารถยอมรับข้อ จำกัด นั้นมันจะเป็นประโยชน์กับคนที่พยายามช่วยเหลือคุณในการให้เส้นโค้งที่มีการกระจายต่ำ เนื่องจากคุณกำลังมองหาวิธีแก้ปัญหา R ลอง:

scatter.smooth(x, y)

จากข้อมูลที่ จำกัด ที่คุณให้มาจนถึงตอนนี้ฉันคิดว่ารูปแบบสารเติมแต่งทั่วไปอาจเป็นสิ่งที่ดีที่สุดสำหรับการทดสอบที่ไม่ใช่ความเป็นอิสระ หากคุณพล็อตเรื่องที่มี CI ประมาณค่าที่คาดการณ์ไว้คุณอาจจะสามารถสร้างแถลงการณ์เกี่ยวกับความเชื่อมั่นในความเป็นอิสระ ตรวจสอบgamในแพคเกจ mgcv ความช่วยเหลือเป็นสิ่งที่ดีมากและมีความช่วยเหลือที่นี่เกี่ยวกับCI


2

มันอาจจะน่าสนใจ ...

การ์เซีย, JE; Gonzalez-Lopez, VA (2014) การทดสอบความเป็นอิสระสำหรับตัวแปรสุ่มอย่างต่อเนื่องตามลำดับที่เพิ่มขึ้นที่ยาวที่สุด วารสารการวิเคราะห์หลายตัวแปรโวลต์ 127 หน้า 126-146

http://www.sciencedirect.com/science/article/pii/S0047259X14000335


2
โพสต์นี้จะได้รับประโยชน์จากรายละเอียดเพิ่มเติมเกี่ยวกับสิ่งที่อยู่ในบทความโดยเฉพาะอย่างยิ่งเมื่ออยู่หลัง paywall
Erik

นี้เป็นบริการฟรีcran.r-project.org/web/packages/LIStest/LIStest.pdf
user78122
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.