ทำไมการทดสอบอิสระใช้การแจกแจงแบบไคสแควร์?


12

การความเหมาะสมของจะใช้สถิติต่อไปนี้: ในการทดสอบโดยอนุญาตให้ ตรงตามเงื่อนไขหนึ่งใช้ - การกระจายเพื่อคำนวณ p-value ที่กำหนดเป็นจริงหนึ่งจะสังเกตเห็นค่าดังกล่าวในตัวอย่างตัวแทนที่มีขนาดเดียวกันχ2

χ02=i=1n(OiEi)2Ei
χ2H0

อย่างไรก็ตามเพื่อให้สถิติทำตามกระจาย (ที่มีองศาอิสระ ) จะต้องเป็นจริงที่: สำหรับอิสระมาตรฐานปกติ( Wikipedia ) เงื่อนไขสำหรับการทดสอบมีดังนี้ (อีกครั้งจากWikipedia ):χ02χ2n1

i=1n(OiEi)2Ei=i=1n1Zi2
Zi
  1. ตัวแทนตัวอย่างประชากร
  2. ตัวอย่างขนาดใหญ่
  3. จำนวนเซลล์ที่คาดไว้มีขนาดใหญ่เพียงพอ
  4. ความเป็นอิสระระหว่างแต่ละประเภท

จากเงื่อนไข (1,2) เป็นที่ชัดเจนว่าเราตอบสนองเงื่อนไขสำหรับการอนุมานจากตัวอย่างไปยังประชากร (3) ดูเหมือนจะเป็นข้อสันนิษฐานที่ต้องการเนื่องจากแยกกันซึ่งอยู่ในตัวส่วนนั้นไม่ส่งผลให้มีการแจกแจงแบบใกล้ชิดต่อเนื่องสำหรับแต่ละและถ้ามันไม่ใหญ่พอมีข้อผิดพลาดที่สามารถแก้ไขได้ด้วยเยต 'การแก้ไข - นี่ดูเหมือนจะมาจากความจริงที่ว่าการกระจายแบบไม่ต่อเนื่องนั้นเป็นแบบ "ปูพื้น" อย่างต่อเนื่องดังนั้นการเปลี่ยนแปลงทีละสำหรับแต่ละอันจะแก้ไขสิ่งนี้EiZi1/2

ความจำเป็นของ (4) ดูเหมือนว่าจะมีประโยชน์ในภายหลัง แต่ฉันไม่สามารถดูได้ว่า

ตอนแรกฉันคิดว่าจำเป็นสำหรับสถิติเพื่อให้ตรงกับการแจกแจง สิ่งนี้นำฉันไปสู่ข้อสันนิษฐานที่น่าสงสัยว่าซึ่งผิดอย่างแน่นอน ในความเป็นจริงเป็นที่ชัดเจนจากการลดขนาดของทั้งสองด้านของความเสมอภาคจากเป็นซึ่งไม่สามารถเกิดขึ้นได้Zi=OiEiEiOiEiN(0,Ei)nn1

มันได้กลายเป็นที่ชัดเจนขอบคุณคำอธิบายของ whuberไม่จำเป็นต้องเท่ากับแต่ละคำเพราะ (หมายเหตุการลดจำนวนของตัวแปรสรุปเงิน) สำหรับมาตรฐานตัวแปรสุ่มปกติซึ่งเป็นหน้าที่ที่เป็นอิสระZiOiEiEiχ02=i=1n1Zi2Zi

ดังนั้นคำถามของฉันคือติดตามการอย่างไร สิ่งที่ชนิดของการรวมกันของแต่ละแง่ผลในภาวะปกติมาตรฐาน Squared ? สิ่งนี้ต้องการการใช้ CLT อย่างเห็นได้ชัด (และนั่นสมเหตุสมผล) แต่อย่างไร กล่าวอีกนัยหนึ่งแต่ละอันมีค่าเท่ากับอะไร (หรือประมาณเท่ากับ)χ02χ2(OiEi)2EiZi2Zi


1
ฉันอยากรู้ว่าคุณอ่านว่าใครถือว่าสิ่งสุดท้ายที่คุณระบุไว้ ( ) นั่นไม่จำเป็น: สถิติสามารถมีการ (อย่างน้อยถึงการประมาณที่ดีมาก ๆ ) โดยไม่มีค่ามาตรฐานใด ๆ ที่มีการแจกแจงแบบปกติ คำถามที่คุณต้องการถามคือสมมติฐานเหล่านี้แสดงให้เห็นถึงการอ้างอิงสถิติเพื่อการอย่างไร ด้วยตัวเองพวกเขาทำไม่ได้ สำหรับการอภิปรายของสิ่งที่สามารถไปอย่างผิดปกติโปรดดูโพสต์ของฉันที่stats.stackexchange.com/a/17148 OiEiN(0,Ei)χ2χ2χ2χ2
whuber

1
จากความเท่าเทียมกันของผลบวกสองสแควร์สคุณไม่สามารถสรุปว่าสแควร์รูทนั้นเท่ากับเทอมตามเทอม! เพราะนั่นเป็นกรณีของตัวเลขเท่านั้นมันก็เป็นกรณีสำหรับตัวแปรสุ่มด้วย
whuber

1
ในการทำให้เป็นรูปธรรมสมมติว่ามีการกระจายอย่างอิสระกับการแจกแจงที่มีองศาอิสระและแต่สำหรับทุกฉันจากนั้นแม้จะไม่มีการเป็นเรื่องปกติ แต่มีการกระจาย (Wi),i=1,,nχν1,ν2,,νnν1+ν2++νn=n1νi1iWii=1nWi2χ2(n1)
whuber

1
หากโดย "squared standard normal" คุณหมายถึง "ผลรวมของมาตรฐานบรรทัดฐาน squared อิสระ" นั่นเป็นคำถามที่ฉันเชื่อว่าคุณอยากจะโพสต์เมื่อ :-) และในท้ายที่สุดการวิเคราะห์ส่วนใหญ่ของสถานการณ์ทำแน่นอนเรียกทฤษฎีขีด จำกัด กลางเพื่อพิสูจน์ว่าสิ่งตกค้างมาตรฐาน asymptotically เป็นมาตรฐานปกติ ( แต่ไม่มากอิสระซึ่งเป็นเหตุผลที่องศาอิสระที่มีและไม่ ) n1n
whuber

1
+1 สำหรับสิ่งที่ฉันคาดหวังในไม่ช้าจะเป็นคำถามที่ดีมาก ปัญหาแรกคือการทดสอบความเป็นอิสระไม่ได้ใช้สถิติที่อ้างสิทธิ์ สถิติที่ให้ไว้ในตอนเริ่มต้นคือมิติเดียว (ผลรวมเหนือหมวดหมู่) ในขณะที่การทดสอบความเป็นอิสระนั้นต้องการตัวแปรมากกว่าหนึ่งตัว โปรดแก้ไขเพื่อทำให้ชื่อของการทดสอบและสถิติสอดคล้องกัน n
Glen_b -Reinstate Monica

คำตอบ:


6

มันเกี่ยวกับการแจกแจงปัวซอง ถ้าคือ Poisson ที่มีค่าเฉลี่ยดังนั้นความแปรปรวนของคือด้วย ซึ่งหมายความว่าเป็นเหมือนเอนทิตี โดย CLT, ปัวซองมีแนวโน้มเป็นปกติเมื่อค่าเฉลี่ยมีขนาดใหญ่ขึ้นซึ่งเป็นที่ซึ่งไคสแควร์เข้ามาใช่มันเป็นการทดสอบเชิงเส้นกำกับλ X λ ( X - λ ) 2XλXλ z2

(Xλ)2λ
z2

องศาอิสระมาจากทฤษฎีบทของ Cochran โดยทั่วไป Cochran อธิบายว่า Chi-squared จะถูกแปลง (หรือยังคงไม่เปลี่ยนแปลง) ภายใต้การแปลงเชิงเส้นในคะแนนได้อย่างไรz2

izi2=ZIZ

ในสัญกรณ์เมทริกซ์ ถ้าแทนการคำนวณผลรวมของสี่เหลี่ยมปกติคุณคำนวณสำหรับบางเมทริกซ์ Q แล้วคุณยังได้รับปริมาณที่มี AA กระจายไคสแควร์ แต่องศาอิสระขณะนี้มีการจัดอันดับของQมีเงื่อนไขเพิ่มเติมในเมทริกซ์ Q แต่นี่คือส่วนสำคัญของมันQ

ZQZ
Q

หากคุณเล่นโดยใช้สัญลักษณ์เมทริกซ์คุณสามารถแสดงเป็นรูปแบบสมการกำลังสอง Cochran ถือว่าความเป็นอิสระของตัวแปรปกติต้นฉบับซึ่งเป็นสาเหตุที่คอลัมน์ในตารางการนับของคุณจะต้องเป็นอิสระเช่นกัน

i(ziz¯)2

ขออภัย แต่คุณต้องทำให้ฉันที่ "ถ้าคุณทำคุณ ... "
VF1

@ VF1 ฉันทำการเปลี่ยนแปลงดังนั้นฉันหวังว่ามันชัดเจนยิ่งขึ้น ทฤษฎีบทของ Cochrane คือคำตอบสำหรับคำถามของคุณว่าเมื่อผลรวมของช่องสี่เหลี่ยมที่มีบรรทัดฐานในนั้นมีการแจกแจงแบบไคสแควร์
Placidia

1
ตกลงฉันจะดูที่นี้ ฉันจะเปิดคำถามทิ้งไว้ในกรณีที่คนอื่นมีของเพิ่ม
VF1

1
ตามปกติขนาดตัวอย่างได้รับการแก้ไข นั่นหมายความว่าเป็นไปไม่ได้ที่รายการใด ๆ ก็ตามจะสามารถติดตามการกระจายของปัวซองได้ การอุทธรณ์ต่อการแจกแจงปัวซงจึงดูเหมือนว่าเป็นเพียงการประมาณอีกครั้ง - และดูเหมือนว่าจะทิ้งเราไว้ตั้งแต่เริ่มต้น
whuber

1

อ้างอิงจากตำรา "สถิติเบื้องต้นพร้อมการสุ่มและการจำลอง" หัวข้อ 3.3.2 (ตำราเรียนฟรีที่OpenIntro ) สถิติการทดสอบพยายามสะสมค่าเบี่ยงเบนของค่าที่ตรวจพบจากที่คาดไว้ และการเบี่ยงเบนจะถูกแสดงออกผ่านคำอย่างแน่นอนχ2

Zi=OiEiEi

ซึ่งอันที่จริงมาจาก{(คลาดเคลื่อนมาตรฐานของการสังเกต)}

OiEi(StandardErrorOfTheObserved)

ตำรากล่าวต่อไปว่าเป็นที่คาดดีขึ้นโดยดังนั้นคำว่ากลายเป็น{E_i}} หนังสือเรียนไม่ได้อธิบายว่าทำไมการทดแทนนี้จึงเป็นที่ยอมรับได้และฉันก็ต้องการทราบเช่นกัน(StandardErrorOfTheObserved)EiZi=OiEiEi

อย่างไรก็ตามคุณสามารถสร้างสถิติทดสอบของแบบฟอร์ม

Z=|Z1|+|Z2|+|Z3|+...

แต่จะดีกว่าที่จะยกกำลังสองเทอมเพราะคุณจะได้รับค่าบวกทันทีและค่าที่สูงกว่าจะโดดเด่นมากขึ้นหลังจากการยกกำลังสอง ดังนั้นคุณจะได้รับสิ่งต่อไปนี้:

χ2=Z12+Z22+Z32+...

แต่ฉันไม่รู้ว่าทำไมผลรวมนี้ควรเป็นไปตามการหรืออะไรคือการเชื่อมต่อกับคำจำกัดความของการ (ผลรวมของกำลังสองของตัวแปรอิสระมาตรฐานปกติ)χ 2χ2χ2

แก้ไข:ฉันยังคงเรียนรู้สถิติและฉันก็ยังคิดว่าฉันไม่เข้าใจการอย่างถูกต้อง ฉันหวังว่าคนอื่นจะสามารถสอนฉันได้เช่นกันχ2

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.