2
ทำไมการทดสอบอิสระใช้การแจกแจงแบบไคสแควร์?
การความเหมาะสมของจะใช้สถิติต่อไปนี้: ในการทดสอบโดยอนุญาตให้ ตรงตามเงื่อนไขหนึ่งใช้ - การกระจายเพื่อคำนวณ p-value ที่กำหนดเป็นจริงหนึ่งจะสังเกตเห็นค่าดังกล่าวในตัวอย่างตัวแทนที่มีขนาดเดียวกันχ2χ2\chi^2χ20=∑i=1n(Oi−Ei)2Eiχ02=∑i=1n(Oi−Ei)2Ei \chi_0^2=\sum_{i=1}^n\frac{(O_i-E_i)^2}{E_i} χ2χ2\chi^2H0H0H_0 อย่างไรก็ตามเพื่อให้สถิติทำตามกระจาย (ที่มีองศาอิสระ ) จะต้องเป็นจริงที่: สำหรับอิสระมาตรฐานปกติ( Wikipedia ) เงื่อนไขสำหรับการทดสอบมีดังนี้ (อีกครั้งจากWikipedia ):χ20χ02\chi_0^2χ2χ2\chi^2n−1n−1n-1∑i=1n(Oi−Ei)2Ei=∑i=1n−1Z2i∑i=1n(Oi−Ei)2Ei=∑i=1n−1Zi2 \sum_{i=1}^n\frac{(O_i-E_i)^2}{E_i}=\sum_{i=1}^{n-1}Z_i^2 ZiZiZ_i ตัวแทนตัวอย่างประชากร ตัวอย่างขนาดใหญ่ จำนวนเซลล์ที่คาดไว้มีขนาดใหญ่เพียงพอ ความเป็นอิสระระหว่างแต่ละประเภท จากเงื่อนไข (1,2) เป็นที่ชัดเจนว่าเราตอบสนองเงื่อนไขสำหรับการอนุมานจากตัวอย่างไปยังประชากร (3) ดูเหมือนจะเป็นข้อสันนิษฐานที่ต้องการเนื่องจากแยกกันซึ่งอยู่ในตัวส่วนนั้นไม่ส่งผลให้มีการแจกแจงแบบใกล้ชิดต่อเนื่องสำหรับแต่ละและถ้ามันไม่ใหญ่พอมีข้อผิดพลาดที่สามารถแก้ไขได้ด้วยเยต 'การแก้ไข - นี่ดูเหมือนจะมาจากความจริงที่ว่าการกระจายแบบไม่ต่อเนื่องนั้นเป็นแบบ "ปูพื้น" อย่างต่อเนื่องดังนั้นการเปลี่ยนแปลงทีละสำหรับแต่ละอันจะแก้ไขสิ่งนี้EiEiE_iZiZiZ_i1/21/21/2 ความจำเป็นของ (4) ดูเหมือนว่าจะมีประโยชน์ในภายหลัง แต่ฉันไม่สามารถดูได้ว่า ตอนแรกฉันคิดว่าจำเป็นสำหรับสถิติเพื่อให้ตรงกับการแจกแจง สิ่งนี้นำฉันไปสู่ข้อสันนิษฐานที่น่าสงสัยว่าซึ่งผิดอย่างแน่นอน ในความเป็นจริงเป็นที่ชัดเจนจากการลดขนาดของทั้งสองด้านของความเสมอภาคจากเป็นซึ่งไม่สามารถเกิดขึ้นได้Zi=Oi−EiEi√Zi=Oi−EiEiZ_i=\frac{O_i-E_i}{\sqrt{E_i}}Oi−Ei∼N(0,Ei−−√)Oi−Ei∼N(0,Ei)O_i-E_i\sim \mathcal{N}(0, \sqrt{E_i})nnnn−1n−1n-1 มันได้กลายเป็นที่ชัดเจนขอบคุณคำอธิบายของ whuberไม่จำเป็นต้องเท่ากับแต่ละคำเพราะ (หมายเหตุการลดจำนวนของตัวแปรสรุปเงิน) สำหรับมาตรฐานตัวแปรสุ่มปกติซึ่งเป็นหน้าที่ที่เป็นอิสระZiZiZ_iOi−EiEi√Oi−EiEi\frac{O_i-E_i}{\sqrt{E_i}}χ20=∑n−1i=1Z2iχ02=∑i=1n−1Zi2\chi_0^2=\sum_{i=1}^{n-1}Z_i^2ZiZiZ_i ดังนั้นคำถามของฉันคือติดตามการอย่างไร สิ่งที่ชนิดของการรวมกันของแต่ละแง่ผลในภาวะปกติมาตรฐาน …