เพียร์สันที่เหลือ


16

คำถามเริ่มต้นเกี่ยวกับส่วนที่เหลือของเพียร์สันในบริบทของการทดสอบไคสแควร์เพื่อความเหมาะสม:

เช่นเดียวกับสถิติการทดสอบchisq.testฟังก์ชั่นของ R รายงานส่วนที่เหลือของเพียร์สัน:

(obs - exp) / sqrt(exp)

ฉันเข้าใจว่าทำไมการดูความแตกต่างที่แท้จริงระหว่างค่าที่สังเกตและค่าที่คาดหวังไม่ใช่ข้อมูลนั้นเนื่องจากตัวอย่างขนาดเล็กจะส่งผลให้เกิดความแตกต่างเล็กน้อย อย่างไรก็ตามฉันต้องการทราบเพิ่มเติมเกี่ยวกับผลกระทบของตัวหาร: ทำไมหารด้วยรากของค่าที่คาดไว้ นี่คือส่วนที่เหลือ 'มาตรฐาน' หรือไม่?


6
ตัวหารถูกใช้เพื่อบัญชีความแปรปรวนของเศษซากดิบซึ่งจะทำให้ค่าความแปรปรวนของเพียร์สันโดยประมาณของความแปรปรวนหน่วย (มีวิธีการอื่นเพื่อให้บรรลุสิ่งนี้) โปรดทราบว่ามีส่วนประกอบstdresสำหรับส่วนที่เหลือมาตรฐาน
chl

@chl ขอบคุณสำหรับการตอบกลับที่รวดเร็ว อย่างไรก็ตามฉันไม่เข้าใจแนวคิดของความแปรปรวนในบริบทนี้ คุณรู้จักแหล่งเรียนรู้ที่ฉันสามารถเรียนรู้เพิ่มเติมได้หรือไม่? ฉันคิดว่าจากนั้นส่วนที่เหลือของเพียร์สันไม่ได้ 'มาตรฐาน' เนื่องจากที่chisq.testยังคำนวณstdresองค์ประกอบ?
เลน Dillingham

3
การอ้างอิงที่ชัดเจนเพื่อการวิเคราะห์ข้อมูลเด็ดขาดน่าจะเป็นการวิเคราะห์ข้อมูลตามหมวดหมู่โดย Alan Agresti หากไม่มีใครให้คำตอบที่ละเอียดกว่านี้ฉันจะพยายามแปลงความคิดเห็นของฉันให้เป็นคำตอบที่เหมาะสม
chl

ขอบคุณสำหรับลิงค์ @chl ฉันสามารถเข้าถึงหนังสือได้ดังนั้นจะพยายามคิดออกเอง
เลน Dillingham

คำตอบ:


10

แบบจำลองทางสถิติมาตรฐานที่เป็นรากฐานของการวิเคราะห์ตารางฉุกเฉินคือสมมติว่า (ไม่มีเงื่อนไขในการนับทั้งหมด) จำนวนเซลล์เป็นตัวแปรสุ่มปัวซองที่เป็นอิสระ ดังนั้นหากคุณมีตารางฉุกเฉินn×mแบบจำลองทางสถิติที่ใช้เป็นพื้นฐานสำหรับการวิเคราะห์ทำให้แต่ละเซลล์นับได้ว่ามีการแจกแจงแบบไม่มีเงื่อนไข:

Xi,j ~ Pois(μi,j)

E(Xi,j)=V(Xi,j)=μi,j

STD(Xi,j)Xi,jE(Xi,j)V(Xi,j)=Xi,jμi,jμi,j

So, what you're seeing in the formula you are enquiring about, is the standardised cell count, under the assumption that the cell counts have an (unconditional) Poisson distribution.

From here it is common to test independence of the row and column variable in the data, and in this case you can use a test statistic that looks at the sum-of-squares of the above values (which is equivalent to the squared-norm of the vector of standardised values). The chi-squared test provides a p-value for this kind of test based on a large-sample approximation to the null distribution of the test statistic. It is usually applied in cases where none of the sell counts are too small.


โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.