คาร์ลเพียร์สันคิดสถิติไคสแควร์อย่างไร


14

เพียร์สันเกิดขึ้นได้อย่างไรกับสถิติเพียร์สันไคสแควร์ในปี 1900

ที่ K~χ2

K=(OijEij)2Eij
Kχ2

เขาคิดแบบไคสแควร์แล้วคิดมาตรวัดK (วิธีการจากล่างขึ้นบน) หรือเขาคิดค่าสถิติและต่อมาพิสูจน์ว่ามันเป็นไปตามการแจกแจงไคสแควร์ (บนลงล่าง)?

ฉันต้องการที่จะรู้ว่าทำไมเขาถึงเลือกว่ารูปแบบที่เฉพาะเจาะจงและไม่ได้อื่น ๆ เช่นหรือΣ | O i j - E i j | และทำไมเขาจึงแบ่งสี่เหลี่ยมกับตัวส่วน(OijEij)2|OijEij|



1
แน่นอนว่าเป็นไปได้ที่จะมีสถิติจำนวนเท่าใดก็ได้ที่คุณสามารถใช้ได้ ทางเลือกของคุณนั้นสมบูรณ์แบบแม้ว่าคุณจะต้องใช้การสุ่มตัวอย่างการกระจายสำหรับพวกมันซึ่งจะแตกต่างกันไปตามจำนวนของเซลล์ สิ่งหนึ่งที่สะดวกเกี่ยวกับแบบฟอร์มนี้คือมันมีความสัมพันธ์บางอย่างกับการแจกแจงอื่น ๆ เช่นมันคือการกระจายตัวของผลรวมของตัวแปรสุ่มปกติแบบมาตรฐานกำลังสอง k
gung - Reinstate Monica

คำตอบ:


23

กระดาษ 1900 ของ Pearson ไม่มีลิขสิทธิ์ดังนั้นเราจึงสามารถอ่านออนไลน์ได้

คุณควรเริ่มด้วยการสังเกตว่าบทความนี้เกี่ยวกับความดีของการทดสอบแบบพอดีไม่ใช่การทดสอบความเป็นอิสระหรือความเป็นเนื้อเดียวกัน

เขาดำเนินการโดยทำงานร่วมกับตัวแปรหลายตัวแปรและไคสแควร์เกิดขึ้นจากผลรวมของความแปรปรวนมาตรฐานแบบมาตรฐานที่ยกกำลังสอง

คุณสามารถเห็นได้จากการอภิปรายใน p160-161 เขาพูดคุยอย่างชัดเจนถึงการใช้การทดสอบกับข้อมูลกระจายหลายมิติ (ฉันไม่คิดว่าเขาใช้คำนั้นทุกที่) เห็นได้ชัดว่าเขาเข้าใจถึงความปกติของตัวแปรหลายตัวแปรของ multinomial (แน่นอนว่าเขารู้ว่าระยะขอบนั้นเป็นปกติโดยประมาณ - นั่นเป็นผลลัพธ์ที่เก่ามาก - และรู้ถึงวิธีการความแปรปรวนและความแปรปรวนร่วมเนื่องจากมันระบุไว้ในกระดาษ); ฉันเดาว่าส่วนใหญ่ของสิ่งนั้นเป็นหมวกเก่าแล้วในปี 1900 (โปรดทราบว่าการแจกแจงแบบไคสแควร์นั้นย้อนกลับไปทำงานโดยเฮลเมอร์ในช่วงกลางทศวรรษ 1870)

จากนั้นที่ด้านล่างของ p163 เขาได้สถิติไค - สแควร์เป็น "การวัดความดีของความพอดี" (สถิติของตัวเองปรากฏในตัวแทนของการประมาณปกติหลายตัวแปร)

จากนั้นเขาก็จะหารือเกี่ยวกับวิธีการประเมินค่า p-value * จากนั้นเขาให้พื้นที่หางส่วนบนของχ 2 12อย่างถูกต้องχ122เกิน 43.87 เป็น 0.000016 อย่างถูกต้อง [คุณควรจำไว้ว่าเขาไม่เข้าใจวิธีปรับองศาอิสระสำหรับการประมาณค่าพารามิเตอร์ในขั้นตอนนั้นดังนั้นตัวอย่างในเอกสารของเขาจึงใช้ df สูงเกินไป]

* (โปรดทราบว่าไม่มีกระบวนทัศน์การทดสอบทั้งแบบฟิชเชอร์แมนและเนย์แมน - เพียร์สัน) แต่เราเห็นชัดเจนว่าเขาใช้แนวคิดของค่า p-value อยู่แล้ว)

คุณจะได้ทราบว่าเขาทำข้อตกลงไม่ได้เขียนไว้อย่างชัดเจนเช่นฉัน แต่เขาเขียนm 1 , m 2ฯลฯ สำหรับจำนวนที่คาดไว้และสำหรับปริมาณที่สังเกตได้เขาใช้m 1เป็นต้น จากนั้นเขากำหนดe = m - m (ครึ่งล่าง p160) และคำนวณe 2 / mสำหรับแต่ละเซลล์ (ดู eq. (xv) p163 และคอลัมน์สุดท้ายของตารางที่ด้านล่างของ p167) ... ปริมาณที่เท่ากัน แต่ในสัญกรณ์ที่แตกต่างกัน(OiEi)2/Eim1m2m1e=mme2/m

วิธีการทำความเข้าใจแบบทดสอบไค - สแควร์ในปัจจุบันส่วนใหญ่ยังไม่เกิดขึ้น แต่ในทางกลับกันมีอยู่บ้างเล็กน้อย (อย่างน้อยถ้าคุณรู้ว่าจะมองหาอะไร) เกิดขึ้นมากมายในช่วงปี 1920 (เป็นต้นไป) ที่เปลี่ยนวิธีที่เราดูสิ่งเหล่านี้


สำหรับสาเหตุที่เราหารด้วยในกรณี multinomial มันเกิดขึ้นแม้ว่าความแปรปรวนของแต่ละองค์ประกอบใน multinomial จะน้อยกว่าE iเมื่อเราคำนึงถึงความแปรปรวนร่วมมันก็เท่ากับหารด้วยE iEiEiEiทำ สำหรับการทำให้เข้าใจง่ายดี


เพิ่มในการแก้ไข:

บทความในปี 1983 โดย Plackett ได้ให้บริบททางประวัติศาสตร์ที่ดีและมีบางสิ่งที่จะนำไปสู่บทความ ฉันขอแนะนำให้ดูมัน ดูเหมือนว่าจะออนไลน์ฟรีผ่าน JStor (ถ้าคุณลงชื่อเข้าใช้) ดังนั้นคุณไม่จำเป็นต้องเข้าถึงผ่านสถาบันเพื่ออ่าน

Plackett, RL (1983),
"Karl Pearson และการทดสอบ Chi-Squared,"
International Statistics Review ,
Vol. 51, ลำดับที่ 1 (เม.ย. ), หน้า 59-72


1
ฉันเพิ่งอ่านโพสต์นี้และฉันทุกครั้งที่ฉันทำฉันได้รับข้อมูลเชิงลึกเพิ่มเติม @Glen_b ฉันต้องการขอบคุณสำหรับคำตอบที่ยอดเยี่ยมของคุณซึ่งฉันควรทำมาก่อน หากฉันอาจถามคำถามเพิ่มเติมในคำอธิบายของคุณเกี่ยวกับวิธีการหารด้วย E ปรับสำหรับความแปรปรวนร่วมคุณสามารถอธิบายเพิ่มเติมเกี่ยวกับเรื่องนั้นหรือชี้ให้ฉันไปยังทรัพยากรที่กล่าวถึงประเด็นนี้ได้หรือไม่ ฉันสามารถเข้าใจได้อย่างชัดเจนว่าทำไม "การทำให้ปกติ" เป็นสิ่งจำเป็น แต่ฉันต้องการกลับไปใช้สัญชาตญาณของฉันในการพิสูจน์ทางคณิตศาสตร์
Alby

1
เท่าที่มันปรับสำหรับความแปรปรวนร่วมมันมีการถกเถียงกันในเรื่องนี้ในคำตอบนี้และได้รับสองสามบรรทัดในสองหมวดหมู่ (กรณีทวินาม) แสดงความสัมพันธ์ระหว่างความแปรปรวนของทวินามและหารทั้งสอง ไคสแควร์สำหรับความสำเร็จและความล้มเหลวโดยEผม. ดูเหมือนว่าคุณกำลังตามหาอะไรบางอย่างในตอนท้าย แต่ถ้าคุณเป็นฉันฉันไม่แน่ใจว่ามันคืออะไร คุณสามารถใช้ถ้อยคำนี้อีกครั้งได้หรือไม่?
Glen_b

1
...That link mentions (7th paragraph, starting "That is, if the expected counts...") but doesn't really show how to get the covariance term itself. Note that for a single observation on a multinomial, where Xi is 1 if the observation is in its category, Cov(Xi,Xj)=E(XiXj)E(Xi)E(Xj)=E(Xi)E(Xj) (since only one of Xi,Xj can be >0. Then Cov(Oi,Oj) is just a sum of such covariance terms. (Indeed we can write down the whole (variance-)covariance matrix for a multinomial from that.) Sorry that's a bit brief, but at the bottom of that linked answer is a link with more
Glen_b -Reinstate Monica

Thank you for the link @Glen_b. After reading the post, it's much clearer now! I was naively thinking that the denominator is there to adjust for the initial differences for each cell, thus the term "normalizing", but reading your post I realized I was completely off the mark.
Alby

น่าเสียดายที่คำว่า 'ทำให้ปกติ' มีความรู้สึกอย่างน้อยสามอย่างที่เกี่ยวข้องในสถิติ ตกแต่งโดยปกติแล้วฉันจะใช้มันเพื่อหมายถึง "มาตรฐานเป็นค่าเฉลี่ย 0 และค่าเบี่ยงเบนมาตรฐาน 1" แต่คนอื่น ๆ ใช้เพื่อหมายถึง 'ปกติ' ในความหมายของการทำให้เวกเตอร์เป็นบรรทัดฐานตามบรรทัดฐานปกติหรือเปลี่ยนเป็นค่าปกติ เนื่องจากมันเป็นแมลงที่นี่ฉันควรรู้เพื่อหลีกเลี่ยง
Glen_b
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.