กฎการใช้การจำลองแบบ Monte Carlo ของค่า p สำหรับการทดสอบไคสแควร์


9

ฉันต้องการเข้าใจการใช้การจำลอง Monte Carlo ในchisq.test()ฟังก์ชันใน R

ฉันมีตัวแปรเชิงคุณภาพซึ่งมี 128 ระดับ / คลาส ขนาดตัวอย่างของฉันคือ 26 (ฉันไม่สามารถสุ่มตัวอย่าง "บุคคล" เพิ่มเติมได้) เห็นได้ชัดว่าฉันจะมีบางระดับที่มี 0 "บุคคล" แต่ความจริงก็คือฉันมีชั้นเรียนจำนวนน้อยมากจากจำนวน 127 ที่เป็นไปได้ ตามที่ฉันได้ยินมาว่าการใช้การทดสอบแบบไคสแควร์เราควรมีอย่างน้อย 5 คนในแต่ละระดับ (ฉันไม่เข้าใจเหตุผลอย่างสมบูรณ์) ฉันคิดว่าฉันต้องใช้simulate.p.valueตัวเลือกในการใช้การจำลอง Monte Carlo เพื่อประเมินการกระจายตัว และคำนวณค่า p หากไม่มีการจำลองมอนติคาร์โล R จะให้ค่า p กับ< 1e-16ฉัน ด้วยการจำลอง Monte Carlo มันทำให้ฉัน p-value 4e-5ที่

ฉันพยายามคำนวณ p-value ด้วยเวกเตอร์ 26 อันและ 101 ศูนย์และด้วยการจำลอง Monte-Carlo ฉันได้ p-value ที่ 1

ตกลงหรือไม่ถึงแม้ว่าขนาดตัวอย่างของฉันจะเล็กเมื่อเทียบกับจำนวนคลาสที่เป็นไปได้การแจกแจงที่สังเกตได้นั้นไม่น่าเป็นไปได้ที่คลาสที่เป็นไปได้ทั้งหมดจะมีความน่าจะเป็นแบบเดียวกัน (1/127) ในประชากรจริง ?


3
หากข้อมูลของคุณเป็นจริงที่คุณสังเกตเห็น 26 ชั้นที่แตกต่างจากตัวอย่างของ 26 จากนั้นคุณไม่มีหลักฐานหลักฐานกับสมมติฐานที่ว่า 127 ชั้นเรียนทั้งหมดมีความน่าจะเป็นที่เท่ากัน สิ่งนี้สามารถประเมินได้ด้วยการคำนวณการแจกแจงพหุนาม
whuber

1
" ตามที่ฉันเคยได้ยินว่าการทดสอบแบบไคสแควร์เราควรมีอย่างน้อย 5 คนในแต่ละระดับ (ฉันไม่เข้าใจเหตุผลที่สมบูรณ์แบบ) - ไม่มากนัก คำแนะนำดั้งเดิมคือว่าจำนวนที่คาดหวังไม่ใช่จำนวนที่แท้จริงควรเป็นอย่างน้อย 5 เป้าหมายที่มีกฎ (ตอนนี้ล้าสมัยมานาน) คือการพยายามทำให้แน่ใจว่าการกระจายไคสแควร์เป็นการประมาณที่สมเหตุสมผลกับการกระจายแบบไม่ต่อเนื่องของ สถิติทดสอบ คำแนะนำเกี่ยวกับเอกสารจำนวนมากในช่วง 4 ทศวรรษที่ผ่านมาหรือ 'กฎนั้นค่อนข้างเข้มงวดเกินไป'
Glen_b -Reinstate Monica

คำตอบ:


6

จากการค้นหาดูเหมือนว่าจุดประสงค์ของการจำลองสถานการณ์มอนติคาร์โลคือการสร้างการกระจายอ้างอิงอ้างอิงจากกลุ่มตัวอย่างที่สร้างแบบสุ่มซึ่งจะมีขนาดเท่ากับตัวอย่างที่ทดสอบเพื่อคำนวณค่า p เมื่อคำนวณเงื่อนไขไม่พอใจ

นี่คือคำอธิบายใน Hope เอเจรอยัล Stat สังคมรุ่น B (1968) ซึ่งสามารถพบได้บนJSTOR

นี่คือคำพูดที่เกี่ยวข้องจากกระดาษหวัง:

ขั้นตอนการทดสอบนัยสำคัญของ Monte-Carlo ประกอบด้วยการเปรียบเทียบข้อมูลที่สังเกตด้วยการสุ่มตัวอย่างที่สร้างขึ้นตามสมมติฐานที่กำลังทดสอบ ... มันเป็นสิ่งที่ดีกว่าที่จะใช้การทดสอบที่รู้จักกันดีของประสิทธิภาพแทนที่จะเป็นขั้นตอนการทดสอบ Monte-Carlo สมมติว่าสมมติฐานทางเลือกทางสถิติสามารถระบุได้อย่างสมบูรณ์ อย่างไรก็ตามมันเป็นไปไม่ได้เสมอที่จะใช้การทดสอบดังกล่าวเนื่องจากเงื่อนไขที่จำเป็นสำหรับการใช้การทดสอบอาจไม่เป็นที่พอใจหรือการแจกแจงพื้นฐานอาจไม่เป็นที่รู้จักหรืออาจเป็นการยากที่จะตัดสินใจเกี่ยวกับเกณฑ์การทดสอบที่เหมาะสม

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.