การเลือกระหว่าง -test และ -test


20

ความเป็นมา: ฉันกำลังนำเสนอให้กับเพื่อนร่วมงานที่ทำงานเกี่ยวกับการทดสอบสมมติฐานและเข้าใจว่าส่วนใหญ่ดี แต่มีแง่มุมหนึ่งที่ฉันคาดว่าจะเป็นปมพยายามเข้าใจและอธิบายให้ผู้อื่นฟัง

นี่คือสิ่งที่ฉันคิดว่าฉันรู้ (โปรดแก้ไขถ้าผิด!)

  • สถิติที่อาจเป็นเรื่องปกติหากทราบความแปรปรวนให้ทำตามการแจกแจงแบบtหากไม่ทราบความแปรปรวน
  • CLT (ทฤษฎีขีด จำกัด กลาง): การกระจายตัวตัวอย่างของค่าเฉลี่ยตัวอย่างนั้นประมาณปกติสำหรับขนาดใหญ่พอn (อาจเป็น30 , อาจสูงถึง300สำหรับการแจกแจงแบบเบ้สูง)
  • t -distribution สามารถพิจารณาปกติองศาอิสระ>30

คุณใช้การทดสอบถ้า:z

  1. ประชากรปกติและความแปรปรวนเป็นที่รู้จัก (สำหรับขนาดตัวอย่างใด ๆ )
  2. ประชากรปกติไม่ทราบความแปรปรวนและ (เนื่องจาก CLT)n>30
  3. ประชากรทวินาม, , n q > 10np>10nq>10

คุณใช้ -test ถ้า:t

  1. ประชากรปกติไม่ทราบความแปรปรวนและn<30
  2. ไม่มีความรู้เกี่ยวกับประชากรหรือความแปรปรวนและแต่ข้อมูลตัวอย่างดูเป็นปกติ / ผ่านการทดสอบและอื่น ๆ เพื่อให้ประชากรสามารถสันนิษฐานได้ว่าเป็นปกติn<30

ดังนั้นฉันเหลือ:

  • สำหรับตัวอย่างและ< 300 (?) ไม่มีความรู้เกี่ยวกับประชากรและความแปรปรวนที่ทราบ / ไม่รู้จัก>30<≈300

ดังนั้นคำถามของฉันคือ:

  1. คุณสามารถสมมติขนาดเท่าใด (ไม่มีความรู้เกี่ยวกับการกระจายตัวของประชากรหรือความแปรปรวน) ว่าการกระจายตัวตัวอย่างของค่าเฉลี่ยเป็นเรื่องปกติ (เช่น CLT ได้เตะเข้าไป) เมื่อการกระจายตัวตัวอย่างดูไม่ปกติ? ฉันรู้ว่าการกระจายบางอย่างต้องการแต่ทรัพยากรบางอย่างดูเหมือนว่าจะใช้การทดสอบzเมื่อใดก็ตามที่n > 30 ...n>300zn>30

  2. สำหรับกรณีที่ฉันไม่แน่ใจเกี่ยวกับฉันคิดว่าฉันดูข้อมูลสำหรับความปกติ ทีนี้ถ้าฉันใช้ข้อมูลตัวอย่างดูเป็นเรื่องปกติทดสอบ z (ตั้งแต่สมมติว่าประชากรเป็นปกติและตั้งแต่ n > 30 )zn>30

  3. แล้วข้อมูลตัวอย่างสำหรับกรณีที่ฉันไม่แน่ใจเกี่ยวกับการไม่ดูปกติหรือไม่ มีสถานการณ์ใดบ้างที่คุณยังคงใช้ -test หรือz -test หรือคุณมักจะทำการแปลง / ใช้การทดสอบที่ไม่ใช่พารามิเตอร์หรือไม่? ฉันรู้ว่าเนื่องจาก CLT ที่คุ้มค่าของnการกระจายตัวอย่างของค่าเฉลี่ยจะใกล้เคียงมาเป็นปกติ แต่ข้อมูลตัวอย่างจะไม่บอกฉันว่ามูลค่าของที่nคือ; ข้อมูลตัวอย่างอาจไม่ปกติในขณะที่ค่าเฉลี่ยตัวอย่างเป็นไปตามปกติ / ttznnt Tมีกรณีที่คุณจะเปลี่ยน / ใช้การทดสอบที่ไม่ใช่พารามิเตอร์เมื่อในความเป็นจริงการกระจายตัวอย่างของค่าเฉลี่ยเป็นปกติ / แต่คุณไม่สามารถบอกได้? t


4
" อาจสูงถึง 300 สำหรับการแจกแจงแบบเบ้สูง " ... ในบางกรณีมันอาจจะเป็นเรื่องที่หนักหนาสาหัสกว่าเดิม หรือมันอาจไม่เคยเกิดขึ้น เลือกและฉันจะแสดงเคสที่มันไม่พอ n
Glen_b -Reinstate Monica

ขอบคุณ Glen_b - ตรวจสอบข้อมูลตัวอย่างว่าปกติแล้วใช้พารามิเตอร์หรือไม่
Hatti

@Hatti ไม่! การทดสอบ T ใช้งานได้เมื่อข้อมูลไม่ปกติ
AdamO

คำตอบ:


24

@AdamO ถูกต้องคุณเพียงแค่ใช้t -test ทดสอบถ้าคุณไม่รู้ค่าเบี่ยงเบนมาตรฐานของประชากร a-Priori คุณไม่ต้องกังวลเกี่ยวกับเวลาที่จะเปลี่ยนเป็นz -test เนื่องจากt -distribution 'สวิตช์' สำหรับคุณ โดยเฉพาะอย่างยิ่งที่t -distribution ลู่ไปตามปกติดังนั้นจึงคือการกระจายที่ถูกต้องเพื่อการใช้งานในทุกN N

นอกจากนี้ยังมีความสับสนที่นี่เกี่ยวกับความหมายของเส้นแบบดั้งเดิมที่N=30 30 การบรรจบกันมีสองประเภทที่ผู้คนพูดถึง:

  1. แรกคือการกระจายตัวอย่างของสถิติทดสอบ (เช่นt ) คำนวณจากการกระจายตามปกติ (ในกลุ่ม) ลู่ข้อมูลดิบเพื่อการกระจายปกติเป็นNแม้จะมีความจริงที่ว่า SD จะประเมินจากข้อมูล (การกระจายtดูแลสิ่งนี้สำหรับคุณตามที่ระบุไว้ข้างต้น)
  2. ที่สองก็คือการกระจายการสุ่มตัวอย่างจากค่าเฉลี่ยที่ไม่ปกติกระจาย (ภายในกลุ่ม) ลู่ข้อมูลดิบเพื่อการกระจายปกติ (ช้ากว่าด้านบน) เป็นN ผู้คนพึ่งพาทฤษฎีลิมิตขั้นกลางเพื่อดูแลสิ่งนี้สำหรับพวกเขา อย่างไรก็ตามไม่มีการรับประกันว่ามันจะมาบรรจบกันภายในขนาดตัวอย่างที่เหมาะสม - แน่นอนว่าไม่มีเหตุผลที่จะเชื่อว่า30 (หรือ300 ) เป็นจำนวนเวทย์มนตร์ ขึ้นอยู่กับขนาดและลักษณะของความไม่ปกติมันอาจใช้เวลานานมาก (cf. @ คำตอบของมาโครที่นี่: การถดถอยเมื่อ OLS ที่เหลือไม่กระจายตามปกติ) หากคุณเชื่อว่าข้อมูลดิบของคุณ (ในกลุ่ม) จะไม่ปกติมากก็อาจจะดีกว่าที่จะใช้ชนิดที่แตกต่างกันของการทดสอบเช่นMann-Whitney U -test โปรดทราบว่าด้วยข้อมูลที่ไม่ปกติ Mann-Whitney Uทดสอบและอาจเป็นเช่นนั้นแม้ว่า CLT จะเตะเข้ามาแล้ว (มันคุ้มค่าที่จะชี้ให้เห็นว่าการทดสอบความเป็นมาตรฐาน มีแนวโน้มที่จะทำให้คุณหลงผิดโปรดดูที่: คือการทดสอบภาวะปกติ 'ไร้ประโยชน์เป็นหลัก'? )- การทดสอบมีแนวโน้มว่าจะมีประสิทธิภาพมากกว่าt

ในอัตราใด ๆ ที่จะตอบคำถามของคุณมากขึ้นอย่างชัดเจนถ้าคุณเชื่อว่าคุณ (ในกลุ่ม) ข้อมูลดิบที่ยังไม่ได้กระจายตามปกติใช้ Mann-Whitney U -test; หากคุณเชื่อว่ามีการเผยแพร่ข้อมูลตามปกติ แต่คุณไม่รู้จัก SD a-initiali ให้ใช้t -test และถ้าคุณเชื่อว่าข้อมูลของคุณมีการเผยแพร่ตามปกติและคุณรู้จัก SD a-Priori ให้ใช้zทดสอบ

มันอาจช่วยให้คุณอ่านคำตอบล่าสุดของ @ GregSnow ได้ที่นี่: การตีความค่า p ในการเปรียบเทียบสัดส่วนระหว่างกลุ่มย่อยสองกลุ่มใน Rเกี่ยวกับปัญหาเหล่านี้เช่นกัน


ขอบคุณสิ่งนี้มีประโยชน์จริง ๆ ฉันรู้ว่าฉันยุ่งมากเกินไปเนื่องจากการทดสอบ t สำหรับ n ที่มีขนาดใหญ่กว่าปกติ ดังนั้นการพูดอย่างเคร่งครัดแม้ว่า n คือ 1,000 ควรใช้การทดสอบ t ถ้าไม่รู้จัก SD a-Priori?
Hatti

ไม่เป็นไร พูดอย่างเคร่งครัดใช่แต่โปรดทราบว่ามันจะยากมากที่จะบอกความแตกต่างระหว่างการแจกแจงแบบและการแจกแจงแบบปกติ ณ จุดนั้น t
gung - Reinstate Monica

ได้แน่นอน. ขออภัยที่ได้รับการพิถีพิถันมากเพียงแค่พยายามที่จะคิดวิธีการอธิบายให้ผู้อื่นในลักษณะที่ค่อนข้างขาวดำ ขอบคุณสำหรับความช่วยเหลือของคุณขอบคุณ!
Hatti

นอกจากนี้โปรดทราบว่าการคำนวณผลการทดสอบ t-t นั้นสำหรับทุกเจตนาและวัตถุประสงค์โดยไม่มีค่าใช้จ่ายในการคำนวณพิเศษที่มีความหมายในปัจจุบัน เราไม่ได้ค้นหาสถิติการทดสอบในตารางกระดาษบางรายการที่ไม่สามารถครอบคลุมทุกกรณีได้เรากำลังขอคอมพิวเตอร์ เหตุใดจึงต้องกังวลและกังวลว่าบางทีคุณอาจได้ผลลัพธ์เดียวกันโดยใช้การทดสอบ z
Björn

11

ไม่มีอะไรจะพูดคุยเกี่ยวกับเรื่องนี้ ใช้การทดสอบ -test เสมอสำหรับการทดสอบที่ไม่ใช่พารามิเตอร์ของความแตกต่างในค่าเฉลี่ยยกเว้นว่ามีการเรียกใช้เครื่องมือ resampling ที่มีความซับซ้อนมากขึ้นเช่นการเปลี่ยนรูปหรือ bootstrap— (มีประโยชน์ในตัวอย่างขนาดเล็กมากที่มีขนาดใหญ่มากt

หากองศาอิสระมีความสำคัญจริง ๆ แล้วการทดสอบจะให้การประเมินค่าที่สำคัญอย่างสม่ำเสมอและข้อผิดพลาดมาตรฐานสำหรับการแจกแจงสถิติการทดสอบภายใต้สมมติฐานว่าง มิฉะนั้นt -test จะประมาณเดียวกันกับz -testttz

การประมาณค่าปกติสำหรับการทดสอบพารามิเตอร์แบบจำลองพารามิเตอร์เช่นการทดสอบสัดส่วนประชากรนั้นเป็นชนิดที่หมดอายุ เมื่อข้อมูลมีขนาดเล็กพอที่จะมีความแตกต่างระหว่างค่าวิกฤตที่เกิดจากหรือztzการแจกแจงแบบคุณควรใช้การทดสอบที่แน่นอนของสัดส่วนตามการกระจายตัวแบบทวินามของสถิติการทดสอบ การทดสอบการสุ่มตัวอย่างอีกวิธีหนึ่งก็ทำได้เช่นกัน การกำหนดกฎเกณฑ์อย่างง่ายๆเกี่ยวกับขนาดตัวอย่างและความชุกของกรณี / การควบคุมในการประมาณค่าพารามิเตอร์ของ Bernoulli นั้นทำให้เกิดความสับสนและเกิดข้อผิดพลาดได้ง่าย

zt


ใช้ t-test เสมอสำหรับการทดสอบที่ไม่ใช่พารามิเตอร์ของความแตกต่างในความหมาย .. คุณหมายถึงพารามิเตอร์ที่ไม่ใช่คุณ?
Xavier Bourret Sicotte
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.