การอ้างอิงใดที่ควรอ้างอิงเพื่อสนับสนุนการใช้ 30 เป็นขนาดตัวอย่างที่ใหญ่พอ


41

ฉันได้อ่าน / ได้ยินหลายครั้งว่าขนาดตัวอย่างของหน่วยอย่างน้อย 30 หน่วยนั้นถือว่าเป็น "กลุ่มตัวอย่างขนาดใหญ่" (สมมติฐานปกติของวิธีการมักจะถือประมาณเนื่องจาก CLT, ... ) ดังนั้นในการทดลองของฉันฉันมักจะสร้างตัวอย่าง 30 หน่วย คุณช่วยให้ฉันอ้างอิงซึ่งควรจะอ้างถึงเมื่อใช้ขนาดตัวอย่าง 30?


2
หากไม่มีการอ้างอิงถึงจำนวนพารามิเตอร์ที่คุณพยายามประเมินหรือแบบจำลองที่คุณใช้งานร่วมกันดูเหมือนว่าเป็นการยากที่จะให้คำตอบที่ชัดเจน
chl

2
การยอมรับของ n = 30 เป็นขอบเขตของตัวอย่างขนาดเล็กและขนาดใหญ่ไม่ได้รับการสนับสนุนอย่างดีจากเทคนิคทางสถิติใด ๆ
Jibol

คำตอบ:


37

ตัวเลือกของn = 30 สำหรับขอบเขตระหว่างตัวอย่างขนาดเล็กและขนาดใหญ่เป็นกฎง่ายๆ มีหนังสือจำนวนมากที่อ้างถึงคุณค่านี้ (เช่น) ความน่าจะเป็นและการอนุมานเชิงสถิติของ Hogg และ Tanis (7e) กล่าวว่า "มากกว่า 25 หรือ 30"

ที่กล่าวว่าเรื่องที่บอกให้ผมก็คือว่าเหตุผลเดียวที่ 30 ได้รับการยกย่องว่าเป็นเขตแดนที่ดีเพราะมันจะทำให้สวยนักศึกษาเสื้อตารางในด้านหลังของตำราที่จะพอดีอย่างในหนึ่งหน้า นั่นและค่าวิกฤต (ระหว่างtของนักเรียนและปกติ) จะปิดโดยประมาณสูงสุด 0.25 เท่านั้นอย่างไรก็ตามจาก df = 30 ถึง df = infinity สำหรับการคำนวณด้วยมือนั้นความแตกต่างนั้นไม่สำคัญเลย

ทุกวันนี้มันง่ายที่จะคำนวณค่าที่สำคัญสำหรับทุกประเภทของทศนิยม 15 ตำแหน่ง ยิ่งไปกว่านั้นเรามีวิธี resampling และ permutation ซึ่งเราไม่ได้ จำกัด การกระจายตัวแบบพารามิเตอร์

ในทางปฏิบัติฉันไม่เคยพึ่งพาn = 30 วางแผนข้อมูล แทนที่การกระจายแบบปกติถ้าคุณชอบ มองเห็นประเมินว่าการประมาณปกติเหมาะสมหรือไม่ (และถามว่าจำเป็นต้องใช้การประมาณจริงหรือไม่) หากการสร้างตัวอย่างเพื่อการวิจัยและการประมาณนั้นเป็นข้อบังคับให้สร้างขนาดตัวอย่างเพียงพอที่จะทำการประมาณให้ใกล้เคียงกับที่ต้องการ (หรือใกล้เคียงที่สุดเท่าที่จะทำได้)


13
นี่คือหน้าเกี่ยวกับการกระจายปกติของ t สำหรับ n = 30 johndcook.com/normal_approx_to_t.html
John D. Cook

41

จริง ๆ แล้ว "เลขกล" 30 คือการเข้าใจผิด ดูกระดาษที่น่ารื่นรมย์ของจาค็อบโคเฮน, สิ่งที่ฉันได้เรียนรู้ (So Far) (น. โรคจิต. ธันวาคม 1990 45 # 12, PP 1304-1312) ตำนานนี้เป็นตัวอย่างแรกของเขาว่า "บางสิ่งที่คุณเรียนรู้ไม่เป็นเช่นนั้น"

[O] ne จากผู้สมัครระดับปริญญาเอกของฉันทำวิทยานิพนธ์ [กับ] ตัวอย่างเพียง 20 กรณีต่อกลุ่ม ... [L] ater ฉันค้นพบ ... ว่าสำหรับการเปรียบเทียบแบบสองกลุ่มอิสระกับต่อกลุ่มที่ระดับสองด้านที่ได้รับการชำระความน่าจะเป็นที่ผลกระทบขนาดกลางจะถูกระบุไว้ อย่างมีนัยสำคัญโดยที่ ... Tทดสอบเป็นเพียง0.47ดังนั้นจึงเป็นการพลิกเหรียญประมาณว่าใครจะได้ผลลัพธ์ที่สำคัญแม้ว่าในความเป็นจริงขนาดของเอฟเฟกต์นั้นมีความหมาย ... [เพื่อนของฉัน] จบลงด้วยผลลัพธ์ที่ไม่สำคัญ - ซึ่งเขาได้ดำเนินการทำลายทฤษฎีทางจิตวิเคราะห์ที่สำคัญสาขาหนึ่งn=30.05.47.47


2
การอ้างอิงที่สวยงาม - และจุดที่เกี่ยวข้อง ขอขอบคุณ.
whuber

1
@whuber คุณจำได้ไหมว่ามันเป็นกระดาษ? ลิงค์เสียตอนนี้ บางทีนี่อาจเป็นpsych.colorado.edu/~willcutt/pdfs/Cohen_1990.pdf "สิ่งที่ฉันได้เรียนรู้ (จนถึงตอนนี้)"? ปีที่ตรงกับที่อยู่ใน URL ของลิงค์ที่ใช้งานไม่ได้
อะมีบาพูดว่า Reinstate Monica

1
@ Amoeba ฉันบันทึกบทความนี้เมื่อฉันอ่านดังนั้นฉันสามารถยืนยันสิ่งที่คุณพบว่าเป็นสิ่งที่ตั้งใจไว้ ฉันได้อัปเดตคำตอบนี้เพื่อรวมการอ้างอิงพร้อมกับลิงก์ของคุณแล้ว
whuber

@Carlos Accioly ฉันได้ทำการอัพเดทด้วยลิงค์ใหม่เนื่องจากลิงค์ก่อนหน้านี้เสีย
Akshay Bansal

9

IMO ทุกอย่างขึ้นอยู่กับสิ่งที่คุณต้องการใช้ตัวอย่าง ตัวอย่าง "โง่" สองตัวอย่างเพื่ออธิบายสิ่งที่ฉันหมายถึง: หากคุณต้องการประเมินค่าเฉลี่ยการสังเกต 30 ครั้งนั้นมากเกินพอ หากคุณต้องการประมาณการถดถอยเชิงเส้นด้วยตัวทำนาย 100 ตัวการสังเกต 30 ครั้งจะไม่ใกล้เพียงพอ


9

μ¯(n)

โดยทั่วไป CLT ต้องการเสาสองต้นเป็นหลัก:

  1. ตัวแปรสุ่มนั้นมีความเป็นอิสระ: คุณสามารถจัดลำดับการสังเกตใหม่ได้โดยไม่ต้องสูญเสียข้อมูลใด ๆ *
  2. rv นั้นมาจากการแจกแจงด้วยช่วงเวลาอัน จำกัด : หมายความว่าตัวประมาณค่าดั้งเดิมของค่าเฉลี่ยและ sd มักจะรวมตัวกันเมื่อขนาดตัวอย่างเพิ่มขึ้น

(เงื่อนไขทั้งสองนี้สามารถลดลงได้บ้าง แต่ความแตกต่างส่วนใหญ่เป็นลักษณะทางทฤษฎี)


6
ตัวอย่างของคุณแสดงค่าของสถิติที่มีประสิทธิภาพ แบ่งตัวอย่างประมาณการพารามิเตอร์สถานที่ตั้งของ Cauchy กระจายได้ดี หนึ่งอาจโต้แย้งว่าจุดอ่อนที่สุดในการใช้ t-test กับ 30 ตัวอย่างคือ t-test ไม่ใช่ 30 ตัวอย่าง
John D. Cook

1
John:> "เราอาจโต้แย้งได้ว่าจุดอ่อนที่สุดในการใช้ t-test กับ 30 ตัวอย่างคือ t-test ไม่ใช่ 30 ตัวอย่าง" จริงมากและยังสันนิษฐานว่าข้อมูลเป็นIID นอกจากนี้ค่ามัธยฐานคือ MLE สำหรับ Cauchy กระจายตัวแปรสุ่ม (และมีประสิทธิภาพ) แต่โดยทั่วไปคุณอาจต้องการการสังเกตมากกว่า 30 ครั้ง
user603

1
ไม่ใช่ทุกรุ่นของ CLT ที่พึ่งพาการกระจายตัวเหมือนกันหรือแม้แต่ความเป็นอิสระ คนพื้นฐานการสอนให้นักศึกษาระดับปริญญาตรีมักจะทำ แต่มีรุ่นที่ไม่ได้ทำให้ทั้งสองสมมติฐานเช่นLyapunov CLTถือว่าเป็นอิสระ แต่ไม่เหมือนกันการกระจายและสภาพความเป็นอิสระนอกจากนี้ยังสามารถผ่อนคลายเช่นดูที่นี่ สิ่งที่ 'จัดลำดับใหม่' นั้นไม่เหมือนกับความเป็นอิสระ การพึ่งพาอาศัยบางรูปแบบไม่ได้ขึ้นอยู่กับคำสั่งซื้อ
Glen_b

2
ขนาดตัวอย่าง 50,000 ไม่เพียงพอสำหรับ CLT ที่จะทำงานได้ดีพอที่จะคำนวณช่วงความมั่นใจสำหรับค่าเฉลี่ยของการแจกแจงแบบล็อกปกติ
Frank Harrell
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.