ทำไมทฤษฎีบทขีด จำกัด กลางทำงานกับตัวอย่างเดี่ยว

ฉันได้รับการสอนเสมอว่า CLT ทำงานได้เมื่อคุณสุ่มตัวอย่างซ้ำโดยแต่ละตัวอย่างมีขนาดใหญ่พอ ตัวอย่างเช่นสมมติว่าฉันมีประเทศที่มีประชากร 1,000,000 คน ความเข้าใจของฉันเกี่ยวกับ CLT คือแม้ว่าการแจกแจงความสูงของพวกเขาไม่ปกติถ้าฉันเอาตัวอย่าง 1,000 คนจาก 50 คน (เช่นทำการสำรวจ 1,000 คนจาก 50 คนต่อคน) จากนั้นคำนวณความสูงเฉลี่ยของพวกเขาสำหรับตัวอย่างแต่ละตัวอย่าง หมายถึงจะเป็นเรื่องปกติ

อย่างไรก็ตามฉันไม่เคยเห็นกรณีโลกแห่งความจริงที่นักวิจัยได้ทำการสุ่มตัวอย่างซ้ำ แต่พวกเขาใช้ตัวอย่างใหญ่หนึ่งตัวอย่าง (เช่นสำรวจประชากร 50,000 คนเกี่ยวกับความสูงของพวกเขา) และทำงานจากนั้น

เพราะเหตุใดหนังสือสถิติสอนการสุ่มตัวอย่างซ้ำ ๆ และในนักวิจัยในโลกแห่งความเป็นจริงจึงทำการสุ่มตัวอย่างเพียงครั้งเดียว

แก้ไข: กรณีโลกแห่งความจริงที่ฉันกำลังคิดจะทำสถิติในชุดข้อมูลของผู้ใช้ twitter 50,000 คน ชุดข้อมูลนั้นไม่ได้เป็นตัวอย่างซ้ำ ๆ แต่เป็นเพียงตัวอย่างใหญ่หนึ่ง 50,000

sampling central-limit-theorem

— แอนตัน
แหล่งที่มา

การเก็บตัวอย่าง 1,000 จาก 50,000 เกือบจะเหมือนกับการสุ่ม 1,000 ตัวอย่างอิสระจาก 50,000 ตัวอย่างที่มีขนาดเล็กลง (หรือใหญ่กว่าจักรวาล) ยิ่งดูยิ่งเหมือนกัน

— โทมัส Ahle

CLT (อย่างน้อยในบางส่วนของรูปแบบต่าง ๆ ของมัน) บอกเราว่าในขีด จำกัด เป็น $n\to\infty$ การกระจายตัวของกลุ่มตัวอย่างที่เป็นมาตรฐานเดียวเฉลี่ย ( $\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}$

$n=50$ $n=50,000$

$\bar{X}$

อย่างเคร่งครัดพูดนี้ไม่ได้แสดงให้เห็นถึง CLT มันใกล้กว่าที่จะแสดงให้เห็นถึงทฤษฎีบท Berry-Esseen เนื่องจากมันแสดงให้เห็นถึงบางสิ่งบางอย่างเกี่ยวกับอัตราที่วิธีการที่จะเข้าสู่ภาวะปกติ - แต่ในทางกลับกันจะนำเราไปสู่ CLT ดังนั้น ทำหน้าที่ได้ดีพอ ๆ กับแรงบันดาลใจ (และในความเป็นจริงบ่อยครั้งที่บางสิ่งเช่น Berry-Esseen เข้ามาใกล้กับสิ่งที่ผู้คนต้องการใช้จริงในกลุ่มตัวอย่าง จำกัด อยู่แล้วดังนั้นแรงกระตุ้นอาจมีประโยชน์มากกว่าในทางปฏิบัติมากกว่าทฤษฎีขีด จำกัด กลางเอง) .

การกระจายตัวของค่าเฉลี่ยตัวอย่างเหล่านี้จะเป็นปกติ

ดีไม่มีพวกเขาจะไม่ปกติ แต่พวกเขาจะในทางปฏิบัติมากใกล้เคียงกับปกติ (สูงค่อนข้างเอียง แต่ไม่มากลาด)

$n=50$

กรณีของโลกแห่งความเป็นจริงที่ฉันกำลังคิดจะทำสถิติในชุดข้อมูลของผู้ใช้ทวิตเตอร์ 50,000 คน ชุดข้อมูลนั้นไม่ได้เป็นตัวอย่างซ้ำ ๆ แต่เป็นเพียงตัวอย่างใหญ่หนึ่ง 50,000

สำหรับการแจกแจงจำนวนมากค่าเฉลี่ยตัวอย่างของ 50,000 รายการจะมีความใกล้เคียงกับการแจกแจงแบบปกติมาก - แต่มันไม่รับประกันแม้ว่าที่ n = 50,000 คุณจะมีการแจกแจงแบบปกติมาก (ถ้าการกระจายตัวของแต่ละรายการเพียงพอ ยกตัวอย่างเช่นการแจกแจงค่าเฉลี่ยตัวอย่างอาจยังเบ้มากพอที่จะทำให้การประมาณค่าปกติไม่สามารถป้องกันได้)

( ทฤษฎีบทของ Berry-Esseenจะนำเราไปสู่การคาดการณ์ว่าปัญหานั้นอาจเกิดขึ้นได้ - และทำได้จริง ๆ มันเป็นตัวอย่างของ CLT ที่ใช้งานได้ง่าย แต่ n = 50,000 นั้นไม่ได้เป็นตัวอย่างที่มีขนาดใหญ่พอสำหรับ ตัวอย่างที่ได้มาตรฐานหมายถึงใกล้เคียงปกติ)

— Glen_b -Reinstate Monica
แหล่งที่มา

เพื่อตรวจสอบว่า 50,000 มีขนาดใหญ่พอหรือไม่เราสามารถทำการจำลองใน R ได้ถูกต้องหรือไม่ ฉันจะใช้ค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานของตัวอย่าง แต่ฉันจะแน่ใจได้อย่างไรว่าจะจำลองจากการกระจายตัวตัวอย่างเดียวกันของฉัน

— Amonet

พูดอย่างเคร่งครัดคุณจะต้องจำลองจากการกระจายตัวของประชากร คุณสามารถรักษาการกระจายตัวตัวอย่างของคุณเป็นค่าประมาณของการกระจายตัวของประชากร (ซึ่งคล้ายกับการบูตสแตรป) - แต่นี่จะไม่เพียงพอสำหรับจุดประสงค์ดังกล่าว ยกตัวอย่างเช่นลองวาดตัวอย่างจากการแจกแจงโคชีแล้วทำการสุ่มใหม่จากการแทนที่ด้วย (สำหรับตัวอย่างที่มีขนาดใหญ่มากขึ้น) จนกระทั่งการกระจายตัวของ resampled หมายถึง "ปกติเพียงพอ" คุณจะสรุปได้เสมอว่าขนาดตัวอย่างที่ จำกัด มีเพียงพอ แต่ในความจริงแล้วมันจะไม่เป็นเช่นนั้น

— Glen_b -Reinstate Monica