การคำนวณแบบไดนามิกของจำนวนตัวอย่างที่จำเป็นในการประมาณค่าเฉลี่ย


9

ฉันพยายามประเมินค่าเฉลี่ยของการกระจายแบบเกาส์มากขึ้นหรือน้อยลงผ่านการสุ่มตัวอย่าง ฉันไม่มีความรู้มาก่อนเกี่ยวกับค่าเฉลี่ยหรือความแปรปรวน แต่ละตัวอย่างมีราคาแพงที่จะได้รับ ฉันจะตัดสินใจได้อย่างไรว่าจะต้องสุ่มตัวอย่างจำนวนเท่าไรเพื่อให้ได้ระดับความเชื่อมั่น / ความแม่นยำที่แน่นอน อีกวิธีหนึ่งฉันจะรู้ได้อย่างไรว่าฉันจะหยุดรับตัวอย่างเมื่อไหร่?

คำตอบสำหรับคำถามเช่นนี้ทั้งหมดที่ฉันสามารถหาได้ดูเหมือนจะเข้าใจความรู้เกี่ยวกับความแปรปรวนบางอย่าง แต่ฉันต้องค้นพบสิ่งนั้นตลอดทาง คนอื่นมุ่งไปที่การลงคะแนนและมันไม่ชัดเจนสำหรับฉัน (เริ่มต้นว่าฉัน) วิธีการที่ generalizes - ค่าเฉลี่ยของฉันไม่ w / ใน [0,1] ฯลฯ

ฉันคิดว่านี่อาจเป็นคำถามง่ายๆที่มีคำตอบที่รู้จักกันดี แต่ Google-fu ของฉันกำลังทำให้ฉันล้มเหลว แม้เพียงแค่บอกฉันว่าการค้นหาจะเป็นประโยชน์


เหตุผลใดที่คุณทำเครื่องหมายว่าเป็น CW คำถามดูเหมือนเฉพาะเพียงพอที่จะให้คำตอบที่ถูกต้องหนึ่งข้อดังนั้นจึงไม่ควรเป็น CW

1
@ Josh ที่ไม่เป็นไร ฉันแค่อยากรู้เกี่ยวกับตัวเลือกของคุณ

1
Google "การสุ่มตัวอย่างแบบปรับตัว" และ "การสุ่มตัวอย่างแบบต่อเนื่อง" หากคุณยังคงติดอยู่ให้ใส่คำว่า "Wald" เป็นคำหลักแล้วดำเนินการต่อไปในอดีต (เช่นดูเอกสารที่อ้างอิงงานของ Wald เกี่ยวกับการสุ่มตัวอย่างตามลำดับจากนั้นดูเอกสารที่อ้างอิงพวกเขา ฯลฯ )
whuber

1
@Robby McKilliam: แต่คุณใช้ข้อมูลอะไร? คำถามนี้เกิดขึ้นก่อนที่จะมีการรวบรวมข้อมูลใด ๆ หากคุณรวบรวมค่าทีละครั้งและคำนวณ CI หลังจากเพิ่มค่าใหม่แต่ละชุดข้อมูลคุณไม่สามารถใช้สูตรมาตรฐานสำหรับช่วงเวลาเนื่องจากการเปรียบเทียบหลายรายการที่มีความสัมพันธ์กัน ดังนั้นคุณต้องมีกฎการหยุดที่ปรับผลรวมของความเสี่ยงทางสถิติของตัวประมาณของคุณและค่าใช้จ่ายในการเก็บตัวอย่างเพิ่มเติมแต่ละตัวอย่าง
whuber

1
@whuber ขอบคุณ! ฉันยังคงย่อยวัสดุ แต่ฉันคิดว่านี่คือสิ่งที่ฉันกำลังมองหา หากครั้งนี้มีคำตอบผมยอมรับมัน ...
จอชไนเดอร์ Bleecher

คำตอบ:


2

คุณต้องค้นหาคำว่า 'Bayesian adaptive designs' แนวคิดพื้นฐานมีดังนี้:

  1. คุณเริ่มต้นก่อนหน้าสำหรับพารามิเตอร์ที่น่าสนใจ

    ก่อนที่การรวบรวมข้อมูลนักบวชของคุณจะถูกกระจายออกไป เมื่อมีข้อมูลเพิ่มเติมเข้ามาคุณจะต้องตั้งค่าก่อนหน้าให้เป็นหลังซึ่งสอดคล้องกับ 'ข้อมูลก่อนหน้า + จนถึงจุดนั้น'

  2. เก็บข้อมูล.

  3. คำนวณด้านหลังโดยใช้ data + priors ผู้โพสต์ด้านหลังจะถูกใช้เป็นลำดับก่อนหน้าในขั้นตอนที่ 1 หากคุณรวบรวมข้อมูลเพิ่มเติม

  4. ประเมินว่าเป็นไปตามเกณฑ์การหยุดของคุณหรือไม่

    เกณฑ์การหยุดอาจรวมถึงช่วงเวลาที่น่าเชื่อถือ 95% ไม่ควรใหญ่กว่าหน่วยสำหรับพารามิเตอร์ที่น่าสนใจ นอกจากนี้คุณยังสามารถมีฟังก์ชั่นการสูญเสียอย่างเป็นทางการมากขึ้นที่เกี่ยวข้องกับพารามิเตอร์ของดอกเบี้ยและคำนวณการสูญเสียที่คาดหวังเกี่ยวกับการกระจายหลังสำหรับพารามิเตอร์ที่น่าสนใจ±ϵ

จากนั้นทำซ้ำขั้นตอนที่ 1, 2 และ 3 จนกระทั่งถึงเกณฑ์การหยุดของคุณจากขั้นตอนที่ 4


0

ตามปกติแล้วคุณต้องการอย่างน้อย 30 เพื่อเรียกใช้ทฤษฎีบทขีด จำกัด กลาง (แม้ว่านี่จะค่อนข้างเป็นข้อ จำกัด ก็ตาม) ซึ่งแตกต่างจากในกรณีที่มีการสำรวจความคิดเห็น ฯลฯ ซึ่งมีการจำลองโดยใช้การแจกแจงแบบทวินามคุณไม่สามารถกำหนดขนาดตัวอย่างล่วงหน้าซึ่งรับประกันระดับความแม่นยำด้วยกระบวนการแบบเกาส์ - ขึ้นอยู่กับสิ่งที่เหลือคุณได้รับซึ่งกำหนดข้อผิดพลาดมาตรฐาน

ควรสังเกตว่าถ้าคุณมีกลยุทธ์การสุ่มตัวอย่างที่มีประสิทธิภาพคุณสามารถได้รับผลลัพธ์ที่แม่นยำมากขึ้นกว่าขนาดตัวอย่างที่ใหญ่กว่าด้วยกลยุทธ์ที่ไม่ดี


3
ทำไมเราต้องเรียกใช้ CLT เมื่อสุ่มตัวอย่างจากการแจกแจงแบบเกาส์ที่รู้จัก (หรือสันนิษฐาน) ค่าเฉลี่ยของตัวอย่างหนึ่ง ๆ จะแจกแจงแบบปกติ!
whuber

จุดดี! RTQ ไม่ถูกต้อง
James
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.