ทำไมถึงต้องพิจารณาการสุ่มตัวอย่างโดยไม่ต้องแทนที่ในแอปพลิเคชันเชิงปฏิบัติ


13

การสุ่มตัวอย่างด้วยการเปลี่ยนมีสองข้อได้เปรียบกว่าการสุ่มตัวอย่างโดยไม่ต้องเปลี่ยนอย่างที่ฉันเห็น:

1) คุณไม่จำเป็นต้องกังวลเกี่ยวกับการแก้ไขประชากร จำกัด

2) มีโอกาสที่องค์ประกอบจากประชากรจะถูกดึงหลายครั้ง - จากนั้นคุณสามารถรีไซเคิลการวัดและประหยัดเวลา

แน่นอนจากมุมมองทางวิชาการคนหนึ่งต้องตรวจสอบทั้งสองวิธี แต่จาก POV เชิงปฏิบัติฉันไม่เห็นว่าทำไมใครจะพิจารณาการสุ่มตัวอย่างโดยไม่มีการเปลี่ยนเนื่องจากข้อดีของการแทนที่

แต่ฉันเป็นผู้เริ่มต้นในสถิติดังนั้นอาจมีเหตุผลมากมายที่ทำไมการไม่มีการทดแทนอาจเป็นตัวเลือกที่ดีกว่า - อย่างน้อยสำหรับกรณีการใช้งานเฉพาะ ได้โปรดเถียงฉันด้วย!


3
คำแนะนำ: พิจารณาว่าผลของการใช้การแก้ไขประชากรแบบ จำกัด คืออะไรและเพราะเหตุใดจึงอาจเป็นประโยชน์ (นอกจากนี้ยังทราบว่า (1) ทำเงินก้อนมักจะมีปัญหาน้อยกว่าค่าใช้จ่ายและการเก็บรวบรวมข้อมูล (2) ถ้าคุณสามารถแยกแยะบุคคลที่คุณไม่ควร "รีไซเคิล" วัด แต่อนุมานฐานเฉพาะในบุคคลที่แตกต่างกัน.)
Scortchi - Reinstate Monica

จริงๆแล้วฉันไม่เข้าใจคำยืนยันของคุณเลย FPC ชดเชยผลที่เป็นตัวเลขจากการขาดความเป็นอิสระของการวัด แต่ฉันไม่รู้ว่าทำไมสิ่งนี้จึงเป็นข้อได้เปรียบ (1) สิ่งนี้เกี่ยวข้องกับคำถามของฉันอย่างไร (2) ทำไม "คุณไม่ควร" คุณรีไซเคิลการวัด ไม่ทำเช่นนั้นผลตรรกะโดยตรงของการวาดโดยบังเอิญสองรายการเดียวกันเมื่อสุ่มตัวอย่างด้วยการแทนที่?
Raffael

คำตอบ:


13

ขยายคำตอบของ @Scortchi . .

สมมติว่าประชากรมีสมาชิก 5 คนและคุณมีงบประมาณในการสุ่มตัวอย่าง 5 คน คุณมีความสนใจในค่าเฉลี่ยประชากรของตัวแปร X ซึ่งเป็นลักษณะของบุคคลในกลุ่มประชากรนี้ คุณสามารถทำได้ด้วยวิธีของคุณและสุ่มตัวอย่างด้วยการเปลี่ยน ความแปรปรวนของค่าเฉลี่ยตัวอย่างจะเป็น V (X) / 5

ในทางกลับกันสมมติว่าคุณสุ่มตัวอย่างบุคคลทั้งห้าโดยไม่มีการเปลี่ยน จากนั้นความแปรปรวนของค่าเฉลี่ยตัวอย่างคือ 0 คุณได้สุ่มตัวอย่างประชากรทั้งหมดแต่ละคนอย่างแน่นอนครั้งเดียวดังนั้นจึงไม่มีความแตกต่างระหว่าง "ค่าเฉลี่ยตัวอย่าง" และ "ค่าเฉลี่ยประชากร" พวกเขาเป็นสิ่งเดียวกัน

ในโลกแห่งความเป็นจริงคุณควรกระโดดด้วยความดีใจทุกครั้งที่คุณทำการแก้ไขประชากร จำกัด เนื่องจาก (drumroll...) มันทำให้ความแปรปรวนของตัวประมาณของคุณลดลงโดยที่คุณไม่ต้องรวบรวมข้อมูลเพิ่มเติม เกือบจะไม่มีอะไรทำ มันเหมือนเวทมนตร์: เวทมนตร์ที่ดี

พูดอย่างเดียวกันในวิชาคณิตศาสตร์ (ให้ความสนใจกับ <และถือว่าขนาดตัวอย่างมากกว่า 1):

การแก้ไขตัวอย่าง จำกัด=ยังไม่มีข้อความ-nยังไม่มีข้อความ-1<ยังไม่มีข้อความ-1ยังไม่มีข้อความ-1=1

การแก้ไข <1 หมายถึงการใช้การแก้ไขทำให้ความแปรปรวนลดลง 'ทำให้คุณใช้การแก้ไขด้วยการคูณมันกับความแปรปรวน ความแปรปรวน DOWN == ดี

ย้ายไปในทิศทางตรงกันข้ามโดยสิ้นเชิงจากคณิตศาสตร์คิดเกี่ยวกับสิ่งที่คุณถาม หากคุณต้องการเรียนรู้เกี่ยวกับประชากรและคุณสามารถสุ่มตัวอย่างจากผู้คนได้ 5 คนดูเหมือนว่าคุณจะได้เรียนรู้เพิ่มเติมโดยการสุ่มตัวอย่างคนเดียวกัน 5 ครั้งหรือดูเหมือนว่าคุณจะเรียนรู้มากขึ้นโดยมั่นใจ คุณลองตัวอย่าง 5 คนที่แตกต่างกันไหม

กรณีของโลกแห่งความจริงเกือบจะตรงกันข้ามกับสิ่งที่คุณพูด คุณแทบจะไม่เคยลองชิมมาแทนที่ --- มันก็ต่อเมื่อคุณกำลังทำสิ่งพิเศษเช่น bootstrapping ในกรณีนี้คุณกำลังพยายามทำให้ตัวประมาณผิดและทำให้ความแปรปรวน "ใหญ่เกินไป"


ภายใต้ "การบูตสแตรป" ฉันเข้าใจการใช้พารามิเตอร์ของตัวอย่างแทนที่พารามิเตอร์ของประชากร (ซึ่งคุณต้องใช้จริง) เพื่อประเมินพารามิเตอร์ของประชากร ทำไมคุณถึงสนใจที่จะ "เพิ่ม" ตัวประมาณค่าและให้ความแปรปรวน "ใหญ่เกินไป"
Raffael

1
@ Яaffaelฉันกำลังพูดถึง bootstrapping ไม่ใช่พารามิเตอร์ คุณนำตัวอย่างของคุณ (พูดถึงขนาด 100) ตัวอย่างอีกครั้งจากการแทนที่ (100 ครั้งที่ให้ตัวอย่างบูตขนาด 100) จากนั้นคำนวณการประมาณดอกเบี้ยที่คุณสนใจอีกครั้ง คุณกำลังรักษาตัวอย่างเป็นประชากรของเล่นจำลองการวาดตัวอย่างจากมันคำนวณค่าประมาณ หากคุณสุ่มตัวอย่างจากกลุ่มประชากรของเล่นโดยไม่มีการเปลี่ยนคุณจะต้องคัดลอกกลุ่มประชากรของเล่นในตัวอย่างอย่างแน่นอนโดยรับค่าประมาณดั้งเดิมเป็นค่าประมาณใหม่ (เช่นความแปรปรวน = 0) เพื่อหลีกเลี่ยงปัญหานี้คุณจึงลองเปลี่ยนตัวอย่างใหม่
Bill

5

ความแม่นยำของการประมาณค่ามักจะสูงกว่าสำหรับการสุ่มตัวอย่างโดยไม่มีการทดแทนเมื่อเทียบกับการสุ่มตัวอย่างด้วยการแทนที่

n


2

ฉันไม่คิดว่าคำตอบที่นี่เพียงพอทั้งหมดและพวกเขาดูเหมือนจะเถียงกันในกรณีที่ จำกัด ซึ่งข้อมูลของคุณอยู่ในระดับต่ำมาก

ด้วยตัวอย่างที่มีขนาดใหญ่พอไม่ต้องกังวลเลยโดยเฉพาะกับตัวอย่างบูตสแตรปจำนวนมาก (~ 1,000) ถ้าผมมีตัวอย่างจากการกระจายจริงชุดข้อมูลที่มีขนาด 10,000 และฉัน resample กับการเปลี่ยน 1,000 ครั้งแล้วกำไรแปรปรวนผม (เมื่อเทียบกับความแปรปรวนฉันจะได้รับโดยการทำไม่มีการเปลี่ยน) เป็นสำคัญโดยสิ้นเชิง

ฉันจะบอกว่าคำตอบที่ถูกต้องมากขึ้นคือ: การ resampling โดยไม่มีการเปลี่ยนเป็นสิ่งจำเป็นเมื่อประเมินความเชื่อมั่นของสถิติลำดับที่สอง ตัวอย่างเช่นถ้าฉันใช้ bootstrap เพื่อประเมินความไม่แน่นอนที่ฉันมีในการวัดการกระจายตัว การวาดโดยการแทนที่ปริมาณนั้นจะทำให้อคติของการกระจายตัวกลับคืนต่ำ

สำหรับตัวอย่างที่เป็นรูปธรรมที่มีข้อมูลจริงถ้าคุณทำเสร็จให้ดูบทความนี้ https://arxiv.org/abs/1612.02827

จะกล่าวถึงคำถามของคุณสั้น ๆ ในหน้า 10


0

ฉันมีผลลัพธ์ที่ปฏิบัติโดยไม่มีการทดแทนในทางปฏิบัติเช่นเดียวกับการทดแทนและขจัดปัญหาทั้งหมด โปรดทราบว่าการคำนวณการเปลี่ยนทดแทนนั้นง่ายกว่ามาก ดังนั้นหากความน่าจะเป็นเกี่ยวข้องกับ p และ q ความน่าจะเป็นของความสำเร็จและความล้มเหลวในกรณีที่มีการเปลี่ยนความน่าจะเป็นที่สอดคล้องกันในกรณีที่ไม่มีการเปลี่ยนจะได้รับเพียงแค่เปลี่ยน p ^ aq ^ b ด้วย (Nab) C (Ra) สำหรับ a และ b ใด ๆ ที่ N, R คือจำนวนลูกบอลทั้งหมดและจำนวนลูกบอลสีขาว จำไว้ว่า p ถือว่าเป็น R / N

K.Balasubramanian


มีการละเว้น (Nab) C (Ra) / (NCR) เป็นนิพจน์ที่ถูกต้อง ตัวอย่างเช่นค่าเฉลี่ย np กลายเป็น n (N-1-0) / (R-1) / NCR คุณสามารถตรวจสอบผลลัพธ์ดังกล่าวได้
Krish Balasubramanian
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.