ถ้าตัวอย่างแบบสุ่มของคุณไม่ได้เป็นตัวแทนอย่างชัดเจนล่ะ


28

เกิดอะไรขึ้นถ้าคุณใช้ตัวอย่างที่สุ่มและคุณสามารถเห็นมันได้อย่างชัดเจนไม่ได้เป็นตัวแทนเช่นเดียวกับในคำถามที่ผ่านมา ตัวอย่างเช่นถ้าการกระจายตัวของประชากรควรมีความสมมาตรประมาณ 0 และตัวอย่างที่คุณวาดแบบสุ่มนั้นมีการสังเกตเชิงบวกและลบที่ไม่สมดุลและความไม่สมดุลนั้นมีนัยสำคัญทางสถิตินั่นจะทำให้คุณอยู่ที่ไหน คุณสามารถสร้างประโยคที่สมเหตุสมผลเกี่ยวกับประชากรจากกลุ่มตัวอย่างที่มีอคติได้อย่างไร การกระทำที่เหมาะสมในสถานการณ์เช่นนี้คืออะไร? การวิจัยของเรามีความสำคัญเมื่อเราสังเกตเห็นความไม่สมดุลนี้หรือไม่?


2
Michael ปัญหานี้คาดว่าจะเกิดขึ้นครั้งเดียวในปี 20 ถ้าเราใช้นัยสำคัญทางสถิติเป็นตัวชี้วัดของเรา บ่อยครั้งที่เราไม่ทราบว่าเมื่อใดที่เราสุ่มเลือกตัวอย่างที่ไม่ได้เป็นตัวแทนเพราะเราไม่รู้จักประชากรมากพอ แต่เมื่อเรารู้อะไรบางอย่างเกี่ยวกับประชากรและเราสังเกตเห็นความผิดปกติดังกล่าวเราจะทำอย่างไร
Joel W.

3
ใช่การปฏิบัติที่ถูกต้องที่สุดคือการได้รับตัวอย่างแบบสุ่มที่มีขนาดใหญ่พอสมควรเช่น @MichaelChernick เขียน อย่างไรก็ตามอาจารย์คนหนึ่งของฉันบอกฉันว่าเขายืนยันโดยการจำลองแบบมอนติคาร์โลว่าเมื่อนักวิจัยต้องเพิ่มขนาดตัวอย่างมันไม่ถูกต้องนักที่จะเพิ่มความเป็นอันหนึ่งอันเดียวทางสถิติให้กับกลุ่มตัวอย่าง แต่ต้องทำการสุ่มตัวอย่างซ้ำ มิฉะนั้นสถิติอาจจะลำเอียง (อีกครั้ง!)
this.is.not.a.nick

4
@Michael ฉันไม่เข้าใจว่าทำไมคำสั่งของคุณเป็นจริง ค่า p น้อยกว่า. 05 จะเกิดขึ้นภายใต้สมมติฐานว่าง 5% ของเวลาโดยไม่คำนึงถึงขนาดของตัวอย่าง เป็นไปได้อย่างไรที่ขนาดตัวอย่างที่ใหญ่ขึ้นจะแก้ปัญหานี้ได้ ดูเหมือนว่าคำแนะนำของคุณโดยนัยเชิญผู้อ่านให้สับสนขนาดและพลังของการทดสอบสมมติฐาน
whuber

2
@Michael คุณหมายความว่าอย่างไรเราควรรวบรวมข้อมูลเพิ่มเติมแบบสุ่ม? เราหวังว่าเราจะสุ่มตัวอย่างแบบเอนเอียงในทิศทางอื่น ๆ หรือไม่? ไม่ว่าในกรณีใดเราควรวาดจำนวนกรณีใดเพิ่มเติม คุณแนะนำให้เราตั้งค่าหมายเลขที่เริ่มมีอาการหรือใช้กฎการหยุด? หากกฎการหยุดกฎอาจมีลักษณะอย่างไร ในที่สุดแม้ว่าตัวอย่างที่ใหญ่ขึ้นทำให้ไม่มีอคติอย่างมีนัยสำคัญทางสถิติเรารู้ว่ามันประกอบด้วยสองตัวอย่างหนึ่งที่มีอคติและหนึ่งที่ไม่มี คุณสามารถสร้างประโยคที่สมเหตุสมผลเกี่ยวกับประชากรจากตัวอย่างที่ซับซ้อนได้อย่างไร
Joel W.

2
@Michael ข้อสรุปทางเลือกคือตัวอย่างที่มีความสำคัญและมีความเบ้สูงบ่งบอกถึงปัญหาของขั้นตอนการสุ่มตัวอย่าง ถ้าเป็นเช่นนั้นการขาดสมมาตรจะคงอยู่ในกลุ่มตัวอย่างที่มีขนาดใหญ่ขึ้น
whuber

คำตอบ:


7

คำตอบที่ได้รับจาก MLS (ใช้การสุ่มตัวอย่างสำคัญ) เป็นเท่านั้นที่ดีเป็นสมมติฐานที่คุณสามารถทำเกี่ยวกับการกระจายของคุณ จุดแข็งหลักของกระบวนทัศน์การสุ่มตัวอย่างประชากร จำกัด คือมันไม่ใช่แบบพารามิเตอร์เนื่องจากมันไม่ได้ทำการตั้งสมมติฐานใด ๆ เกี่ยวกับการกระจายของข้อมูลเพื่อทำการอนุมาน (ถูกต้อง) ในพารามิเตอร์ประชากร จำกัด

วิธีการที่ถูกต้องสำหรับความไม่สมดุลของตัวอย่างจะถูกเรียกว่าการโพสต์การแบ่งชั้น คุณจำเป็นต้องแยกตัวอย่างออกเป็นคลาสที่ไม่ทับซ้อนกัน (post-strata) จากนั้นให้เพิ่มน้ำหนักคลาสเหล่านี้ใหม่ตามตัวเลขประชากรที่ทราบ หากประชากรของคุณทราบว่ามีค่ามัธยฐานเป็น 0 คุณสามารถประเมินการสังเกตเชิงบวกและลบใหม่เพื่อให้สัดส่วนการถ่วงน้ำหนักของพวกเขากลายเป็น 50-50: ถ้าคุณมี SRS ที่โชคร้ายที่มีการสังเกตเชิงลบ 10 ครั้งและการสังเกตเชิงบวก 20 ครั้ง น้ำหนักลบของ 15/10 = 1.5 และบวกลบ, 15/20 = 0.75

รูปแบบที่ลึกซึ้งยิ่งขึ้นของการสอบเทียบตัวอย่างจะอยู่ในที่ที่คุณสามารถปรับตัวอย่างของคุณเพื่อตอบสนองข้อ จำกัด ทั่วไปมากขึ้นเช่นมีค่าเฉลี่ยของตัวแปรอย่างต่อเนื่องเพื่อจะเท่ากับมูลค่าที่เฉพาะเจาะจง ข้อ จำกัด ที่สมมาตรนั้นค่อนข้างยากที่จะใช้งานแม้ว่ามันอาจจะทำได้เช่นกัน อาจเป็นJean Opsomerมีบางอย่างในเรื่องนี้: เขาทำงานเกี่ยวกับเคอร์เนลจำนวนมากเพื่อการสำรวจข้อมูล


การแบ่งช่วงโพสต์จะเปรียบเทียบอย่างมีเหตุผลหรือเชิงสถิติเพื่อทิ้งตัวอย่างที่ไม่สมดุลและวาดตัวอย่างอื่นได้อย่างไร (บางครั้งการวาดตัวอย่างคือส่วนที่ใช้แรงงานเข้มข้นของการวิจัย แต่บางครั้งมันเป็นสิ่งที่ทำหลังจากที่คุณวาดตัวอย่างที่ใช้แรงงานเข้มข้นและการวาดตัวอย่างเกี่ยวข้องกับความพยายามเล็กน้อยเช่นเดียวกับในการวิจัยเชิงทดลองมาก)
Joel W .

2
ฉันไม่เคยอยู่ในสถานการณ์ที่การทิ้งข้อมูลเป็นคำตอบที่ดีที่สุดและฉันไม่เคยเห็นมันมาพูดถึงในหนังสือสถิติการสำรวจใด ๆ ในสถิติการสำรวจส่วนใหญ่การรับข้อมูลอย่างน้อยห้าครั้งมีราคาแพงกว่าการประมวลผลและการวิเคราะห์ข้อมูลใด ๆ ดังต่อไปนี้ (ยกเว้นอาจสำหรับการสำรวจเว็บราคาถูกบางส่วนที่การรวบรวมข้อมูลเกือบฟรี) หากคุณอยู่ในโลกการทดลองคุณไม่ควรติดแท็ก "การสุ่มตัวอย่าง" ของโพสต์และใช้ "การออกแบบการทดสอบ" แทน
StasK

ตัวอย่างแบบสุ่มอาจถูกนำมาใช้แทนที่จะแบ่งเป็นชั้น ๆ เพราะมีวิธีที่เป็นไปได้หลายวิธีในการแบ่งเป็นชั้น ๆ ในโลกแห่งความเป็นจริง อาจเกิดขึ้นได้หลังจากเลือกตัวอย่างแบบสุ่มสองตัวอย่างสำหรับการทดสอบคุณจะสังเกตเห็นความไม่สมดุลอย่างชัดแจ้ง จากนั้นคุณติดอยู่ระหว่างหินและสถานที่ที่ยาก: อยู่กับความไม่สมดุล (เช่นผู้สูงอายุทั้งหมดในกลุ่มเดียวลำโพงที่ไม่ใช่เจ้าของภาษาทั้งหมดในกลุ่มเดียวปริญญาเอกทั้งหมดในกลุ่มเดียว ฯลฯ ) หรือวาดรูป ตัวอย่างใหม่และลดการเชื่อมต่อระหว่างสิ่งที่คุณทำกับสมมติฐานของเทคนิคทางสถิติทั้งหมด โพสต์ - แบ่งชั้นดูเหมือนจะเป็นประเภทที่สอง
Joel W.

2

ฉันเป็นสมาชิกจูเนียร์ที่นี่ แต่ฉันบอกว่าการละทิ้งและเริ่มต้นใหม่เป็นคำตอบที่ดีที่สุดเสมอหากคุณรู้ว่าตัวอย่างของคุณไม่มีความหมายอย่างมีนัยสำคัญ และวิธีหลีกเลี่ยงถ้าเป็นไปได้ในครั้งที่สอง

จะทำอย่างไรดีถ้าลองชิมอีกเป็นครั้งที่สองถ้าคุณอาจลงเอยด้วยเรือลำเดียวกัน

หากการรวบรวมข้อมูลอีกครั้งไม่สมเหตุสมผลหรือมีค่าใช้จ่ายสูงคุณต้องทำงานกับสิ่งที่คุณมีพยายามที่จะชดเชยการไม่แสดงตนผ่านการแบ่งชั้นการใส่ความคิดการจำลองแบบนักเล่นหรืออะไรก็ตาม คุณต้องทราบอย่างชัดเจนว่าคุณชดเชยด้วยวิธีนี้ทำไมคุณคิดว่ามันจำเป็นและทำไมคุณถึงคิดว่ามันใช้งานได้ จากนั้นทำงานความไม่แน่นอนที่เกิดขึ้นจากการชดเชยของคุณตลอดการวิเคราะห์ของคุณ (มันจะทำให้ข้อสรุปของคุณแน่นอนน้อยลงใช่มั้ย)

หากคุณไม่สามารถทำเช่นนั้นได้คุณจะต้องทำโครงการทั้งหมด


ถ้าคุณไม่รู้ว่าทำไมตัวอย่างถึงไม่เป็นตัวแทนคุณยังคงให้เหตุผลในการทิ้งตัวอย่างและวาดตัวอย่างสุ่มใหม่หรือไม่? ถ้าไม่ทำไมไม่ นอกจากนี้สมมติว่าคุณทิ้งตัวอย่างแรกและวาดหนึ่งในนั้นเป็นสถิติเชิงอนุมานที่คุณอาจคำนวณตามตัวอย่างที่สองในทางที่ไม่เหมาะสมเนื่องจากตัวอย่างแรกที่ถูกทิ้งไปหรือไม่ ตัวอย่างเช่นหากคุณสมัครสมาชิกเพื่อละทิ้งตัวอย่างที่ไม่เป็นตัวแทนคุณกำลังเปลี่ยนการกระจายตัวตัวอย่างที่การทดสอบทางสถิติของคุณใช้หรือไม่ ถ้าเป็นเช่นนั้นคุณทำให้ง่ายขึ้นหรือยากขึ้นในการค้นหานัยสำคัญทางสถิติหรือไม่?
Joel W.

@ Wayne ความคิดที่ดี
Subhash C. Davar

1

นี่คือคำตอบบางส่วนที่ถือว่าเรารู้ทั้งการกระจายซึ่งเป็นตัวอย่างและเป็นจริง (หรือต้องการ) กระจายพีนอกจากนี้ฉันคิดว่าการกระจายเหล่านี้แตกต่างกัน หากตัวอย่างได้รับจริงผ่านแต่พวกเขาดูผิด: ตัวอย่างที่ยังคงเป็นกลางและการปรับใด ๆ (เช่นการลบค่าผิดปกติ) อาจเพิ่มความลำเอียงqpp

ฉันคิดว่าคุณต้องการหาสถิติ\} ตัวอย่างเช่นอาจเป็นค่าเฉลี่ยของการแจกแจงซึ่งในกรณีนี้คือฟังก์ชันตัวตน หากคุณมีตัวอย่างได้จากคุณสามารถใช้ แต่สมมติว่าคุณมีเพียงตัวอย่างที่ได้รับ (จากโดเมนเดียวกัน) มีการกระจายการสุ่มตัวอย่างQ จากนั้นเรายังสามารถประมาณค่าเป็นกลางโดยการถ่วงน้ำหนักตัวอย่างแต่ละอันตามความน่าจะเป็นสัมพัทธ์ของมันที่เกิดขึ้นภายใต้การแจกแจงแต่ละครั้ง: sp=E{f(X)|Xp}s(p)f{x1,,xn}p

sp1ni=1nf(xi).
xiqspE { p ( X )
sp1ni=1np(xi)q(xi)f(xi).
เหตุผลที่ทำงานนี้คือ ตามที่ต้องการ นี้เรียกว่าการสุ่มตัวอย่างสำคัญ
E{p(X)q(X)f(X)|Xq}=p(X)f(X)dx,

คุณบอกว่าตัวอย่างไม่ลำเอียงและความพยายามใด ๆ ในการแก้ไขตัวอย่างจะเพิ่มอคติ ฉันขอแนะนำว่ากระบวนการที่กลุ่มตัวอย่างถูกรวบรวมนั้นไม่มีอคติ แต่อันที่จริงตัวอย่างนั้นมีความลำเอียงซึ่งอาจจะลำเอียงอย่างจริงจัง มีวิธีที่จะพยายามแก้ไขอคติขนาดใหญ่ที่รู้จักซึ่งอาจคาดว่าจะมีอคติเพิ่มเติมค่อนข้างน้อยใช่หรือไม่
Joel W.

1
เพื่อทำให้เข้าใจคำศัพท์เล็กน้อย: ฉันคิดว่าอคติเป็นคุณสมบัติของความคาดหวังของตัวแปรสุ่ม กล่าวอีกนัยหนึ่งถ้ากระบวนการที่รวบรวมข้อมูลนั้นไม่เอนเอียงดังนั้นตัวอย่างก็คือ อย่างไรก็ตามตัวอย่างอาจยังผิดปกติและนำไปสู่ข้อสรุปที่ไม่พึงประสงค์ วิธีทั่วไปในการแก้ไขปัญหานี้ทำให้เกิดอคติเนื่องจากคุณปรับตัวเข้ากับขั้นตอนการสุ่มตัวอย่าง (ไม่เอนเอียง) อาจเป็นวิธีที่มีอคติน้อยกว่าคือการรวบรวมและใช้ตัวอย่างใหม่ วิธีที่มีอคติมากกว่านี้เล็กน้อยจะเพิ่มตัวอย่างใหม่เหล่านี้ไปยังตัวอย่างเก่า แต่ผลลัพธ์อาจมีความผันแปรน้อยกว่าเนื่องจากคุณมีตัวอย่างทั้งหมดมากกว่า
MLS

2
@Joel W. คุณหมายถึงอะไรเมื่อคุณพูดว่าตัวอย่างนั้นลำเอียง? เป็นการประมาณค่าเฉลี่ยจากตัวอย่างที่มีอคติหรือไม่ การประมาณตัวอย่างใด ๆ จะแตกต่างจากค่าเฉลี่ยจริงและบางค่าอาจอยู่ไกล เมื่อสุ่มตัวอย่างที่สุ่มนี่เป็นเพราะความแปรปรวนไม่ใช่อคติ มันไม่ถูกต้องที่จะบอกว่าตัวอย่างลำเอียงเพราะการกระจายตัวของตัวอย่างเป็นที่รู้กันว่าดูแตกต่างจากการกระจายตัวของประชากร ในตัวอย่างเล็ก ๆ หลายคนอาจดูไม่เป็นตัวแทนด้วยเหตุผลใดก็ตาม แต่การสุ่มแบบสุ่มไม่ใช่การสุ่มแบบลำเอียง
Michael R. Chernick

1
@Michael ฉันยอมรับว่าเราต้องยอมรับและใช้ชีวิตอยู่กับความแปรปรวนแบบสุ่มเมื่อเราต้องทำ ฉันถามสิ่งที่เราอาจทำอย่างสมเหตุสมผลเมื่อเราตรวจพบความแปรปรวนที่ไม่ตั้งใจ จะเกิดอะไรขึ้นถ้ากลุ่มตัวอย่างแบบสุ่มของเรากลายเป็นกลุ่มคนหนุ่มสาวจำนวนมากเกินไปหรือกลุ่มคนทำงานสีน้ำเงินมากเกินไปเป็นต้นเมื่อหมวดหมู่เหล่านั้นเกี่ยวข้องกับการวิจัยของเรา ยิ่งไปกว่านั้นเราควรตรวจสอบตัวอย่างของเราเพื่อดูว่ามันไม่สมดุลกันหรือไม่? และมันจะสำคัญหรือไม่ถ้าเราสังเกตสิ่งนี้ก่อนที่จะทำการวิจัยเพิ่มเติมกับกลุ่มตัวอย่างหรือหลังจากที่เราได้ลงทุนทรัพยากรในการทำวิจัยกับกลุ่มตัวอย่าง?
Joel W.

1
ความไม่สมดุลของ Covariate เป็นสิ่งสำคัญมาก หากมีอยู่ในตัวอย่างสามารถใช้โมเดลการถดถอยเพื่อปรับค่าได้ Vance Berger ได้เขียนหนังสือเกี่ยวกับหัวข้อนี้ซึ่งฉันอาจอ้างถึงก่อนหน้านี้ในเว็บไซต์นี้ นี่คือลิงค์ amazon ไปที่คำอธิบายของหนังสือ amazon.com/Selection-Covariate-Imbalances-Randomized-Statistics/…
Michael R. Chernick
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.