ช่วงความเชื่อมั่นเมื่อขนาดตัวอย่างใหญ่มาก

14

คำถามของฉันสามารถใช้ถ้อยคำใหม่เป็น "วิธีการประเมินข้อผิดพลาดการสุ่มตัวอย่างโดยใช้ข้อมูลขนาดใหญ่" โดยเฉพาะอย่างยิ่งสำหรับสิ่งพิมพ์วารสาร นี่คือตัวอย่างที่แสดงให้เห็นถึงความท้าทาย

จากชุดข้อมูลที่มีขนาดใหญ่มาก (ผู้ป่วยที่ไม่ซ้ำกันมากกว่า 100,000 รายและยาที่กำหนดจากโรงพยาบาล 100 แห่ง) ฉันสนใจที่จะประเมินสัดส่วนของผู้ป่วยที่ทานยาโดยเฉพาะ มันตรงไปตรงมาเพื่อให้ได้สัดส่วนนี้ ช่วงความเชื่อมั่นของมัน (เช่นพารามิเตอร์หรือ bootstrap) แน่น / แคบอย่างไม่น่าเชื่อเพราะ n มีขนาดใหญ่มาก ในขณะที่โชคดีที่มีตัวอย่างขนาดใหญ่ฉันยังคงค้นหาวิธีการประเมินนำเสนอและ / หรือแสดงภาพความน่าจะเป็นข้อผิดพลาดบางรูปแบบ ในขณะที่ดูเหมือนว่าไม่ช่วยเหลือ (ถ้าไม่ทำให้เข้าใจผิด) เพื่อใส่ / แสดงช่วงความเชื่อมั่น (เช่น 95% CI: .65878 - .65881) แต่ก็ดูเหมือนว่าเป็นไปไม่ได้ที่จะหลีกเลี่ยงบางข้อความเกี่ยวกับความไม่แน่นอน

โปรดแจ้งให้เราทราบว่าคุณคิดอย่างไร ฉันจะขอบคุณวรรณกรรมใด ๆ ในหัวข้อนี้ วิธีในการหลีกเลี่ยงความมั่นใจในข้อมูลแม้จะมีกลุ่มตัวอย่างขนาดใหญ่

confidence-interval large-data reporting

— so2015
แหล่งที่มา

7

คุณสามารถหลีกเลี่ยงความมั่นใจมากเกินไปโดยการเรียกคืนว่าข้อผิดพลาดที่ไม่ใช่การสุ่มตัวอย่างยังคงไม่ถูกแตะต้อง หากมีอคติในการสุ่มตัวอย่างและการตรวจวัดก็ยังคงมีอยู่ นอกจากนี้ไม่ว่าคุณจะนับจำนวนผู้ป่วยที่ไม่ซ้ำกัน (ฉันอยากบอกว่า "ชัดเจน") หรือการสังเกตที่กำหนดไว้ในวิธีอื่นมีโครงสร้างกลุ่ม (ฉันเข้าใจ) เชื่อมโยงยาเสพติดสำหรับผู้ป่วยรายเดียวกันและยาที่ให้กัน ไม่ได้ถูกนำมาคำนวณโดยการคำนวณช่วงความเชื่อมั่นที่ง่ายที่สุด ฉันไม่มีวิธีแก้ปัญหาเกี่ยวกับวิธีหาปริมาณสิ่งนี้นอกเหนือจากการเปรียบเทียบกับชุดข้อมูลอื่นและการจัดทำเอกสารข้อมูล

— Nick Cox

10

ปัญหานี้เกิดขึ้นในงานวิจัยของฉันเช่นกัน (ในฐานะโมเดลการแพร่ระบาดของโรคฉันมีความหรูหราในการสร้างชุดข้อมูลของตัวเองและมีคอมพิวเตอร์ขนาดใหญ่เพียงพอพวกมันสามารถปรับขนาดได้เองตามอำเภอใจ

ในแง่ของการรายงานฉันคิดว่าคุณสามารถรายงานช่วงเวลาความมั่นใจที่แม่นยำยิ่งขึ้นได้แม้ว่ายูทิลิตี้ของสิ่งนี้จะเป็นคำถามที่น่าสงสัยเล็กน้อย แต่มันก็ไม่ผิดและมีชุดข้อมูลขนาดนี้ผมไม่คิดว่ามีการโทรมากทั้งช่วงความเชื่อมั่นความต้องการที่จะมีการรายงานและแล้วบ่นว่าเราต้องการจริงทั้งหมดเช่นพวกเขาจะได้รับการปัดเศษให้เป็นตัวเลขสองหลัก ฯลฯ
ในแง่ของการหลีกเลี่ยงความไม่มั่นใจฉันคิดว่ากุญแจสำคัญคือการจำไว้ว่าความแม่นยำและความแม่นยำเป็นสิ่งที่แตกต่างกันและเพื่อหลีกเลี่ยงการทำให้ทั้งคู่สับสน มันเป็นเรื่องที่น่าดึงดูดใจมากเมื่อคุณมีกลุ่มตัวอย่างจำนวนมากเพื่อดูดเข้าไปในความแม่นยำของเอฟเฟกต์โดยประมาณและไม่คิดว่ามันอาจผิด ฉันคิดว่าเป็นกุญแจสำคัญ - ชุดข้อมูลแบบเอนเอียงจะมีอคตินั้นที่ N = 10, หรือ 100, หรือ 1,000 หรือ 100,000

วัตถุประสงค์ทั้งหมดของชุดข้อมูลขนาดใหญ่คือการประมาณการที่แม่นยำดังนั้นฉันไม่คิดว่าคุณจะต้องหลีกเลี่ยงความแม่นยำนั้น แต่คุณต้องจำไว้ว่าคุณไม่สามารถสร้างข้อมูลที่ไม่ดีได้ง่ายขึ้นเพียงแค่รวบรวมข้อมูลที่ไม่ดีจำนวนมากขึ้น

— Fomite
แหล่งที่มา

ฉันคิดว่าข้อมูลที่ไม่ดีจำนวนมากยังดีกว่าข้อมูลที่ไม่ดีในปริมาณเล็กน้อย

— Aksakal

@Aksakal ทำไม คำตอบที่ผิดอย่างแม่นยำยังคงผิด

— Fomite

@Fomite - ใช่ แต่คุณมีความมั่นใจว่ามันผิด :)

— ดันแคน

6

ปัญหานี้เกิดขึ้นในต้นฉบับของฉันเอง

1. ตัวเลือกการรายงาน: หากคุณมี CIs เพียงหนึ่งหรือไม่กี่ตัวที่รายงานให้รายงาน "(เช่น 95% CI: .65878 - .65881)" ไม่ใช่คำอธิบายที่มากเกินไปและเน้นถึงความแม่นยำของ CI อย่างไรก็ตามหากคุณมี CIs มากมายคำสั่งแบบครอบคลุมอาจเป็นประโยชน์ต่อผู้อ่านมากกว่า ตัวอย่างเช่นโดยปกติฉันจะรายงานบางสิ่งถึงผลกระทบของ "ด้วยขนาดตัวอย่างนี้ขอบความเชื่อมั่น 95% ของข้อผิดพลาดสำหรับแต่ละสัดส่วนน้อยกว่า +/- .010" ฉันมักจะรายงานบางอย่างเช่นนี้ในวิธีการหรือในคำอธิบายของตารางหรือรูปหรือทั้งสองอย่าง

2. หลีกเลี่ยง "ความมั่นใจมากเกินไป" แม้จะมีขนาดตัวอย่างใหญ่: ด้วยตัวอย่าง 100,000 ทฤษฎีบทขีด จำกัด กลางจะทำให้คุณปลอดภัยเมื่อรายงาน CIs สำหรับสัดส่วน ดังนั้นในสถานการณ์ที่คุณอธิบายคุณควรจะโอเคเว้นแต่มีการละเมิดสมมติฐานอื่น ๆ ที่ฉันไม่ทราบ (เช่นละเมิด iid)

— แอนโทนี่
แหล่งที่มา

0

อย่ารายงานช่วงความมั่นใจ รายงานขนาดตัวอย่างและสัดส่วนที่แน่นอนแทน ผู้อ่านจะสามารถคำนวณ CIs ของตัวเองได้ทุกทาง

— Aksakal
แหล่งที่มา

4

ทำไมไม่ควรใช้เหตุผลนี้มากนำไปใช้กับทุกการรายงานข้อมูลเชิงปริมาณ?

— whuber

@whuber คำถามที่ดี ฉันทั้งหมดสำหรับการวิจัยที่ทำซ้ำได้หวังว่าทุกคนจะเผยแพร่ชุดข้อมูลของพวกเขา

— Aksakal

6

ฉันไม่ได้ตั้งใจให้เป็นข้อเสนอแนะ แม้ว่าทุกคนเผยแพร่ชุดข้อมูลของพวกเขาพวกเขาจะยกเลิกหน้าที่ทางวิทยาศาสตร์ของพวกเขาหากพวกเขาล้มเหลวในการวิเคราะห์พวกเขา - และนั่นรวมถึงการวิเคราะห์ความไม่แน่นอน คุณดูเหมือนจะไปในทิศทางที่มีเหตุผลจะจบลงด้วยคำแนะนำที่นักวิทยาศาสตร์ไม่ทำอะไรนอกจากการเผยแพร่ข้อมูลโดยไม่มีการวิเคราะห์เลย! นั่นคือข้อกล่าวหาของข้อเสนอแนะที่ไม่ได้ถูกรายงาน มันบ่งชี้ว่าตรงกันข้ามว่าการวิเคราะห์ทางสถิติบางประเภทควรได้รับการเสนอในกรณีใด ๆ โดยไม่คำนึงถึงขนาดตัวอย่าง

— whuber

0

พิจารณาความเป็นไปได้ที่สัดส่วนโรงพยาบาล 100 แห่งที่แตกต่างกันนั้นไม่ได้รวมกันเป็นค่าเฉลี่ยเดียวกัน คุณทดสอบความแปรปรวนระหว่างกลุ่มหรือไม่ หากมีความแตกต่างที่วัดได้ระหว่างโรงพยาบาลก็จะไม่สนับสนุนสมมติฐานที่ว่ากลุ่มตัวอย่างเกิดจากการแจกแจงปกติทั่วไปและคุณไม่ควรรวมกลุ่มกัน

อย่างไรก็ตามถ้าข้อมูลของคุณมาจากกลุ่มตัวอย่างขนาดใหญ่ที่กระจายตัวตามปกติคุณจะไม่พบคำสั่ง "ประโยชน์เกี่ยวกับความไม่แน่นอน" ที่เป็นประโยชน์ของข้อมูล แต่เมื่อพิจารณาว่าทำไมสถิติของคุณจึงควรสรุป อคติบางอย่างในการรวบรวมหรือการขาดความคงที่ ฯลฯ ที่คุณควรชี้ให้เห็น

— จอห์นมาร์ค
แหล่งที่มา