ขอบเขตข้อผิดพลาดที่เหมาะสำหรับครอบครัว: การใช้ชุดข้อมูลซ้ำในการศึกษาที่แตกต่างกันของคำถามอิสระทำให้เกิดปัญหาการทดสอบหลายครั้งหรือไม่


11

หากทีมนักวิจัยทำการทดสอบหลายชุด (สมมติฐาน) ในชุดข้อมูลที่ระบุมีหนังสือรับรองจำนวนหนึ่งที่ยืนยันว่าพวกเขาควรใช้รูปแบบการแก้ไขสำหรับการทดสอบหลายรายการ (Bonferroni ฯลฯ ) แม้ว่าการทดสอบจะเป็นอิสระ คำถามของฉันคือสิ่งนี้: ตรรกะเดียวกันนี้ใช้กับหลาย ๆ ทีมที่ทดสอบสมมติฐานในชุดข้อมูลเดียวกันหรือไม่? กล่าวอีกวิธีหนึ่ง - อะไรคืออุปสรรคในการคำนวณข้อผิดพลาดที่เหมาะกับครอบครัว นักวิจัยควร จำกัด การใช้ชุดข้อมูลซ้ำเพื่อการสำรวจเท่านั้นหรือไม่

คำตอบ:


10

ฉันไม่เห็นด้วยอย่างยิ่งกับ @fcoppens กระโดดจากการตระหนักถึงความสำคัญของการแก้ไขสมมุติฐานหลายข้อในการสืบสวนเพียงครั้งเดียวเพื่ออ้างว่า

ไม่มีคำถามว่าจะทำการศึกษามากขึ้นและยิ่งมีการทดสอบสมมติฐานมากขึ้นก็จะเกิดข้อผิดพลาดประเภทที่ 1 มากขึ้น แต่ฉันคิดว่ามีความสับสนตรงนี้กับความหมายของอัตรา "ข้อผิดพลาดที่เหมาะกับครอบครัว" และวิธีที่พวกเขาใช้ในงานวิทยาศาสตร์จริง ๆ

อันดับแรกโปรดจำไว้ว่าการแก้ไขหลายการทดสอบมักจะเกิดขึ้นในการเปรียบเทียบหลังการทดสอบที่ไม่มีสมมติฐานที่กำหนดไว้ล่วงหน้า ไม่ชัดเจนว่าจำเป็นต้องมีการแก้ไขแบบเดียวกันเมื่อมีการตั้งสมมติฐานขนาดเล็กไว้ล่วงหน้า

ประการที่สอง "ความจริงทางวิทยาศาสตร์" ของสิ่งพิมพ์แต่ละฉบับไม่ได้ขึ้นอยู่กับความจริงของแถลงการณ์แต่ละฉบับภายในสิ่งพิมพ์ การศึกษาที่ออกแบบมาอย่างดีเข้าใกล้สมมติฐานทางวิทยาศาสตร์โดยรวม(ตรงข้ามกับทางสถิติ) จากมุมมองที่แตกต่างกันมากมายและรวบรวมผลลัพธ์ที่แตกต่างกันเพื่อประเมินสมมติฐานทางวิทยาศาสตร์ ผลลัพธ์แต่ละรายการอาจได้รับการประเมินโดยการทดสอบทางสถิติ

โดยการโต้แย้งจาก @fcoppens อย่างไรก็ตามหากหนึ่งในการทดสอบทางสถิติของแต่ละบุคคลนั้นทำให้เกิดข้อผิดพลาดแบบที่ 1 จากนั้นจะนำไปสู่ ​​"ความเชื่อที่ผิดของ 'ความจริงทางวิทยาศาสตร์'" นี่เป็นเพียงความผิด

"ความจริงทางวิทยาศาสตร์" ของสมมติฐานทางวิทยาศาสตร์ในสิ่งพิมพ์เมื่อเทียบกับความถูกต้องของการทดสอบทางสถิติของแต่ละบุคคลโดยทั่วไปมาจากการรวมกันของหลักฐานประเภทต่างๆ การยืนยันหลักฐานหลายประเภททำให้ความถูกต้องของสมมติฐานทางวิทยาศาสตร์ที่แข็งแกร่งต่อความผิดพลาดของแต่ละบุคคลที่เกิดขึ้นอย่างหลีกเลี่ยงไม่ได้ เมื่อฉันมองย้อนกลับไปในสิ่งพิมพ์ทางวิทยาศาสตร์กว่า 50 เรื่องฉันจะยากที่จะหาสิ่งใดที่ยังคงไร้ที่ติในทุกรายละเอียดเพราะ @ fcoppens ดูเหมือนจะยืนยัน แต่ฉันกำลังทำนองเดียวกันกดยากที่จะหาใด ๆที่ทางวิทยาศาสตร์สมมติฐานผิดทั้งหมด ไม่สมบูรณ์อาจจะ; ทำให้ไม่เกี่ยวข้องกับการพัฒนาในภายหลังในสนามอย่างแน่นอน แต่ไม่ "ผิด" ในบริบทของความรู้ทางวิทยาศาสตร์ในเวลานั้น

ประการที่สามการโต้แย้งไม่สนใจค่าใช้จ่ายในการสร้างข้อผิดพลาด Type II ข้อผิดพลาด Type II อาจปิดฟิลด์ทั้งหมดของการสอบถามทางวิทยาศาสตร์ที่มีแนวโน้ม หากต้องปฏิบัติตามคำแนะนำของ @fcoppens อัตราความผิดพลาด Type II จะเพิ่มขึ้นอย่างมากต่อความเสียหายขององค์กรทางวิทยาศาสตร์

ในที่สุดคำแนะนำนั้นเป็นไปไม่ได้ที่จะปฏิบัติตามในทางปฏิบัติ หากฉันวิเคราะห์ชุดข้อมูลที่เปิดเผยต่อสาธารณชนฉันอาจไม่มีทางรู้ว่ามีใครใช้หรือเพื่อวัตถุประสงค์อะไร ฉันไม่มีวิธีแก้ไขการทดสอบสมมติฐานของคนอื่น และเมื่อฉันเถียงข้างต้นฉันไม่ควรต้องทำ


2
ฉันให้คำถามมากมายเพราะฉันต้องการนำ 'ล่วงหน้า' เหตุผลที่ฉันต้องการทำเช่นนั้นคือฉันคิดว่ามันไม่ได้รับความสนใจมากพอและอย่างนั้น - อย่างเห็นได้ชัดเมื่อฉันได้รับคำตอบจากฉัน - มี 'ไม่มีการอภิปราย' เกี่ยวกับเรื่องนี้อีกต่อไป ดังที่แสดงอาจเป็นการสนทนาที่น่าสนใจคุณจึงได้รับ (+1)

@fcoppens ขอบคุณที่นำ "สิ่งนี้" ล่วงหน้า
EDM

ตั้งแต่โพสต์นี้ฉันสะดุดกระดาษที่ดีที่อยู่ในหัวข้อนี้เช่นกันโดย Salzberg เรียกว่า "ในการเปรียบเทียบตัวแยกประเภท: ผิดพลาดที่ควรหลีกเลี่ยงและแนวทางที่แนะนำ" ( cs.ru.nl/~tomh/onderwijs/lrs/lrs_files/salzberg97comparing pdf ) ฉันขอขอบคุณการอภิปราย คำถามประเภทนี้นำมาซึ่งการแบ่งระหว่างสถิติและการเรียนรู้ของเครื่อง / สาขาที่ใช้อื่น ๆ ที่กล่าวถึงในโพสต์นี้: stats.stackexchange.com/questions/1194/ ...... ....
toypajme

1
กระดาษโดย Breiman ยังอยู่หัวข้อนี้: projecteuclid.org/euclid.ss/1009213726 ฉันหวังว่าเอกสารเหล่านี้สามารถใช้เป็นข้อมูลอ้างอิงอย่างง่ายสำหรับผู้ที่สนใจในการวิจัยในปัจจุบันและการอภิปรายที่ตีพิมพ์ในหัวข้อนี้
toypajme

นอกจากนี้ยังมีเอกสารต่อไปนี้ " ในรุ่นและความเป็นเจ้าของของอัลฟาในการศึกษาทางการแพทย์ " เห็นได้ชัดว่าเป็นหัวข้อที่ถกเถียงกัน หนึ่งในไม่กี่กรณีที่คำตอบนั้นชัดเจนคือการเรียกร้องฉลากกำกับยาสำหรับผลิตภัณฑ์ยาซึ่งมีเดียวสำหรับการศึกษาทางการแพทย์ เมื่อเราเข้าสู่สิ่งตีพิมพ์ทางวิทยาศาสตร์แล้วจะไม่มีอะไรดีไปกว่านี้หรือไม่มีใครบังคับให้ทำสิ่งนั้น α=0.05
Björn

4

α=5%H0(1)H1(1)H0(2)H1(2)

H0(1)α=5%

1-(1-α)2α=5%9.75%

ในการทดสอบสมมติฐานทางสถิติเราสามารถหาหลักฐานทางสถิติสำหรับสมมติฐานทางเลือกโดยการปฏิเสธโมฆะการปฏิเสธโมฆะทำให้เราสามารถสรุปได้ว่ามีหลักฐานสนับสนุนสมมติฐานทางเลือก (ดูเพิ่มเติมจะเกิดอะไรขึ้นถ้าเราไม่ยอมรับสมมติฐานว่าง? )

ดังนั้นการปฏิเสธโมฆะอย่างผิดพลาดจึงให้หลักฐานเท็จแก่เราดังนั้นความเชื่อที่ผิด ๆ ของ '' ความจริงทางวิทยาศาสตร์ '' นี่คือสาเหตุที่เงินเฟ้อชนิดนี้ (ข้อผิดพลาดเกือบสองเท่าของประเภท I) ต้องหลีกเลี่ยง ประเภทที่สูงขึ้นข้อผิดพลาดผมบ่งบอกถึงการเพิ่มเติมความเชื่อผิด ๆ ว่าสิ่งที่ได้รับการพิสูจน์ทางวิทยาศาสตร์ ดังนั้นคน '' ควบคุม '' ประเภท Ierror ในระดับครอบครัว

5%

ด้วยเหตุผลเดียวกันการเก็บรักษาเดียวกันถ้าหลายทีมทำการทดสอบเหล่านี้ (บนข้อมูลเดียวกัน)

เห็นได้ชัดว่าการค้นพบข้างต้นจะเกิดขึ้นก็ต่อเมื่อเราทำงานกับข้อมูลเดียวกันเท่านั้น อะไรคือสิ่งที่แตกต่างกันเมื่อพวกเขาทำงานกับกลุ่มตัวอย่างที่แตกต่างกัน?

σH0:μ=0H1:μ0α=5%

โอ1.96σ-1.96σ

5%H0H0μ=0H0โอ[-1.96σ;1.96σH0

ดังนั้นหากเราใช้ข้อมูลเดียวกันอาจเป็นไปได้ว่าข้อสรุปของการทดสอบนั้นมาจากตัวอย่างที่วาดด้วย '' โอกาสที่ไม่ดี '' อีกตัวอย่างหนึ่งบริบทแตกต่างกัน


1
ฉันไม่ใช่แฟนตัวยงของการใช้ "การพิสูจน์" ที่เกี่ยวกับหลักฐานทางวิทยาศาสตร์
Alexis

@Alexis: เป็นเพราะภาษาอังกฤษไม่ใช่ภาษาแม่ของฉัน แต่ฉันคิดว่า 'หลักฐาน' และ 'พิสูจน์' นั้นมากกว่าหรือคล้ายกับซินนาม แต่ก็ดูเหมือนจะไม่ใช่หรือ?

1
"หลักฐาน" อย่างเป็นทางการในความคิดของฉันอยู่ในคณิตศาสตร์ หรือน้อยกว่าอย่างเป็นทางการอยู่ในนิติศาสตร์ สำหรับฉันการพิสูจน์ไม่ได้เป็นของวิทยาศาสตร์เพราะนั่นหมายถึงการสิ้นสุดของการสอบสวนและการเริ่มต้นของความเชื่อและวิทยาศาสตร์เป็นพื้นฐานเกี่ยวกับการสอบสวน ยกตัวอย่างเช่นในภาษาอังกฤษ (และในสหรัฐอเมริกา) เรามีเกมวาทศิลป์ที่ผู้ต่อต้านวิวัฒนาการจะกล่าวว่า "วิวัฒนาการทางชีววิทยาเป็นเพียงทฤษฎีและไม่ได้รับการพิสูจน์ทางวิทยาศาสตร์" แน่นอนว่าเคล็ดลับคือการทำให้ผู้ฟังลืมว่าวิทยาศาสตร์ไม่เคยพิสูจน์พิสูจน์หลักฐานเท่านั้น
Alexis
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.