ปัญหาของการสำรวจการตกปลาคือ: ถ้าคุณทดสอบสมมติฐานมากพอหนึ่งในนั้นจะได้รับการยืนยันด้วยค่า p ต่ำ ขอยกตัวอย่างที่เป็นรูปธรรม
ลองนึกภาพคุณกำลังทำการศึกษาทางระบาดวิทยา คุณพบผู้ป่วย 1,000 รายที่ทุกข์ทรมานจากสภาพที่หายาก คุณต้องการที่จะรู้ว่าสิ่งที่พวกเขามีเหมือนกัน ดังนั้นคุณเริ่มการทดสอบ - คุณต้องการที่จะดูว่ามีลักษณะเฉพาะมีการแสดงมากเกินไปในตัวอย่างนี้หรือไม่ เริ่มแรกคุณต้องทดสอบเพศเชื้อชาติประวัติครอบครัวที่เกี่ยวข้องบางอย่าง (พ่อเสียชีวิตด้วยโรคหัวใจก่อนอายุ 50 ปี ... ) แต่ในที่สุดเมื่อคุณมีปัญหาในการค้นหาสิ่งที่ "เกาะติด" คุณจะเริ่มเพิ่มปัจจัยอื่น ๆอาจเกี่ยวข้องกับโรค:
- เป็นมังสวิรัติ
- ได้เดินทางไปแคนาดา
- เรียนจบแล้ว
- แต่งงานแล้ว
- มีลูก
- มีแมว
- มีสุนัข
- ดื่มไวน์แดงอย่างน้อย 5 แก้วต่อสัปดาห์
...
ตอนนี้ที่นี่คือสิ่งที่ ถ้าฉันเลือกสมมติฐาน "สุ่ม" มากพอก็เริ่มมีแนวโน้มว่าอย่างน้อยหนึ่งในนั้นจะส่งผลให้ค่า ap น้อยกว่า 0.05 - เพราะสาระสำคัญของค่า p คือ "ความน่าจะเป็นที่จะผิดสมมติฐานปฏิเสธเมื่อมี ไม่มีผล " ใส่แตกต่างกัน - โดยเฉลี่ยทุก 20 ปลอมสมมติฐานคุณทดสอบหนึ่งของพวกเขาจะทำให้คุณ AP ของ <0.05
นี่เป็นบทสรุปที่ดีมากในการ์ตูน XKCD http://xkcd.com/882/ :
โศกนาฏกรรมคือแม้ว่าผู้เขียนแต่ละคนไม่ได้ทำการทดสอบสมมุติฐาน 20 แบบในตัวอย่างเพื่อค้นหาความสำคัญอาจมีผู้เขียนอีก 19 คนที่ทำสิ่งเดียวกัน และคนที่ "พบ" ความสัมพันธ์ในขณะนี้มีกระดาษที่น่าสนใจที่จะเขียนและคนที่มีแนวโน้มที่จะได้รับการยอมรับสำหรับการตีพิมพ์ ...
สิ่งนี้นำไปสู่แนวโน้มที่โชคร้ายสำหรับการค้นพบที่เอาคืนไม่ได้ วิธีที่ดีที่สุดในการป้องกันสิ่งนี้ในฐานะผู้เขียนรายบุคคลคือการตั้งค่าแถบที่สูงขึ้น แทนที่จะทดสอบปัจจัยแต่ละตัวถามตัวเองว่า "ถ้าฉันทดสอบสมมุติฐาน N แล้วความน่าจะเป็นที่มาของค่าบวกปลอมอย่างน้อยหนึ่งค่าคืออะไร" เมื่อคุณกำลังทดสอบ "สมมติฐานการตกปลา" จริงๆคุณสามารถคิดเกี่ยวกับการแก้ไข Bonferroniเพื่อป้องกันสิ่งนี้ - แต่คนมักจะไม่ทำ
มีเอกสารที่น่าสนใจโดยดร. ไอโออานิเดส - จัดทำในเดือนแอตแลนติกโดยเฉพาะในหัวข้อนี้
ดูคำถามก่อนหน้านี้พร้อมคำตอบที่ลึกซึ้งด้วย
อัปเดตเพื่อตอบคำถามของคุณได้ดียิ่งขึ้น:
หากคุณกลัวว่าคุณอาจจะ "ตกปลา" แต่คุณไม่รู้ว่าจะตั้งสมมติฐานอย่างไรคุณสามารถแบ่งข้อมูลของคุณในส่วน "การสำรวจ", "การจำลอง" และ "การยืนยัน" ได้อย่างแน่นอน ในหลักการนี้ควร จำกัด การเปิดเผยความเสี่ยงที่ระบุไว้ก่อนหน้านี้: หากคุณมีค่า ap ของ 0.05 ในข้อมูลการสำรวจและคุณได้รับค่าที่คล้ายคลึงกันในข้อมูลการจำลองแบบและการยืนยันความเสี่ยงของการผิดพลาด ตัวอย่างที่ดีของ "การทำถูกต้อง" ปรากฏในวารสารการแพทย์ของอังกฤษ (สิ่งพิมพ์ที่ได้รับการยกย่องอย่างมากพร้อมด้วย Impact Factor 17+)
การสำรวจและการยืนยันปัจจัยที่เกี่ยวข้องกับการตั้งครรภ์ที่ไม่ซับซ้อนในผู้หญิงครรภ์แรก: การศึกษาตามรุ่นที่คาดหวัง, Chappell และคณะ
นี่คือย่อหน้าที่เกี่ยวข้อง:
เราแบ่งชุดข้อมูลของผู้หญิง 5628 ออกเป็นสามส่วน: ชุดข้อมูลการสำรวจของสองในสามของผู้หญิงจากออสเตรเลียและนิวซีแลนด์เลือกโดยการสุ่ม (n = 2129); ชุดข้อมูลการจำลองแบบท้องถิ่นของผู้หญิงที่สามที่เหลือจากออสเตรเลียและนิวซีแลนด์ (n = 1,067); และชุดข้อมูลการยืนยันภายนอกที่ชัดเจนทางภูมิศาสตร์ของผู้หญิงชาวยุโรปจำนวน 2432 คนจากสหราชอาณาจักรและสาธารณรัฐไอร์แลนด์
เมื่อย้อนกลับไปในวรรณกรรมมีบทความที่ดีโดย Altman et al entitle "การพยากรณ์โรคและการวิจัยเชิงพยากรณ์: การตรวจสอบความถูกต้องของแบบจำลองการพยากรณ์โรค"ซึ่งจะเจาะลึกลงไปมากขึ้นและแนะนำวิธีที่จะทำให้แน่ใจว่า ข้อผิดพลาดนี้ "ประเด็นหลัก" จากบทความ:
แบบจำลองที่ไม่ผ่านการตรวจสอบไม่ควรใช้ในการปฏิบัติทางคลินิกเมื่อตรวจสอบรูปแบบการพยากรณ์โรคควรทำการประเมินการสอบเทียบและการเลือกปฏิบัติในการตรวจสอบความถูกต้องของข้อมูลที่แตกต่างจากที่ใช้ในการพัฒนาแบบจำลอง เนื่องจากข้อบกพร่องในวิธีการพัฒนาหรือเนื่องจากตัวอย่างใหม่นั้นแตกต่างจากของจริงมากเกินไป
ข้อสังเกตโดยเฉพาะอย่างยิ่งข้อเสนอแนะที่จะทำการตรวจสอบ (ฉันถอดความ) กับข้อมูลจากแหล่งอื่น ๆ - เช่นมันไม่เพียงพอที่จะแยกข้อมูลของคุณเป็นชุดย่อยโดยพลการ แต่คุณควรทำสิ่งที่คุณสามารถทำได้เพื่อพิสูจน์ว่า ของการทดลองสามารถใช้กับข้อมูลจากชุดการทดลองอื่น นั่นเป็นแถบที่สูงกว่า แต่จะช่วยลดความเสี่ยงที่ระบบอคติในการตั้งค่าของคุณจะสร้าง "ผลลัพธ์" ที่ไม่สามารถตรวจสอบได้อย่างอิสระ
มันเป็นเรื่องที่สำคัญมาก - ขอบคุณสำหรับการถามคำถาม!