อะไรทำให้เกิดความไม่ต่อเนื่องในการแจกแจงค่า p ที่เผยแพร่ที่ p <.05


27

ในบทความล่าสุดMasicampo และ Lalande (ML) ได้รวบรวมค่า p จำนวนมากที่ตีพิมพ์ในการศึกษาที่แตกต่างกันมากมาย พวกเขาสังเกตเห็นการกระโดดที่น่าสนใจในฮิสโตแกรมของค่า p ขวาที่ระดับวิกฤตที่ยอมรับได้ 5%

มีการสนทนาที่ดีเกี่ยวกับ ML ปรากฏการณ์นี้ในบล็อกของ Prof. Wasserman:

http://normaldeviate.wordpress.com/2012/08/16/p-values-gone-wild-and-multiscale-madness/

ในบล็อกของเขาคุณจะพบฮิสโตแกรม:

ฮิสโตแกรมของค่า p ที่เผยแพร่

เนื่องจากระดับ 5% เป็นแบบแผนและไม่ใช่กฎหมายของธรรมชาติสิ่งที่ทำให้เกิดพฤติกรรมนี้ของการกระจายเชิงประจักษ์ของค่า p- เผยแพร่?

การเลือกอคติ“ การปรับ” อย่างเป็นระบบของค่า p เหนือระดับวิกฤตที่ยอมรับได้หรืออะไร


11
มีคำอธิบายอย่างน้อย 2 ประเภท: 1) "ปัญหาไฟล์ลิ้นชัก" - การศึกษาที่มี p <.05 เผยแพร่แล้วสิ่งที่กล่าวมาไม่ข้างต้นดังนั้นมันจึงเป็นส่วนผสมของการแจกแจงสองแบบ 2) ผู้คนกำลังจัดการกับสิ่งต่าง ๆ เพื่อรับ p <.05
Peter Flom - Reinstate Monica

3
สวัสดี @ เซน ใช่แล้วสิ่งนั้น มีแนวโน้มที่แข็งแกร่งในการทำสิ่งนี้ หากทฤษฎีของเราได้รับการยืนยันเรามีโอกาสน้อยที่จะไปหาปัญหาทางสถิติกว่าถ้ามันไม่ได้เป็น นี่ดูเหมือนจะเป็นส่วนหนึ่งของธรรมชาติของเรา แต่มันเป็นสิ่งที่ต้องพยายามป้องกัน
Peter Flom - Reinstate Monica

@ เซนคุณอาจสนใจโพสต์นี้ในบล็อกของ Andrew Gelman ที่กล่าวถึงการวิจัยบางอย่างที่พบว่าไม่มีอคติสิ่งพิมพ์ในการวิจัยเกี่ยวกับอคติการตีพิมพ์ ... ! andrewgelman.com/2012/04/ …
smillig

1
สิ่งที่น่าสนใจคือการคำนวณค่า p กลับจากเอกสารในวารสารที่ปฏิเสธเอกสารที่ใช้ค่า p อย่างชัดแจ้งเช่นระบาดวิทยาที่เคยใช้ (และในบางความรู้สึกยังคงทำ) ฉันสงสัยว่ามันจะเปลี่ยนแปลงหรือไม่ถ้าวารสารออกมาแล้วไม่ได้สนใจหรือหากผู้ตรวจสอบ / ผู้เขียนยังคงทำการทดสอบ Ad-hoc ทางจิตตามช่วงความมั่นใจ
Fomite

4
ดังที่อธิบายไว้ในบล็อกของ Larry นี่คือคอลเล็กชันของ p-values ​​ที่เผยแพร่แทนที่จะสุ่มตัวอย่างค่า p ที่สุ่มตัวอย่างจาก World of p-values ดังนั้นจึงไม่มีเหตุผลที่การกระจายเครื่องแบบควรปรากฏในภาพแม้เป็นส่วนหนึ่งของการผสมตามที่จำลองไว้ในโพสต์ของ Larry
ซีอาน

คำตอบ:


14

(1) ดังที่ได้กล่าวแล้วโดย @PeterFlom คำอธิบายอย่างหนึ่งอาจเกี่ยวข้องกับปัญหา "file drawer" (2) @Zen ยังกล่าวถึงกรณีที่ผู้เขียนจัดการข้อมูลหรือแบบจำลอง (เช่นการขุดลอกข้อมูล ) (3) อย่างไรก็ตามเราไม่ได้ทดสอบสมมติฐานแบบสุ่มล้วนๆ นั่นคือสมมติฐานที่ไม่ได้ถูกเลือกโดยบังเอิญ แต่เรามีสมมติฐานทางทฤษฎี (มากหรือน้อยที่แข็งแกร่ง)

คุณอาจสนใจงานของ Gerber และ Malhotra ที่เพิ่งทำการวิจัยในพื้นที่นั้นโดยใช้การทดสอบแบบคาลิเปอร์เรียกว่า:

คุณอาจสนใจในเรื่องพิเศษนี้แก้ไขโดย Andreas Diekmann:


10

อาร์กิวเมนต์หนึ่งที่หายไปคือความยืดหยุ่นของการวิเคราะห์ข้อมูลที่เรียกว่าดีกรีนักวิจัย ในการวิเคราะห์ทุกครั้งจะมีการตัดสินใจมากมายที่จะกำหนดเกณฑ์ที่เหนือกว่าวิธีการแปลงข้อมูลและ ...

นี่เพิ่งยกขึ้นในบทความที่มีอิทธิพลโดย Simmons, Nelson และ Simonsohn:

Simmons, JP, Nelson, LD, & Simonsohn, U. (2011) จิตวิทยาเชิงบวกเท็จ: ความยืดหยุ่นที่ไม่เปิดเผยในการรวบรวมและวิเคราะห์ข้อมูลช่วยให้การนำเสนอสิ่งใดมีความสำคัญ วิทยาศาสตร์จิตวิทยา , 22 (11), 1359 –1366 ดอย: 10.1177 / 0956797611417632

(หมายเหตุว่านี่เป็น Simonsohn เดียวกันผู้รับผิดชอบสำหรับบางกรณีที่ตรวจพบเมื่อเร็ว ๆ นี้ของการทุจริตข้อมูลในด้านจิตวิทยาสังคมเช่นการสัมภาษณ์ , บล็อกโพสต์ )


8

ฉันคิดว่ามันเป็นการรวมกันของทุกสิ่งที่ได้ถูกกล่าวไปแล้ว นี่เป็นข้อมูลที่น่าสนใจมากและฉันไม่เคยนึกถึงการแจกแจงค่า p เช่นนี้มาก่อน ถ้าสมมุติฐานว่างเป็นจริงค่า p จะเหมือนกัน แต่แน่นอนด้วยผลการตีพิมพ์เราจะไม่เห็นความสม่ำเสมอด้วยเหตุผลหลายประการ

  1. เราทำการศึกษาเพราะเราคาดว่าสมมติฐานว่างจะเป็นเท็จ ดังนั้นเราควรได้รับผลลัพธ์ที่สำคัญบ่อยกว่าไม่

  2. ถ้าสมมุติฐานว่างเป็นเท็จเพียงครึ่งเดียวเราจะไม่ได้การแจกแจงแบบ p - value เหมือนกัน

  3. ปัญหาลิ้นชักไฟล์: ดังที่กล่าวมาเรากลัวที่จะส่งกระดาษเมื่อค่า p ไม่สำคัญเช่นต่ำกว่า 0.05

  4. ผู้จัดพิมพ์จะปฏิเสธกระดาษเนื่องจากผลลัพธ์ที่ไม่สำคัญแม้ว่าเราจะเลือกที่จะส่งก็ตาม

  5. เมื่อผลลัพธ์อยู่ในขอบเขตเราจะทำสิ่งต่าง ๆ (อาจไม่ได้มีเจตนาร้าย) เพื่อให้ได้ความสำคัญ (a) ปัดเศษลงเป็น 0.05 เมื่อค่า p เป็น 0.053 (b) ค้นหาการสังเกตที่เราคิดว่าอาจผิดปกติและหลังจาก rmoving ค่า p-value ต่ำกว่า 0.05

ฉันหวังว่าสิ่งนี้จะสรุปทุกสิ่งที่กล่าวมาในแบบที่สมเหตุสมผล

สิ่งที่ฉันคิดว่าน่าสนใจคือเราเห็นค่า p ระหว่าง 0.05 ถึง 0.1 หากกฎการตีพิมพ์จะปฏิเสธสิ่งใดก็ตามที่มีค่า p มากกว่า 0.05 ส่วนท้ายขวาจะตัดที่ 0.05 จริง ๆ แล้วมันตัดที่ 0.10 หรือไม่? ถ้าเป็นเช่นนั้นบางทีผู้แต่งและวารสารบางเล่มอาจยอมรับระดับนัยสำคัญที่ 0.10 แต่ไม่มีอะไรสูงกว่านี้

เนื่องจากกระดาษจำนวนมากมีค่า p หลายค่า (ปรับสำหรับความหลากหลายหรือไม่) และกระดาษได้รับการยอมรับเนื่องจากการทดสอบที่สำคัญมีความสำคัญเราอาจเห็นค่า p ที่ไม่สำคัญรวมอยู่ในรายการ ทำให้เกิดคำถาม "มีการรายงานค่า p ทั้งหมดในกระดาษที่รวมอยู่ในฮิสโตแกรมหรือไม่"

ข้อสังเกตเพิ่มเติมอีกประการหนึ่งคือมีแนวโน้มสูงขึ้นอย่างมากในความถี่ของเอกสารที่ตีพิมพ์เนื่องจากค่า p มีค่าต่ำกว่า 0.05 บางทีนั่นอาจเป็นข้อบ่งชี้ของผู้เขียนที่ตีความความคิด p-value p <0.0001 มีค่ามากกว่าการตีพิมพ์ ฉันคิดว่าผู้เขียนเพิกเฉยหรือไม่ทราบว่าค่า p ขึ้นอยู่กับขนาดตัวอย่างมากเท่ากับขนาดของเอฟเฟกต์

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.