การศึกษาที่ไม่ได้ผลนั้นเพิ่มโอกาสในการเกิดผลบวกปลอมหรือไม่?


23

มีการถามคำถามก่อนหน้านี้ที่นี่และที่นี่แต่ฉันไม่คิดว่าคำตอบจะตอบคำถามนี้โดยตรง

การศึกษาที่ไม่ได้ผลนั้นเพิ่มโอกาสในการเกิดผลบวกปลอมหรือไม่? บทความข่าวบางฉบับให้การยืนยันนี้ สำหรับตัวอย่างเช่น :

พลังงานทางสถิติต่ำเป็นข่าวร้าย การศึกษาที่อยู่ภายใต้มีแนวโน้มที่จะพลาดผลกระทบของแท้และในกลุ่มที่มีแนวโน้มที่จะรวมผลบวกปลอมที่สูงกว่า - นั่นคือผลกระทบที่มีนัยสำคัญทางสถิติแม้ว่าพวกเขาจะไม่ใช่ของจริง

เมื่อฉันเข้าใจแล้วพลังของการทดสอบสามารถเพิ่มขึ้นได้โดย:

  • เพิ่มขนาดตัวอย่าง
  • มีผลขนาดใหญ่
  • การเพิ่มระดับนัยสำคัญ

สมมติว่าเราไม่ต้องการเปลี่ยนระดับนัยสำคัญฉันเชื่อว่าการอ้างอิงข้างต้นหมายถึงการเปลี่ยนขนาดตัวอย่าง อย่างไรก็ตามฉันไม่เห็นว่าการลดตัวอย่างควรเพิ่มจำนวนผลบวกปลอมอย่างไร หากต้องการกล่าวอย่างง่าย ๆ การลดพลังของการศึกษาจะเพิ่มโอกาสของการปฏิเสธที่ผิดซึ่งตอบคำถาม:

P(ความล้มเหลวในการปฏิเสธ H0|H0 เป็นเท็จ)

ตรงกันข้ามบวกเท็จตอบคำถาม:

P(ปฏิเสธ H0|H0 เป็นความจริง)

ทั้งสองเป็นคำถามที่แตกต่างกันเพราะเงื่อนไขแตกต่างกัน พลังงานนั้นเกี่ยวข้องกับการปฏิเสธเชิงลบ แต่จะไม่ส่งผลเชิงบวก ฉันพลาดอะไรไปรึเปล่า?


4
ไม่ใช่อัตราการบวกที่ผิดที่ขึ้นอยู่กับพลังทางสถิติ แต่ "อัตราการค้นพบที่ผิดพลาด":P(H0เป็นความจริง|ปฏิเสธH0)
Jake Westfall

2
ใช่นั่นน่าจะเป็นการตีความคำสั่งที่ถูกต้องในบทความ Wired
Robert Smith

คำตอบ:


30

คุณถูกต้องในขนาดตัวอย่างนั้นมีผลต่อพลังงาน (เช่นข้อผิดพลาด 1 - type II) แต่ไม่ใช่ข้อผิดพลาด Type I มันเป็นความเข้าใจผิดที่พบบ่อยว่าค่า p เช่นนี้ (ตีความได้อย่างถูกต้อง) นั้นน่าเชื่อถือน้อยลงหรือใช้ได้จริงเมื่อขนาดตัวอย่างเล็ก - บทความที่ให้ความบันเทิงโดย Friston 2012 มีเนื้อหาที่ตลก [1]

ที่ถูกกล่าวว่าปัญหาของการศึกษาภายใต้อำนาจเป็นเรื่องจริงและคำพูดส่วนใหญ่ถูกต้องฉันจะพูดเพียงเล็กน้อยไม่ชัดเจนในถ้อยคำของมัน

ปัญหาพื้นฐานของการศึกษาที่ไม่ได้ผลคือแม้ว่าอัตราการบวกผิดพลาด (ข้อผิดพลาดประเภทที่ 1) ในการทดสอบสมมติฐานจะได้รับการแก้ไข แต่อัตราการบวกจริง (กำลัง) ลดลง ดังนั้นผลบวก (= สำคัญ) จึงมีโอกาสน้อยกว่าที่จะเป็นผลบวกที่แท้จริงในการศึกษาที่ไม่ได้รับการยอมรับ ความคิดนี้แสดงในอัตราการค้นพบที่ผิด [2], ดู [3] ดูเหมือนว่าสิ่งที่อ้างถึง

ปัญหาเพิ่มเติมที่มักถูกตั้งชื่อเกี่ยวกับการศึกษาที่ไม่ได้รับการดูแลคือพวกเขานำไปสู่ เหตุผลก็คือก) ที่มีพลังงานต่ำกว่าการประเมินผลกระทบที่แท้จริงของคุณจะกลายเป็นตัวแปรเพิ่มเติม (สุ่ม) รอบมูลค่าที่แท้จริงของพวกเขาและ b) เฉพาะผลกระทบที่แข็งแกร่งที่สุดเท่านั้นที่จะผ่านตัวกรองนัยสำคัญเมื่อพลังงานต่ำ หนึ่งควรเพิ่มว่านี่เป็นปัญหาการรายงานที่สามารถแก้ไขได้ง่ายโดยการพูดคุยและรายงานทั้งหมดและไม่เพียง แต่ผลกระทบที่สำคัญ

ในที่สุดประเด็นที่สำคัญในทางปฏิบัติที่มีการศึกษาต่ำกว่าคือพลังงานต่ำเพิ่มปัญหาทางสถิติ (เช่นอคติของตัวประมาณค่า) รวมถึงการล่อใจให้เล่นกับตัวแปรและกลวิธีการแฮ็คที่คล้ายกัน การใช้ "องศานักวิจัยอิสระ" เหล่านี้มีประสิทธิภาพมากที่สุดเมื่อพลังงานเหลือน้อยและสิ่งนี้สามารถเพิ่มความผิดพลาดประเภทที่ 1 หลังจากทั้งหมดดูเช่น [4]

ด้วยเหตุผลทั้งหมดนี้ฉันจึงสงสัยอย่างแน่นอนเกี่ยวกับการศึกษาที่ไม่ได้รับการยอมรับ

[1] Friston, K. (2012) สิบกฎที่น่าขันสำหรับผู้ตรวจสอบที่ไม่ใช่เชิงสถิติ NeuroImage, 61, 1300-1310

[2] https://en.wikipedia.org/wiki/False_discovery_rate

[3] ปุ่ม KS; โยอานนิส, JPA; Mokrysz, C.; Nosek, BA; ฟลินท์เจ. Robinson, ESJ และ Munafo, MR (2013) ไฟฟ้าขัดข้อง: ทำไมขนาดตัวอย่างขนาดเล็กจึงส่งผลต่อความน่าเชื่อถือของประสาทวิทยาศาสตร์ ชัยนาท รายได้ Neurosci., 14, 365-376

[4] ซิมมอนส์ JP; เนลสัน, LD และ Simonsohn, สหรัฐอเมริกา (2011) จิตวิทยาเชิงบวกเท็จ: ความยืดหยุ่นที่ไม่เปิดเผยในการรวบรวมและวิเคราะห์ข้อมูลช่วยให้การนำเสนอสิ่งใดมีความสำคัญ Psychol Sci., 22, 1359-1366


ขอขอบคุณ. การอ้างอิงที่ดีเยี่ยม เพื่อความสมบูรณ์ [1] สามารถพบได้ที่นี่และ [3] สามารถใช้ได้ที่นี่ เมื่อคุณพูดถึงอัตราการค้นพบที่ผิดคุณแน่ใจหรือว่าเป็นแนวคิดที่ถูกต้อง จาก [3] คุณอาจหมายถึงค่าการทำนายเชิงบวก (PPV) ที่การศึกษาที่มีกำลังต่ำกว่า PPV (นั่นคือผลบวกจริงไม่บ่อยเท่าที่ควรจะเป็นในการศึกษาที่มีการขับเคลื่อนสูง) ดูเหมือนว่าอัตราการค้นพบที่ผิดคือ ส่วนประกอบของ PPV
Robert Smith

วิธีที่ฉันเข้าใจแนวคิดเหล่านี้เหมือนกัน PPV = 1-FDR ฉันชอบการใช้ FDR เพราะฉันพบคำที่เข้าใจได้ง่ายขึ้น
Florian Hartig


2
Tal Yarkoni ชี้ให้เห็นทุกสิ่งที่ผิดเกี่ยวกับบทความ Friston ที่นี่
jona

1
@ โจนา - ฉันคิดว่า Tal Yarkoni ยกประเด็นดีๆในการโพสต์บล็อกของเขา ฉันเดาว่าการสรุป 1 ประโยคจะเป็น "พลังงานต่ำเป็นปัญหา" ซึ่งเป็นสิ่งที่ฉันพูดไว้ข้างต้น ฉันยังคงพบว่าการ์ตูนล้อเลียนของผู้วิจารณ์วิจารณ์ตลกเพราะมันเกิดขึ้นว่าผู้ตรวจสอบ "พบขนาดตัวอย่างต่ำเกินไป" โดยไม่มีการโต้แย้งตรงประเด็นที่เกี่ยวข้องกับการมีอำนาจคำนวณ
Florian Hartig

6

พลังงานต่ำสามารถเพิ่มอัตราการบวกปลอมในสถานการณ์ที่กำหนดทั้งนี้ขึ้นอยู่กับวิธีที่คุณดู

พิจารณาสิ่งต่อไปนี้นักวิจัยทดสอบการรักษา หากการทดสอบกลับมาไม่สำคัญพวกเขาละทิ้งมันและย้ายไปรักษาต่อไป หากการทดสอบกลับมาอย่างมีนัยสำคัญพวกเขาจะทำการทดสอบ ลองพิจารณาว่านักวิจัยจะทดสอบวิธีการรักษาบางอย่างที่ใช้ได้ผลและไม่ได้ผล หากผู้วิจัยมีพลังงานสูง (แน่นอนอ้างถึงกรณีที่พวกเขากำลังทดสอบการรักษาที่ใช้งานได้) พวกเขามีแนวโน้มที่จะหยุดเมื่อพวกเขาทดสอบการรักษาที่มีประสิทธิภาพ ในทางกลับกันด้วยพลังงานต่ำพวกเขามีแนวโน้มที่จะพลาดผลการรักษาที่แท้จริงและไปที่การรักษาอื่น ๆ ยิ่งการทดสอบที่เป็นโมฆะยิ่งมีแนวโน้มที่จะทำให้เกิดข้อผิดพลาดประเภทที่ 1 มากขึ้น (นักวิจัยรายนี้ไม่ได้ทำการเปรียบเทียบหลายครั้ง) ในกรณีที่พลังงานต่ำพวกเขาคาดว่าจะทดสอบทรีทเม้นต์เป็นโมฆะอื่น ๆ อีกมากมาย

คุณอาจพูดว่า "ดีนี่เป็นเพียงนักวิจัยที่ดูถูกการเปรียบเทียบหลายครั้ง!" นั่นอาจเป็นจริง แต่นั่นก็เป็นงานวิจัยจำนวนมากที่ทำกันในวันนี้ เนื่องจากเหตุผลเหล่านี้ฉันจึงมีความเชื่อในงานเผยแพร่น้อยมากเว้นแต่จะมีขนาดตัวอย่างที่ใหญ่พอที่นักวิจัยไม่สามารถทำการทดลองซ้ำได้หลายครั้ง


1
ขอขอบคุณ. ไม่สนใจแม้แต่กรณีของการเปรียบเทียบหลาย (ไม่มีการแก้ไขที่เหมาะสม) ผมคิดว่าคุณอธิบายตัวอย่างของ PPV อื่นตามที่อธิบายไว้ที่นี่ ฉันไม่สามารถวางย่อหน้า แต่เริ่มต้นด้วย ( For example, suppose that we work in a scientific field in which one in five of the effects we test are expected to be truly non-null)
Robert Smith

1
อ่าใช่นั่นอธิบายสิ่งที่ฉันพูดถึงอย่างใกล้ชิดมาก ความแตกต่างที่เล็กที่สุดคือฉันกำลังพูดว่า "ในขั้นตอนการทดลองที่กำหนดการมีพลังงานต่ำเป็นส่วนตัวในการทดสอบแต่ละครั้งของเอฟเฟกต์จริงจะเพิ่มโอกาสในการใช้ทำให้เกิดข้อผิดพลาดประเภทที่ 1 ในขั้นตอนการทดลองทั้งหมดของเรา " แน่นอนว่านี่แตกต่างจากการเพิ่มอัตราความผิดพลาดประเภทที่ 1 ในการทดสอบทางสถิติแต่ละครั้ง นอกจากนี้ยังเป็นเพียงในด้านเทคนิคของความรู้สึกที่แตกต่างจาก PPV แต่มันเป็นวิธีเดียวที่สื่อประกาศว่า "ข้อผิดพลาดพลังงานต่ำเพิ่มประเภทที่ฉันเพิ่ม" ทำให้รู้สึก (และฉันคิดว่ามันสมเหตุสมผลมาก)
หน้าผา AB

4

พลังงานต่ำไม่สามารถส่งผลกระทบต่ออัตราความผิดพลาด Type-1 แต่อาจส่งผลต่อสัดส่วนของผลลัพธ์ที่เผยแพร่ซึ่งเป็นข้อผิดพลาดประเภท 1

เหตุผลคือพลังงานต่ำช่วยลดโอกาสในการปฏิเสธ H0 (ข้อผิดพลาด Type-2) ที่ถูกต้อง แต่ไม่ใช่โอกาสในการปฏิเสธ H0 ที่ผิดพลาด (ข้อผิดพลาด Type-1)

สมมติว่าวินาทีที่มีสองวรรณกรรม ... หนึ่งดำเนินการด้วยพลังงานที่ต่ำมาก - ใกล้ศูนย์ - และอื่น ๆ ดำเนินการด้วยพลังงานที่เพียงพอ ในวรรณกรรมทั้งสองคุณสามารถสันนิษฐานได้ว่าเมื่อ H0 เป็นเท็จคุณจะยังคงได้รับผลบวกที่ผิดพลาดบางครั้ง (เช่น 5% สำหรับ alpha = .05) สมมติว่านักวิจัยไม่ถูกต้องเสมอไปในสมมุติฐานของพวกเขาเราสามารถสันนิษฐานได้ว่าทั้งวรรณกรรมควรมีข้อผิดพลาด Type-1 จำนวนคล้ายกันกำลังดีหรือไม่ นี่เป็นเพราะอัตราข้อผิดพลาด Type-1 ไม่ได้รับผลกระทบจากพลังงานเช่นเดียวกับคนอื่น ๆ ได้กล่าวว่า

อย่างไรก็ตามในวรรณกรรมที่มีกำลังไฟต่ำคุณจะมีข้อผิดพลาด Type-2 จำนวนมาก ในคำอื่น ๆ วรรณกรรมที่ใช้พลังงานต่ำควรจะขาดการปฏิเสธ H0 ที่ถูกต้องทำให้ข้อผิดพลาด Type-1 เป็นสัดส่วนที่มากขึ้นของวรรณกรรม ในวรรณคดีพลังงานสูงคุณควรมีส่วนผสมของการปฏิเสธที่ถูกต้องและไม่ถูกต้องของ H0

ดังนั้นพลังงานต่ำจะเพิ่มข้อผิดพลาด Type-1 หรือไม่ ไม่ได้มันทำให้ยากที่จะหาเอฟเฟกต์ที่แท้จริงทำให้ข้อผิดพลาด Type-1 เป็นสัดส่วนที่มากขึ้นของการค้นพบที่ตีพิมพ์


1
ขอขอบคุณ. แล้ว PPV ล่ะ? ในบทความที่อ้างถึงโดย Florian Hartig มีการอ้างสิทธิ์ว่าเกิดข้อผิดพลาดประเภทที่ 1 พลังงานยิ่งต่ำ PPV ยิ่งต่ำ หาก PPV ต่ำกว่าซึ่งหมายความว่าจำนวนการค้นพบที่อ้างสิทธิ์จริงต่ำกว่าจำนวนการค้นพบที่อ้างสิทธิ์ผิด ๆ (ผลบวกเท็จ) ควรเพิ่มขึ้น
Robert Smith

0

นอกเหนือจากคำตอบอื่น ๆ แล้วการศึกษามักจะไม่ได้ผลเมื่อขนาดตัวอย่างมีขนาดเล็ก มีการทดสอบหลายอย่างที่ใช้ได้เฉพาะแบบ asymptotically เท่านั้นและมองโลกในแง่ดีเกินไปหรืออนุรักษ์ไว้สำหรับ n ขนาดเล็ก

การทดสอบอื่น ๆ นั้นใช้ได้กับตัวอย่างขนาดเล็กเท่านั้นหากตรงตามเงื่อนไขบางประการ แต่แข็งแรงขึ้นด้วยขนาดตัวอย่างขนาดใหญ่ (เช่น t-test)

ในทั้งสองกรณีนี้ตัวอย่างขนาดเล็กและข้อสมมติฐานที่ไม่คาดคิดสามารถนำไปสู่อัตราความผิดพลาดประเภทที่ 1 เพิ่มขึ้น สถานการณ์ทั้งสองนี้เกิดขึ้นบ่อยครั้งมากพอที่ฉันคิดว่าคำตอบที่แท้จริงสำหรับคำถามของคุณคือ: ไม่ใช่ในทางทฤษฎี แต่ในทางปฏิบัติ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.