ความสับสนกับอัตราการค้นพบที่ผิดและการทดสอบหลายอย่าง (ใน Colquhoun 2014)


19

ฉันได้อ่านบทความที่ยอดเยี่ยมนี้โดย David Colquhoun: การตรวจสอบอัตราการค้นพบที่ผิดพลาดและการตีความค่า p ผิดพลาด (2014) ในสาระสำคัญที่เขาอธิบายว่าทำไมอัตราการค้นพบที่ผิดพลาด (FDR) สามารถจะสูงถึงแม้ว่าเราควบคุมสำหรับข้อผิดพลาดประเภทที่มี\30%α=0.05

อย่างไรก็ตามฉันยังสับสนว่าจะเกิดอะไรขึ้นถ้าฉันใช้การควบคุม FDR ในกรณีของการทดสอบหลายครั้ง

บอกเด็ก ๆ ว่าฉันได้ทำการทดสอบตัวแปรแต่ละตัวแล้วและคำนวณค่าโดยใช้ขั้นตอน Benjamini-Hochberg ผมหนึ่งตัวแปรที่มีความสำคัญกับqฉันกำลังถาม FDR สำหรับการค้นพบนี้คืออะไร?QQ=0.049

ฉันสามารถสันนิษฐานได้อย่างปลอดภัยว่าในระยะยาวหากฉันทำการวิเคราะห์ดังกล่าวเป็นประจำ FDR ไม่ใช่30%แต่ต่ำกว่า5%เพราะฉันใช้ Benjamini-Hochberg นั่นรู้สึกผิดฉันจะบอกว่าค่าQ -value สอดคล้องกับค่าพีค่าในกระดาษของ Colquhoun และการใช้เหตุผลของเขาที่นี่เช่นกันดังนั้นการใช้ค่าQเกณฑ์ที่0.05ฉันเสี่ยงที่จะ "ทำให้คนโง่" Colquhoun ใส่ไว้) ใน30%ของคดี อย่างไรก็ตามฉันพยายามอธิบายอย่างเป็นทางการมากกว่าและล้มเหลว


2
เฮ้ @January ฉันสงสัยว่าทำไมคุณถึงเสนอเงินก้อนโตจำนวนมาก (250) แล้วไม่กลับมาให้รางวัลและ / หรือตรวจสอบคำตอบ! หวังว่าคุณสบายดี.
อะมีบาพูดว่า Reinstate Monica

3
ต้นฉบับสองฉบับลงมาบนฉันเหมือนก้อนอิฐจำนวนหนึ่งและฉันลืมไปโดยสิ้นเชิง
มกราคม

คำตอบ:


15

มันเกิดขึ้นโดยบังเอิญฉันอ่านบทความนี้เมื่อสองสามสัปดาห์ก่อน Colquhoun กล่าวถึงการเปรียบเทียบหลายอย่าง (รวมถึง Benjamini-Hochberg) ในส่วนที่ 4 เมื่อวางปัญหา แต่ฉันพบว่าเขาไม่ได้ทำให้ปัญหาชัดเจนเพียงพอ - ดังนั้นฉันไม่แปลกใจที่เห็นความสับสนของคุณ

จุดสำคัญที่ต้องตระหนักคือ Colquhoun กำลังพูดถึงสถานการณ์โดยไม่มีการปรับเปรียบเทียบหลายอย่าง หนึ่งสามารถเข้าใจกระดาษของ Colquhoun เป็นการใช้มุมมองของผู้อ่าน: เขาถามว่าอัตราการค้นพบที่ผิด (FDR) สามารถคาดหวังได้อย่างไรเมื่อเขาอ่านวรรณกรรมทางวิทยาศาสตร์และนี่หมายความว่าอะไรคือ FDR ที่คาดหวัง การเปรียบเทียบหลายรายการสามารถนำมาพิจารณาเมื่อใช้การทดสอบทางสถิติหลายรายการในการศึกษาครั้งเดียวเช่นในเอกสารฉบับเดียว แต่ไม่มีใครปรับเปลี่ยนการเปรียบเทียบหลาย ๆเอกสารได้

หากคุณควบคุม FDR จริง ๆ เช่นโดยทำตามขั้นตอน Benjamini-Hochberg (BH) ก็จะถูกควบคุม ปัญหาคือการรันขั้นตอน BH แยกต่างหากในการศึกษาแต่ละครั้งไม่รับประกันการควบคุม FDR โดยรวม

ฉันสามารถสันนิษฐานได้อย่างปลอดภัยว่าในระยะยาวหากฉันทำการวิเคราะห์ดังกล่าวเป็นประจำ FDR ไม่ใช่แต่ต่ำกว่า5 %เพราะฉันใช้ Benjamini-Hochberg30%5%

ไม่ได้หากคุณใช้ขั้นตอน BH ในกระดาษทุกครั้ง แต่อย่างอิสระในแต่ละเอกสารของคุณแล้วคุณเป็นหลักสามารถแปลความหมายของคุณ BH-ปรับ -values ตามปกติP -values และสิ่ง Colquhoun กล่าวว่ายังคงใช้พีพี


ข้อสังเกตทั่วไป

100%30%

ฉันคิดว่ากระดาษส่วนใหญ่มีเหตุผล แต่ฉันไม่ชอบที่จะทำให้บางคนอ้างว่าเป็นวิธีที่กล้าหาญเกินไป เช่นประโยคแรกของนามธรรมคือ:

พี=0.0530%

นี่เป็นสูตรที่รุนแรงเกินไปและอาจทำให้เข้าใจผิดได้


ได้รับฉันเพียงอ่านผ่านกระดาษค่อนข้างเร็ว แต่ดูเหมือนว่าเขาเป็นเพียงแค่ย้ำความคิดที่รู้จักกันดีว่ามันเป็นเรื่องง่ายที่จะหาผลกระทบปลอมในขนาดตัวอย่างขนาดใหญ่ (เช่นรูปที่ 1) ซึ่งไม่ได้บอกว่ามันไม่ได้มีความหมาย แต่ฉันคิดว่ามันควรจะมีการตีความที่แตกต่างกัน
Ryan Simmons

1
ฉันไม่แน่ใจว่าทำไม @RyanSimmons บอกว่าฉันเป็น "เพียงแค่ย้ำถึงความคิดที่รู้จักกันดีว่ามันง่ายที่จะหาเอฟเฟกต์ปลอมในตัวอย่างขนาดใหญ่" มันไม่เกี่ยวอะไรกับขนาดตัวอย่างขนาดใหญ่! ฉันยินดีต้อนรับคำอธิบายว่าทำไมเขาจึงคิดว่าบทความควรมีการตีความที่แตกต่างกัน
David Colquhoun

"แต่ไม่มีใครเคยปรับการเปรียบเทียบหลาย ๆ อย่างในเอกสารมันเป็นไปไม่ได้เลยทีเดียวที่จะทำ" ฉันคิดว่าหนึ่งในข้อดีของการปรับอัตราการค้นพบที่ผิดพลาดมากกว่าการปรับอัตราความผิดพลาด familywise ได้ว่าในขณะที่หลังต้องใช้ความหมายของครอบครัวอดีตเป็นที่ปรับขนาดได้ในจำนวนพลของการเปรียบเทียบ?
Alexis

พีαพี

สิ่งที่คุณอธิบายไม่ได้เป็นขั้นตอนการเปรียบเทียบหลายอย่างแน่นอน อย่างไรก็ตามการดำเนินการตามวิธีการปรับตาม FDR กล่าวคือ 5 การทดสอบแล้วเพิ่มอีก 20 ชุดในชุด 10 และดำเนินการวิธีเดียวกันอีกครั้งเพื่อรักษาความน่าจะเป็นที่ถูกปฏิเสธภายใต้ FDR แต่ความน่าจะเป็นของการปฏิเสธเหล่านี้เปลี่ยนภายใต้ FWER การปรับ Bonferroni ของ Dunn เป็นตัวอย่างที่ค่อนข้างน่าทึ่ง
Alexis

12

Benjamini & Hochberg กำหนดอัตราการค้นพบที่ผิดพลาดในแบบเดียวกับที่ฉันทำเพราะส่วนของการทดสอบในเชิงบวกที่เป็นบวกปลอม ดังนั้นถ้าคุณใช้โพรซีเดอร์สำหรับการเปรียบเทียบหลาย ๆ ครั้งคุณจะควบคุม FDR ได้อย่างถูกต้อง แม้ว่าจะเป็นเรื่องน่าสังเกตว่ามีหลายวิธีในวิธี BH งานสัมมนาของ Benjamini ที่ Berkeley อยู่ใน Youtube และควรค่าแก่การชม:

ฉันไม่แน่ใจว่าทำไม @amoeba กล่าวว่า "นี่เป็นสูตรที่รุนแรงเกินไปและอาจทำให้เข้าใจผิด" ฉันสนใจที่จะรู้ว่าทำไมเขา / เธอจึงคิดเช่นนั้น อาร์กิวเมนต์ที่โน้มน้าวใจมากที่สุดมาจากการทดสอบแบบจำลอง t (ส่วนที่ 6) สิ่งนั้นเลียนแบบสิ่งที่เกือบทุกคนปฏิบัติและแสดงให้เห็นว่าถ้าคุณสังเกต P ใกล้เคียงกับ 0.047 และอ้างว่าได้ค้นพบคุณจะผิดอย่างน้อย 26% ของเวลา มีอะไรผิดพลาด?

แน่นอนฉันไม่ควรอธิบายเรื่องนี้เป็นอย่างน้อย มันคือสิ่งที่คุณจะได้รับถ้าคุณคิดว่ามีโอกาส 50% ที่จะมีผลกระทบที่แท้จริง แน่นอนถ้าคุณสมมติว่าสมมติฐานส่วนใหญ่ของคุณถูกต้องล่วงหน้าคุณจะได้รับ FDR ต่ำกว่า 26% แต่คุณสามารถจินตนาการถึงความฮือฮาที่จะกล่าวอ้างว่าคุณได้ทำการค้นพบบนพื้นฐานของสมมติฐาน คุณแน่ใจแล้ว 90% ล่วงหน้าว่าข้อสรุปของคุณจะเป็นจริง 26% เป็น FDR ขั้นต่ำที่ระบุว่าไม่ใช่พื้นฐานที่สมเหตุสมผลสำหรับการอนุมานที่จะถือว่าความน่าจะเป็นก่อนหน้านี้ที่มากกว่า 0.5

เนื่องจากลางสังหรณ์ไม่บ่อยนักเมื่อทำการทดสอบอาจเป็นไปได้ว่ามีโอกาสเพียง 10% ของสมมติฐานเฉพาะใด ๆ ที่เป็นจริงและในกรณีนั้น FDR จะเป็นความหายนะ 76%

มันเป็นความจริงที่ทั้งหมดนี้เกิดขึ้นกับสมมติฐานว่างว่ามันมีความแตกต่างเป็นศูนย์ (ที่เรียกว่าจุดว่าง) ตัวเลือกอื่นสามารถให้ผลลัพธ์ที่แตกต่าง แต่ประเด็นก็คือสิ่งที่เกือบทุกคนใช้ในชีวิตจริง (แม้ว่าอาจจะไม่ได้ตระหนักถึงมัน) นอกจากนี้ประเด็นที่น่าจะเป็นสิ่งที่ฉันต้องการใช้อย่างสมบูรณ์ บางครั้งก็คัดค้านว่าความแตกต่างที่แท้จริงไม่เคยเป็นศูนย์แน่นอน ฉันไม่เห็นด้วย. เราต้องการบอกว่าผลลัพธ์ของเราไม่ใช่ความแตกต่างจากกรณีที่ทั้งสองกลุ่มได้รับการรักษาเหมือนกันดังนั้นความแตกต่างที่แท้จริงจึงเป็นศูนย์ หากเราตัดสินใจว่าข้อมูลที่ออกมานั้นไม่เข้ากันกับมุมมองนั้นเราจะทำการประมาณขนาดเอฟเฟกต์ และ ณ จุดนั้นเราทำการแยกการตัดสินใจว่าผลกระทบจริงหรือไม่นั้นใหญ่พอที่จะมีความสำคัญในการปฏิบัติบล็อกของเดโบราห์เมโย


@ amoeba ขอบคุณสำหรับการตอบสนองของคุณ

สิ่งที่การอภิปรายเกี่ยวกับบล็อกของ Mayo แสดงให้เห็นว่าส่วนใหญ่มาโยไม่เห็นด้วยกับฉันแม้ว่าเธอจะไม่ได้อธิบายอย่างชัดเจนว่าทำไม สตีเฟ่นเซนน์ชี้ให้เห็นอย่างถูกต้องว่าคุณจะได้รับคำตอบที่แตกต่างออกไปถ้าคุณอ้างถึงการแจกแจงก่อนหน้าที่แตกต่างกัน ที่ดูเหมือนว่าฉันจะน่าสนใจเฉพาะกับ Bayesians ส่วนตัว

แน่นอนว่ามันไม่เกี่ยวข้องกับการฝึกฝนในชีวิตประจำวันซึ่งถือว่าเป็นจุดว่างเสมอ และอย่างที่ฉันอธิบายนั่นดูเหมือนว่าฉันจะเป็นสิ่งที่เหมาะสมที่จะทำ

นักสถิติอาชีพจำนวนมากสรุปเช่นเดียวกับฉัน ลอง Sellke & Berger และ Valen Johnson (อ้างอิงในเอกสารของฉัน) ไม่มีข้อโต้แย้งใด ๆ (หรือต้นฉบับมาก) เกี่ยวกับการเรียกร้องของฉัน

ประเด็นอื่น ๆ ของคุณเกี่ยวกับการคาดการณ์ก่อนหน้านี้ 0.5 ดูเหมือนว่าฉันจะไม่ได้รับการคาดเดาเลย ดังที่ฉันได้อธิบายไว้ข้างต้นสิ่งที่สูงกว่า 0.5 woold นั้นไม่สามารถยอมรับได้ในทางปฏิบัติ และอะไรก็ตามที่ต่ำกว่า 0.5 จะทำให้อัตราการค้นพบที่ผิดพลาดยิ่งสูงขึ้น (เช่น 76% ถ้าก่อนหน้านี้คือ 0.1) ดังนั้นจึงมีเหตุผลอย่างสมบูรณ์ที่จะบอกว่า 26% เป็นอัตราการค้นพบที่ผิดพลาดขั้นต่ำที่คุณสามารถคาดหวังได้หากคุณสังเกต P = 0.047 ในการทดสอบเดียว


ฉันคิดถึงคำถามนี้มากขึ้น คำจำกัดความของ FDR ของฉันเหมือนกับการทดสอบเชิงบวกของ Benjamini ที่เป็นเท็จ แต่มันถูกนำไปใช้กับปัญหาที่แตกต่างกันมากการตีความการทดสอบเดี่ยว ด้วยการเข้าใจถึงปัญหาหลังเหตุการณ์มันอาจจะดีกว่านี้ถ้าฉันเลือกคำอื่น

ในกรณีของการทดสอบเดี่ยว B&H จะไม่เปลี่ยนแปลงค่า P ดังนั้นจึงไม่ได้พูดอะไรเกี่ยวกับอัตราการค้นพบที่ผิดพลาดในแง่ที่ว่าฉันใช้คำนั้น


แน่นอนว่าคุณพูดถูก Benjamini & Hochberg และคนอื่น ๆ ที่ทำงานเกี่ยวกับการเปรียบเทียบหลายจุดมุ่งหมายเพื่อแก้ไขอัตราความผิดพลาดประเภท 1 เท่านั้น ดังนั้นพวกเขาจึงลงท้ายด้วยค่า P ที่ "ถูกต้อง" มันอาจมีปัญหาเช่นเดียวกับค่า P อื่น ๆ ในบทความล่าสุดของฉันฉันเปลี่ยนชื่อจาก FDR เป็น False Positive Risk (FPR) เพื่อพยายามหลีกเลี่ยงความเข้าใจผิดนี้

นอกจากนี้เรายังได้เขียนแอปพลิเคชันเว็บเพื่อทำการคำนวณบางอย่าง (หลังจากสังเกตว่ามีเพียงไม่กี่คนที่ดาวน์โหลดสคริปต์ R ที่เรามีให้) มันอยู่ที่https://davidcolquhoun.shinyapps.io/3-calcs-final/ความคิดเห็นทั้งหมดเกี่ยวกับ itare welcome (โปรดอ่านแท็บ Notes ก่อน)

ป.ล. เครื่องคิดเลขทางเว็บตอนนี้มีใหม่ (ถาวรฉันหวังว่า) ที่http://fpr-calc.ucl.ac.uk/ Shiny.io ใช้งานง่าย แต่มีราคาแพงมากถ้าใครใช้แอปจริง :-(


ฉันกลับไปที่การสนทนาตอนนี้เอกสารฉบับที่สองของฉันในหัวข้อกำลังจะปรากฏใน Science Open Society อยู่ที่https://www.biorxiv.org/content/early/2017/08/07/144337

ฉันตระหนักว่าข้อผิดพลาดที่ยิ่งใหญ่ที่สุดที่ฉันทำไว้ในบทความแรกคือการใช้คำว่า "อัตราการค้นพบที่ผิด (FDR)" ในบทความใหม่ฉันทำให้ชัดเจนยิ่งขึ้นว่าฉันไม่ได้พูดอะไรเกี่ยวกับปัญหาการเปรียบเทียบหลายอย่าง ฉันจัดการเฉพาะกับคำถามว่าจะตีความค่า P ที่สังเกตได้ในการทดสอบที่ไม่เอนเอียงเพียงใด

ในเวอร์ชั่นล่าสุดฉันอ้างถึงความน่าจะเป็นที่ผลลัพธ์นั้นเป็นความเสี่ยงเชิงบวกที่ผิดพลาด (FPR) มากกว่า FDR โดยหวังว่าจะลดความสับสน ฉันยังสนับสนุนวิธีการแบบเบย์แบบย้อนกลับ - ระบุความน่าจะเป็นก่อนหน้านี้ที่จะต้องมีเพื่อให้แน่ใจว่ามี FPR เป็น 5% ถ้าคุณสังเกต P = 0.05 นั่นเท่ากับ 0.87 กล่าวอีกนัยหนึ่งคุณต้องเกือบ (87%) ตรวจสอบให้แน่ใจว่ามีผลจริงก่อนทำการทดสอบเพื่อให้ได้ FPR 5% (ซึ่งเป็นสิ่งที่คนส่วนใหญ่ยังเชื่อว่าผิดพลาด p = 0.05)


เรียนคุณเดวิดยินดีต้อนรับสู่ CrossValidated และขอขอบคุณสำหรับการเข้าร่วม! ดูเหมือนว่าเราจะเห็นด้วยกับคำถามของ @ มกราคมดั้งเดิม: FDR สามารถควบคุมได้โดยขั้นตอน BH โดยรวมเท่านั้น ถ้า BH ถูกนำไปใช้ในกระดาษแต่ละฉบับแยกจากกันข้อโต้แย้งของคุณยังคงมีผลอยู่ ถ้าเป็นเช่นนี้จะตัดสินคำถามเดิม เกี่ยวกับความคิดเห็นของฉันเกี่ยวกับสูตร "แรงเกินไป" ของคุณ: หลังจากอ่าน 147 ความคิดเห็นในบล็อกของ Mayo ฉันลังเลที่จะเริ่มการสนทนาใหม่ ขณะที่ฉันเขียนฉันเห็นด้วยกับกระดาษของคุณเป็นส่วนใหญ่และการคัดค้านของฉันเป็นเพียงบางสูตรเท่านั้น [ต่อ.]
อะมีบากล่าวว่า Reinstate Monica

1
[... ] ประโยคแรกในนามธรรมคือ "แรงเกินไป" ตามเหตุผลที่คุณระบุไว้ที่นี่: เช่นสมมติว่าเป็นโมฆะและคาดว่าจะ 0.5 ก่อน แต่ฟังดูเหมือนว่ามันจะไม่ถือว่าอะไร (แต่ฉันเข้าใจว่าคุณ พยายามที่จะยั่วยุ) การอภิปรายอย่างมากในบล็อกของ Mayo แสดงให้เห็นว่าหลายคนไม่เห็นด้วยกับข้อสันนิษฐานเหล่านี้ว่าเหมาะสมสำหรับการปฏิบัติทางวิทยาศาสตร์จริง ฉันมีการคัดค้านของตัวเองเกินไป แต่ผมไม่เห็นด้วยกับคุณว่าสมมติฐานเหล่านี้ได้อย่างถูกต้องอาจจะอธิบายบางสาขาวิทยาศาสตร์ และถ้าเป็นเช่นนั้นเขตข้อมูลเหล่านี้มีปัญหาใหญ่ใช่
อะมีบาพูดว่า Reinstate Monica

2

ส่วนใหญ่ของความสับสนก็คือแม้ว่าความคิดเห็นของเขาที่นี่ตรงข้าม Colquhoun ไม่ได้กำหนด FDR เช่นเดียวกับ Benjamini-Hochberg เป็นที่น่าเสียดายที่ Colquhoun พยายามที่จะสะสมเหรียญโดยไม่ตรวจสอบก่อนเพื่อให้แน่ใจว่าคำดังกล่าวนั้นยังไม่มีคำนิยามที่เป็นที่ยอมรับและแตกต่างกัน เพื่อทำให้เรื่องแย่ลง Colquhoun กำหนด FDR อย่างแม่นยำในแบบที่ FDR ทั่วไปตีความผิด ๆ

ในคำตอบของเขาที่นี่ Colquhoun กำหนด FDR เป็น "ส่วนของการทดสอบเชิงบวกที่เป็นเท็จ" นั่นคล้ายกับสิ่งที่ Benjamini-Hochberg นิยามว่าเป็น FDP (สัดส่วนการค้นพบที่ผิดพลาดเพื่อไม่ให้สับสนกับอัตราการค้นพบที่ผิดพลาด) Benjamini-Hochberg กำหนด FDR เป็นค่าคาดหวังของ FDP โดยมีข้อกำหนดพิเศษที่ FDP ถือเป็น 0 เมื่อไม่มีการทดสอบเชิงบวก หลีกเลี่ยงค่าที่ไม่สามารถกำหนดได้เนื่องจากการหารด้วยศูนย์)

เพื่อหลีกเลี่ยงความสับสนฉันขอแนะนำไม่ต้องกังวลเกี่ยวกับรายละเอียดในกระดาษ Colquhoun และแทนที่จะเพียงคำนึงถึงจุดภาพใหญ่ (ซึ่งคนอื่น ๆ นับไม่ถ้วนยังทำ) ว่าระดับอัลฟ่าไม่ตรงกับสัดส่วนของการทดสอบที่สำคัญ เป็นข้อผิดพลาด Type I (ไม่ว่าเราจะพูดถึงการทดสอบที่สำคัญในการศึกษาเดี่ยวหรือในการศึกษาหลาย ๆ ครั้งรวมกัน) สัดส่วนนั้นไม่เพียง แต่ขึ้นอยู่กับอัลฟ่าเท่านั้น แต่ยังขึ้นอยู่กับอำนาจและสัดส่วนของสมมติฐานว่างที่ทดสอบว่าเป็นจริง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.