โพรซีเดอร์ FDR จะประเมินอัตราการค้นพบที่ผิดโดยไม่มีแบบจำลองของอัตราพื้นฐานได้อย่างไร

9

บางคนสามารถอธิบายได้ว่าขั้นตอน FDR สามารถประเมิน FDR โดยไม่มีแบบจำลอง / สมมติฐานของอัตราพื้นฐานของผลบวกจริงได้อย่างไร

false-discovery-rate

5

ฉันคิดว่านั่นเป็นคำถามที่ดีจริงๆ มีคนจำนวนมากที่ใช้กระบวนการ Benjamini-Hochberg (ตัวย่อ BH อาจเป็นวิธีที่นิยมที่สุดในการควบคุม FDR) เป็นกล่องดำ อันที่จริงมีข้อสมมติฐานพื้นฐานที่สร้างจากสถิติและซ่อนอยู่ในความหมายของค่า p!

สำหรับค่า p ที่กำหนดอย่างดี $P$ มันถือได้ว่า $P$ มีการกระจายอย่างสม่ำเสมอ ( $P\sim U[0,1]$ ) ภายใต้สมมติฐานว่าง บางครั้งอาจเป็นได้ว่านั่นคือมีขนาดเล็กกว่าเครื่องแบบสม่ำเสมอ แต่สิ่งนี้ทำให้กระบวนการอนุรักษ์นิยมมากขึ้นเท่านั้น ดังนั้นโดยการคำนวณค่า p โดยใช้ t-test หรือการทดสอบใด ๆ ที่คุณเลือกคุณกำลังให้ข้อมูลเกี่ยวกับการแจกแจงภายใต้สมมติฐานว่าง $\Pr[P\leq t] \leq t$ $P$

แต่สังเกตที่นี่ว่าฉันพูดถึงสมมติฐานว่าง; ดังนั้นสิ่งที่คุณพูดถึงความรู้เกี่ยวกับอัตราพื้นฐานของผลบวกจริงไม่จำเป็นคุณต้องการเพียงความรู้เกี่ยวกับอัตราพื้นฐานของผลบวกปลอม ทำไมนี้

ให้แทนจำนวนของสมมติฐานที่ถูกปฏิเสธทั้งหมด (บวก) และเป็นผลบวกเท็จจากนั้น: $R$ $V$

FDR = E [\frac{V}{max (R, 1)}] \approx \frac{E [V]}{E [R]}

$\text{FDR} = \mathbb E\left[\frac{V}{\max(R,1)}\right] \approx \frac{\mathbb E[V]}{\mathbb E[R]}$

ดังนั้นในการประมาณ FDR คุณต้องมีวิธีการประเมิน ,[V] ตอนนี้เราจะดูกฎการตัดสินใจที่ปฏิเสธ p-valuesทั้งหมด เพื่อให้ชัดเจนในสัญกรณ์ฉันจะเขียนสำหรับปริมาณ / ตัวแปรสุ่มที่สอดคล้องกันของกระบวนการดังกล่าว $\mathbb E[R]$ $\mathbb E[V]$ $\leq t$ $FDR(t),R(t),V(t)$

เนื่องจากเป็นเพียงความคาดหวังของจำนวนการปฏิเสธทั้งหมดคุณสามารถประมาณการโดยไม่เอนเอียงโดยจำนวนการปฏิเสธที่คุณสังเกตเห็นดังนั้น คือเพียงโดยการนับจำนวน P-ค่าของคุณที $\mathbb E[R(t)]$ $\mathbb E[R(t)] \approx R(t)$ $\leq t$

ตอนนี้ล่ะ? สมมุติว่าของสมมติฐานทั้งหมดของคุณเป็นสมมติฐานว่างแล้วจากความสม่ำเสมอ (หรือความสม่ำเสมอย่อย) ของค่า p ภายใต้ค่า null ที่คุณได้รับ: $\mathbb E[V]$ $m_0$ $m$

E [V (t)] = \sum_{i null} Pr [P_{i} \leq t] \leq m_{0} t

$\mathbb E[V(t)] = \sum_{i \text{ null}} \Pr[P_i \leq t] \leq m_0 t$

แต่เรายังไม่ทราบว่าแต่เรารู้ว่าดังนั้นที่ถูกผูกไว้บนก็จะเป็นอนุลักษณ์มอนแทนา ดังนั้นเนื่องจากเราแค่ต้องการขอบเขตบนจำนวนบวกเท็จมันก็เพียงพอที่เรารู้ว่าการกระจายของพวกเขา! และนี่คือสิ่งที่กระบวนการ BH ทำ $m_0$ $m_0 \leq m$ $\mathbb E[V(t)] \leq m t$

ดังนั้นในขณะที่ความคิดเห็นของ Aarong Zeng ว่า "ขั้นตอน BH เป็นวิธีการควบคุม FDR ในระดับที่กำหนด q มันไม่เกี่ยวกับการประเมิน FDR" ไม่ใช่เท็จ แต่ก็เป็นความเข้าใจผิดอย่างมาก! ขั้นตอน BH จริงไม่ประเมิน FDR สำหรับแต่ละกำหนดเกณฑ์ทีและจากนั้นก็เลือกเกณฑ์ที่ใหญ่ที่สุดเช่นว่าประมาณ FDR อยู่ด้านล่าง\อันที่จริง "การปรับ p-value" ของสมมติฐานนั้นเป็นเพียงแค่การประมาณค่า FDR ที่ธรณีประตู (จนถึง isotonization) ฉันคิดว่าอัลกอริทึม BH มาตรฐานซ่อนข้อเท็จจริงนี้เล็กน้อย แต่มันง่ายที่จะแสดงให้เห็นถึงความเท่าเทียมกันของทั้งสองวิธี (หรือที่เรียกว่า "ทฤษฎีบทความเท่าเทียม" ในเอกสารทดสอบหลายรายการ) $t$ $\alpha$ $i$ $t=p_i$

ในฐานะที่เป็นคำพูดสุดท้ายมีวิธีการอยู่เช่นขั้นตอนของชั้นซึ่งแม้ประมาณจากข้อมูล; สิ่งนี้สามารถเพิ่มพลังงานได้เล็กน้อย นอกจากนี้ในหลักการที่คุณพูดถูกคุณสามารถจำลองการกระจายภายใต้ทางเลือก (อัตราฐานบวกที่แท้จริงของคุณ) เพื่อรับขั้นตอนที่มีประสิทธิภาพมากขึ้น แต่จนถึงขณะนี้การวิจัยทดสอบหลายรายการได้มุ่งเน้นไปที่การรักษาการควบคุมข้อผิดพลาดประเภทที่ 1 เป็นหลักแทนที่จะใช้กำลังสูงสุด ความยากลำบากอย่างหนึ่งก็คือในหลาย ๆ กรณีทางเลือกที่แท้จริงของคุณแต่ละคนจะมีการกระจายทางเลือกที่แตกต่างกัน (เช่นพลังงานที่แตกต่างกันสำหรับสมมติฐานที่แตกต่างกัน) ในขณะที่ภายใต้ null สิ่งนี้ทำให้การสร้างแบบจำลองของอัตราบวกที่แท้จริงยิ่งยากขึ้น $m_0$

— อากาศ
แหล่งที่มา

3

+1 สันนิษฐาน "BH" หมายถึงBenjamini-Hochberg (มันเป็นความคิดที่ดีที่จะสะกดคำย่อเพื่อมิให้คนเข้าใจผิด) ยินดีต้อนรับสู่เว็บไซต์ของเรา!

— whuber

1

ขอบคุณ! ใช่คุณถูกต้องฉันแก้ไขโพสต์ของฉันเพื่อสะท้อนให้เห็นว่า

— ออกอากาศ

4

ตามที่แนะนำโดย @air ขั้นตอน Benjamini-Hochberg (BH) รับประกันการควบคุม FDR มันไม่ได้มีจุดมุ่งหมายเพื่อประเมินมัน ดังนั้นจึงจำเป็นต้องมีสมมติฐานการพึ่งพาที่อ่อนแอเพียงระหว่างสถิติการทดสอบ [1,2]

วิธีการที่มีจุดมุ่งหมายในการประมาณค่า FDR [เช่น 3,4,5] จำเป็นต้องมีสมมติฐานบางอย่างเกี่ยวกับกระบวนการกำเนิดเพื่อประเมินมัน พวกเขามักจะถือว่าสถิติการทดสอบมีความเป็นอิสระ พวกเขาจะสมมติบางสิ่งบางอย่างเกี่ยวกับการแจกแจงโมฆะของสถิติการทดสอบ การออกจากการแจกแจงโมฆะนี้พร้อมกับการสันนิษฐานว่าเป็นอิสระสามารถนำมาประกอบกับผลกระทบและอาจประเมิน FDR

โปรดทราบว่าแนวคิดเหล่านี้ปรากฏขึ้นอีกครั้งในวรรณคดีการตรวจจับสิ่งแปลกใหม่กึ่งมีผู้ดูแล [6]

[1] Benjamini, Y. และ Y. Hochberg “ การควบคุมอัตราการค้นพบที่ผิด: วิธีการที่ใช้งานได้จริงและมีประสิทธิภาพสำหรับการทดสอบหลายครั้ง” SERIES สถิติทางสังคม - ราชสำนัก B 57 (1995): 289–289

[2] Benjamini, Y. และ D. Yekutieli “ การควบคุมอัตราการค้นพบที่ผิดพลาดในการทดสอบหลายรายการภายใต้การพึ่งพา” ANNALS ของสถิติ 29 หมายเลข 4 (2001): 1165–88

[3] ชั้น, JD“ แนวทางตรงสู่อัตราการค้นพบที่ผิด” วารสารสมาคมสถิติแห่งประเทศไทยชุดที่ 64 ไม่มี. 3 (2002): 479–98 ดอย: 10.1111 / 1467-9868.00346

[4] Efron, B. “ Microarrays, Empirical Bayes และโมเดลสองกลุ่ม” สถิติวิทยาศาสตร์ 23 1 (2008): 1–22

[5] จิน Jiashun และ T. Tony Cai “ การประมาณค่า Null และสัดส่วนของผลกระทบที่ไม่เป็น Null ในการเปรียบเทียบหลายรายการขนาดใหญ่” วารสารสมาคมสถิติอเมริกันหมายเลข 102 478 (1 มิถุนายน 2550): 495–506 ดอย: 10.1198 / 016214507000000167

[6] Claesen, Marc, Jesse Davis, Frank De Smet และ Bart De Moor “ การประเมินตัวแยกประเภทไบนารีโดยใช้ข้อมูลที่เป็นบวกและไม่มีชื่อเท่านั้น” arXiv: 1504.06837 [cs, Stat] ที่ 26 เมษายน 2015 http://arxiv.org/abs/1504.06837

— JohnRos
แหล่งที่มา

1

+1 แต่จุดหลักของฉันจากวรรคที่เป็นว่าขั้นตอน BH จริงไม่แนะนำวิธีการประเมิน FDR (แม้ว่าบิตอนุรักษ์นิยม) และในความเป็นจริงไม่ประเมินว่ามันจะมาถึงเกณฑ์การปฏิเสธสุดท้าย คำจำกัดความอัลกอริทึมของมันเป็นขั้นตอนที่เป็นขั้นตอนในการอ้างอิง [1] ปิดบังสิ่งนี้ แต่ในตอนท้ายของการประมาณค่าวันของ FDR คือสิ่งที่ขั้นตอน BH ทำ !! (Efron มักจะทำให้จุดนั้น แต่ยังเห็นมาตรา 4 "การเชื่อมต่อระหว่างสองแนวทาง" ในการอ้างอิงของคุณ [3].)

— อากาศ

2

คุณมีสิทธิที่ต่อไปนี้ [3 Eq.2.5] หนึ่งอาจเห็นขั้นตอนการ BH เป็นใช้ประมาณการอนุรักษ์ของ FDR กับ 1

p_{0} = 1

$p_0=1$

— JohnRos

0

เมื่อรุ่นต้นแบบที่แท้จริงคือไม่รู้จักเราไม่สามารถคำนวณ FDR แต่สามารถประมาณมูลค่า FDR โดยการทดสอบการเปลี่ยนแปลง โดยทั่วไปขั้นตอนการทดสอบการเปลี่ยนรูปเป็นเพียงการทดสอบสมมติฐานหลาย ๆ ครั้งโดยเปลี่ยนเวกเตอร์ตัวแปรผลลัพธ์ด้วยการเปลี่ยนลำดับ มันสามารถทำได้โดยอาศัยการเรียงสับเปลี่ยนของตัวอย่าง แต่ไม่เหมือนสามัญในอดีต

กระดาษที่นี่ทบทวนขั้นตอนการเปลี่ยนรูปแบบมาตรฐานสำหรับการประเมิน FDR และเสนอตัวประมาณ FDR ใหม่ ควรตอบคำถามของคุณได้

— แอรอนเซง
แหล่งที่มา

3

กระบวนการทั่วไปเช่น BH ไม่ได้ใช้การทดสอบการเปลี่ยนรูป มันใช้อะไร? นอกจากนี้การทดสอบการเปลี่ยนรูปมักจะให้การแจกแจงภายใต้ค่า Null, ค่าประมาณ FDR ไม่จำเป็นต้องใช้แบบจำลองของทั้งค่า Null และค่าทางเลือกรวมทั้งสัดส่วนสัมพัทธ์พื้นฐานของแต่ละค่าหรือไม่?

— user4733

ก่อนอื่นขั้นตอน BH เป็นวิธีการควบคุม FDR ที่ระดับกำหนด มันไม่เกี่ยวกับการประมาณค่า FDR ประการที่สองการทดสอบการเรียงสับเปลี่ยนจะดำเนินการภายใต้ null ของสมมติฐานทั้งหมด ฉันไม่แน่ใจว่าสิ่งที่คุณหมายถึงโดย "ต้องการแบบจำลองทั้งโมฆะและทางเลือกเช่นเดียวกับสัดส่วนสัมพัทธ์พื้นฐานของแต่ละ" แต่เมื่อคุณตั้งสมมติฐานของคุณคุณมีคู่ที่เป็นโมฆะและทางเลือกของคุณแล้ว มันสมเหตุสมผลหรือไม่

q

$q$

— Aaron Zeng