โพรซีเดอร์ FDR จะประเมินอัตราการค้นพบที่ผิดโดยไม่มีแบบจำลองของอัตราพื้นฐานได้อย่างไร


9

บางคนสามารถอธิบายได้ว่าขั้นตอน FDR สามารถประเมิน FDR โดยไม่มีแบบจำลอง / สมมติฐานของอัตราพื้นฐานของผลบวกจริงได้อย่างไร

คำตอบ:


5

ฉันคิดว่านั่นเป็นคำถามที่ดีจริงๆ มีคนจำนวนมากที่ใช้กระบวนการ Benjamini-Hochberg (ตัวย่อ BH อาจเป็นวิธีที่นิยมที่สุดในการควบคุม FDR) เป็นกล่องดำ อันที่จริงมีข้อสมมติฐานพื้นฐานที่สร้างจากสถิติและซ่อนอยู่ในความหมายของค่า p!

สำหรับค่า p ที่กำหนดอย่างดี P มันถือได้ว่า P มีการกระจายอย่างสม่ำเสมอ (PU[0,1]) ภายใต้สมมติฐานว่าง บางครั้งอาจเป็นได้ว่านั่นคือมีขนาดเล็กกว่าเครื่องแบบสม่ำเสมอ แต่สิ่งนี้ทำให้กระบวนการอนุรักษ์นิยมมากขึ้นเท่านั้น ดังนั้นโดยการคำนวณค่า p โดยใช้ t-test หรือการทดสอบใด ๆ ที่คุณเลือกคุณกำลังให้ข้อมูลเกี่ยวกับการแจกแจงภายใต้สมมติฐานว่างPr[Pt]tP

แต่สังเกตที่นี่ว่าฉันพูดถึงสมมติฐานว่าง; ดังนั้นสิ่งที่คุณพูดถึงความรู้เกี่ยวกับอัตราพื้นฐานของผลบวกจริงไม่จำเป็นคุณต้องการเพียงความรู้เกี่ยวกับอัตราพื้นฐานของผลบวกปลอม ทำไมนี้

ให้แทนจำนวนของสมมติฐานที่ถูกปฏิเสธทั้งหมด (บวก) และเป็นผลบวกเท็จจากนั้น:RV

FDR=E[Vmax(R,1)]E[V]E[R]

ดังนั้นในการประมาณ FDR คุณต้องมีวิธีการประเมิน ,[V] ตอนนี้เราจะดูกฎการตัดสินใจที่ปฏิเสธ p-valuesทั้งหมด เพื่อให้ชัดเจนในสัญกรณ์ฉันจะเขียนสำหรับปริมาณ / ตัวแปรสุ่มที่สอดคล้องกันของกระบวนการดังกล่าวE[R]E[V]tFDR(t),R(t),V(t)

เนื่องจากเป็นเพียงความคาดหวังของจำนวนการปฏิเสธทั้งหมดคุณสามารถประมาณการโดยไม่เอนเอียงโดยจำนวนการปฏิเสธที่คุณสังเกตเห็นดังนั้น คือเพียงโดยการนับจำนวน P-ค่าของคุณทีE[R(t)]E[R(t)]R(t)t

ตอนนี้ล่ะ? สมมุติว่าของสมมติฐานทั้งหมดของคุณเป็นสมมติฐานว่างแล้วจากความสม่ำเสมอ (หรือความสม่ำเสมอย่อย) ของค่า p ภายใต้ค่า null ที่คุณได้รับ:E[V]m0m

E[V(t)]=i nullPr[Pit]m0t

แต่เรายังไม่ทราบว่าแต่เรารู้ว่าดังนั้นที่ถูกผูกไว้บนก็จะเป็นอนุลักษณ์มอนแทนา ดังนั้นเนื่องจากเราแค่ต้องการขอบเขตบนจำนวนบวกเท็จมันก็เพียงพอที่เรารู้ว่าการกระจายของพวกเขา! และนี่คือสิ่งที่กระบวนการ BH ทำm0m0mE[V(t)]mt

ดังนั้นในขณะที่ความคิดเห็นของ Aarong Zeng ว่า "ขั้นตอน BH เป็นวิธีการควบคุม FDR ในระดับที่กำหนด q มันไม่เกี่ยวกับการประเมิน FDR" ไม่ใช่เท็จ แต่ก็เป็นความเข้าใจผิดอย่างมาก! ขั้นตอน BH จริงไม่ประเมิน FDR สำหรับแต่ละกำหนดเกณฑ์ทีและจากนั้นก็เลือกเกณฑ์ที่ใหญ่ที่สุดเช่นว่าประมาณ FDR อยู่ด้านล่าง\อันที่จริง "การปรับ p-value" ของสมมติฐานนั้นเป็นเพียงแค่การประมาณค่า FDR ที่ธรณีประตู (จนถึง isotonization) ฉันคิดว่าอัลกอริทึม BH มาตรฐานซ่อนข้อเท็จจริงนี้เล็กน้อย แต่มันง่ายที่จะแสดงให้เห็นถึงความเท่าเทียมกันของทั้งสองวิธี (หรือที่เรียกว่า "ทฤษฎีบทความเท่าเทียม" ในเอกสารทดสอบหลายรายการ)tαit=pi

ในฐานะที่เป็นคำพูดสุดท้ายมีวิธีการอยู่เช่นขั้นตอนของชั้นซึ่งแม้ประมาณจากข้อมูล; สิ่งนี้สามารถเพิ่มพลังงานได้เล็กน้อย นอกจากนี้ในหลักการที่คุณพูดถูกคุณสามารถจำลองการกระจายภายใต้ทางเลือก (อัตราฐานบวกที่แท้จริงของคุณ) เพื่อรับขั้นตอนที่มีประสิทธิภาพมากขึ้น แต่จนถึงขณะนี้การวิจัยทดสอบหลายรายการได้มุ่งเน้นไปที่การรักษาการควบคุมข้อผิดพลาดประเภทที่ 1 เป็นหลักแทนที่จะใช้กำลังสูงสุด ความยากลำบากอย่างหนึ่งก็คือในหลาย ๆ กรณีทางเลือกที่แท้จริงของคุณแต่ละคนจะมีการกระจายทางเลือกที่แตกต่างกัน (เช่นพลังงานที่แตกต่างกันสำหรับสมมติฐานที่แตกต่างกัน) ในขณะที่ภายใต้ null สิ่งนี้ทำให้การสร้างแบบจำลองของอัตราบวกที่แท้จริงยิ่งยากขึ้นm0


3
+1 สันนิษฐาน "BH" หมายถึงBenjamini-Hochberg (มันเป็นความคิดที่ดีที่จะสะกดคำย่อเพื่อมิให้คนเข้าใจผิด) ยินดีต้อนรับสู่เว็บไซต์ของเรา!
whuber

1
ขอบคุณ! ใช่คุณถูกต้องฉันแก้ไขโพสต์ของฉันเพื่อสะท้อนให้เห็นว่า
ออกอากาศ

4

ตามที่แนะนำโดย @air ขั้นตอน Benjamini-Hochberg (BH) รับประกันการควบคุม FDR มันไม่ได้มีจุดมุ่งหมายเพื่อประเมินมัน ดังนั้นจึงจำเป็นต้องมีสมมติฐานการพึ่งพาที่อ่อนแอเพียงระหว่างสถิติการทดสอบ [1,2]

วิธีการที่มีจุดมุ่งหมายในการประมาณค่า FDR [เช่น 3,4,5] จำเป็นต้องมีสมมติฐานบางอย่างเกี่ยวกับกระบวนการกำเนิดเพื่อประเมินมัน พวกเขามักจะถือว่าสถิติการทดสอบมีความเป็นอิสระ พวกเขาจะสมมติบางสิ่งบางอย่างเกี่ยวกับการแจกแจงโมฆะของสถิติการทดสอบ การออกจากการแจกแจงโมฆะนี้พร้อมกับการสันนิษฐานว่าเป็นอิสระสามารถนำมาประกอบกับผลกระทบและอาจประเมิน FDR

โปรดทราบว่าแนวคิดเหล่านี้ปรากฏขึ้นอีกครั้งในวรรณคดีการตรวจจับสิ่งแปลกใหม่กึ่งมีผู้ดูแล [6]

[1] Benjamini, Y. และ Y. Hochberg “ การควบคุมอัตราการค้นพบที่ผิด: วิธีการที่ใช้งานได้จริงและมีประสิทธิภาพสำหรับการทดสอบหลายครั้ง” SERIES สถิติทางสังคม - ราชสำนัก B 57 (1995): 289–289

[2] Benjamini, Y. และ D. Yekutieli “ การควบคุมอัตราการค้นพบที่ผิดพลาดในการทดสอบหลายรายการภายใต้การพึ่งพา” ANNALS ของสถิติ 29 หมายเลข 4 (2001): 1165–88

[3] ชั้น, JD“ แนวทางตรงสู่อัตราการค้นพบที่ผิด” วารสารสมาคมสถิติแห่งประเทศไทยชุดที่ 64 ไม่มี. 3 (2002): 479–98 ดอย: 10.1111 / 1467-9868.00346

[4] Efron, B. “ Microarrays, Empirical Bayes และโมเดลสองกลุ่ม” สถิติวิทยาศาสตร์ 23 1 (2008): 1–22

[5] จิน Jiashun และ T. Tony Cai “ การประมาณค่า Null และสัดส่วนของผลกระทบที่ไม่เป็น Null ในการเปรียบเทียบหลายรายการขนาดใหญ่” วารสารสมาคมสถิติอเมริกันหมายเลข 102 478 (1 มิถุนายน 2550): 495–506 ดอย: 10.1198 / 016214507000000167

[6] Claesen, Marc, Jesse Davis, Frank De Smet และ Bart De Moor “ การประเมินตัวแยกประเภทไบนารีโดยใช้ข้อมูลที่เป็นบวกและไม่มีชื่อเท่านั้น” arXiv: 1504.06837 [cs, Stat] ที่ 26 เมษายน 2015 http://arxiv.org/abs/1504.06837


1
+1 แต่จุดหลักของฉันจากวรรคที่เป็นว่าขั้นตอน BH จริงไม่แนะนำวิธีการประเมิน FDR (แม้ว่าบิตอนุรักษ์นิยม) และในความเป็นจริงไม่ประเมินว่ามันจะมาถึงเกณฑ์การปฏิเสธสุดท้าย คำจำกัดความอัลกอริทึมของมันเป็นขั้นตอนที่เป็นขั้นตอนในการอ้างอิง [1] ปิดบังสิ่งนี้ แต่ในตอนท้ายของการประมาณค่าวันของ FDR คือสิ่งที่ขั้นตอน BH ทำ !! (Efron มักจะทำให้จุดนั้น แต่ยังเห็นมาตรา 4 "การเชื่อมต่อระหว่างสองแนวทาง" ในการอ้างอิงของคุณ [3].)
อากาศ

2
คุณมีสิทธิที่ต่อไปนี้ [3 Eq.2.5] หนึ่งอาจเห็นขั้นตอนการ BH เป็นใช้ประมาณการอนุรักษ์ของ FDR กับ 1 p0=1
JohnRos

0

เมื่อรุ่นต้นแบบที่แท้จริงคือไม่รู้จักเราไม่สามารถคำนวณ FDR แต่สามารถประมาณมูลค่า FDR โดยการทดสอบการเปลี่ยนแปลง โดยทั่วไปขั้นตอนการทดสอบการเปลี่ยนรูปเป็นเพียงการทดสอบสมมติฐานหลาย ๆ ครั้งโดยเปลี่ยนเวกเตอร์ตัวแปรผลลัพธ์ด้วยการเปลี่ยนลำดับ มันสามารถทำได้โดยอาศัยการเรียงสับเปลี่ยนของตัวอย่าง แต่ไม่เหมือนสามัญในอดีต

กระดาษที่นี่ทบทวนขั้นตอนการเปลี่ยนรูปแบบมาตรฐานสำหรับการประเมิน FDR และเสนอตัวประมาณ FDR ใหม่ ควรตอบคำถามของคุณได้


3
กระบวนการทั่วไปเช่น BH ไม่ได้ใช้การทดสอบการเปลี่ยนรูป มันใช้อะไร? นอกจากนี้การทดสอบการเปลี่ยนรูปมักจะให้การแจกแจงภายใต้ค่า Null, ค่าประมาณ FDR ไม่จำเป็นต้องใช้แบบจำลองของทั้งค่า Null และค่าทางเลือกรวมทั้งสัดส่วนสัมพัทธ์พื้นฐานของแต่ละค่าหรือไม่?
user4733

ก่อนอื่นขั้นตอน BH เป็นวิธีการควบคุม FDR ที่ระดับกำหนด มันไม่เกี่ยวกับการประมาณค่า FDR ประการที่สองการทดสอบการเรียงสับเปลี่ยนจะดำเนินการภายใต้ null ของสมมติฐานทั้งหมด ฉันไม่แน่ใจว่าสิ่งที่คุณหมายถึงโดย "ต้องการแบบจำลองทั้งโมฆะและทางเลือกเช่นเดียวกับสัดส่วนสัมพัทธ์พื้นฐานของแต่ละ" แต่เมื่อคุณตั้งสมมติฐานของคุณคุณมีคู่ที่เป็นโมฆะและทางเลือกของคุณแล้ว มันสมเหตุสมผลหรือไม่ q
Aaron Zeng
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.