บางคนสามารถอธิบายได้ว่าขั้นตอน FDR สามารถประเมิน FDR โดยไม่มีแบบจำลอง / สมมติฐานของอัตราพื้นฐานของผลบวกจริงได้อย่างไร
บางคนสามารถอธิบายได้ว่าขั้นตอน FDR สามารถประเมิน FDR โดยไม่มีแบบจำลอง / สมมติฐานของอัตราพื้นฐานของผลบวกจริงได้อย่างไร
คำตอบ:
ฉันคิดว่านั่นเป็นคำถามที่ดีจริงๆ มีคนจำนวนมากที่ใช้กระบวนการ Benjamini-Hochberg (ตัวย่อ BH อาจเป็นวิธีที่นิยมที่สุดในการควบคุม FDR) เป็นกล่องดำ อันที่จริงมีข้อสมมติฐานพื้นฐานที่สร้างจากสถิติและซ่อนอยู่ในความหมายของค่า p!
สำหรับค่า p ที่กำหนดอย่างดี มันถือได้ว่า มีการกระจายอย่างสม่ำเสมอ () ภายใต้สมมติฐานว่าง บางครั้งอาจเป็นได้ว่านั่นคือมีขนาดเล็กกว่าเครื่องแบบสม่ำเสมอ แต่สิ่งนี้ทำให้กระบวนการอนุรักษ์นิยมมากขึ้นเท่านั้น ดังนั้นโดยการคำนวณค่า p โดยใช้ t-test หรือการทดสอบใด ๆ ที่คุณเลือกคุณกำลังให้ข้อมูลเกี่ยวกับการแจกแจงภายใต้สมมติฐานว่าง
แต่สังเกตที่นี่ว่าฉันพูดถึงสมมติฐานว่าง; ดังนั้นสิ่งที่คุณพูดถึงความรู้เกี่ยวกับอัตราพื้นฐานของผลบวกจริงไม่จำเป็นคุณต้องการเพียงความรู้เกี่ยวกับอัตราพื้นฐานของผลบวกปลอม ทำไมนี้
ให้แทนจำนวนของสมมติฐานที่ถูกปฏิเสธทั้งหมด (บวก) และเป็นผลบวกเท็จจากนั้น:
ดังนั้นในการประมาณ FDR คุณต้องมีวิธีการประเมิน ,[V] ตอนนี้เราจะดูกฎการตัดสินใจที่ปฏิเสธ p-valuesทั้งหมด เพื่อให้ชัดเจนในสัญกรณ์ฉันจะเขียนสำหรับปริมาณ / ตัวแปรสุ่มที่สอดคล้องกันของกระบวนการดังกล่าว
เนื่องจากเป็นเพียงความคาดหวังของจำนวนการปฏิเสธทั้งหมดคุณสามารถประมาณการโดยไม่เอนเอียงโดยจำนวนการปฏิเสธที่คุณสังเกตเห็นดังนั้น คือเพียงโดยการนับจำนวน P-ค่าของคุณที
ตอนนี้ล่ะ? สมมุติว่าของสมมติฐานทั้งหมดของคุณเป็นสมมติฐานว่างแล้วจากความสม่ำเสมอ (หรือความสม่ำเสมอย่อย) ของค่า p ภายใต้ค่า null ที่คุณได้รับ:
แต่เรายังไม่ทราบว่าแต่เรารู้ว่าดังนั้นที่ถูกผูกไว้บนก็จะเป็นอนุลักษณ์มอนแทนา ดังนั้นเนื่องจากเราแค่ต้องการขอบเขตบนจำนวนบวกเท็จมันก็เพียงพอที่เรารู้ว่าการกระจายของพวกเขา! และนี่คือสิ่งที่กระบวนการ BH ทำ
ดังนั้นในขณะที่ความคิดเห็นของ Aarong Zeng ว่า "ขั้นตอน BH เป็นวิธีการควบคุม FDR ในระดับที่กำหนด q มันไม่เกี่ยวกับการประเมิน FDR" ไม่ใช่เท็จ แต่ก็เป็นความเข้าใจผิดอย่างมาก! ขั้นตอน BH จริงไม่ประเมิน FDR สำหรับแต่ละกำหนดเกณฑ์ทีและจากนั้นก็เลือกเกณฑ์ที่ใหญ่ที่สุดเช่นว่าประมาณ FDR อยู่ด้านล่าง\อันที่จริง "การปรับ p-value" ของสมมติฐานนั้นเป็นเพียงแค่การประมาณค่า FDR ที่ธรณีประตู (จนถึง isotonization) ฉันคิดว่าอัลกอริทึม BH มาตรฐานซ่อนข้อเท็จจริงนี้เล็กน้อย แต่มันง่ายที่จะแสดงให้เห็นถึงความเท่าเทียมกันของทั้งสองวิธี (หรือที่เรียกว่า "ทฤษฎีบทความเท่าเทียม" ในเอกสารทดสอบหลายรายการ)
ในฐานะที่เป็นคำพูดสุดท้ายมีวิธีการอยู่เช่นขั้นตอนของชั้นซึ่งแม้ประมาณจากข้อมูล; สิ่งนี้สามารถเพิ่มพลังงานได้เล็กน้อย นอกจากนี้ในหลักการที่คุณพูดถูกคุณสามารถจำลองการกระจายภายใต้ทางเลือก (อัตราฐานบวกที่แท้จริงของคุณ) เพื่อรับขั้นตอนที่มีประสิทธิภาพมากขึ้น แต่จนถึงขณะนี้การวิจัยทดสอบหลายรายการได้มุ่งเน้นไปที่การรักษาการควบคุมข้อผิดพลาดประเภทที่ 1 เป็นหลักแทนที่จะใช้กำลังสูงสุด ความยากลำบากอย่างหนึ่งก็คือในหลาย ๆ กรณีทางเลือกที่แท้จริงของคุณแต่ละคนจะมีการกระจายทางเลือกที่แตกต่างกัน (เช่นพลังงานที่แตกต่างกันสำหรับสมมติฐานที่แตกต่างกัน) ในขณะที่ภายใต้ null สิ่งนี้ทำให้การสร้างแบบจำลองของอัตราบวกที่แท้จริงยิ่งยากขึ้น
ตามที่แนะนำโดย @air ขั้นตอน Benjamini-Hochberg (BH) รับประกันการควบคุม FDR มันไม่ได้มีจุดมุ่งหมายเพื่อประเมินมัน ดังนั้นจึงจำเป็นต้องมีสมมติฐานการพึ่งพาที่อ่อนแอเพียงระหว่างสถิติการทดสอบ [1,2]
วิธีการที่มีจุดมุ่งหมายในการประมาณค่า FDR [เช่น 3,4,5] จำเป็นต้องมีสมมติฐานบางอย่างเกี่ยวกับกระบวนการกำเนิดเพื่อประเมินมัน พวกเขามักจะถือว่าสถิติการทดสอบมีความเป็นอิสระ พวกเขาจะสมมติบางสิ่งบางอย่างเกี่ยวกับการแจกแจงโมฆะของสถิติการทดสอบ การออกจากการแจกแจงโมฆะนี้พร้อมกับการสันนิษฐานว่าเป็นอิสระสามารถนำมาประกอบกับผลกระทบและอาจประเมิน FDR
โปรดทราบว่าแนวคิดเหล่านี้ปรากฏขึ้นอีกครั้งในวรรณคดีการตรวจจับสิ่งแปลกใหม่กึ่งมีผู้ดูแล [6]
[1] Benjamini, Y. และ Y. Hochberg “ การควบคุมอัตราการค้นพบที่ผิด: วิธีการที่ใช้งานได้จริงและมีประสิทธิภาพสำหรับการทดสอบหลายครั้ง” SERIES สถิติทางสังคม - ราชสำนัก B 57 (1995): 289–289
[2] Benjamini, Y. และ D. Yekutieli “ การควบคุมอัตราการค้นพบที่ผิดพลาดในการทดสอบหลายรายการภายใต้การพึ่งพา” ANNALS ของสถิติ 29 หมายเลข 4 (2001): 1165–88
[3] ชั้น, JD“ แนวทางตรงสู่อัตราการค้นพบที่ผิด” วารสารสมาคมสถิติแห่งประเทศไทยชุดที่ 64 ไม่มี. 3 (2002): 479–98 ดอย: 10.1111 / 1467-9868.00346
[4] Efron, B. “ Microarrays, Empirical Bayes และโมเดลสองกลุ่ม” สถิติวิทยาศาสตร์ 23 1 (2008): 1–22
[5] จิน Jiashun และ T. Tony Cai “ การประมาณค่า Null และสัดส่วนของผลกระทบที่ไม่เป็น Null ในการเปรียบเทียบหลายรายการขนาดใหญ่” วารสารสมาคมสถิติอเมริกันหมายเลข 102 478 (1 มิถุนายน 2550): 495–506 ดอย: 10.1198 / 016214507000000167
[6] Claesen, Marc, Jesse Davis, Frank De Smet และ Bart De Moor “ การประเมินตัวแยกประเภทไบนารีโดยใช้ข้อมูลที่เป็นบวกและไม่มีชื่อเท่านั้น” arXiv: 1504.06837 [cs, Stat] ที่ 26 เมษายน 2015 http://arxiv.org/abs/1504.06837
เมื่อรุ่นต้นแบบที่แท้จริงคือไม่รู้จักเราไม่สามารถคำนวณ FDR แต่สามารถประมาณมูลค่า FDR โดยการทดสอบการเปลี่ยนแปลง โดยทั่วไปขั้นตอนการทดสอบการเปลี่ยนรูปเป็นเพียงการทดสอบสมมติฐานหลาย ๆ ครั้งโดยเปลี่ยนเวกเตอร์ตัวแปรผลลัพธ์ด้วยการเปลี่ยนลำดับ มันสามารถทำได้โดยอาศัยการเรียงสับเปลี่ยนของตัวอย่าง แต่ไม่เหมือนสามัญในอดีต
กระดาษที่นี่ทบทวนขั้นตอนการเปลี่ยนรูปแบบมาตรฐานสำหรับการประเมิน FDR และเสนอตัวประมาณ FDR ใหม่ ควรตอบคำถามของคุณได้