อะไรคือความแตกต่างในทางปฏิบัติระหว่าง Benjamini & Hochberg (1995) และ Benjamini & Yekutieli (2001) ขั้นตอนอัตราการค้นพบที่ผิด?


34

โปรแกรมสถิติของฉันใช้ทั้ง Benjamini และ Hochberg (1995) และ Benjamini & Yekutieli (2001) ขั้นตอนการค้นพบที่ผิด (FDR) ฉันพยายามอ่านบทความต่อไปให้ดีที่สุด แต่มันค่อนข้างหนาแน่นทางคณิตศาสตร์และฉันก็ไม่แน่ใจว่าฉันเข้าใจความแตกต่างระหว่างกระบวนการ ฉันสามารถดูได้จากรหัสอ้างอิงในโปรแกรมสถิติของฉันว่าพวกเขาแตกต่างกันอย่างแน่นอนและที่หลังรวมถึงปริมาณ q ที่ฉันได้เห็นอ้างถึงเกี่ยวกับ FDR แต่ก็ไม่ค่อยเข้าใจ

มีเหตุผลใดที่จะชอบขั้นตอนของ Benjamini & Hochberg (1995) เมื่อเทียบกับขั้นตอนของ Benjamini & Yekutieli (2001)? พวกเขามีสมมติฐานที่แตกต่างกันหรือไม่? อะไรคือความแตกต่างในทางปฏิบัติระหว่างแนวทางเหล่านี้

Benjamini, Y. และ Hochberg, Y. (1995) การควบคุมอัตราการค้นพบที่ผิด: วิธีการปฏิบัติและมีประสิทธิภาพในการทดสอบหลายรายการ วารสารสมาคมสถิติราชวงศ์แบบ B, 57, 289–300

Benjamini, Y. และ Yekutieli, D. (2001) การควบคุมอัตราการค้นพบที่ผิดพลาดในการทดสอบหลายรายการภายใต้การพึ่งพา บันทึกสถิติ 29, 1165–1188

บทความปี 1999 อ้างอิงในความคิดเห็นด้านล่าง: Yekutieli, D. , & Benjamini, Y. (1999) อัตราการค้นพบที่ผิดฐานที่สุ่มตัวอย่างการควบคุมขั้นตอนการทดสอบหลายขั้นตอนสำหรับสถิติการทดสอบที่เกี่ยวข้อง วารสารการวางแผนและการอนุมานทางสถิติ, 82 (1), 171-196


ฉันคิดว่ากระดาษปี 2001 กำหนดคุณสมบัติของ FDR (1995) ภายใต้การพึ่งพา Yekutieli และ Benjamini (วารสารการวางแผนและการอนุมานทางสถิติ, 1999) กำหนดขั้นตอน FDR ที่แตกต่างกัน โอกาสใด ๆ ที่คุณกำลังมองหาอยู่?
Julieth

@julieth: นั่นเป็นความรู้สึกของฉันในปี 2001 เมื่ออ่านบทคัดย่อเพียงอย่างเดียว แต่สูตรในกระดาษ (เช่น 27 - 30) ดูเหมือนจะเกี่ยวข้องกับปริมาณที่เรียกว่า q จากนั้นอีกครั้งกระดาษ 1999 ที่คุณอ้างถึงนี้ ความรู้สึกของฉันคือว่าในปี 1999 กระดาษใช้วิธีการสุ่มตัวอย่างใหม่ซึ่งชัดเจน (จากการดูรหัส) ไม่ใช่สิ่งที่โปรแกรมสถิติของฉันกำลังทำ (R; p.adjust) ... แต่ฉันอาจจะผิด
russellpierce

1
ในตอนท้ายของบทความปี 2001 มีการอ้างถึงเอกสารปี 1999 และพวกเขาพูดว่า "ในที่สุดจำขั้นตอนการ resampling ตามของ Yekutieli และ Benjamini (1999) ซึ่งพยายามจัดการกับปัญหาข้างต้นและในเวลาเดียวกันก็ใช้ข้อมูลเกี่ยวกับการพึ่งพา โครงสร้างที่ได้มาจากตัวอย่างขั้นตอนการ resampling มีประสิทธิภาพมากขึ้นโดยมีความซับซ้อนมากขึ้นและมีเพียงการควบคุม FDR โดยประมาณเท่านั้น " ... ดังนั้นฉันคิดว่ากระดาษ 2001 ให้โซลูชันการคำนวณแบบปิดและนั่นคือสิ่งที่โปรแกรมสถิติของฉันใช้งาน
russellpierce

1
ตกลงดังนั้นคุณใช้ p.adjust 99 กระดาษแตกต่างกันอย่างสิ้นเชิงตามที่คุณบันทึกไว้ ฉันเห็นตัวเลือก BY เสมอใน p.adjust และไม่ใส่ใจ 2001 กระดาษนั้นมักอ้างถึงความสัมพันธ์กับหลักฐานของ FDR และ 'การพึ่งพาการถดถอยเชิงบวก' ฉันไม่เคยเห็นว่ามันเป็นการประมาณตัวประมาณที่ต่างออกไป แต่บางทีมันก็อยู่ในนั้น ดูเหมือนว่าฉันจะต้องอ่านซ้ำ
Julieth

คำตอบ:


21

Benjamini และ Hochberg (1995) แนะนำอัตราการค้นพบที่ผิด Benjamini และ Yekutieli (2001) พิสูจน์ว่าตัวประมาณนั้นใช้ได้ในบางรูปแบบ การพึ่งพาอาศัยกันสามารถเกิดขึ้นได้ดังนี้ พิจารณาตัวแปรต่อเนื่องที่ใช้ในการทดสอบ t และอีกตัวแปรหนึ่งมีความสัมพันธ์กับมัน ตัวอย่างเช่นการทดสอบว่าค่าดัชนีมวลกายแตกต่างกันในสองกลุ่มและถ้ารอบเอวแตกต่างกันในทั้งสองกลุ่ม เนื่องจากตัวแปรเหล่านี้มีความสัมพันธ์กันค่า p ที่ได้จึงจะสัมพันธ์กัน Yekutieli และ Benjamini (1999) พัฒนาขั้นตอนการควบคุม FDR อื่นซึ่งสามารถนำมาใช้ภายใต้การพึ่งพาทั่วไปโดย resampling การแจกแจงโมฆะอีกครั้ง เนื่องจากการเปรียบเทียบนั้นเกี่ยวกับการแจกแจงการเปลี่ยนรูปแบบโมฆะเนื่องจากจำนวนรวมของผลบวกที่แท้จริงเพิ่มขึ้น ปรากฎว่า BH 1995 นั้นอนุรักษ์เช่นกันเมื่อจำนวนบวกที่แท้จริงเพิ่มขึ้น เพื่อปรับปรุงสิ่งนี้ Benjamini และ Hochberg (2000) ได้แนะนำกระบวนการ FDR แบบปรับตัว จำเป็นต้องใช้การประมาณค่าพารามิเตอร์ซึ่งเป็นสัดส่วนโมฆะซึ่งใช้ในการประมาณค่า pFDR ของชั้น ชั้นให้เปรียบเทียบและระบุว่าวิธีการของเขามีประสิทธิภาพมากขึ้นและเน้นธรรมชาติอนุรักษ์ของขั้นตอน 1995 ชั้นยังมีผลและการจำลองภายใต้การพึ่งพา

การทดสอบด้านบนทั้งหมดนั้นใช้ได้ภายใต้ความเป็นอิสระ คำถามคือสิ่งที่ประเภทของการออกจากความเป็นอิสระสามารถประมาณการเหล่านี้จัดการกับ

ความคิดปัจจุบันของฉันคือถ้าคุณไม่คาดหวังผลบวกจริงมากเกินไปกระบวนการ BY (1999) นั้นดีเพราะมันรวมคุณสมบัติการกระจายและการพึ่งพา อย่างไรก็ตามฉันไม่ได้ตระหนักถึงการใช้งาน วิธีการของชั้นได้รับการออกแบบมาสำหรับผลบวกที่แท้จริงด้วยการพึ่งพาอาศัยกัน BH 1995 เสนอทางเลือกสำหรับอัตราความผิดพลาดที่เหมาะกับครอบครัวและยังคงอนุรักษ์ไว้

Benjamini, Y และ Y Hochberg ในการควบคุมการปรับอัตราการค้นพบที่ผิดพลาดในการทดสอบหลายครั้งด้วยสถิติอิสระ วารสารสถิติการศึกษาและพฤติกรรมปี 2543


ขอบคุณมาก! คุณสามารถแก้ไขคำถามของคุณเพื่อชี้แจงประเด็น / ประเด็นต่อไปนี้: "resampling การแจกแจงโมฆะ" เป็นกระดาษปี 1999 คุณช่วยระบุการอ้างอิงสำหรับกระดาษ 2000 ได้ไหม ดูเหมือนคุณคุ้นเคยกับ p.adjust จริง ๆ แล้วมันเป็นการใช้กระบวนงาน BY หรือไม่ หนึ่งต้องใช้ BH เมื่อการทดสอบสมมติฐานไม่ได้ขึ้นอยู่กับ? การทดสอบสมมติฐานทำให้อะไรที่ต้องพิจารณา - โปรดแจ้งให้เราทราบหากคำถามเหล่านี้เกินกว่าขอบเขตปัจจุบันและต้องการคำถามใหม่
russellpierce

p.adjust มีตัวเลือกสำหรับทั้ง (BH และ BY) อย่างไรก็ตามฉันคิดว่าสิ่งเหล่านี้เหมือนกันดังนั้นฉันจึงพลาดบางสิ่งไป
Julieth

และรหัสอ้างอิงนั้นก็แตกต่างกันด้วย (ฉันเลือก) ดังนั้นพวกเขาจะสร้างตัวเลขที่แตกต่าง
russellpierce

ดังนั้นขั้นตอนใดที่คุณคิดว่า p.adjust กำลังดำเนินการกับอาร์กิวเมนต์ BY ฉันไม่คิดว่ามันเป็นขั้นตอนปี 1999 โค้ดอ้างอิงคือ pmin (1, cummin (q * n / i * p [o])) [ro] BH คือ pmin (1, cummin (n / i * p [o])) [ro] ดังนั้นพวกมันจึงต่างกันใน q ซึ่งก็คือผลรวม (1 / (1: n)) โดยที่ n = จำนวนของ pvalues o และ RO เพียงทำหน้าที่ที่จะนำค่า P ในการสั่งซื้อลดลงเป็นตัวเลขสำหรับการทำงานแล้วคายพวกเขากลับออกมาในลำดับเดียวกันผู้ใช้ข้าพเจ้าได้ป้อนไว้ใน.
russellpierce

1
ดังนั้นเนื่องจากไม่มีคำตอบใหม่เข้ามาฉันจะยอมรับคำตอบนี้และสรุปความเข้าใจของฉัน p.adjust อาจกำลังทำการละเมิดโดย BY สิ่งที่ถูกดำเนินการไม่ได้ถูกสุ่มใหม่ BH, 2000 แนะนำขั้นตอนการปรับ FDR แบบปรับได้และสิ่งนี้เกี่ยวข้องกับการประเมินสัดส่วนว่างซึ่งอาจเป็นคิวที่ปรากฏในรหัส BY ในระหว่างนี้ดูเหมือนว่าสิ่งที่ควรทำคือการอ้างถึง p.adjust โดยตรงซึ่งสะท้อนถึงขั้นตอนจริงที่ใช้เมื่อคุณใช้ตัวเลือก "BY" และเพียงตระหนักว่า "BY" อาจใช้ Benjamini & Hochberg จริง 2000.
russellpierce

5

p.adjust ไม่ได้ทำการละเมิดโดย BY การอ้างอิงคือทฤษฎีบท 1.3 (พิสูจน์ในข้อ 5 ในหน้า 1182) ในกระดาษ:

Benjamini, Y. และ Yekutieli, D. (2001) การควบคุมอัตราการค้นพบที่ผิดพลาดในการทดสอบหลายรายการภายใต้การพึ่งพา บันทึกสถิติ 29, 1165–1188

เนื่องจากบทความนี้กล่าวถึงการปรับที่แตกต่างกันหลายอย่างการอ้างอิงในหน้าช่วยเหลือ (ในขณะที่เขียน) สำหรับ p.adjust () ค่อนข้างคลุมเครือ วิธีการนี้รับประกันว่าจะควบคุม FDR ในอัตราที่กำหนดภายใต้โครงสร้างการพึ่งพาทั่วไป มีความคิดเห็นที่ให้ข้อมูลในสไลด์ของ Christopher Genovese ที่: www.stat.cmu.edu/~genovese/talks/hannover1-04.pdf หมายเหตุความคิดเห็นบนสไลด์ 37 อ้างถึงวิธีการของทฤษฎีบท 1.3 ในบทความ BY 2001 [method = 'BY' กับ p.adjust ()] ว่า: "น่าเสียดายที่นี่มักจะอนุรักษ์นิยมมากบางครั้งก็ยิ่งกว่า Bonferroni"

ตัวอย่างที่เป็นตัวเลข: method='BY' vsmethod='BH'

เปรียบเทียบ method = 'BY' กับ method = 'BH' ต่อไปนี้โดยใช้ฟังก์ชัน p.adjust () ของ R สำหรับค่า p จากคอลัมน์ 2 ของตารางที่ 2 ในกระดาษ Benjamini และ Hochberg (2000):

> p <-    c(0.85628,0.60282,0.44008,0.41998,0.3864,0.3689,0.31162,0.23522,0.20964,
0.19388,0.15872,0.14374,0.10026,0.08226,0.07912,0.0659,0.05802,0.05572,
0.0549,0.04678,0.0465,0.04104,0.02036,0.00964,0.00904,0.00748,0.00404,
0.00282,0.002,0.0018,2e-05,2e-05,2e-05,0)
> pmat <- rbind(p,p.adjust(p, method='BH'),p.adjust(p, method='BY'))
> rownames(pmat)<-c("pval","adj='BH","adj='BY'")
> round(pmat,4)

[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] pval 0.8563 0.6028 0.4401 0.4200 0.3864 0.3689 0.3116 0.2352 0.2096 adj='BH 0.8563 0.6211 0.4676 0.4606 0.4379 0.4325 0.3784 0.2962 0.2741 adj='BY' 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 [,10] [,11] [,12] [,13] [,14] [,15] [,16] [,17] [,18] pval 0.1939 0.1587 0.1437 0.1003 0.0823 0.0791 0.0659 0.0580 0.0557 adj='BH 0.2637 0.2249 0.2125 0.1549 0.1332 0.1332 0.1179 0.1096 0.1096 adj='BY' 1.0000 0.9260 0.8751 0.6381 0.5485 0.5485 0.4856 0.4513 0.4513 [,19] [,20] [,21] [,22] [,23] [,24] [,25] [,26] [,27] pval 0.0549 0.0468 0.0465 0.0410 0.0204 0.0096 0.0090 0.0075 0.0040 adj='BH 0.1096 0.1060 0.1060 0.1060 0.0577 0.0298 0.0298 0.0283 0.0172 adj='BY' 0.4513 0.4367 0.4367 0.4367 0.2376 0.1227 0.1227 0.1164 0.0707 [,28] [,29] [,30] [,31] [,32] [,33] [,34] pval 0.0028 0.0020 0.0018 0e+00 0e+00 0e+00 0 adj='BH 0.0137 0.0113 0.0113 2e-04 2e-04 2e-04 0 adj='BY' 0.0564 0.0467 0.0467 7e-04 7e-04 7e-04 0

หมายเหตุ:ตัวคูณที่เกี่ยวข้องกับค่า BY กับค่า BH คือโดยที่คือจำนวนของค่า p ตัวคูณคือค่าตัวอย่าง m = 30, 34, 226, 1674, 12365:mi=1m(1/i)m

> mult <- sapply(c(11, 30, 34, 226, 1674, 12365), function(i)sum(1/(1:i)))

setNames (หลาย, วาง (c ('m =', ตัวแทน ('', 5)), c (11, 30, 34, 226, 1674, 12365)) m = 11 30 34 226 1674 12365 3.020 3.995 4.118 6.000 8.000 10.000

ตรวจสอบว่าเป็นตัวอย่างด้านบนโดยที่ = 34 ตัวคูณคือ 4.118m

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.