ความหมายของ“ การพึ่งพาเชิงบวก” เป็นเงื่อนไขในการใช้วิธีการปกติสำหรับการควบคุม FDR


36

Benjamini และ Hochberg ได้พัฒนาวิธีแรก (และยังคงใช้กันอย่างแพร่หลายที่สุดผมคิดว่า) สำหรับการควบคุมอัตราการค้นพบที่ผิดพลาด (FDR)

ฉันต้องการเริ่มต้นด้วยค่า P จำนวนมากแต่ละค่าสำหรับการเปรียบเทียบที่แตกต่างกันและตัดสินใจว่าค่าใดที่ต่ำพอที่จะเรียกว่า "การค้นพบ" ซึ่งควบคุม FDR ให้เป็นค่าที่ระบุ (พูด 10%) ข้อสันนิษฐานข้อหนึ่งของวิธีการปกติคือชุดการเปรียบเทียบนั้นเป็นอิสระหรือมี "การพึ่งพาเชิงบวก" แต่ฉันไม่สามารถเข้าใจได้อย่างชัดเจนว่าวลีนั้นหมายถึงอะไรในบริบทของการวิเคราะห์ชุดของค่า P


1
ขอบคุณที่มอบรางวัลให้กับคำตอบของฉัน Harvey! คุณจะบอกว่ามันช่วยแก้ปัญหานี้ให้คุณหรือคุณกำลังมองหาการแสดงออกที่ละเอียดมากขึ้น? ฉันสังเกตเห็นว่าคุณยังไม่ได้รับคำตอบใด ๆ เลยนั่นเป็นเหตุผลที่ฉันต้องการชี้แจง ขอบคุณ บางทีคุณสามารถแสดงความคิดเห็นหรือแก้ไข Q ของคุณเพื่อชี้แจงสิ่งที่คุณยังต้องการที่จะชี้แจง
อะมีบากล่าวว่า Reinstate Monica

2
@อะมีบา. เส้นตายสำหรับเงินรางวัลนั้นขึ้นอยู่กับฉันและคำตอบของคุณคือสิ่งที่ดีที่สุด ตรงไปตรงมามันไม่เคยเกิดขึ้นกับฉันในขณะนั้นว่าการให้เงินรางวัลก็ไม่ยอมรับคำตอบเช่นกัน แต่ฉันรู้ว่ามันต่างกัน แต่คำตอบเต็มรูปแบบจำเป็นต้องมีตัวอย่างที่เหมือนจริงซึ่งชุดค่า P ทั้งสองทำและไม่มีการพึ่งพาในเชิงบวก ฉันจะระงับการรับคำตอบเป็นเวลาหนึ่งสัปดาห์ด้วยความหวังว่าบางคนสามารถให้ทั้งสองตัวอย่างดังนั้นความหมายจึงชัดเจน
Harvey Motulsky

นี่อาจไม่ใช่ตัวอย่างที่น่าพึงพอใจ แต่เป็นเรื่องง่ายที่จะหาค่า p ที่มีและไม่มีการพึ่งพาในเชิงบวกหากเราคิดเกี่ยวกับการทดสอบแบบด้านเดียวกับตัวแปรที่เกี่ยวข้อง ลองนึกภาพฉันกำลังทดสอบว่า A = 0 และ B = 0 กับทางเลือกเดียว (A> 0 และ B> 0) จินตนาการเพิ่มเติมว่า B ขึ้นอยู่กับ A. ตัวอย่างเช่นฉันอยากรู้ว่าประชากรมีผู้หญิงมากกว่าผู้ชายหรือไม่และถ้าประชากรมีรังไข่มากกว่าอัณฑะ ชัดเจนว่าการรู้ค่า p ของคำถามแรกเปลี่ยนความคาดหวังของ p-value สำหรับคำถามที่สอง
Jacob Socolar

ขอบคุณฮาร์วีย์ ฉันหวังว่ามันชัดเจนว่าฉันไม่ได้พยายามที่จะผลักดันให้คุณยอมรับคำตอบของฉัน (!!) แต่เพื่อชี้แจงให้ชัดเจนว่าคุณกำลังหาคำตอบประเภทใดในกระทู้นี้และสิ่งที่คุณอยากให้ชัดเจน ฉันไม่ใช่ผู้เชี่ยวชาญในเรื่องนี้จริง ๆ เพียงแค่พยายามทำความเข้าใจกับมัน
อะมีบาพูดว่า Reinstate Monica

ทั้งค่า p เปลี่ยนแปลงไปในทิศทางเดียวกันและนี่คือ PRD แต่ถ้าฉันทดสอบสมมติฐานที่สองที่ประชากร 2 มีอัณฑะมากกว่ารังไข่แทนความคาดหวังของเราสำหรับค่า p สองจะลดลงเมื่อค่า p แรกเพิ่มขึ้น นี่ไม่ใช่ PRD
Jacob Socolar

คำตอบ:


20

จากคำถามของคุณและโดยเฉพาะอย่างยิ่งความคิดเห็นของคุณไปยังคำตอบอื่น ๆ ดูเหมือนว่าคุณส่วนใหญ่สับสนเกี่ยวกับ "ภาพใหญ่" ที่นี่: คืออะไร "การพึ่งพาเชิงบวก" หมายถึงอะไรในบริบทนี้เลย - เมื่อเทียบกับสิ่งที่ เป็นความหมายทางเทคนิคของเงื่อนไข PRDS ดังนั้นฉันจะพูดเกี่ยวกับภาพใหญ่

ภาพใหญ่

ลองจินตนาการว่าคุณกำลังทดสอบสมมติฐานว่างและลองจินตนาการว่าทั้งหมดนั้นเป็นจริง แต่ละค่าเป็นตัวแปรสุ่ม การทดลองซ้ำแล้วซ้ำอีกจะให้ differnetแต่ละครั้งดังนั้นเราสามารถพูดคุยเกี่ยวกับการแจกแจงของ value (ภายใต้ null) เป็นที่ทราบกันดีว่าสำหรับการทดสอบใด ๆ การกระจายของ value ภายใต้ null จะต้องเหมือนกัน ดังนั้นในกรณีของการทดสอบแบบทวีคูณการแจกแจงระยะขอบทั้งหมดของค่าจะเท่ากับกันN p p p p p N pNN ppppNp

ถ้าข้อมูลทั้งหมดและการทดสอบทั้งหมดเป็นอิสระจากกันดังนั้นการกระจาย -dimensional ของ Values ​​ก็จะเหมือนกัน สิ่งนี้จะเป็นจริงเช่นในสถานการณ์ "วุ้นถั่ว" แบบคลาสสิกเมื่อมีการทดสอบสิ่งต่าง ๆ มากมาย:เอ็นพีNNp

ถั่วเยลลี่สีเขียว

อย่างไรก็ตามมันไม่จำเป็นต้องเป็นอย่างนั้น คู่ใด ๆ ของค่าในหลักการสามารถมีความสัมพันธ์ทั้งในเชิงบวกหรือเชิงลบหรือขึ้นอยู่กับวิธีที่ซับซ้อนมากขึ้น พิจารณาการทดสอบความแตกต่างของจำนวนคู่ในค่าเฉลี่ยระหว่างสี่กลุ่ม นี่คือการทดสอบ แต่ละค่าหกเพียงอย่างเดียวมีการกระจายอย่างสม่ำเสมอ แต่พวกมันทั้งหมดมีความสัมพันธ์เชิงบวก: หากกลุ่ม A โดยบังเอิญมีค่าเฉลี่ยต่ำโดยเฉพาะการเปรียบเทียบ A-vs-B อาจให้ค่าต่ำ(นี่จะเป็นผลบวกที่ผิด) แต่ในสถานการณ์นี้มีแนวโน้มว่า A-vs-C เช่นเดียวกับ A-vs-D ก็จะให้ค่าต่ำเช่นกัน ดังนั้นN = 4 3 / 2 = 6 พีพีพีพีpN=43/2=6pppp- ค่าไม่ชัดเจนและมีความสัมพันธ์เชิงบวกระหว่างกัน

นี่คือสิ่งที่ไม่เป็นทางการ "การพึ่งพาเชิงบวก" หมายถึงอะไร

นี่น่าจะเป็นสถานการณ์ที่พบบ่อยในการทดสอบหลายครั้ง อีกตัวอย่างหนึ่งคือการทดสอบความแตกต่างของตัวแปรหลายตัวที่สัมพันธ์กัน การได้รับความแตกต่างที่สำคัญในหนึ่งของพวกเขาเพิ่มโอกาสในการได้รับความแตกต่างที่สำคัญในอีก

มันเป็นเรื่องยากที่จะเกิดขึ้นกับตัวอย่างที่เป็นธรรมชาติที่ค่าจะเป็น "ขึ้นอยู่กับเชิงลบ" @ user43849 ตั้งข้อสังเกตในความคิดเห็นข้างต้นว่าสำหรับการทดสอบด้านเดียวมันเป็นเรื่องง่าย:p

ลองนึกภาพฉันกำลังทดสอบว่า A = 0 และ B = 0 กับทางเลือกเดียว (A> 0 และ B> 0) จินตนาการเพิ่มเติมว่า B ขึ้นอยู่กับ A. ตัวอย่างเช่นฉันอยากรู้ว่าประชากรมีผู้หญิงมากกว่าผู้ชายหรือไม่และถ้าประชากรมีรังไข่มากกว่าอัณฑะ การรู้ชัดเจนว่าค่า p ของคำถามแรกเปลี่ยนความคาดหวังของ p-value เป็นครั้งที่สอง ทั้งค่า p เปลี่ยนแปลงไปในทิศทางเดียวกันและนี่คือ PRD แต่ถ้าฉันทดสอบสมมติฐานที่สองที่ประชากร 2 มีอัณฑะมากกว่ารังไข่แทนความคาดหวังของเราสำหรับค่า p สองจะลดลงเมื่อค่า p แรกเพิ่มขึ้น นี่ไม่ใช่ PRD

แต่ฉันก็ยังไม่สามารถหาตัวอย่างที่เป็นธรรมชาติกับประเด็นที่เป็นโมฆะได้


ตอนนี้สูตรทางคณิตศาสตร์ที่แน่นอนของ "การพึ่งพาในเชิงบวก" ที่รับประกันความถูกต้องของขั้นตอน Benjamini-Hochberg ค่อนข้างยุ่งยาก ดังที่ได้กล่าวไว้ในคำตอบอื่นการอ้างอิงหลักคือBenjamini & Yekutieli 2001 ; พวกเขาแสดงให้เห็นว่าทรัพย์สิน PRDS ("การพึ่งพาการถดถอยเชิงบวกในแต่ละคนจากส่วนย่อย") นำไปสู่ขั้นตอน Benjamini-Hochberg มันเป็นรูปแบบที่ผ่อนคลายของคุณสมบัติ PRD ("การพึ่งพาการถดถอยเชิงบวก") ซึ่งหมายความว่า PRD หมายถึง PRDS และด้วยเหตุนี้ยังนำมาซึ่งขั้นตอน Benjamini-Hochberg

สำหรับคำจำกัดความของ PRD / PRDS โปรดดูที่คำตอบของ @ user43849 (+1) และ Benjamini & Yekutieli คำจำกัดความค่อนข้างเป็นเรื่องทางเทคนิคและฉันไม่มีความเข้าใจที่ดีในเรื่องนี้ ในความเป็นจริง B&Y พูดถึงแนวคิดที่เกี่ยวข้องอื่น ๆ หลายประการเช่นกัน: หลายตัวแปรรวมของลำดับสอง (MTP2) และความสัมพันธ์เชิงบวก ตาม B&Y พวกเขาเกี่ยวข้องดังนี้ (แผนภาพเป็นของฉัน):

PRD, PRDS, MTP2 และ PA

MTP2 หมายถึง PRD ที่แสดงถึง PRDS ที่รับประกันความถูกต้องของกระบวนการ BH PRD ยังหมายถึง PA แต่ PA PRDS


ตัวอย่างของการพึ่งพาเชิงลบจะเป็นการทดสอบแบบโพสต์เฉพาะกิจแบบคู่ต่อไปนี้พูดการวิเคราะห์ความแปรปรวนของกลุ่มสามกลุ่มที่แต่ขณะที่และดังนั้นในขณะที่มีโอกาสน้อยที่จะปฏิเสธ (เนื่องจากอยู่ภายใต้ ) แต่เนื่องจากการพึ่งพาเป็นมากขึ้นมีแนวโน้มที่จะปฏิเสธ? μA<μB<μCx¯B<μBx¯AμAx¯CμCpA vs. BH0 |x¯Ax¯B|<|x¯Bx¯C|pB vs. C
Alexis

1
@Alexis ผมคิดตามบรรทัดเหล่านี้เอง แต่ผมไม่คิดว่างานนี้เพราะเราต้องพิจารณาสิ่งที่เกิดขึ้นภายใต้โมฆะ ในกรณีนี้ค่า Null คือดังนั้นเหตุผลของคุณจึงพัง μA=μB=μC
อะมีบาพูดว่า Reinstate Monica

ดังนั้นถ้ามันเป็นเรื่องยากที่จะคิดว่าสถานการณ์การพึ่งพาลบแล้วขั้นตอน Benjamini-Hochberg ถูกต้องสำหรับสถานการณ์เช่นโพสต์เฉพาะกิจการทดสอบคู่ต่อไปนี้ปฏิเสธสมมติฐานรถโดยสาร null เกี่ยวกับกลุ่มที่เป็นอิสระ (เช่นเที่ยวไม่ได้ถูกบล็อก ANOVA, ค็อชฮานคิว Kruskal- วาลลิส ฯลฯ )?
Alexis

@Alexis ฉันเชื่อว่าถูกต้องใช่ ฉันยังคงพยายามหาตัวอย่างตามธรรมชาติที่มีการพึ่งพาเชิงลบ ...
อะมีบาพูดว่า Reinstate Monica

ร็อค! คุณไปแล้วผู้หญิง! :) (สำหรับความหมายที่ไม่มีเพศของคำว่า "girl";)
Alexis

18

เป็นคำถามที่ดีมาก! ลองย้อนกลับไปและทำความเข้าใจกับสิ่งที่ Bonferroni ทำและทำไมมันจำเป็นสำหรับ Benjamini และ Hochberg เพื่อพัฒนาทางเลือก

ในช่วงไม่กี่ปีที่ผ่านมามีความจำเป็นและจำเป็นต้องดำเนินการตามขั้นตอนที่เรียกว่าการแก้ไขการทดสอบหลายรายการ นี่เป็นเพราะการเพิ่มจำนวนของการทดสอบที่ดำเนินการพร้อมกันกับวิทยาศาสตร์ทรูพุตที่สูงโดยเฉพาะอย่างยิ่งในพันธุศาสตร์ที่มีการกำเนิดของการศึกษาความสัมพันธ์จีโนมทั้งหมด ขอโทษที่อ้างอิงถึงพันธุศาสตร์ของฉันเพราะมันเป็นงานของฉัน หากเราทำการทดสอบ 1,000,000 ครั้งในเวลาเดียวกันที่เราคาดว่าจะได้ผลบวกอย่าง นี่ใหญ่มากอย่างน่าหัวเราะดังนั้นเราต้องควบคุมระดับที่จะประเมินความสำคัญ การแก้ไข bonferroni นั่นคือการแบ่งเกณฑ์การยอมรับ (0.05) โดยจำนวนการทดสอบอิสระแก้ไขสำหรับอัตราความผิดพลาดที่ชาญฉลาดครอบครัว ( )P=0.0550,000(0.05/M)FWER

นี่คือความจริงเพราะ FWER ที่เกี่ยวข้องกับอัตราความผิดพลาดการทดสอบที่ชาญฉลาด ( ) โดยสม M นั่นคือ 100 เปอร์เซ็นต์ลบ 1 ลบอัตราการทดสอบข้อผิดพลาดอย่างฉลาดที่ยกกำลังของจำนวนการทดสอบอิสระที่ดำเนินการ ทำให้สมมติฐานที่ว่าให้ซึ่งเป็นการยอมรับการปรับค่า P สำหรับ M อิสระอย่างสมบูรณ์ การทดสอบTWERFWER=1(1TWER)M(10.05)1/M=10.05MTWER0.05M

ปัญหาที่เราพบในขณะนี้เช่นเดียวกับ Benjamini และ Hochberg ก็คือการทดสอบทั้งหมดนั้นไม่ได้เป็นอิสระอย่างสมบูรณ์ ดังนั้นการแก้ไข Bonferroni แม้ว่าที่แข็งแกร่งและมีความยืดหยุ่นเป็นovercorrection พิจารณากรณีในพันธุศาสตร์ที่มีการเชื่อมโยงสองยีนในกรณีที่เรียกว่าการเชื่อมโยงที่ไม่สมดุล; กล่าวคือเมื่อยีนหนึ่งมีการกลายพันธุ์ยีนอื่นจะแสดงออกได้มากกว่า เหล่านี้จะเห็นได้ชัดว่าการทดสอบไม่ได้เป็นอิสระ แต่ในการแก้ไข Bonferroni พวกเขาจะถือว่าเป็น ที่นี่เป็นจุดที่เราเริ่มเห็นว่าการหารค่า P ด้วย M กำลังสร้างจุดเริ่มต้นที่ต่ำเนื่องจากการทดสอบอิสระสันนิษฐานว่ามีอิทธิพลต่อกันและกันจริงๆแล้วการสร้าง M นั้นใหญ่เกินไปสำหรับสถานการณ์จริงของเรา อิสระ

ขั้นตอนที่แนะนำโดย Benjamini และ Hochberg และเพิ่มขึ้นโดย Yekutieli (และอื่น ๆ อีกมากมาย) เป็นเสรีนิยมมากกว่า Bonferroni และในความเป็นจริงการแก้ไข Bonferroni ใช้ในการศึกษาที่ใหญ่ที่สุดเท่านั้น เพราะใน FDR เราถือว่าการพึ่งพาซึ่งกันและกันในส่วนของการทดสอบและทำให้ M ซึ่งมีขนาดใหญ่เกินไปและไม่สมจริงและกำจัดผลลัพธ์ที่เราในความเป็นจริงสนใจ ดังนั้นในกรณีของการทดสอบ 1,000 ครั้งซึ่งไม่เป็นอิสระM จริงจะไม่เป็น 1,000 แต่มีขนาดเล็กกว่าเนื่องจากการอ้างอิง ดังนั้นเมื่อเราแบ่ง 0.05 ถึง 1,000 เกณฑ์ก็เข้มงวดเกินไปและหลีกเลี่ยงการทดสอบบางอย่างที่อาจเป็นที่สนใจ

ฉันไม่แน่ใจว่าถ้าคุณสนใจกลไกที่อยู่เบื้องหลังการควบคุมสำหรับการพึ่งพาแม้ว่าคุณจะเชื่อมโยงกระดาษ Yekutieli สำหรับการอ้างอิงของคุณ ฉันจะแนบข้อมูลอื่น ๆ อีกสองสามอย่างเพื่อให้ข้อมูลและความอยากรู้ของคุณ

หวังว่าสิ่งนี้จะช่วยได้ในทางใดทางหนึ่งถ้าฉันมีอะไรผิดโปรดแจ้งให้เราทราบ

~ ~ ~

อ้างอิง

Yekutieli กระดาษอ้างอิงในเชิงบวก - http://www.math.tau.ac.il/~ybenja/MyPapers/benjamini_yekutieli_ANNSTAT2001.pdf

(ดู 1.3 - ปัญหา)

การอธิบาย Bonferroni และสิ่งอื่น ๆ ที่น่าสนใจ - ความคิดเห็น Nature Genetics สถิติพลังงานและการทดสอบนัยสำคัญในการศึกษาทางพันธุกรรมขนาดใหญ่ - Pak C Sham และ Shaun M Purcell

(ดูช่อง 3)

http://en.wikipedia.org/wiki/Familywise_error_rate

แก้ไข:

ในคำตอบก่อนหน้าของฉันฉันไม่ได้นิยามการพึ่งพาเชิงบวกโดยตรงซึ่งเป็นสิ่งที่ถูกถาม ในบทความ Yekutieli หัวข้อ2.2มีสิทธิ์เป็นไปในเชิงบวกและฉันขอแนะนำสิ่งนี้เนื่องจากมีรายละเอียดมาก อย่างไรก็ตามฉันเชื่อว่าเราสามารถทำให้รวบรัดมากขึ้นเล็กน้อย

กระดาษในตอนแรกเริ่มต้นด้วยการพูดคุยเกี่ยวกับการพึ่งพาในเชิงบวกโดยใช้มันเป็นคำที่คลุมเครือที่ตีความได้ แต่ไม่เฉพาะเจาะจง ถ้าคุณอ่านบทพิสูจน์สิ่งที่กล่าวถึงเป็นการอ้างอิงเชิงบวกเรียกว่า PRSD ที่กำหนดไว้ก่อนหน้าว่า "การพึ่งพาการถดถอยเชิงบวกในแต่ละอันจากเซตย่อย " เป็นส่วนย่อยของการทดสอบที่สนับสนุนสมมติฐานว่าง (0) PRDS จะถูกกำหนดดังต่อไปนี้I0I0

PRDS

Xคือชุดทดสอบสถิติทั้งหมดของเราและเป็นชุดทดสอบสถิติของเราซึ่งสนับสนุน null อย่างถูกต้อง ดังนั้นสำหรับที่จะ PRDS (ขึ้นอยู่กับบวก) ในความน่าจะเป็นของที่เป็นองค์ประกอบของ (nulls) เพิ่มขึ้นในชุดทดสอบสถิติที่ลดลง (องค์ประกอบของ )I0XI0XI0xX

การตีความสิ่งนี้เมื่อเราสั่ง Values ของเราจากต่ำสุดไปหาสูงสุดความน่าจะเป็นที่จะเป็นส่วนหนึ่งของชุดทดสอบสถิติว่างจะต่ำที่สุดที่ค่า P ที่เล็กที่สุดและเพิ่มขึ้นจากที่นั่น FDR ตั้งค่าขอบเขตในรายการสถิติการทดสอบนี้ซึ่งความน่าจะเป็นที่จะเป็นส่วนหนึ่งของชุดค่า Null คือ 0.05 นี่คือสิ่งที่เรากำลังทำเมื่อควบคุม FDRP

ในการสรุปคุณสมบัติของการพึ่งพาเชิงบวกนั้นเป็นคุณสมบัติของการพึ่งพาการถดถอยเชิงบวกของสถิติการทดสอบทั้งชุดของเราตามชุดสถิติการทดสอบจริงที่เป็นโมฆะและเราควบคุมค่า FDR ที่ 0.05 ดังนั้นเมื่อค่า P ไปจากล่างขึ้นบน (ขั้นตอนการเพิ่มระดับ) พวกเขาเพิ่มความน่าจะเป็นที่จะเป็นส่วนหนึ่งของชุดค่าว่าง

คำตอบเดิมของฉันในความคิดเห็นเกี่ยวกับเมทริกซ์ความแปรปรวนร่วมนั้นไม่ถูกต้องเพียงเล็กน้อยที่คลุมเครือ ฉันหวังว่านี่จะช่วยเพิ่มอีกนิด


6
ขอบคุณ คุณให้ภาพรวมที่ชัดเจนของการควบคุมอัตราความผิดพลาดที่ชาญฉลาดสำหรับครอบครัว (Bonferroni ฯลฯ ) กับการควบคุม FDR แต่ฉันยังไม่เข้าใจว่า "การพึ่งพาเชิงบวก" หมายถึงอะไร พิจารณาว่าฉันมีค่า 1,000 P ทดสอบการแสดงออกของ 1,000 ยีนที่แตกต่างกันเมื่อเปรียบเทียบกับคนที่มีและไม่มีโรค ฉันใช้วิธี BH เพื่อตัดสินใจว่าการเปรียบเทียบใดที่ "ค้นพบ" "การพึ่งพาเชิงบวก" หมายถึงอะไรในบริบทนี้
Harvey Motulsky

9
หมายเหตุเล็ก ๆ แต่สำคัญ: Bonferroni ไม่ได้ตั้งสมมติฐานเกี่ยวกับความเป็นอิสระ ในความเป็นจริงมันจะครอบคลุมอย่างถูกต้องในกรณีที่ไม่เกิดร่วมกันซึ่งในทางที่เป็นไปได้ไกลจากความเป็นอิสระที่คุณจะได้รับ มีเป็นขั้นตอนการแก้ไข (Sidak) ที่ไม่ถือว่าเป็นอิสระและความรุนแรงจะควบคุม FWER ภายใต้สมมติฐานที่ว่า ด้านอื่น ๆ ของคำตอบนี้สามารถใช้การสัมผัสที่บางเบาได้เช่นกัน
พระคาร์ดินัล

2
@ChrisC ฉันยังไม่เข้าใจ "เมทริกซ์ความแปรปรวนร่วมระหว่างองค์ประกอบ"? ฉันเริ่มต้นด้วยรายการค่า P และต้องการตัดสินใจว่าค่าใดที่ต่ำพอที่จะเรียกว่า "การค้นพบ" ที่มีมูลค่าการติดตาม (ด้วยการควบคุม FDR) องค์ประกอบของเมทริกซ์ความแปรปรวนร่วมคืออะไร? สมมติว่าค่า P แต่ละค่าเป็นการเปรียบเทียบการแสดงออกของยีนเฉพาะระหว่างกลุ่มและมียีนดังกล่าวจำนวนมาก สำหรับแต่ละยีนเมื่อทดสอบจะเปรียบเทียบกลุ่มที่ทำให้เกิดค่า P ในสถานการณ์นี้หมายความว่าอย่างไรสำหรับ "องค์ประกอบที่จะแตกต่างกัน" หรือมี "ความสัมพันธ์เชิงบวกระหว่างพวกเขา"?
Harvey Motulsky

2
@ChrisC ขอบคุณ มันชัดเจนมากขึ้น แต่ฉันก็ยังไม่เข้าใจความหมายของข้อสมมติฐานนี้ จุดทั้งหมดของการรู้เกี่ยวกับข้อสมมติฐานเบื้องหลังวิธีการคือการรู้ว่าเมื่อคุณมีแนวโน้มที่จะละเมิด ดังนั้นจะช่วยในการเขียนรายการสถานการณ์สมมติที่สมมติฐานไม่เป็นจริง เมื่อใดค่า P ที่ต่ำกว่าจะไม่เกี่ยวข้องกับความน่าจะเป็นที่สูงขึ้นของสมมติฐานว่างเป็นเท็จ?
Harvey Motulsky

1
นี่ไม่ได้ตอบคำถาม
Alexis

10

ฉันพบว่าการพิมพ์ล่วงหน้านี้มีประโยชน์ในการทำความเข้าใจความหมาย มันควรจะกล่าวว่าฉันเสนอคำตอบนี้ไม่ได้เป็นผู้เชี่ยวชาญในหัวข้อ แต่เป็นความพยายามในการทำความเข้าใจที่จะตรวจสอบและตรวจสอบโดยชุมชน

ขอบคุณอะมีบาสำหรับข้อสังเกตที่เป็นประโยชน์มากเกี่ยวกับความแตกต่างระหว่าง PRD และ PRDS ดูความคิดเห็น

การพึ่งพาการถดถอยเชิงบวก (PRD) หมายถึงสิ่งต่อไปนี้: พิจารณาเซตย่อยของค่า p (หรือเทียบเท่าสถิติทดสอบ) ที่สอดคล้องกับสมมติฐานว่างที่แท้จริง เรียกเวกเตอร์ของค่าเหล่านี้ ให้เป็นเซตของเวกเตอร์ที่มีความยาวเท่ากับความยาวของและให้มีคุณสมบัติดังต่อไปนี้:pCpC

  1. หากบางเวกเตอร์อยู่ใน , และqC
  2. เราสร้างบางเวกเตอร์ของความยาวเช่นเดียวกับเพื่อให้ทุกองค์ประกอบของน้อยกว่าองค์ประกอบที่สอดคล้องกันของ (สำหรับทุก ) แล้วrqrqri<qii
  3. rยังอยู่ในC

(ซึ่งหมายความว่าคือ "ชุดลดลง")C

สมมติเรารู้ว่าบางสิ่งบางอย่างเกี่ยวกับค่าของบางส่วนขององค์ประกอบของหน้าคือB_n PRD หมายความว่าความน่าจะเป็นที่อยู่ในจะไม่เพิ่มขึ้นเมื่อเพิ่มขึ้นpp1...pn<B1...BnpCB1...Bn

ในภาษาธรรมดาแจ้งให้ทราบว่าเราสามารถกำหนดความคาดหวังสำหรับองค์ประกอบใด ๆp_iเนื่องจากสอดคล้องกับค่าจริงจริงมันมีความคาดหวังอย่างไม่มีเงื่อนไขว่าควรเป็นการแจกแจงแบบสม่ำเสมอจาก 0 ถึง 1 แต่ถ้าค่า p ไม่เป็นอิสระจากนั้นความคาดหวังตามเงื่อนไขของเราสำหรับเนื่องจากองค์ประกอบอื่น ๆ ของอาจไม่ เหมือนกัน PRD หมายความว่าการเพิ่มค่าไม่สามารถเพิ่มความน่าจะเป็นที่องค์ประกอบอื่นมีค่าต่ำกว่าหน้าฉันหน้าฉันหน้า 1 . . P n P 1 . . p n p ipipipip1...pnp1...pnpi

Benjamini และ Yekutieli (2001) แสดงให้เห็นว่ากระบวนการ Benjamini และ Hochberg สำหรับการควบคุม FDR ต้องการเงื่อนไขที่พวกเขาเรียกว่าการพึ่งพาการถดถอยเชิงบวกในส่วนย่อย (PRDS) PRDS คล้ายกับและบอกเป็นนัยโดย PRD อย่างไรก็ตามมันเป็นเงื่อนไขที่อ่อนแอกว่าเพราะจะมีเงื่อนไขเฉพาะในหนึ่งในในแต่ละครั้งp1...pn

หากต้องการใช้ถ้อยคำใหม่ในภาษาธรรมดาให้พิจารณาชุดของค่า p ที่สอดคล้องกับสมมติฐานว่างที่แท้จริงอีกครั้ง สำหรับหนึ่งในค่า p เหล่านี้ (เรียกว่า ) ลองจินตนาการว่าเรารู้โดยที่มีค่าคงที่บ้าง แล้วเราสามารถกำหนดความคาดหวังที่มีเงื่อนไขที่เหลือ P-ค่าให้ที่<B หากค่า p เป็นอิสระความคาดหวังของเราสำหรับค่า p ที่เหลือคือการกระจายแบบสม่ำเสมอจาก 0 ถึง 1 แต่ถ้าค่า p ไม่เป็นอิสระจากนั้นการรู้อาจเปลี่ยนความคาดหวังของเราสำหรับ p- ที่เหลือ ค่า PRDS กล่าวว่าการเพิ่มมูลค่าของp n < B B p n < B p n < B Bpnpn<BBpn<Bpn<BB ต้องไม่ลดความคาดหวังของเราสำหรับค่า p ที่เหลือซึ่งสอดคล้องกับสมมติฐานว่างที่แท้จริง

แก้ไขเพื่อเพิ่ม:

นี่คือตัวอย่างสมมุติของระบบที่ไม่ใช่ PRDS (รหัส R ด้านล่าง) เหตุผลก็คือเมื่อตัวอย่าง a และ b มีความคล้ายคลึงกันมากมีแนวโน้มว่าผลิตภัณฑ์ของพวกเขาจะผิดปกติ ฉันสงสัยว่าเอฟเฟกต์นี้ (และไม่ใช่ความไม่สม่ำเสมอของ p-values ​​ภายใต้ null สำหรับการ(a*b), (c*d)เปรียบเทียบ) กำลังผลักดันสหสัมพันธ์เชิงลบใน p-values ​​แต่ฉันไม่แน่ใจ ผลเดียวกันจะปรากฏขึ้นหากเราทำการทดสอบแบบ t สำหรับการเปรียบเทียบครั้งที่สอง (แทนที่จะเป็น Wilcoxon) แต่การแจกแจงค่า p-value ยังคงไม่เหมือนกันน่าจะเกิดจากการฝ่าฝืนกฎเกณฑ์เชิงบรรทัดฐาน

ab <- rep(NA, 100000)  # We'll repeat the comparison many times to assess the relationships among p-values.
abcd <- rep(NA, 100000)

for(i in 1:100000){
  a <- rnorm(10)    # Draw 4 samples from identical populations.
  b <- rnorm(10)
  c <- rnorm(10)
  d <- rnorm(10)

  ab[i] <- t.test(a,b)$p.value          # We perform 2 comparisons and extract p-values
  abcd[i] <- wilcox.test((a*b),(c*d))$p.value
}

summary(lm(abcd ~ ab))    # The p-values are negatively correlated

ks.test(ab, punif)    # The p-values are uniform for the first test
ks.test(abcd, punif)   # but non-uniform for the second test.
hist(abcd)

ฉันขอโทษ แต่ฉันไม่ทำตามนี้
Harvey Motulsky

ย่อหน้าสุดท้ายใหม่จะทำให้ชัดเจนขึ้นหรือไม่?
Jacob Socolar

@ อะมีบาใช่ฉันคิดว่าคุณพูดถูก เอกสาร Yekutieli ที่เชื่อมโยงโดยผู้โพสต์ก่อนหน้าเป็นการรักษาของ PRDS เท่าที่ฉันสามารถบอกได้ PRD เป็นคุณสมบัติเดียวกัน แต่ในสถิติการทดสอบทั้งหมด (หรือค่า p) ทั้งหมดไม่ใช่เฉพาะเซ็ตย่อยที่สอดคล้องกับ null จริง
Jacob Socolar

1
ใช่คุณพูดถูก กำลังแก้ไขในขณะนี้
Jacob Socolar

1
ตัวอย่างที่น่าสนใจ แต่เอฟเฟกต์นั้นอ่อนแอมาก: ฉันได้ค่าสัมประสิทธิ์สหสัมพันธ์ (ระหว่าง ab และ abcd) ประมาณ -0.03 ... แต่ฉันไม่เข้าใจ: ทำไมคุณถึงพูดว่า "เมื่อตัวอย่าง a และ b มีความคล้ายคลึงกันมาก มีแนวโน้มว่าผลิตภัณฑ์ของพวกเขาจะผิดปกติหรือไม่ "
อะมีบาพูดว่า Reinstate Monica

4

ในบทความของพวกเขาBenjamini และ Yekutieli ให้ตัวอย่างบางส่วนของวิธีการพึ่งพาการถดถอยเชิงบวก (PRD) ที่แตกต่างจากเพียงแค่การเชื่อมโยงในเชิงบวก ขั้นตอนการควบคุม FDR อาศัยรูปแบบที่อ่อนแอกว่าของ PRD ซึ่งเรียกว่า PRDS (เช่น PRD ในแต่ละส่วนจากชุดย่อยของตัวแปร)

การพึ่งพาในเชิงบวกถูกเสนอขึ้นครั้งแรกในการตั้งค่า bivariate โดยLehmannแต่เวอร์ชันหลายตัวแปรของแนวคิดนี้เรียกว่าการพึ่งพาการถดถอยเชิงบวกคือสิ่งที่เกี่ยวข้องกับการทดสอบหลายรายการ

นี่คือข้อความที่ตัดตอนมาที่เกี่ยวข้องจากpg.6

อย่างไรก็ตาม PRDS และการเชื่อมโยงเชิงบวกไม่ได้หมายความถึงกันและกันและความแตกต่างมีความสำคัญ ตัวอย่างเช่นการแจกแจงปกติหลายตัวแปรมีความสัมพันธ์เชิงบวกหากความสัมพันธ์ทั้งหมดไม่เป็นค่าลบ ไม่ใช่ความสัมพันธ์ทั้งหมดที่ไม่จำเป็นต้องเป็นค่าลบสำหรับคุณสมบัติ PRDS ที่จะถือ (ดูส่วน 3.1, กรณีที่ 1 ด้านล่าง) ในทางกลับกันการกระจายตัวแบบไบวาเรียอาจมีความสัมพันธ์เชิงบวก แต่ไม่ได้ขึ้นอยู่กับการถดถอยเชิงบวก [Lehmann (1966)] ดังนั้นจึงไม่ใช่ PRDS ในชุดย่อยใด ๆ ความคิดที่เข้มงวดของความสัมพันธ์เชิงบวกสมาคม Rosenbaum ของ (1984) เงื่อนไข (บวก) ก็เพียงพอที่จะบอกเป็นนัยว่า PRDS:มีความเกี่ยวข้องกับเงื่อนไขถ้าพาร์ติชันใด ๆของ ( X 1 , X 2 ) X h ( X 1 ) X 2 h ( X 1 )X(X1,X2)Xและฟังก์ชันใด ๆ ,ได้รับมีความสัมพันธ์เชิงบวก h(X1)X2h(X1) เป็นสิ่งสำคัญที่จะต้องทราบว่าคุณสมบัติทั้งหมดข้างต้นรวมถึง PRDS ยังคงไม่เปลี่ยนแปลงที่จะทำการแปลง comonotone ในแต่ละพิกัด [Eaton (1986)] พื้นหลังเกี่ยวกับแนวคิดเหล่านี้มีการนำเสนออย่างชัดเจนใน Eaton (1986) ซึ่งเสริมด้วย Holland และ Rosenbaum (1986)


2

การพึ่งพาเชิงบวกในกรณีนี้หมายความว่าชุดการทดสอบมีความสัมพันธ์เชิงบวก คิดแล้วก็คือว่าถ้าตัวแปรในชุดของการทดสอบว่าคุณมี P-ค่ามีความสัมพันธ์ในเชิงบวกแล้วแต่ละตัวแปรที่ไม่เป็นอิสระ

หากคุณคิดย้อนกลับเกี่ยวกับการแก้ไขค่า p Bonferroni คุณสามารถรับประกันได้ว่าอัตราความผิดพลาดประเภท 1 น้อยกว่า 10% จากการทดสอบอิสระทางสถิติ 100 ครั้งโดยตั้งค่าขีด จำกัด นัยสำคัญเป็น 0.1 / 100 = 0.001 แต่จะเป็นอย่างไรถ้าการทดสอบ 100 ข้อทดสอบเหล่านั้นสัมพันธ์กันในทางใดทางหนึ่ง ถ้าอย่างนั้นคุณยังไม่ได้ทำการทดสอบแยกกัน 100 ข้อ

ใน FDR ความคิดแตกต่างจากการแก้ไข Bonferroni เล็กน้อย ความคิดคือการรับประกันว่ามีเพียงร้อยละ (พูด 10%) ของสิ่งที่คุณประกาศอย่างมีนัยสำคัญจะมีการประกาศเท็จ หากคุณมีเครื่องหมายที่สัมพันธ์กัน (การพึ่งพาในเชิงบวก) ในชุดข้อมูลของคุณค่า FDR จะถูกเลือกตามจำนวนการทดสอบทั้งหมดที่คุณดำเนินการ (แต่จำนวนการทดสอบอิสระทางสถิติที่แท้จริงน้อยกว่า) ด้วยวิธีนี้จะปลอดภัยกว่าที่จะสรุปว่าอัตราการค้นพบที่ผิดพลาดนั้นเป็นการประกาศเท็จอย่างมีนัยสำคัญ 10% หรือน้อยกว่าของการทดสอบในชุดค่า P ของคุณ

โปรดดูบทที่หนังสือเล่มนี้สำหรับการสนทนาของการพึ่งพาเชิงบวก


2
คุณอธิบาย FDR กับ Bonferroni แต่ไม่ได้นิยาม "การพึ่งพาเชิงบวก" แต่เพียงแค่ใส่ข้อความใหม่เป็น "สหสัมพันธ์เชิงบวก" แต่ฉันไม่เข้าใจ พิจารณาว่าฉันมีค่า 1,000 P ทดสอบการแสดงออกของ 1,000 ยีนที่แตกต่างกันเมื่อเปรียบเทียบกับคนที่มีและไม่มีโรค ฉันใช้วิธี BH เพื่อตัดสินใจว่าการเปรียบเทียบใดที่ "ค้นพบ" "การพึ่งพาเชิงบวก" หมายถึงอะไรในบริบทนี้
Harvey Motulsky

5
คำตอบนี้แบนออกผิด Positive Regression Dependency และการมีความสัมพันธ์เชิงบวกนั้นแตกต่างจากกัน บทความของ Benjamini Yekutieli อธิบายเรื่องนี้และให้การอ้างอิงด้วย "อย่างไรก็ตาม PRDS และการเชื่อมโยงเชิงบวกไม่ได้หมายถึงกันและกันและความแตกต่างนั้นมีความสำคัญตัวอย่างเช่นการแจกแจงแบบหลายตัวแปรปกติมีความสัมพันธ์เชิงบวกถ้าสัมพันธ์ทั้งหมดนั้นเป็นค่าลบ ดูหัวข้อ 3.1, กรณีที่ 1 ด้านล่าง) " ดูหน้า 6 ของกระดาษ
user3303
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.