วิธีตีความ QQ-plot ของ p-values


17

ฉันกำลังศึกษาสมาคมโรค GWAS SNP โดยใช้ซอฟต์แวร์ที่เรียกว่า plink ( http://pngu.mgh.harvard.edu/~purcell/plink/download.shtml )

ด้วยผลลัพธ์การเชื่อมโยงฉันได้รับค่า p สำหรับ SNP ทั้งหมดที่วิเคราะห์ ตอนนี้ฉันใช้ QQ-plot ของค่า p เหล่านั้นเพื่อแสดงว่าค่า p ต่ำมากแตกต่างจากการกระจายค่า p-value ที่คาดหวัง (การกระจายแบบสม่ำเสมอ) หากค่า p เบี่ยงเบนจากการแจกแจงที่คาดหวังหนึ่ง "อาจ" เรียกว่าค่า p สำหรับค่านัยสำคัญทางสถิติ

อย่างที่คุณเห็นใน QQ-plot ตรงปลายหางด้านบน 4 จุดสุดท้ายนั้นค่อนข้างยากที่จะตีความ สองจุดสุดท้ายในสีเทาแสดงให้เห็นว่าค่า p เหล่านั้นอยู่ในการกระจายที่คาดหวังของค่า p ในขณะที่อีกสองไม่ได้

ทีนี้วิธีการตีความสิ่งนี้จุดสองจุดสุดท้ายมีค่า p ต่ำกว่าแต่ไม่ใช่ "นัยสำคัญ" ตาม QQ-plot ในขณะที่อีกสองจุดที่มีค่า p สูงกว่าคือ "สำคัญ"? สิ่งนี้จะเป็นจริงได้อย่างไร

ป้อนคำอธิบายรูปภาพที่นี่


6
ปัญหาอย่างหนึ่งของการใช้ QQ แปลงเพื่อแปล GWAS ก็คือค่า p ไม่ได้เป็นอิสระจากกันและอันที่จริงค่า p ที่มากที่สุดนั้นมีความสัมพันธ์กันมาก ฉันเดาว่าการฮิตสี่อันดับแรกของคุณน่าจะมีโครโมโซมเดียวกันและอยู่ใกล้กันมากพอที่จะทำให้ LD สัมพันธ์กัน หากคุณต้องทำการทดสอบที่ให้ค่า p-value ที่ต่ำที่สุดเป็นอันดับที่สองบน SNP ด้วยค่า p ต่ำสุดฉันเดาว่าค่า p-value จะลดลงในช่วงที่ไม่มีการยอมรับ มีแนวโน้มที่จะเกิดขึ้นเช่นเดียวกันกับเพลงฮิตอื่น ๆ อีกมากมาย
Sam Dickson

3
ฉันทำไปแล้วฉันตัดชุดข้อมูล SNP เพื่อรับ SNP อิสระเท่านั้น (ใช้ r-square ที่ 0.8 เป็น cutoff) QQ-plot นี้แสดงผลลัพธ์ของ SNP อิสระหรือ SNPs ใน LD <0.8
eXpander

1
SNP ที่ต่ำที่สุดนั้นตรงกับโครโมโซม 6, ที่สองถึงโครโมโซม 2, ที่สามถึงโครโมโซม 5, ที่สี่ถึงโครโมโซม 9 ดังนั้นฉันไม่แน่ใจว่า LD เป็นปัญหาที่นี่
eXpander

1
ฉันขอถามคุณได้ไหมว่าคุณทำโครงเรื่องนั้น ฉันสามารถได้สิ่งที่คล้ายกัน แต่มีค่าไคสแควร์หรือค่า p แต่ไม่มีเงาสีเทาและฉันต้องการหนึ่งที่มีค่า p และเงาสีเทา หากคุณสามารถแบ่งปันรหัสที่คุณใช้จะดีมาก ขอบคุณ
Aleix Arnau

ที่นี่folk.uio.no/tores/Publications_files/… เป็นบทความเกี่ยวกับปัญหานี้
kjetil b halvorsen

คำตอบ:


5

การอ้างอิงที่ดีเกี่ยวกับการวิเคราะห์แปลง p-value คือ [1]

ผลลัพธ์ที่คุณเห็นอาจเป็นผลมาจากความจริงที่ว่าสัญญาณ / เอฟเฟกต์มีอยู่ในการทดสอบย่อยบางชุดเท่านั้น สิ่งเหล่านี้ถูกขับเคลื่อนเหนือแถบการยอมรับ การปฏิเสธเฉพาะค่า p นอกวงสามารถเป็นธรรม แต่อาจสำคัญกว่านั้นคุณควรตัดสินใจว่าเกณฑ์ข้อผิดพลาดที่คุณต้องการควบคุมคืออะไรเมื่อเลือกขั้นตอนการเลือกของคุณ (FWER, FDR) คุณสามารถปรึกษา [2] สำหรับตัวเลือกนั้นและการอ้างอิงในนั้นเพื่อเลือกกระบวนการทดสอบที่เหมาะสมหลายอย่าง

[1] Schweder, T. และ E. Spjotvoll “ พล็อตค่า P เพื่อประเมินการทดสอบหลายอย่างพร้อมกัน” Biometrika 69, no. 3 (ธันวาคม 2525): 493–502 ดอย: 10.2307 / 2,335,984

[2] Rosenblatt โจนาธาน “ คู่มือนักปฏิบัติการเพื่อการทดสอบอัตราข้อผิดพลาดหลายครั้ง” ArXiv e-print Tel Aviv University, วันที่ 17 เมษายน 2013 http://arxiv.org/abs/1304.4920


1

นี่เป็นคำถามที่เก่ากว่า แต่ฉันคิดว่าเป็นประโยชน์เมื่อพยายามตีความ QQPlots เป็นครั้งแรก ฉันคิดว่าฉันจะเพิ่มคำตอบเหล่านี้ในกรณีที่ผู้คนจำนวนมากสะดุดในเรื่องนี้ในอนาคต

สิ่งที่ฉันพบว่ายุ่งยากเล็กน้อยในการทำความเข้าใจคืออะไรจุดเหล่านั้นคืออะไรกันแน่ ฉันพบว่าการใช้รหัสทำให้ง่ายต่อการเข้าใจ

นี่คือรหัส R บางตัวที่ฉันดัดแปลงจากGWASTools::qqPlotที่ใช้ QQPlot ใน 3 บรรทัด:

simpleQQPlot = function (observedPValues) {
  plot(-log10(1:length(observedPValues)/length(observedPValues)), 
       -log10(sort(observedPValues)))
  abline(0, 1, col = "red")
}

นี่คือตัวอย่าง คุณมี 5 p-values simpleQQPlot จะสร้าง 5 pvalues ​​ที่สอดคล้องกันจากการกระจายแบบสม่ำเสมอระหว่าง 0 และ 1 เหล่านี้จะเป็น: .2 .4 .6 .8 .8 และ 1 ดังนั้น simpleQQPlot คาดหวัง p-value ต่ำสุดของคุณที่จะอยู่ที่ประมาณ. 2 และสูงสุดของคุณจะอยู่รอบ ๆ 1. simpleQQPlot จะเรียงลำดับค่าของคุณและจับคู่แต่ละค่ากับค่าที่สร้างขึ้นที่สอดคล้องกัน ดังนั้น 0.2 จะถูกจับคู่กับค่า pvalue ต่ำสุดของคุณ 1 กับค่าสูงสุดของคุณและอื่น ๆ จากนั้นค่าที่จับคู่เหล่านี้จะถูกพล็อต (หลังจากบันทึกเชิงลบ) โดยที่ X เป็นค่า pvalue ที่สร้างขึ้นและ Y เป็นค่าที่ตรวจจับคู่ หากค่าที่สังเกตได้ของคุณถูกดึงออกมาจากการแจกแจงปกติแล้วจุดควรจะอยู่ในแนวเส้นตรง เนื่องจากการเรียงลำดับคะแนนจะเพิ่มขึ้นตามลำดับ ดังนั้นแต่ละจุดที่ตามมาจะมีค่า X มากกว่าและมากกว่าหรือเท่ากับ Y

ดังนั้นในตัวอย่างดั้งเดิมข้างต้นค่า p เรียงลำดับ 9,997 อยู่ที่ประมาณ 5.2 แต่คาดว่าจะอยู่ที่ประมาณ 4.1 หากติดตามการแจกแจงแบบปกติ (หมายเหตุ: จริง ๆ แล้วฉันไม่แน่ใจว่ามีค่า p จำนวนเท่าใดที่พล็อตด้านบน - ฉันแค่เดา ​​10k)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.