การคำนวณความน่าจะเป็นของรายการยีนที่ทับซ้อนกันระหว่าง RNA seq และชุดข้อมูลชิป ChIP


13

หวังว่าใครบางคนในฟอรัมเหล่านี้สามารถช่วยฉันแก้ปัญหาพื้นฐานนี้ในการศึกษาการแสดงออกของยีน

ฉันจัดลำดับการลึกของเนื้อเยื่อทดลองและเนื้อเยื่อควบคุม จากนั้นฉันได้รับการเพิ่มคุณค่าการพับของยีนในตัวอย่างทดลองมากกว่าการควบคุม จีโนมที่อ้างอิงมียีนประมาณ 15,000 ยีน 3,000 จาก 15,000 ยีนนั้นได้รับการยกระดับให้สูงกว่าตัวอย่างที่ผมสนใจเมื่อเปรียบเทียบกับการควบคุม

ดังนั้น: A = ประชากรยีนทั้งหมด = 15,000 B = ประชากรย่อยที่ได้รับการเสริม RNA-Seq = 3,000

ในการทดลองชิป ChIP ก่อนหน้านี้ฉันพบ 400 ยีนที่อุดมไปด้วยชิป ChIP ของยีน 400 ชิปชิพนั้น 100 ยีนอยู่ในกลุ่มของยีน RNA-Seq ที่ได้รับการเสริม 3,000 รายการ

ดังนั้น: C = จำนวนทั้งหมดของยีนที่อุดมด้วยชิป ChIP = 400

ความน่าจะเป็นที่ยีน 100 ชิปชิปของฉันจะเพิ่มขึ้นด้วย RNA-Seq โดยบังเอิญเพียงอย่างเดียวคืออะไร อะไรคือวิธีที่ชาญฉลาดที่สุดในการคำนวณว่าการซ้อนทับที่สังเกตระหว่าง B และ C (100 ยีน) ของฉันดีกว่าที่ได้รับโดยบังเอิญหรือไม่? จากสิ่งที่ฉันได้อ่านจนถึงตอนนี้วิธีที่ดีที่สุดในการทดสอบคือการใช้การแจกแจงแบบ hypergeometric

ฉันใช้เครื่องคิดเลขออนไลน์ (stattrek.com) เพื่อตั้งค่าการทดสอบการกระจาย hypergeometric ด้วยพารามิเตอร์ต่อไปนี้: - ขนาดป๊อป = 15,000 - # ของความสำเร็จในประชากร = 3,000 - ขนาดตัวอย่าง = 400, - # ของความสำเร็จในตัวอย่าง = 100 ฉันได้รับสิ่งต่อไปนี้สำหรับความน่าจะเป็น Hypergeometric P (x = 100) = 0.00224050636447747

# จำนวนยีนที่แท้จริงที่ทับซ้อนกันระหว่าง B และ C = 100 สิ่งนี้ดีกว่าโดยบังเอิญหรือไม่ ดูไม่เหมือนว่าถ้าโอกาสของยีนใดยีนหนึ่งที่ได้รับการเสริมสมรรถนะคือ 1: 5 (3,000 จาก 15,000) นั่นเป็นเหตุผลที่ฉันไม่เข้าใจว่าทำไม P (x = 100) ที่ฉันคำนวณข้างต้นคือ 0.0022 จำนวนนั้นมีโอกาส 0.2% ของการทับซ้อนที่เกิดขึ้นโดยบังเอิญ สิ่งนี้จะไม่สูงไปกว่านี้อีกหรือ

ถ้าฉันสุ่มตัวอย่าง 400 ยีนสุ่มรอมรายการใหญ่ 15,000, 80 ของยีนเหล่านี้คาดว่าจะได้รับการเสริมสร้างโดยบังเอิญคนเดียว (1: 5) จำนวนยีนที่ทับซ้อนกันจริงคือ 100 ดังนั้นนี่จึงดีกว่าโดยบังเอิญเล็กน้อย

ฉันยังพยายามหาวิธีแก้ปัญหาโดยใช้ฟังก์ชั่น dhyper หรือ phyper ใน R (ใช้สิ่งที่ฉันเห็นในโพสต์อื่น): A = ยีนทั้งหมดในจีโนม (15,000) B = RNA-Seq ยีนที่ทำให้รวย (3,000) C = ChIP -chip ผสานยีน (400) นี่คือ R อินพุต / เอาท์พุต R (ดัดแปลงจากโพสต์ stackexchange ก่อนหน้า):

> totalpop <- 15000    
> sample1 <- 3000    
> sample2 <- 400    
> dhyper(0:2, sample1, totalpop-sample1, sample2)    
[1] 4.431784e-40 4.584209e-38 2.364018e-36    
> phyper(-1:2, sample1, totalpop-sample1, sample2)    
[1] 0.000000e+00 4.431784e-40 4.628526e-38 2.410304e-36    

ฉันไม่แน่ใจว่าจะตีความตัวเลขเหล่านี้ได้อย่างไร ฉันเชื่อว่า 2.36e-36 ความน่าจะเป็นที่จะได้คาบเกี่ยวกันระหว่าง B และ C โดยบังเอิญหรือไม่ แต่สิ่งนี้ไม่สมเหตุสมผลเนื่องจากความน่าจะเป็นนั้นใกล้เคียงกับ 1: 5 มาก ถ้าฉันเริ่มต้นด้วย 15,000 ยีน 3,000 จะได้รับการตกแต่ง ในทำนองเดียวกันถ้าฉันเริ่มต้นด้วย 400 ชิปชิพยีน, 80 ของพวกเขาควรได้รับการเสริมใน RNA-Seq เพียงอย่างเดียวเนื่องจากมีโอกาส 1: 5 ของการตกแต่งในชุดข้อมูลนั้น

อะไรคือวิธีที่เหมาะสมในการคำนวณค่า p ตามการกระจายไฮเพอร์เมตริกซ์สำหรับการทับซ้อนของ B และ C

คำตอบ:


15

คุณสนิทกับการใช้งานdhyperและphyperแต่ฉันไม่เข้าใจว่ามาจากไหน0:2และ-1:2มาจากไหน

P-ค่าที่คุณต้องการคือความน่าจะเป็นของการได้รับ 100 หรือมากกว่าสีขาวลูกในกลุ่มตัวอย่างที่มีขนาด 400 จากโกศกับลูก 3000 สีขาวและ 12000 ลูกบอลสีดำ นี่คือสี่วิธีในการคำนวณ

sum(dhyper(100:400, 3000, 12000, 400))
1 - sum(dhyper(0:99, 3000, 12000, 400))
phyper(99, 3000, 12000, 400, lower.tail=FALSE)
1-phyper(99, 3000, 12000, 400)

สิ่งเหล่านี้ให้ 0.0078

dhyper(x, m, n, k)xทำให้น่าจะเป็นของการวาดภาพเหมือน ในบรรทัดแรกเราจะสรุปความน่าจะเป็น 100 - 400 ในบรรทัดที่สองเราใช้ 1 ลบผลรวมของความน่าจะเป็นที่ 0 - 99

phyper(x, m, n, k)ทำให้ความน่าจะเป็นของการได้รับxหรือน้อยกว่าจึงเป็นเช่นเดียวกับphyper(x, m, n, k)sum(dhyper(0:x, m, n, k))

lower.tail=FALSEเป็นบิตสับสน phyper(x, m, n, k, lower.tail=FALSE)เหมือนกัน1-phyper(x, m, n, k)และน่าจะเป็นx+1หรือมากกว่านั้น [ฉันไม่เคยจำสิ่งนี้ได้ดังนั้นต้องตรวจสอบอีกครั้ง]

max(dhyper(0:400, 3000, 12000, 400))

นี่คือภาพของการแจกแจงไฮเพอร์เมตริกซ์ในกรณีนี้ คุณจะเห็นว่ามันอยู่ตรงกลางที่ 80 (20% ของ 400) และ 100 นั้นอยู่ในหางขวา ป้อนคำอธิบายรูปภาพที่นี่


ขอบคุณสำหรับความช่วยเหลือของคุณ ฉันเข้าใจตรรกะของคำตอบของคุณ แต่ฉันจะอธิบายให้นักชีววิทยากลุ่มหนึ่งทราบว่านี่เป็นสิ่งที่เกินความซ้ำซ้อนที่สังเกตได้เนื่องจากมีโอกาสเพียงอย่างเดียว พวกเขาจะบอกว่าฉันมีโอกาสซ้อนทับ 1: 5 การทับซ้อนของฉันมีนัยสำคัญหรือไม่เพราะในขนาดตัวอย่าง 400 ลูก (จาก 15,000 ลูกทั้งหมด) โอกาสที่จะได้ลูกบอลสีขาวต่ำกว่า 1: 5 จริง ๆ เพราะฉันสุ่มตัวอย่างประชากรที่เล็กกว่า (ไม่ใช่ 15,000 ทั้งหมด)? สิ่งนี้ไม่สมเหตุสมผลเนื่องจากแม้ว่า 400 <15,000 ยังคงมีอัตราส่วน 1: 5 สีขาว: ดำ มันสมเหตุสมผลหรือไม่
stlandroidfan

@stlandroidfan - ฉันไม่เข้าใจสิ่งที่คุณกำลังสับสน ฉันได้เพิ่มรูป; สิ่งนี้ช่วยได้ไหม?
Karl

0

ลองดูวิธีนี้ .. ถ้าคุณคิดว่ามันเป็นทวินามซึ่งอาจไม่ถูกต้อง แต่มันควรจะเป็นค่าประมาณ .. ซิกม่า ^ 2 ของคุณคือ. 8 * .2 * 400 = 64 ดังนั้นซิกม่า = 8 ดังนั้น จาก 80 ไปเป็น 100 คุณได้ส่วนเบี่ยงเบนมาตรฐาน 2.5 แล้ว .. มันสำคัญมาก .. มันควรมีค่า p เล็กน้อย


ขอบคุณสำหรับคำตอบ. การแจกแจงแบบไฮเพอโรเมตริกมีแนวโน้มที่จะใช้บ่อยขึ้นสำหรับรายการยีนที่ทับซ้อนกันจากสิ่งที่ฉันได้เห็นในวรรณคดี คำถามคือความน่าจะเป็นที่จะได้ลูกบอลสีขาวจำนวน 100 ลูกขึ้นไปในตัวอย่างขนาด 400 จากโกศที่มีลูกบอลสีขาว 3,000 ลูกและลูกบอลสีดำ 12,000 ลูก? ฉันคิดว่าฉันยังคงงงงวยกับวิธีอธิบายเรื่องนี้กับนักชีววิทยาหลายคน? วิธีที่พวกเขาเห็นคือ 3000: 12000 เป็นโอกาส 1: 5 สีขาว: ดำ ดังนั้นในการสุ่มตัวอย่าง 400, 80 ควรเป็นสีขาว ดังนั้นความน่าจะเป็นที่จะได้ 100 หรือมากกว่านั้นต่ำกว่า 20% (1 ใน 5) มากแค่ไหน?
stlandroidfan
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.