หวังว่าใครบางคนในฟอรัมเหล่านี้สามารถช่วยฉันแก้ปัญหาพื้นฐานนี้ในการศึกษาการแสดงออกของยีน
ฉันจัดลำดับการลึกของเนื้อเยื่อทดลองและเนื้อเยื่อควบคุม จากนั้นฉันได้รับการเพิ่มคุณค่าการพับของยีนในตัวอย่างทดลองมากกว่าการควบคุม จีโนมที่อ้างอิงมียีนประมาณ 15,000 ยีน 3,000 จาก 15,000 ยีนนั้นได้รับการยกระดับให้สูงกว่าตัวอย่างที่ผมสนใจเมื่อเปรียบเทียบกับการควบคุม
ดังนั้น: A = ประชากรยีนทั้งหมด = 15,000 B = ประชากรย่อยที่ได้รับการเสริม RNA-Seq = 3,000
ในการทดลองชิป ChIP ก่อนหน้านี้ฉันพบ 400 ยีนที่อุดมไปด้วยชิป ChIP ของยีน 400 ชิปชิพนั้น 100 ยีนอยู่ในกลุ่มของยีน RNA-Seq ที่ได้รับการเสริม 3,000 รายการ
ดังนั้น: C = จำนวนทั้งหมดของยีนที่อุดมด้วยชิป ChIP = 400
ความน่าจะเป็นที่ยีน 100 ชิปชิปของฉันจะเพิ่มขึ้นด้วย RNA-Seq โดยบังเอิญเพียงอย่างเดียวคืออะไร อะไรคือวิธีที่ชาญฉลาดที่สุดในการคำนวณว่าการซ้อนทับที่สังเกตระหว่าง B และ C (100 ยีน) ของฉันดีกว่าที่ได้รับโดยบังเอิญหรือไม่? จากสิ่งที่ฉันได้อ่านจนถึงตอนนี้วิธีที่ดีที่สุดในการทดสอบคือการใช้การแจกแจงแบบ hypergeometric
ฉันใช้เครื่องคิดเลขออนไลน์ (stattrek.com) เพื่อตั้งค่าการทดสอบการกระจาย hypergeometric ด้วยพารามิเตอร์ต่อไปนี้: - ขนาดป๊อป = 15,000 - # ของความสำเร็จในประชากร = 3,000 - ขนาดตัวอย่าง = 400, - # ของความสำเร็จในตัวอย่าง = 100 ฉันได้รับสิ่งต่อไปนี้สำหรับความน่าจะเป็น Hypergeometric P (x = 100) = 0.00224050636447747
# จำนวนยีนที่แท้จริงที่ทับซ้อนกันระหว่าง B และ C = 100 สิ่งนี้ดีกว่าโดยบังเอิญหรือไม่ ดูไม่เหมือนว่าถ้าโอกาสของยีนใดยีนหนึ่งที่ได้รับการเสริมสมรรถนะคือ 1: 5 (3,000 จาก 15,000) นั่นเป็นเหตุผลที่ฉันไม่เข้าใจว่าทำไม P (x = 100) ที่ฉันคำนวณข้างต้นคือ 0.0022 จำนวนนั้นมีโอกาส 0.2% ของการทับซ้อนที่เกิดขึ้นโดยบังเอิญ สิ่งนี้จะไม่สูงไปกว่านี้อีกหรือ
ถ้าฉันสุ่มตัวอย่าง 400 ยีนสุ่มรอมรายการใหญ่ 15,000, 80 ของยีนเหล่านี้คาดว่าจะได้รับการเสริมสร้างโดยบังเอิญคนเดียว (1: 5) จำนวนยีนที่ทับซ้อนกันจริงคือ 100 ดังนั้นนี่จึงดีกว่าโดยบังเอิญเล็กน้อย
ฉันยังพยายามหาวิธีแก้ปัญหาโดยใช้ฟังก์ชั่น dhyper หรือ phyper ใน R (ใช้สิ่งที่ฉันเห็นในโพสต์อื่น): A = ยีนทั้งหมดในจีโนม (15,000) B = RNA-Seq ยีนที่ทำให้รวย (3,000) C = ChIP -chip ผสานยีน (400) นี่คือ R อินพุต / เอาท์พุต R (ดัดแปลงจากโพสต์ stackexchange ก่อนหน้า):
> totalpop <- 15000
> sample1 <- 3000
> sample2 <- 400
> dhyper(0:2, sample1, totalpop-sample1, sample2)
[1] 4.431784e-40 4.584209e-38 2.364018e-36
> phyper(-1:2, sample1, totalpop-sample1, sample2)
[1] 0.000000e+00 4.431784e-40 4.628526e-38 2.410304e-36
ฉันไม่แน่ใจว่าจะตีความตัวเลขเหล่านี้ได้อย่างไร ฉันเชื่อว่า 2.36e-36 ความน่าจะเป็นที่จะได้คาบเกี่ยวกันระหว่าง B และ C โดยบังเอิญหรือไม่ แต่สิ่งนี้ไม่สมเหตุสมผลเนื่องจากความน่าจะเป็นนั้นใกล้เคียงกับ 1: 5 มาก ถ้าฉันเริ่มต้นด้วย 15,000 ยีน 3,000 จะได้รับการตกแต่ง ในทำนองเดียวกันถ้าฉันเริ่มต้นด้วย 400 ชิปชิพยีน, 80 ของพวกเขาควรได้รับการเสริมใน RNA-Seq เพียงอย่างเดียวเนื่องจากมีโอกาส 1: 5 ของการตกแต่งในชุดข้อมูลนั้น
อะไรคือวิธีที่เหมาะสมในการคำนวณค่า p ตามการกระจายไฮเพอร์เมตริกซ์สำหรับการทับซ้อนของ B และ C