กำหนดกรอบการแจกแจงทวินามลบสำหรับการหาลำดับดีเอ็นเอ


16

การแจกแจงแบบทวินามลบได้กลายเป็นแบบจำลองที่ได้รับความนิยมสำหรับข้อมูลนับ (โดยเฉพาะจำนวนลำดับที่คาดหวังของการอ่านลำดับภายในภูมิภาคที่กำหนดของจีโนมจากการทดลองที่กำหนด) ในชีวสารสนเทศศาสตร์ คำอธิบายแตกต่างกันไป:

  • บางคนอธิบายว่ามันเป็นสิ่งที่ใช้งานได้เหมือนการแจกแจงปัวซอง แต่มีพารามิเตอร์เพิ่มเติมทำให้มีอิสระมากขึ้นในการจำลองการแจกแจงที่แท้จริงด้วยความแปรปรวนไม่จำเป็นต้องเท่ากับค่าเฉลี่ย
  • บางคนอธิบายว่ามันเป็นน้ำหนักแบบผสมของการแจกแจงปัวซง (ด้วยการแจกแจงแบบแกมม่าผสมกับพารามิเตอร์ปัวซอง)

มีวิธีใดที่จะทำให้เหตุผลเหล่านี้เข้ากับนิยามดั้งเดิมของการแจกแจงแบบทวินามลบเพื่อจำลองจำนวนความสำเร็จของการทดลองของเบอร์นูลลีก่อนที่จะเห็นความล้มเหลวจำนวนหนึ่ง? หรือฉันควรคิดว่ามันเป็นเรื่องบังเอิญที่มีความสุขที่การกระจายน้ำหนักแบบปัวซองด้วยการแจกแจงการผสมแกมมามีฟังก์ชันความน่าจะเป็นเช่นเดียวกับทวินามลบ


2
นอกจากนี้ยังเป็นการแจกแจงปัวซองแบบผสมที่คุณรวมจำนวนตัวแปรแบบสุ่มลอการิทึมแบบกระจายปัวซอง
Douglas Zare

คำตอบ:


8

IMOH ฉันคิดว่าการกระจายตัวแบบทวินามลบนั้นถูกใช้เพื่อความสะดวก

ดังนั้นใน RNA Seq จึงมีข้อสันนิษฐานทั่วไปที่ว่าถ้าคุณวัดจำนวนของยีนเดียวกันในจำนวนซ้ำจำนวนอนันต์การกระจายที่แท้จริงจะเป็น lognormal การกระจายตัวนี้จะถูกสุ่มตัวอย่างผ่านกระบวนการปัวซง (ด้วยจำนวน) ดังนั้นการแจกแจงจริงอ่านต่อยีนข้ามการจำลองจะเป็นการกระจาย Poisson-Lognormal

แต่ในแพ็คเกจที่เราใช้เช่น EdgeR และ DESeq การแจกแจงแบบนี้เป็นการจำลองการแจกแจงแบบทวินามลบ ไม่ใช่เพราะคนที่เขียนมันไม่รู้เกี่ยวกับการแจกแจงปัวซองล็อกนอร์มัล

มันเป็นเพราะการกระจาย Poisson Lognormal เป็นสิ่งที่น่ากลัวที่จะทำงานด้วยเพราะมันต้องมีการบูรณาการเชิงตัวเลขเพื่อทำสิ่งที่พอดีเป็นต้นดังนั้นเมื่อคุณลองใช้มันบางครั้งประสิทธิภาพก็แย่มาก

การแจกแจงแบบทวินามลบนั้นมีรูปแบบปิดดังนั้นจึงง่ายต่อการใช้งานมากและการแจกแจงแกมม่า (การกระจายพื้นฐาน) นั้นดูคล้ายกับการกระจายแบบลอสปกติในบางครั้งมันดูธรรมดาและบางครั้งก็มีหาง

แต่ในตัวอย่างนี้ (ถ้าคุณเชื่อว่าสมมติฐาน) มันไม่สามารถถูกต้องตามหลักวิชาได้เนื่องจากการแจกแจงที่ถูกต้องตามหลักวิชาคือ Poisson lognormal และการแจกแจงทั้งสองนั้นเป็นค่าประมาณที่สมเหตุสมผลซึ่งกันและกัน แต่ไม่เทียบเท่ากัน

แต่ฉันก็ยังคิดว่าการกระจายทวินามลบ "ไม่ถูกต้อง" มักจะเป็นทางเลือกที่ดีกว่าเพราะสังเกตุมันจะให้ผลลัพธ์ที่ดีกว่าเพราะการรวมกันดำเนินการช้าและเหมาะจะทำงานได้ไม่ดีโดยเฉพาะอย่างยิ่งกับการกระจายหางยาว


7

ผมมองผ่านหน้าเว็บไม่กี่และไม่สามารถหาคำอธิบาย แต่ฉันมากับหนึ่งสำหรับค่าจำนวนเต็มของRสมมติว่าเรามีแหล่งกัมมันตรังสีสองแหล่งที่สร้างอนุภาคอัลฟ่าและเบต้าที่อัตราαและβตามลำดับrαβ

การกระจายตัวของจำนวนอนุภาคอัลฟ่าคืออะไรก่อนที่อนุภาคเบต้าที่r

  1. พิจารณาว่าอนุภาคแอลฟาเป็นความสำเร็จและอนุภาคบีตาเป็นความล้มเหลว เมื่อตรวจพบอนุภาคความน่าจะเป็นที่เป็นอนุภาคอัลฟ่าคือ β นี่คือการกระจายตัวแบบทวินามลบNB(r,αα+βNB(r,αα+β)

  2. trrΓ(r,1/β).tr=λ/αtrPois(λ).rอนุภาคเบต้าที่คือการกระจายปัวซองแกมมา

นั่นอธิบายว่าทำไมการกระจายเหล่านี้จึงเท่ากัน


2

ฉันสามารถเสนอได้โดยสัญชาตญาณเท่านั้น แต่การกระจายตัวของแกมม่าเองจะอธิบายเวลารออย่างต่อเนื่อง (ต่อเนื่อง) (ใช้เวลานานแค่ไหนสำหรับเหตุการณ์ที่เกิดขึ้นได้ยาก) ดังนั้นความจริงที่ว่าการกระจายแกมม่าของการแจกแจงปัวซองแบบแยกนั้นจะส่งผลให้เวลาที่รอคอยแยกกัน (การทดลองจนกระทั่งความล้มเหลว N) ไม่น่าแปลกใจเกินไป ฉันหวังว่าบางคนจะมีคำตอบที่เป็นทางการมากกว่านี้

แก้ไข: ฉันให้เหตุผลเสมอว่าค่าทวินามลบ สำหรับการจัดลำดับดังนี้: ขั้นตอนการเรียงลำดับที่แท้จริงคือเพียงการสุ่มตัวอย่างอ่านจากห้องสมุดขนาดใหญ่ของโมเลกุล (ปัวซอง) อย่างไรก็ตามไลบรารีนั้นทำจากตัวอย่างดั้งเดิมโดย PCR นั่นหมายถึงว่าโมเลกุลดั้งเดิมนั้นมีการขยายเพิ่มขึ้นแบบเอกซ์โปเนนเชียล และการแจกแจงแกมม่าจะอธิบายถึงผลรวมของตัวแปรสุ่มแบบกระจายอย่างอิสระ k อย่างเช่นจำนวนโมเลกุลในไลบรารีหลังจากขยายตัวอย่างโมเลกุล k สำหรับจำนวนรอบ PCR ที่เท่ากัน

ดังนั้นแบบจำลองทวินามลบ PCR ตามลำดับ


แต่ในบริบทของการวัดจำนวนลำดับการอ่านในจีโนมจะมีคำอธิบายที่เข้าใจง่ายสำหรับระยะเวลารอในการแจกแจงทวินามลบ ในกรณีนี้ไม่มีช่วงเวลารอคอย - เขาเป็นเพียงการวัดจำนวนการอ่านตามลำดับ
RobertF

ดูการแก้ไขของฉัน ฉันไม่เห็นความคิดของมันในแง่ของเวลารอที่เหมาะกับการตั้งค่าลำดับ แกมม่าปัวซองผสมตีความง่ายกว่า แต่ในที่สุดพวกเขาก็เป็นแบบเดียวกัน
เฟลิกซ์ชเลซิงเจอร์

2
ตกลง - บางทีคำถามจริงอาจเกิดจากความบังเอิญที่การสร้างแบบจำลอง k ประสบความสำเร็จ + ความล้มเหลวในการทดลองของ Bernoulli ทำตามส่วนผสมของแกมม่าปัวซอง? บางทีการสร้างแบบจำลองเชิงลบแบบทวินาม k ที่ประสบความสำเร็จ + r ความล้มเหลวอาจถูกคิดว่าเป็น Poisson dbisp ที่มากเกินไปเนื่องจากการเรียงสับเปลี่ยนที่เป็นไปได้จำนวนมากของการทดลองที่ประสบความสำเร็จและความล้มเหลวส่งผลให้ k แยก dbns หรือไม่
RobertF

2

ฉันจะพยายามให้การตีความกลไกแบบง่าย ๆ ซึ่งฉันคิดว่ามีประโยชน์เมื่อคิดถึงเรื่องนี้

สมมติว่าเรามีจีโนมครอบคลุมอย่างสมบูรณ์แบบก่อนเตรียมห้องสมุดและเราสังเกต μอ่านครอบคลุมเว็บไซต์โดยเฉลี่ย บอกว่าการจัดลำดับเป็นกระบวนการที่หยิบชิ้นส่วน DNA ดั้งเดิมทำให้ผ่านกระบวนการสุ่มที่ต้องผ่าน PCR การย่อยตัวอย่างและขึ้นมาด้วยฐานจากส่วนที่ความถี่พีและความล้มเหลวเป็นอย่างอื่น หากดำเนินการต่อเนื่องจนถึงμ1-พีพี ความล้มเหลวมันสามารถสร้างแบบจำลองที่มีการแจกแจงทวินามลบ ยังไม่มีข้อความB(μ1-พีพี,พี).

การคำนวณช่วงเวลาของการกระจายตัวนี้เราได้รับจำนวนความสำเร็จที่คาดหวัง μ1-พีพีพี1-พี=μตามความจำเป็น. สำหรับความแปรปรวนของจำนวนความสำเร็จเราได้รับσ2=μ(1-พี)-1 - อัตราที่การจัดเตรียมไลบรารีล้มเหลวสำหรับส่วนที่เพิ่มความแปรปรวนในการครอบคลุมที่สังเกตได้

ในขณะที่ข้างต้นเป็นคำอธิบายที่ประดิษฐ์ขึ้นเล็กน้อยของกระบวนการเรียงลำดับและเราสามารถสร้างแบบจำลองกำเนิดที่เหมาะสมของขั้นตอน PCR เป็นต้นฉันคิดว่ามันให้ข้อมูลเชิงลึกเกี่ยวกับที่มาของพารามิเตอร์ overdispersion (1-พี)-1โดยตรงจากการแจกแจงทวินามลบ ฉันชอบรุ่นของปัวซงที่มีอัตราการรวมเป็นคำอธิบายโดยทั่วไป

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.