นั่นเป็นคำถามที่น่าสนใจ กลุ่มวิจัยของฉันใช้การแจกจ่ายที่คุณอ้างถึงเป็นเวลาหลายปีในซอฟท์แวร์ชีวสารสนเทศศาสตร์ของเรา เท่าที่ฉันรู้การกระจายไม่มีชื่อและไม่มีวรรณกรรมในนั้น ในขณะที่รายงานโดย Chandra et al (2012) ที่อ้างถึงโดย Aksakal นั้นมีความสัมพันธ์กันอย่างใกล้ชิดการแจกแจงที่พวกเขาคิดว่าจะถูก จำกัด ด้วยค่าจำนวนเต็มสำหรับและดูเหมือนว่าพวกเขาจะไม่ได้แสดงออกอย่างชัดเจนสำหรับ pdfr
เพื่อให้คุณมีพื้นหลังการกระจาย NB ถูกใช้อย่างมากในการวิจัยจีโนมเพื่อจำลองข้อมูลการแสดงออกของยีนที่เกิดจาก RNA-seq และเทคโนโลยีที่เกี่ยวข้อง ข้อมูลการนับเกิดขึ้นเมื่อจำนวนของลำดับ DNA หรือ RNA อ่านสกัดจากตัวอย่างทางชีวภาพที่สามารถแมปกับแต่ละยีน โดยทั่วไปแล้วจะมีการอ่านจำนวนสิบล้านครั้งจากตัวอย่างทางชีวภาพแต่ละชนิดที่แมปกับยีนประมาณ 25,000 ยีน อีกทางเลือกหนึ่งอาจมีตัวอย่างดีเอ็นเอจากการอ่านที่แมปไปยังหน้าต่างจีโนม เราและคนอื่น ๆ ได้รับความนิยมเป็นแนวทางโดยที่ NB glms ถูกติดตั้งตามลำดับการอ่านสำหรับแต่ละยีนและวิธีการเชิงประจักษ์ Bayes ถูกใช้เพื่อกลั่นกรองตัวประมาณการกระจายตัวของ genewise (การกระจายϕ=1/r) วิธีการนี้ได้รับการอ้างถึงในบทความวารสารนับหมื่นในวรรณคดีจีโนมดังนั้นคุณจะได้รับความคิดว่ามันถูกใช้ไปมากน้อยเพียงใด
กลุ่มของฉันเก็บรักษาชุดซอฟท์แวร์ edgeR R ไว้. เมื่อหลายปีก่อนเราได้ทำการปรับปรุงบรรจุภัณฑ์ทั้งหมดเพื่อให้สามารถใช้งานได้กับการนับเศษส่วนโดยใช้ NB pmf เวอร์ชันต่อเนื่อง เราเพียงแปลงค่าสัมประสิทธิ์ทวินามทั้งหมดใน NB pmf เป็นอัตราส่วนของฟังก์ชันแกมม่าและใช้เป็น pdf แบบต่อเนื่อง (ผสม) แรงจูงใจสำหรับเรื่องนี้คือการนับลำดับการอ่านบางครั้งอาจเป็นเศษส่วนเนื่องจาก (1) การทำแผนที่ที่คลุมเครือของการอ่านไปที่ transcriptome หรือจีโนมและ / หรือ (2) การทำให้มาตรฐานของการนับถูกต้องเพื่อผลทางเทคนิค ดังนั้นการนับบางครั้งจึงคาดว่าจะมีการนับหรือการนับโดยประมาณมากกว่าการนับที่สังเกตได้ และแน่นอนจำนวนการอ่านอาจเป็นศูนย์อย่างแน่นอนด้วยความน่าจะเป็นในเชิงบวก วิธีการของเราทำให้มั่นใจได้ว่าการอนุมานเป็นผลมาจากซอฟต์แวร์ของเราอย่างต่อเนื่องในการนับการจับคู่กับผลลัพธ์ NB โดยสิ้นเชิงเมื่อจำนวนการประมาณการโดยประมาณเกิดขึ้นเป็นจำนวนเต็ม
เท่าที่ฉันรู้ไม่มีรูปแบบปิดสำหรับค่าคงที่ normalizing ใน pdf และไม่มีรูปแบบปิดสำหรับค่าเฉลี่ยหรือความแปรปรวน เมื่อพิจารณาแล้วเห็นว่าไม่มีรูปแบบปิดสำหรับอินทิกรัล
(ค่าคงที่ของ Fransen-Robinson) เป็นที่ชัดเจนว่าไม่มีอินทิกรัลของอินทิกรัลต่อเนื่อง NB pdf เช่นกัน อย่างไรก็ตามสำหรับฉันแล้วดูเหมือนว่าสูตรเฉลี่ยและความแปรปรวนแบบดั้งเดิมสำหรับ NB ควรจะเป็นค่าประมาณที่ดีสำหรับ NB ต่อเนื่อง ยิ่งไปกว่านั้นค่าคงที่ normalizing ควรแปรผันอย่างช้าๆด้วยพารามิเตอร์และสามารถเพิกเฉยได้เนื่องจากมีอิทธิพลเล็กน้อยในการคำนวณความน่าจะเป็นสูงสุด
∫∞01Γ(x)dz
เราสามารถยืนยันสมมติฐานเหล่านี้ได้ด้วยการรวมเชิงตัวเลข การกระจาย NB เกิดขึ้นในชีวสารสนเทศศาสตร์เป็นส่วนผสมแกมมาของการแจกแจงปัวซง (ดูWikipedia บทความทวินามลบหรือ McCarthy et al ด้านล่าง) การกระจาย NB อย่างต่อเนื่องเกิดขึ้นเพียงแค่แทนที่การกระจาย Poisson ด้วยอะนาล็อกต่อเนื่องกับ pdf
สำหรับที่เป็นค่าคงที่ normalizing เพื่อให้แน่ใจว่าบูรณาการความหนาแน่น 1. สมมติว่าเช่นว่า\การแจกแจงปัวซองนั้น pmf เท่ากับ pdf ข้างต้นในจำนวนเต็มไม่เป็นลบและมี
f(x;λ)=a(λ)e−λλxΓ(x+1)
x≥0a(λ)λ=10λ=10ค่าเฉลี่ยของปัวซองและค่าความแปรปรวนเท่ากับ 10 การรวมตัวเลขแสดงให้เห็นว่าและค่าเฉลี่ยและความแปรปรวนของการแจกแจงแบบต่อเนื่องเท่ากับ 10 ถึง 4 ตัวเลขที่มีนัยสำคัญ ดังนั้นค่าคงที่การทำให้เป็นปกติเท่ากับ 1 และค่าเฉลี่ยและความแปรปรวนเกือบจะเหมือนกับการกระจายตัวแบบปัวซองโดยสิ้นเชิง การประมาณมีการปรับปรุงให้ดียิ่งขึ้นถ้าเราเพิ่มการแก้ไขความต่อเนื่องซึ่งรวมจากถึงแทนที่จะเป็น 0 ด้วยการแก้ไขความต่อเนื่องทุกอย่างถูกต้อง (การปรับค่าคงที่ปกติคือ 1 และช่วงเวลาที่เห็นพ้องกับปัวซอง ตัวเลข
a(10)=1/0.999875−1/2∞
ในแพ็คเกจ edgeR ของเราเราไม่จำเป็นต้องทำการปรับเปลี่ยนใด ๆ สำหรับความจริงที่ว่ามีมวลเป็นศูนย์เพราะเรามักจะทำงานกับความน่าจะเป็นบันทึกตามเงื่อนไขหรือความแตกต่างของบันทึกโอกาสและฟังก์ชั่นเดลต้าใด ๆ นี่คือ BTW ทั่วไปสำหรับ glms ที่มีการแจกแจงความน่าจะเป็นแบบผสม หรือเราอาจพิจารณาการกระจายตัวที่ไม่มีมวลที่ศูนย์ แต่ต้องมีการสนับสนุนเริ่มต้นที่ -1/2 แทนที่จะเป็นศูนย์ มุมมองทางทฤษฎีนำไปสู่การคำนวณเดียวกันในทางปฏิบัติ
แม้ว่าเราจะใช้ประโยชน์จากการกระจาย NB อย่างต่อเนื่อง แต่เรายังไม่ได้เผยแพร่อะไรเลยอย่างชัดเจน บทความที่อ้างถึงด้านล่างอธิบายวิธีการ NB ของข้อมูลจีโนม แต่ไม่ได้กล่าวถึงการกระจาย NB อย่างต่อเนื่องอย่างชัดเจน
โดยสรุปแล้วฉันไม่แปลกใจเลยว่าบทความที่คุณกำลังศึกษาได้รับผลลัพธ์ที่สมเหตุสมผลจาก NB pdf รุ่นต่อเนื่องเพราะนั่นเป็นประสบการณ์ของเราเช่นกัน ความต้องการหลักคือเราควรสร้างแบบจำลองค่าเฉลี่ยและความแปรปรวนอย่างถูกต้องและจะต้องให้ข้อมูลไม่ว่าจะเป็นจำนวนเต็มหรือไม่ก็ตามแสดงรูปแบบเดียวกันของความสัมพันธ์แปรปรวนกำลังสองแบบสมการกำลังสองที่การกระจาย NB ทำ
อ้างอิง
โรบินสัน, M. และ Smyth, GK (2008) การประมาณค่าตัวอย่างเล็ก ๆ ของการกระจายทวินามเชิงลบกับการใช้งานข้อมูล ชีวสถิติ 9, 321-332
Robinson, MD และ Smyth, GK (2007) การตรวจสอบการทดสอบทางสถิติสำหรับการประเมินความแตกต่างในความอุดมสมบูรณ์แท็ก ชีวสารสนเทศศาสตร์ 23, 2881-2887
McCarthy, DJ, Chen, Y, Smyth, GK (2012) การวิเคราะห์การแสดงออกที่แตกต่างกันของการทดลอง Multifactor RNA-Seq ส่วนที่เกี่ยวกับการเปลี่ยนแปลงทางชีวภาพ การวิจัยกรดนิวคลีอิก 40, 4288-4297
เฉิน, Y, Lun, ATL, และ Smyth, GK (2014) การวิเคราะห์การแสดงออกที่แตกต่างของการทดลอง RNA-seq ที่ซับซ้อนโดยใช้ edgeR ใน: การวิเคราะห์ทางสถิติของข้อมูลลำดับถัดไป, Somnath Datta และ Daniel S Nettleton (บรรณาธิการ), Springer, New York, หน้า 51-74 preprint
Lun, ATL, Chen, Y และ Smyth, GK (2016) DE-licious: สูตรสำหรับการวิเคราะห์การแสดงออกที่แตกต่างกันของการทดลอง RNA-seq โดยใช้วิธีเสมือนจริงใน edgeR วิธีการทางอณูชีววิทยา 1418, 391-416 preprint
Chen Y, Lun ATL และ Smyth, GK (2016) จากการอ่านยีนไปอย่างทุลักทุเล: วิเคราะห์การแสดงออกของความแตกต่างของการทดลอง RNA-Seq ใช้ Rsubread และ edger ท่อกึ่งโอกาส F1000 การวิจัย 5, 1438