ลักษณะทั่วไปอย่างต่อเนื่องของการแจกแจงทวินามลบ


24

การแจกแจงลบทวินาม (NB)ถูกกำหนดในจำนวนเต็มไม่เป็นลบและมีฟังก์ชันมวลความน่าจะเป็น

f(k;r,p)=(k+r1k)pk(1p)r.
มันสมเหตุสมผลหรือไม่ที่จะต้องพิจารณาการกระจายอย่างต่อเนื่องบน reals ที่ไม่เป็นลบซึ่งกำหนดโดยสูตรเดียวกัน (แทนที่kN0โดยxR0 )? ค่าสัมประสิทธิ์ทวินามสามารถเขียนเป็นผลิตภัณฑ์ของ(k+1)(k+r1)ซึ่งเป็นที่ที่ดีที่กำหนดจริงใด ๆkkดังนั้นเราจะมี PDF
f(x;r,p)i=1r1(x+i)px(1p)r.
โดยทั่วไปเราสามารถแทนที่ค่าสัมประสิทธิ์ทวินามด้วยฟังก์ชันแกมมาทำให้ค่าrไม่ใช่จำนวนเต็มr:
f(x;r,p)Γ(x+r)Γ(x+1)Γ(r)px(1p)r.

เป็นการกระจายที่ถูกต้องหรือไม่ มันมีชื่อหรือไม่? มันมีประโยชน์อะไรบ้าง? มันอาจจะเป็นสารประกอบหรือส่วนผสมบางอย่าง? มีสูตรปิดสำหรับค่าเฉลี่ยและความแปรปรวน (และค่าคงที่สัดส่วนใน PDF) หรือไม่

(ขณะนี้ฉันกำลังศึกษากระดาษที่ใช้แบบผสม NB (ที่มีค่าคงที่r=2 ) และเหมาะกับมันผ่านทาง EM อย่างไรก็ตามข้อมูลเป็นจำนวนเต็มหลังจากการทำให้เป็นมาตรฐานบางอย่างเช่นไม่ใช่จำนวนเต็มอย่างไรก็ตามผู้เขียนใช้สูตร NB มาตรฐานเพื่อคำนวณ ความเป็นไปได้และผลลัพธ์ที่สมเหตุสมผลดังนั้นทุกอย่างดูเหมือนจะใช้ได้ดีฉันพบว่ามันน่างงมากโปรดทราบว่าคำถามนี้ไม่เกี่ยวกับ NB GLM)


1
นั่นจะไม่ใช่ส่วนผสมของ Gammas ที่มีพารามิเตอร์มาตราส่วนlogpหรือไม่ หากคุณขยายพหุนามΠi=1r1(x+i)คุณจะได้รับi=2raixi1แล้วคูณด้วยpxเหมือนกับexp{xlogp}โดยที่aiคือสัมประสิทธิ์ของxi1ในพหุนามและlogp<0แน่นอนดังนั้นดูเหมือนว่ามันจะแปลงเป็น ค่าเฉลี่ยถ่วงน้ำหนักของการแจกแจงแกมมาคือส่วนผสม
jbowman

... ควรเป็นi=1จากผลรวมข้างต้นจริง ๆ แล้ว
jbowman

2
เนื่องจาก(1p)rขึ้นอยู่กับพารามิเตอร์เท่านั้นจึงเป็นค่าคงที่ที่สามารถดูดซึมได้ในสัดส่วน ยิ่งกว่านั้น(x+r1x)=Γ(x+r)/(Γ(r)Γ(x+1))ก็มีค่าคงที่1/Γ(r)ที่สามารถ ถูกเพิกเฉย การเขียนpk=ekρสำหรับρ=log(p)0คุณกำลังถามเกี่ยวกับความหนาแน่นตามสัดส่วนของ
f(x;r,ρ)=Γ(x+r)Γ(x+1)eρx.
ที่ระบุρเป็นปัจจัยขนาดและrเป็นพารามิเตอร์รูปร่าง สำหรับอินทิกรัล rมันชัดเจนว่าเป็นส่วนผสมของการแจกแจงแกมม่า แม้ว่าจะไม่มีเหตุผลที่จะ จำกัดrเป็นจำนวนเต็ม
whuber

1
@whuber ถูกต้อง ที่จริงฉันใช้การแจกแจงที่ต่อเนื่องกับค่าบวกและมีจุดมวลที่ศูนย์ ฉันเชื่อว่านี่เป็นวิธีการที่ถูกต้อง แต่ฉันได้รับการแนะนำให้ใช้การวางนัยทั่วไปแบบต่อเนื่องของ NB ที่น่าจะมีค่าเป็นศูนย์ที่ไม่เป็นศูนย์ ดังนั้นคำถามของฉัน
อะมีบาพูดว่า Reinstate Monica

2
ฉันคิดว่าอาจมีความสับสนในข้อเสนอแนะ: ดูเหมือนจะทำให้เกิดความน่าจะเป็นสับสน(ซึ่งเป็นสิ่งที่มวลมีจุดหรือการกระจาย NB มีศูนย์) ด้วยความหนาแน่นของความน่าจะเป็น (ซึ่งเป็นค่าจะเป็น) ความหนาแน่นที่ไม่ใช่ศูนย์ไม่อนุญาตให้คุณจัดการกับศูนย์ที่แน่นอนเพราะมันยังทำนายโอกาสที่ไม่มีศูนย์ว่าค่าใด ๆจะเกิดขึ้น! f(0,θ)0
whuber

คำตอบ:


21

นั่นเป็นคำถามที่น่าสนใจ กลุ่มวิจัยของฉันใช้การแจกจ่ายที่คุณอ้างถึงเป็นเวลาหลายปีในซอฟท์แวร์ชีวสารสนเทศศาสตร์ของเรา เท่าที่ฉันรู้การกระจายไม่มีชื่อและไม่มีวรรณกรรมในนั้น ในขณะที่รายงานโดย Chandra et al (2012) ที่อ้างถึงโดย Aksakal นั้นมีความสัมพันธ์กันอย่างใกล้ชิดการแจกแจงที่พวกเขาคิดว่าจะถูก จำกัด ด้วยค่าจำนวนเต็มสำหรับและดูเหมือนว่าพวกเขาจะไม่ได้แสดงออกอย่างชัดเจนสำหรับ pdfr

เพื่อให้คุณมีพื้นหลังการกระจาย NB ถูกใช้อย่างมากในการวิจัยจีโนมเพื่อจำลองข้อมูลการแสดงออกของยีนที่เกิดจาก RNA-seq และเทคโนโลยีที่เกี่ยวข้อง ข้อมูลการนับเกิดขึ้นเมื่อจำนวนของลำดับ DNA หรือ RNA อ่านสกัดจากตัวอย่างทางชีวภาพที่สามารถแมปกับแต่ละยีน โดยทั่วไปแล้วจะมีการอ่านจำนวนสิบล้านครั้งจากตัวอย่างทางชีวภาพแต่ละชนิดที่แมปกับยีนประมาณ 25,000 ยีน อีกทางเลือกหนึ่งอาจมีตัวอย่างดีเอ็นเอจากการอ่านที่แมปไปยังหน้าต่างจีโนม เราและคนอื่น ๆ ได้รับความนิยมเป็นแนวทางโดยที่ NB glms ถูกติดตั้งตามลำดับการอ่านสำหรับแต่ละยีนและวิธีการเชิงประจักษ์ Bayes ถูกใช้เพื่อกลั่นกรองตัวประมาณการกระจายตัวของ genewise (การกระจายϕ=1/r) วิธีการนี้ได้รับการอ้างถึงในบทความวารสารนับหมื่นในวรรณคดีจีโนมดังนั้นคุณจะได้รับความคิดว่ามันถูกใช้ไปมากน้อยเพียงใด

กลุ่มของฉันเก็บรักษาชุดซอฟท์แวร์ edgeR R ไว้. เมื่อหลายปีก่อนเราได้ทำการปรับปรุงบรรจุภัณฑ์ทั้งหมดเพื่อให้สามารถใช้งานได้กับการนับเศษส่วนโดยใช้ NB pmf เวอร์ชันต่อเนื่อง เราเพียงแปลงค่าสัมประสิทธิ์ทวินามทั้งหมดใน NB pmf เป็นอัตราส่วนของฟังก์ชันแกมม่าและใช้เป็น pdf แบบต่อเนื่อง (ผสม) แรงจูงใจสำหรับเรื่องนี้คือการนับลำดับการอ่านบางครั้งอาจเป็นเศษส่วนเนื่องจาก (1) การทำแผนที่ที่คลุมเครือของการอ่านไปที่ transcriptome หรือจีโนมและ / หรือ (2) การทำให้มาตรฐานของการนับถูกต้องเพื่อผลทางเทคนิค ดังนั้นการนับบางครั้งจึงคาดว่าจะมีการนับหรือการนับโดยประมาณมากกว่าการนับที่สังเกตได้ และแน่นอนจำนวนการอ่านอาจเป็นศูนย์อย่างแน่นอนด้วยความน่าจะเป็นในเชิงบวก วิธีการของเราทำให้มั่นใจได้ว่าการอนุมานเป็นผลมาจากซอฟต์แวร์ของเราอย่างต่อเนื่องในการนับการจับคู่กับผลลัพธ์ NB โดยสิ้นเชิงเมื่อจำนวนการประมาณการโดยประมาณเกิดขึ้นเป็นจำนวนเต็ม

เท่าที่ฉันรู้ไม่มีรูปแบบปิดสำหรับค่าคงที่ normalizing ใน pdf และไม่มีรูปแบบปิดสำหรับค่าเฉลี่ยหรือความแปรปรวน เมื่อพิจารณาแล้วเห็นว่าไม่มีรูปแบบปิดสำหรับอินทิกรัล (ค่าคงที่ของ Fransen-Robinson) เป็นที่ชัดเจนว่าไม่มีอินทิกรัลของอินทิกรัลต่อเนื่อง NB pdf เช่นกัน อย่างไรก็ตามสำหรับฉันแล้วดูเหมือนว่าสูตรเฉลี่ยและความแปรปรวนแบบดั้งเดิมสำหรับ NB ควรจะเป็นค่าประมาณที่ดีสำหรับ NB ต่อเนื่อง ยิ่งไปกว่านั้นค่าคงที่ normalizing ควรแปรผันอย่างช้าๆด้วยพารามิเตอร์และสามารถเพิกเฉยได้เนื่องจากมีอิทธิพลเล็กน้อยในการคำนวณความน่าจะเป็นสูงสุด

01Γ(x)dz

เราสามารถยืนยันสมมติฐานเหล่านี้ได้ด้วยการรวมเชิงตัวเลข การกระจาย NB เกิดขึ้นในชีวสารสนเทศศาสตร์เป็นส่วนผสมแกมมาของการแจกแจงปัวซง (ดูWikipedia บทความทวินามลบหรือ McCarthy et al ด้านล่าง) การกระจาย NB อย่างต่อเนื่องเกิดขึ้นเพียงแค่แทนที่การกระจาย Poisson ด้วยอะนาล็อกต่อเนื่องกับ pdf สำหรับที่เป็นค่าคงที่ normalizing เพื่อให้แน่ใจว่าบูรณาการความหนาแน่น 1. สมมติว่าเช่นว่า\การแจกแจงปัวซองนั้น pmf เท่ากับ pdf ข้างต้นในจำนวนเต็มไม่เป็นลบและมี

f(x;λ)=a(λ)eλλxΓ(x+1)
x0a(λ)λ=10λ=10ค่าเฉลี่ยของปัวซองและค่าความแปรปรวนเท่ากับ 10 การรวมตัวเลขแสดงให้เห็นว่าและค่าเฉลี่ยและความแปรปรวนของการแจกแจงแบบต่อเนื่องเท่ากับ 10 ถึง 4 ตัวเลขที่มีนัยสำคัญ ดังนั้นค่าคงที่การทำให้เป็นปกติเท่ากับ 1 และค่าเฉลี่ยและความแปรปรวนเกือบจะเหมือนกับการกระจายตัวแบบปัวซองโดยสิ้นเชิง การประมาณมีการปรับปรุงให้ดียิ่งขึ้นถ้าเราเพิ่มการแก้ไขความต่อเนื่องซึ่งรวมจากถึงแทนที่จะเป็น 0 ด้วยการแก้ไขความต่อเนื่องทุกอย่างถูกต้อง (การปรับค่าคงที่ปกติคือ 1 และช่วงเวลาที่เห็นพ้องกับปัวซอง ตัวเลขa(10)=1/0.9998751/2

ในแพ็คเกจ edgeR ของเราเราไม่จำเป็นต้องทำการปรับเปลี่ยนใด ๆ สำหรับความจริงที่ว่ามีมวลเป็นศูนย์เพราะเรามักจะทำงานกับความน่าจะเป็นบันทึกตามเงื่อนไขหรือความแตกต่างของบันทึกโอกาสและฟังก์ชั่นเดลต้าใด ๆ นี่คือ BTW ทั่วไปสำหรับ glms ที่มีการแจกแจงความน่าจะเป็นแบบผสม หรือเราอาจพิจารณาการกระจายตัวที่ไม่มีมวลที่ศูนย์ แต่ต้องมีการสนับสนุนเริ่มต้นที่ -1/2 แทนที่จะเป็นศูนย์ มุมมองทางทฤษฎีนำไปสู่การคำนวณเดียวกันในทางปฏิบัติ

แม้ว่าเราจะใช้ประโยชน์จากการกระจาย NB อย่างต่อเนื่อง แต่เรายังไม่ได้เผยแพร่อะไรเลยอย่างชัดเจน บทความที่อ้างถึงด้านล่างอธิบายวิธีการ NB ของข้อมูลจีโนม แต่ไม่ได้กล่าวถึงการกระจาย NB อย่างต่อเนื่องอย่างชัดเจน

โดยสรุปแล้วฉันไม่แปลกใจเลยว่าบทความที่คุณกำลังศึกษาได้รับผลลัพธ์ที่สมเหตุสมผลจาก NB pdf รุ่นต่อเนื่องเพราะนั่นเป็นประสบการณ์ของเราเช่นกัน ความต้องการหลักคือเราควรสร้างแบบจำลองค่าเฉลี่ยและความแปรปรวนอย่างถูกต้องและจะต้องให้ข้อมูลไม่ว่าจะเป็นจำนวนเต็มหรือไม่ก็ตามแสดงรูปแบบเดียวกันของความสัมพันธ์แปรปรวนกำลังสองแบบสมการกำลังสองที่การกระจาย NB ทำ

อ้างอิง

โรบินสัน, M. และ Smyth, GK (2008) การประมาณค่าตัวอย่างเล็ก ๆ ของการกระจายทวินามเชิงลบกับการใช้งานข้อมูล ชีวสถิติ 9, 321-332

Robinson, MD และ Smyth, GK (2007) การตรวจสอบการทดสอบทางสถิติสำหรับการประเมินความแตกต่างในความอุดมสมบูรณ์แท็ก ชีวสารสนเทศศาสตร์ 23, 2881-2887

McCarthy, DJ, Chen, Y, Smyth, GK (2012) การวิเคราะห์การแสดงออกที่แตกต่างกันของการทดลอง Multifactor RNA-Seq ส่วนที่เกี่ยวกับการเปลี่ยนแปลงทางชีวภาพ การวิจัยกรดนิวคลีอิก 40, 4288-4297

เฉิน, Y, Lun, ATL, และ Smyth, GK (2014) การวิเคราะห์การแสดงออกที่แตกต่างของการทดลอง RNA-seq ที่ซับซ้อนโดยใช้ edgeR ใน: การวิเคราะห์ทางสถิติของข้อมูลลำดับถัดไป, Somnath Datta และ Daniel S Nettleton (บรรณาธิการ), Springer, New York, หน้า 51-74 preprint

Lun, ATL, Chen, Y และ Smyth, GK (2016) DE-licious: สูตรสำหรับการวิเคราะห์การแสดงออกที่แตกต่างกันของการทดลอง RNA-seq โดยใช้วิธีเสมือนจริงใน edgeR วิธีการทางอณูชีววิทยา 1418, 391-416 preprint

Chen Y, Lun ATL และ Smyth, GK (2016) จากการอ่านยีนไปอย่างทุลักทุเล: วิเคราะห์การแสดงออกของความแตกต่างของการทดลอง RNA-Seq ใช้ Rsubread และ edger ท่อกึ่งโอกาส F1000 การวิจัย 5, 1438


สิ่งนี้มีประโยชน์อย่างยิ่ง @Gordon; ขอบคุณมากที่สละเวลาเขียนมัน ฉันกำลังทำงานกับข้อมูล RNA-seq เช่นกันดังนั้นคำตอบจากมุมมองนี้จึงมีคุณค่าอย่างยิ่ง (ตอนนี้ฉันได้เพิ่มแท็ก [ชีวสารสนเทศ] ไว้ในคำถาม) งานของคุณเกี่ยวกับการแสดงออกที่แตกต่างในขณะที่งานปัจจุบันของฉันเกี่ยวกับการจัดกลุ่ม (กระดาษที่ฉันอ่านคือแฮร์ริสและคณะ CA1 interneurons; biorxiv ) อย่างไรก็ตามฉันขอถามคำถามเล็ก ๆ สองสามข้อ / คำชี้แจง [ต่อ]
อะมีบาพูดว่า Reinstate Monica

(1) คุณบอกว่า NB ต่อเนื่องคือส่วนผสมแกมม่าของ Poissons ต่อเนื่อง คุณช่วยขยายมันหน่อยได้ไหมแสดงให้ชัดขึ้นอีกหน่อย? ฉันคิดว่านี่จะเป็นประโยชน์สำหรับผู้ชมทั่วไป ที่เกี่ยวข้องกับการว่าในการแสดงความคิดเห็นภายใต้คำถามของฉันคนสองคนที่เขียนว่าอย่างต่อเนื่อง NB ควรจะเป็นส่วนผสมของ gammas กับพารามิเตอร์ขนาดแต่สำหรับจำนวนเต็มRมุมมองทั้งสองเป็นจริงหรือไม่ (2) คุณบอกว่าฟังก์ชัน delta ในศูนย์ไม่สำคัญสำหรับ GLMs ในขณะเดียวกันก็มีวรรณกรรมขนาดใหญ่เกี่ยวกับ GLMs ที่มีการแจกแจงที่ไม่พอง มันเข้ากันได้อย่างไร log(p)r
อะมีบาพูดว่า Reinstate Monica

(3) ในงานภาคปฏิบัติคุณใช้ ML ในการประมาณค่าพารามิเตอร์ทั้งหมดรวมถึงหรือคุณกำหนดค่าเป็นค่าเฉพาะล่วงหน้า (อาจเป็นค่าเดียวกันที่ใช้ร่วมกันสำหรับยีนทั้งหมดหรือไม่) แล้วให้ค่าคงที่หรือไม่ ฉันเดาว่านี่น่าจะง่ายกว่ามาก (เช่น NB เองเป็นตระกูลการกระจายแบบเอกซ์ แต่มีค่าคงที่ )rrr
อะมีบาพูดว่า Reinstate Monica

1
@ amoeba ขอบคุณสำหรับการอ้างอิง biorxiv (1) ความเป็นมาของ NB ในฐานะส่วนผสมของ Poissons ค่อนข้างเป็นที่รู้จักกันดีและอยู่ในเอกสารของเราเช่น McCarthy และคณะ ความเป็นมาของ NB อย่างต่อเนื่องดังต่อไปนี้เพียงแค่แทนที่ Poisson ต่อเนื่องของ Poisson ฉันควรเพิ่มสิ่งนี้ในคำตอบของฉันหรือไม่ จะทำให้มันยาว ฉันไม่เห็นว่า NB ต่อเนื่องสามารถนำไปใช้ประโยชน์ในฐานะเป็นส่วนผสมของ gammas ได้อย่างไร (2) ไม่ศูนย์เงินเฟ้อเป็นภาวะแทรกซ้อนที่แตกต่างเพิ่มเติม เราหลีกเลี่ยงความยุ่งยากในการทำงานของเรา
Gordon Smyth

1
@amoeba (3) เราประเมินพารามิเตอร์ทั้งหมด จำเป็นอย่างยิ่งที่จะต้องประเมินการกระจายของ genewise เพื่อให้ได้การควบคุมอัตราความผิดพลาดและสิ่งนี้จะต้องดำเนินการด้วยความระมัดระวังเป็นพิเศษเพราะขนาดตัวอย่างมักจะเล็ก เราใช้ขั้นตอนที่ซับซ้อนที่เกี่ยวข้องกับความน่าจะเป็นของโปรไฟล์ที่ถูกปรับ (คิดว่า REML) ภายในแต่ละยีนที่เชื่อมโยงกับกระบวนวิธีเบส์เชิงประจักษ์ถ่วงน้ำหนักระหว่างยีน Genewise NB glms นั้นติดตั้งโดย ML โดยมีการกระจายตัวคงที่ สุดท้ายทดสอบสัมประสิทธิ์โดยใช้การทดสอบเสมือน
Gordon Smyth

19

ดูกระดาษนี้: จันทรานิมามาร์และดิลิปรอย รุ่นต่อเนื่องของการแจกแจงทวินามลบ Statistica 72, no. 1 (2012): 81

มันถูกนิยามไว้ในกระดาษว่าเป็นฟังก์ชันการอยู่รอดซึ่งเป็นวิธีการทางธรรมชาติเนื่องจากมีทวินามทวินามในการวิเคราะห์ความน่าเชื่อถือ:

Sr(x)={qxfor r=1k=0r1(x+k1k)pkqxfor r=2,3,
โดยที่และ 0q=eλ,λ0,p+q=1rN,r>0

ขอบคุณ! ฉันจะดูเอกสารนี้ (ไม่ใช่ฉันที่ลงคะแนน)
อะมีบากล่าวว่า Reinstate Monica

@ amoeba, ฉันไม่ต้องกังวลกับ downvoting, มันเป็นอินเทอร์เน็ต :)
Aksakal

3
(มันแปลกประหลาดที่คำตอบนี้ถูกลดระดับลง ... ) +1
whuber

มันเป็นการดีที่มีการอ้างอิงนี้ แต่นึกคิดฉันต้องการที่จะเห็นการอภิปรายรายละเอียดเพิ่มเติมที่นี่ ฟังก์ชันการอยู่รอดนี้กำหนดการกระจายตัวแบบเดียวกับ PDF ในคำถามของฉันหรือไม่ (อย่างไรก็ตามฉันพบว่ามันแปลกเล็กน้อยที่ผู้เขียนใช้สัมประสิทธิ์ทวินามสำหรับค่าที่ไม่ใช่จำนวนเต็มของ ) ความคิดเห็นหลายข้อข้างต้นชี้ให้เห็นว่านี่เป็นส่วนผสมของการแจกแจงแกมมา (ฉันไม่เห็นการสนทนานี้ใน กระดาษ); พารามิเตอร์ของ gammas เหล่านี้คืออะไรน้ำหนักผสมคืออะไร สูตร NB สำหรับค่าเฉลี่ยและความแปรปรวนมีไว้สำหรับเวอร์ชันต่อเนื่องหรือไม่ x
อะมีบากล่าวว่า Reinstate Monica

@ amoeba, กระดาษมีช่วงเวลา, พวกเขาไม่เหมือนกับใน NB, น่าเสียดายที่
Aksakal
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.