ช่วงการทำนายสำหรับตัวแปรสุ่มแบบทวินาม


14

สูตร (โดยประมาณหรือแน่นอน) สำหรับช่วงเวลาการทำนายสำหรับตัวแปรสุ่มแบบทวินามคืออะไร

สมมติว่าและเราสังเกตว่า (ดึงมาจาก ) เป็นที่รู้จักกันYBinom(n,p)yYn

เป้าหมายของเราคือการได้รับช่วงเวลาที่การคาดการณ์ 95% สำหรับการวาดใหม่จากYY

ประมาณการจุดคือที่{n} ช่วงความมั่นใจสำหรับนั้นตรงไปตรงมา แต่ฉันไม่สามารถหาสูตรสำหรับช่วงการทำนายสำหรับได้ ถ้าเรารู้ (แทนที่จะเป็น ) ช่วงเวลาการทำนาย 95% นั้นเกี่ยวข้องกับการหาควอนไทล์ของทวินาม มีบางสิ่งที่ชัดเจนที่ฉันมองเห็นหรือไม่?พี = Ynp^P Yพีพีp^=ynp^Ypp^


1
ดูมีวิธีการใดที่ไม่ใช่แบบเบย์สำหรับการอนุมานเชิงคาดการณ์ . ในกรณีนี้วิธีการใช้ pivots ไม่พร้อมใช้งาน (ฉันไม่คิดว่า) แต่คุณสามารถใช้โอกาสในการทำนายอย่างใดอย่างหนึ่ง หรือแน่นอนวิธีการแบบเบย์
Scortchi - Reinstate Monica

1
สวัสดีทุกคนฉันอยากจะใช้เวลาสักครู่เพื่อจัดการกับความกังวลที่เกิดขึ้น - เกี่ยวกับความเชื่อมั่นต่อ p: ฉันไม่สนใจสิ่งนั้น - เกี่ยวกับการทำนายว่า 95% ของการแจกแจง: ใช่นั่นคือสิ่งที่ช่วงการคาดการณ์จะไม่คำนึงถึงบริบท (ในการถดถอยคุณต้องถือว่าข้อผิดพลาดปกติโดยที่ช่วงความเชื่อมั่นขึ้นอยู่กับ CLT - ใช่ตัวอย่างของการทำนายจำนวนหัว การพลิกเหรียญถูกต้องสิ่งที่ทำให้ปัญหานี้ยากคือตอนนี้เราไม่มี "p" แต่มีการประมาณการ
Statseeker

3
@Addison อ่านหนังสือช่วงเวลาทางสถิติโดย G. Hahn และ W. Meeker พวกเขาอธิบายความแตกต่างระหว่างช่วงความมั่นใจช่วงเวลาการทำนายช่วงเวลาที่ยอมรับได้และช่วงเวลาที่น่าเชื่อถือแบบเบย์ ช่วงการทำนาย 95% ไม่มีการแจกแจง 95% มันทำสิ่งที่ช่วงเวลาที่พบบ่อยที่สุดทำ หากคุณสุ่มตัวอย่างจาก B (n, p) ซ้ำและใช้วิธีการเดียวกันทุกครั้งเพื่อสร้างช่วงเวลาการทำนาย 95% สำหรับ p จากนั้น 95% ของช่วงการทำนายคุณจะมีค่าจริงของ p หากคุณต้องการครอบคลุม 95% ของการกระจายสร้างช่วงเวลาความอดทน
Michael R. Chernick

ช่วงความคลาดเคลื่อนครอบคลุมเปอร์เซ็นต์ของการแจกแจง สำหรับช่วงเวลาที่ยอมรับได้ 95% สำหรับ 90% ของการแจกจ่ายคุณทำซ้ำกระบวนการอีกหลายครั้งและใช้วิธีเดียวกันเพื่อสร้างช่วงเวลาแต่ละครั้งจากนั้นประมาณ 95% ของกรณีอย่างน้อย 90% ของการกระจายจะอยู่ในช่วงเวลา และ 5% ของเวลาที่น้อยกว่า 90% ของการกระจายจะถูกเก็บไว้ในช่วงเวลา
Michael R. Chernick

3
Lawless & Fredette (2005), "ช่วงเวลาการทำนายบ่อยและการแจกแจงการทำนาย", Biometrika , 92 , 3เป็นอีกการอ้างอิงที่ดีนอกเหนือไปจากลิงก์ที่ฉันให้
Scortchi - Reinstate Monica

คำตอบ:


24

ตกลงลองทำกัน ฉันจะให้คำตอบสองข้อ - แบบเบย์ซึ่งในความคิดของฉันเรียบง่ายและเป็นธรรมชาติและเป็นหนึ่งในคำตอบที่เป็นไปได้

วิธีแก้ปัญหาแบบเบย์

เราถือว่าเบต้าก่อน , i, e.,เนื่องจากโมเดลเบต้า - ทวินามเป็นคอนจูเกตซึ่งหมายความว่าการกระจายหลังเป็นการกระจายเบต้าด้วยพารามิเตอร์ , (ฉันใช้kเพื่อแสดงจำนวนความสำเร็จในการทดลองnครั้งแทนที่จะเป็นy ) ดังนั้นการอนุมานจึงง่ายขึ้นมาก ทีนี้ถ้าคุณมีความรู้มาก่อนเกี่ยวกับค่าที่น่าจะเป็นของpคุณสามารถใช้มันเพื่อตั้งค่าของαและβเช่นเพื่อกำหนดเบต้าของคุณก่อนมิฉะนั้นคุณอาจถือว่าเครื่องแบบ (ไม่เป็นทางการ) มาก่อนด้วยα = βพี~ B อีที( α , β ) α = α + k , β = β + n - kppBeta(α,β)α^=α+k,β^=β+nkknypαβหรือนักบวชที่ไม่ใช่คนอื่น (ดูตัวอย่างที่นี่) ไม่ว่าในกรณีใดด้านหลังของคุณคือα=β=1

Pr(p|n,k)=Beta(α+k,β+nk)

ในการอนุมานแบบเบย์สิ่งที่สำคัญคือความน่าจะเป็นหลังซึ่งหมายความว่าเมื่อคุณรู้แล้วคุณสามารถทำการอนุมานปริมาณอื่น ๆ ทั้งหมดในแบบจำลองของคุณ คุณต้องการให้การอนุมานใน observables : โดยเฉพาะอย่างยิ่งในเวกเตอร์ของผลการใหม่Y = Y 1 , ... , Y ที่ม.ไม่จำเป็นต้องเท่ากับn โดยเฉพาะสำหรับแต่ละj = 0 , , mเราต้องการคำนวณความน่าจะเป็นที่จะมีความสำเร็จjในการทดลองmครั้งถัดไปเนื่องจากเราได้kyy=y1,,ymmnj=0,,mjmkความสำเร็จในการทดลองก่อนหน้านี้ ; ฟังก์ชั่นการทำนายมวลหลังn

Pr(j|m,y)=Pr(j|m,n,k)=01Pr(j,p|m,n,k)dp=01Pr(j|p,m,n,k)Pr(p|n,k)dp

อย่างไรก็ตามรูปแบบทวินามของเราสำหรับหมายถึงว่าเงื่อนไขในพีมีค่าบางอย่างน่าจะเป็นของการมีเจประสบความสำเร็จในม.การทดลองไม่ขึ้นอยู่กับผลลัพธ์ที่ผ่านมามันเป็นเพียงYpjm

f(j|m,p)=(jm)pj(1p)j

ดังนั้นการแสดงออกจะกลายเป็น

Pr(j|m,n,k)=01(jm)pj(1p)jPr(p|n,k)dp=01(jm)pj(1p)jBeta(α+k,β+nk)dp

ผลลัพธ์ของอินทิกรัลนี้คือการกระจายที่รู้จักกันดีเรียกว่าการกระจายเบต้า - ทวินาม: การข้ามข้อเราได้รับการแสดงออกที่น่ากลัว

Pr(j|m,n,k)=m!j!(mj)!Γ(α+β+n)Γ(α+k)Γ(β+nk)Γ(α+k+j)Γ(β+n+mkj)Γ(α+β+n+m)

การประมาณจุดของเราสำหรับ , ที่ได้รับการสูญเสียกำลังสอง, แน่นอนค่าเฉลี่ยของการแจกแจงนี้, คือ,j

μ=m(α+k)(α+β+n)

ทีนี้ลองหาช่วงเวลาทำนาย เนื่องจากนี่คือการกระจายไม่ต่อเนื่องเราไม่ได้มีการแสดงออกรูปแบบปิดสำหรับเช่นว่า0.95 เหตุผลก็คือขึ้นอยู่กับวิธีที่คุณกำหนดควอนไทด์สำหรับการกระจายแบบไม่ต่อเนื่องฟังก์ชั่นควอไทล์ไม่ได้เป็นฟังก์ชันหรือเป็นฟังก์ชันที่ไม่ต่อเนื่อง แต่นี่ไม่ใช่ปัญหาใหญ่: สำหรับขนาดเล็กคุณสามารถเขียนความน่าจะเป็นและจากที่นี่หาเช่นนั้นP r ( j 1j j 2 ) = 0.95 m m P r ( j = 0 | m , n , k ) , P r ( j 1 | m , n , k ) , , P r ( j m - 1 |[j1,j2]Pr(j1jj2)=0.95mmj 1 , j 2Pr(j=0|m,n,k),Pr(j1|m,n,k),,Pr(jm1|m,n,k)j1,j2

Pr(j1jj2)=Pr(jj2|m,n,k)Pr(j<j1|m,n,k)0.95

แน่นอนว่าคุณจะพบมากกว่าหนึ่งคู่ดังนั้นคุณควรมองหาที่เล็กที่สุดตามที่พอใจข้างต้น สังเกตได้ว่า[j1,j2]

Pr(j=0|m,n,k)=p0,Pr(j1|m,n,k)=p1,,Pr(jm1|m,n,k)=pm1

เป็นเพียงค่าของฟังก์ชัน CMF (Cumulative Mass Function) ของการแจกแจงแบบเบต้า - ทวินามและเช่นนี้มีการแสดงออกของรูปแบบปิดแต่นี่คือในแง่ของฟังก์ชั่น hypergeometric ทั่วไปดังนั้นจึงค่อนข้างซับซ้อน ฉันต้องการเพียงแค่ติดตั้งแพ็กเกจ R extraDistrและโทรpbbinomเพื่อคำนวณ CMF ของการแจกแจงแบบเบต้า - ทวินาม โดยเฉพาะถ้าคุณต้องการคำนวณความน่าจะเป็นทั้งหมดในครั้งเดียวเพียงแค่เขียน:p0,,pm1

library(extraDistr)  
jvec <- seq(0, m-1, by = 1) 
probs <- pbbinom(jvec, m, alpha = alpha + k, beta = beta + n - k)

โดยที่alphaและbetaเป็นค่าของพารามิเตอร์ของเบต้าของคุณก่อนหน้านี้คือและ (เช่น 1 หากคุณกำลังใช้เครื่องแบบก่อนหน้านี้มากกว่า ) แน่นอนว่ามันจะง่ายกว่านี้ถ้า R ให้ฟังก์ชันควอนไทล์สำหรับการแจกแจงแบบเบต้า - ทวินาม แต่น่าเสียดายที่มันไม่ได้บีตาพีαβp

ตัวอย่างที่ใช้งานได้จริงกับวิธีแก้ปัญหาแบบเบย์

ให้ , (ดังนั้นในตอนแรกเราสังเกตความสำเร็จ 70 ครั้งในการทดลอง 100 ครั้ง) เราต้องการประมาณค่าจุดและช่วงการทำนาย 95% สำหรับจำนวนความสำเร็จในการทดลองครั้งถัดไปแล้วก็k = 70 j m = 20n=100k=70jm=20

n <- 100
k <- 70
m <- 20
alpha <- 1
beta  <- 1

ที่ฉันสันนิษฐานว่าเครื่องแบบก่อน : ขึ้นอยู่กับความรู้ก่อนหน้าสำหรับการใช้งานเฉพาะของคุณนี้อาจหรือไม่อาจจะดีก่อน ดังนั้นp

bayesian_point_estimate <- m * (alpha + k)/(alpha + beta + n) #13.92157

เห็นได้ชัดว่าการประมาณไม่ใช่จำนวนเต็มสำหรับไม่สมเหตุสมผลดังนั้นเราสามารถปัดเศษเป็นจำนวนเต็มที่ใกล้ที่สุด (14) จากนั้นสำหรับช่วงเวลาการทำนาย:j

jvec <- seq(0, m-1, by = 1)
library(extraDistr)
probabilities <- pbbinom(jvec, m, alpha = alpha + k, beta = beta + n - k)

ความน่าจะเป็น

> probabilities
 [1] 1.335244e-09 3.925617e-08 5.686014e-07 5.398876e-06
 [5] 3.772061e-05 2.063557e-04 9.183707e-04 3.410423e-03
 [9] 1.075618e-02 2.917888e-02 6.872028e-02 1.415124e-01
[13] 2.563000e-01 4.105894e-01 5.857286e-01 7.511380e-01
[17] 8.781487e-01 9.546188e-01 9.886056e-01 9.985556e-01

สำหรับช่วงเวลาที่น่าจะเป็นหางเท่ากันเราต้องการเล็กที่สุดเช่นและใหญ่ที่สุดซึ่ง0.025 ด้วยวิธีนี้เราจะได้ P r ( j j 2 | m , n , k ) 0.975 j 1 P r ( j < j 1 | m , n , k ) = P r ( j j 1 - 1 | m , n , k ) 0.025j2Pr(jj2|m,n,k)0.975j1Pr(j<j1|m,n,k)=Pr(jj11|m,n,k)0.025

Pr(j1jj2|m,n,k)=Pr(jj2|m,n,k)Pr(j<j1|m,n,k)0.9750.025=0.95

ดังนั้นโดยดูที่ความน่าจะเป็นดังกล่าวข้างต้นเราจะเห็นว่าและ 9 ความน่าจะเป็นของช่วงการทำนายแบบเบย์นี้คือ 0.9778494 ซึ่งมากกว่า 0.95 เราสามารถหาช่วงเวลาที่สั้นกว่าเช่นแต่ในกรณีนั้นอย่างน้อยหนึ่งในสองของความไม่เท่าเทียมกันสำหรับความน่าจะเป็นหางจะไม่พอใจj 1 = 9 P r ( j 1j j 2 | m , n , k ) 0.95j2=18j1=9Pr(j1jj2|m,n,k)0.95

วิธีแก้ปัญหาประจำ

ฉันจะทำตามการรักษาKrishnamoorthy และเป็ง 2011 ให้และกระจายอย่างอิสระแบบเราต้องการช่วงการคาดการณ์สำหรับบนพื้นฐานของการสังเกตของXในคำอื่น ๆ เรามองหาเช่นนั้น:YBinom(m,p)XBinom(n,p)12αYXI=[L(X;n,m,α),U(X;n,m,α)]

PrX,Y(YI)=PrX,Y(L(X;n,m,α)YU(X;n,m,α)]12α

" " เกิดจากความจริงที่ว่าเรากำลังเผชิญกับตัวแปรสุ่มแยกและดังนั้นเราจึงไม่สามารถคาดหวังว่าจะได้รับความคุ้มครองที่แน่นอน ... แต่เราสามารถหาช่วงเวลาที่มีอย่างน้อย ความคุ้มครองเล็กน้อยจึงเป็นช่วงเวลาที่อนุรักษ์นิยม ตอนนี้ก็สามารถพิสูจน์ได้ว่าเงื่อนไขการจำหน่ายของได้รับเป็น hypergeometric กับขนาดของกลุ่มตัวอย่างจำนวนของความสำเร็จในประชากรและจำนวนประชากรขนาด m ดังนั้น pmf ตามเงื่อนไขคือ12αXX+Y=k+j=ssnn+m

Pr(X=k|X+Y=s,n,n+m)=(nk)(msk)(m+ns)

CDF แบบมีเงื่อนไขของได้รับจึงเป็นเช่นนั้นXX+Y=s

Pr(Xk|s,n,n+m)=H(k;s,n,n+m)=i=0k(ni)(msi)(m+ns)

สิ่งแรกที่ดีเกี่ยวกับ CDF นี้คือมันไม่ได้ขึ้นอยู่กับซึ่งเราไม่รู้ สิ่งที่ดีที่สองก็คือว่ามันจะช่วยให้สามารถค้นหา PI ของเรา: เป็นเรื่องของความเป็นจริงถ้าเราสังเกตค่าของ X แล้วขีด จำกัด ของการคาดการณ์ที่ลดลงเป็นเลขที่เล็กที่สุดดังกล่าวว่าpk1αL

Pr(Xk|k+L,n,n+m)=1H(k1;k+L,n,n+m)>α

ตามลําดับการคาดคะเนสูงสุดเป็นจํานวนเต็มที่มากที่สุด1α

Pr(Xk|k+U,n,n+m)=H(k;k+U,n,n+m)>α

ดังนั้นเป็นช่วงเวลาที่การคาดการณ์สำหรับของความคุ้มครองอย่างน้อย1-2ทราบว่าเมื่ออยู่ใกล้กับ 0 หรือ 1 ช่วงเวลานี้เป็นอนุรักษ์นิยมขนาดใหญ่ ,คือการรายงานข่าวค่อนข้างใหญ่กว่า1-2[L,U]Y12αpnm12α

ตัวอย่างที่ใช้งานได้จริงกับโซลูชันของ Frequentist

การตั้งค่าเช่นเดียวกับก่อนหน้านี้ แต่เราไม่จำเป็นต้องระบุและ (ไม่มี Priors ในเฟรมเวิร์กบ่อยครั้ง):αβ

n <- 100
k <- 70
m <- 20

ประมาณการจุดจะได้รับตอนนี้ใช้การประมาณการ MLE สำหรับความน่าจะเป็นของความสำเร็จที่ซึ่งผลัดกันนำไปสู่การประมาณการดังต่อไปนี้สำหรับจำนวนของความสำเร็จในการทดลอง:p^=knm

frequentist_point_estimate <- m * k/n #14

สำหรับช่วงเวลาการทำนายขั้นตอนจะแตกต่างกันเล็กน้อย เรามองหาใหญ่ที่สุดเช่นดังนั้นให้คำนวณนิพจน์ด้านบน สำหรับทั้งหมดใน :UPr(Xk|k+U,n,n+m)=H(k;k+U,n,n+m)>αU[0,m]

jvec <- seq(0, m, by = 1)
probabilities <- phyper(k,n,m,k+jvec)

เราจะเห็นได้ว่าใหญ่ที่สุดที่น่าจะเป็นยังคงใหญ่กว่า 0.025 คือU

jvec[which.min(probabilities > 0.025) - 1] # 18

เช่นเดียวกับวิธี Bayesian การคาดการณ์ที่ต่ำกว่าขอบเขตคือจำนวนเต็มที่น้อยที่สุดเช่นดังนั้นP r ( X k | k + L , n , n + m ) = 1 - H ( k - 1 ; k + L , n , n + m ) > αLPr(Xk|k+L,n,n+m)=1H(k1;k+L,n,n+m)>α

probabilities <- 1-phyper(k-1,n,m,k+jvec)
jvec[which.max(probabilities > 0.025) - 1] # 8

ดังนั้น frequentist ของเรา "แน่นอน" ช่วงเวลาการทำนายเป็น[8,18][L,U]=[8,18]

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.