ช่วงการคาดการณ์สำหรับสัดส่วนความสำเร็จในอนาคตภายใต้การตั้งค่าแบบทวินาม


9

สมมติว่าฉันพอดีกับการถดถอยแบบทวินามและได้รับการประเมินจุดและเมทริกซ์ความแปรปรวนร่วม - ความแปรปรวนร่วมของสัมประสิทธิ์การถดถอย นั่นจะทำให้ฉันได้ CI สำหรับสัดส่วนที่คาดหวังของความสำเร็จในการทดลองในอนาคต, , แต่ฉันต้องการ CI สำหรับสัดส่วนที่สังเกตได้ มีคำตอบที่เกี่ยวข้องสองสามข้อที่โพสต์รวมถึงการจำลอง (สมมติว่าฉันไม่ต้องการทำเช่นนั้น) และลิงก์ไปยัง Krishnamoorthya et al (ซึ่งไม่ค่อยตอบคำถามของฉัน)p

เหตุผลของฉันมีดังนี้: ถ้าเราใช้แค่แบบจำลอง Binomial เราถูกบังคับให้สมมติว่าถูกสุ่มตัวอย่างจากการแจกแจงแบบปกติ (ด้วย Wald CI ที่สอดคล้องกัน) และดังนั้นจึงเป็นไปไม่ได้ที่จะได้รับ CI สำหรับสัดส่วนที่สังเกตได้ในรูปแบบปิด หากเราสมมติว่าถูกสุ่มตัวอย่างจากการแจกแจงแบบเบต้าแล้วสิ่งต่างๆนั้นง่ายกว่ามากเนื่องจากการนับความสำเร็จจะเป็นไปตามการกระจายแบบเบต้า - ทวินาม เราก็จะต้องคิดว่ามีความไม่แน่นอนในพารามิเตอร์เบต้าประมาณไม่มีและ\ppαβ

มีสามคำถาม:

1) ทฤษฎีหนึ่ง: คุณสามารถใช้การประมาณค่าพารามิเตอร์เบต้าหรือไม่ ฉันรู้ว่าการสร้าง CI สำหรับการสังเกตในอนาคตในการถดถอยเชิงเส้นหลาย

Y=xβ+ϵ,ϵN(0,σ2)

พวกเขาทำอย่างนั้นแปรปรวนระยะผิดพลาด WRT, 2 ฉันรับมันไป (แก้ไขให้ฉันถ้าฉันทำผิด) ว่าเหตุผลคือในทางปฏิบัติคาดว่ามีความแม่นยำมากกว่าค่าสัมประสิทธิ์การถดถอยและเราจะไม่ได้รับมากนักโดยพยายามรวมความไม่แน่นอนของ . การให้เหตุผลที่คล้ายคลึงกันนี้ใช้กับพารามิเตอร์เบต้าโดยประมาณและหรือไม่σ2σ2σ2αβ

2) แพ็คเกจไหนดีกว่า (R: gamlss-bb, betareg, aod?; นอกจากนี้ฉันยังสามารถเข้าถึง SAS)

3) กำหนดพารามิเตอร์เบต้าโดยประมาณมีทางลัด (โดยประมาณ) ในการรับปริมาณ (2.5%, 97.5%) สำหรับการนับจำนวนความสำเร็จในอนาคตหรือดีกว่าสำหรับสัดส่วนของความสำเร็จในอนาคตภายใต้การกระจายเบต้า - ทวินาม


ในคำถามข้อหนึ่งใช่นี่เป็นสิ่งที่ถูกต้องที่คนทำเรียกว่า Empirical Bayes: en.wikipedia.org/wiki/Empirical_Bayes_method
Paul

1
ฉันไม่คิดว่าการใช้วิธี XYZ ในการประมาณค่าพารามิเตอร์โมเดลสามารถบอกเป็นนัยได้ว่าจะไม่สนใจความไม่แน่นอนของการประมาณค่าเมื่อสร้าง CI สำหรับการสังเกตในอนาคต เช่นในการถดถอยเชิงเส้นหลายครั้งพวกเขาใช้ OLS แทน EB และความไม่แน่นอนในก็ถูกละเว้นเช่นกัน ทำไมถึงเป็นอย่างนั้น? นอกจากนี้บทความ Wiki ไม่เคยแนะนำว่าใน EB ความแม่นยำของการประมาณค่าพารามิเตอร์ระดับสูงมักจะสูงกว่ามากจนสามารถพิจารณาแก้ไขเพื่อการใช้งานจริงได้ σ
James

1
“ เมื่อการแจกแจงที่แท้จริงแหลมอย่างแหลมคมอินทิกรัลหาอาจไม่เปลี่ยนแปลงมากนักโดยแทนที่การกระจายความน่าจะเป็นเหนือด้วยการประมาณจุดแทน จุดสูงสุดของการกระจาย” ไม่ว่าจะเป็นจริงในกรณีของคุณขึ้นอยู่กับเฉพาะของโดเมนปัญหาของคุณ p(ηy)p(θy)ηη
Paul

2
คำถามที่ดี! คุณไม่สามารถรับเดือย แต่สิ่งที่เกี่ยวกับการใช้ความน่าจะเป็นของโปรไฟล์? ดูมีวิธีการใดที่ไม่ใช่แบบเบย์สำหรับการอนุมานเชิงคาดการณ์ .
Scortchi - Reinstate Monica

คำตอบ:


1

ฉันจะตอบคำถามทั้งสามข้อ

มีสองประเด็นที่ถูกรวมกันอย่างแรกคือวิธีที่คุณใช้เพื่อให้เหมาะสมกับตัวแบบการถดถอยในกรณีนี้ วิธีที่สองคือวิธีประมาณช่วงเวลาจากการประมาณของคุณเพื่อคาดการณ์การประมาณการใหม่

หากตัวแปรการตอบสนองของคุณมีการกระจายแบบทวินามคุณมักจะใช้การถดถอยแบบโลจิสติกหรือการถดถอยแบบโปรบิต (glm ที่มี cdf ปกติเป็นฟังก์ชันลิงก์)

ถ้าคุณทำถดถอยโลจิสติกใช้เวลาการตอบสนองจะเป็นอัตราส่วนของจำนวนการสังเกตโดยแบ่งเป็นที่รู้จักขอบเขตบนคือy_iจากนั้นนำตัวทำนายของคุณ / โควาเรียแล้วใส่ลงในการเรียก R ของคุณไปยังฟังก์ชัน glm วัตถุที่ส่งคืนมีทุกสิ่งที่คุณต้องการในการคำนวณที่เหลือ yi/ni

x<- rnorm(100, sd=2)
prob_true <- 1/(1+exp(-(1+5*x)))
counts <- rbinom(100, 50,prob_true)
print(d.AD <- data.frame(counts,x))
glm.D93 <- glm(counts/50 ~ x, family = binomial() )

สำหรับโมเดลการถดถอยเชิงเส้นสูตรสำหรับช่วงเวลาการทำนายคือ:

y^i±tnpsy1+1n+(xix¯)2(n1)sx2

คุณสามารถใช้โมเดลการถดถอยเชิงเส้นเป็นค่าประมาณสำหรับ glm เมื่อต้องการทำเช่นนี้คุณจะใช้สูตรการถดถอยเชิงเส้นสำหรับการผสมเชิงเส้นของตัวทำนายก่อนที่คุณจะทำการแปลงลิงค์ผกผันเพื่อให้ได้ความน่าจะเป็นกลับมาในระดับ 0-1 โค้ดที่ใช้ในการทำเช่นนี้จะถูกนำไปอบเข้าไปในฟังก์ชัน guess.glm () R นี่คือตัวอย่างโค้ดที่จะทำการพล็อตที่ดี ( แก้ไข : รหัสนี้ใช้สำหรับช่วงความมั่นใจไม่ใช่สำหรับช่วงการคาดการณ์)

y_hat <- predict(glm.D93, type="link", se.fit=TRUE)
t_np<- qt(.975, 100-2, ncp=0)

ub <- y_hat$fit + t_np * y_hat$se.fit
lb <- y_hat$fit - t_np * y_hat$se.fit

point <- y_hat$fit

p_hat <- glm.D93$family$linkinv(point)
p_hat_lb <- glm.D93$family$linkinv(lb)
p_hat_ub <- glm.D93$family$linkinv(ub)

plot(x,p_hat)
points(x, p_hat_ub, col='red')
points(x, p_hat_lb, col='blue')

คุณสามารถทำสิ่งเดียวกันสำหรับ glm ใด ๆ เช่นปัวซอง, อินเวอร์สเกาส์เซียน, แกมม่า ฯลฯ ในแต่ละกรณีทำการทำนายช่วงเวลาในสเกลของการรวมเชิงเส้นของตัวทำนายผล หลังจากคุณได้รับจุดสิ้นสุดสองจุดของช่วงเวลาการทำนายคุณจะแปลงจุดสิ้นสุดเหล่านี้ผ่านลิงก์ผกผัน สำหรับแต่ละ glms ที่ฉันกล่าวถึงลิงค์ผกผันอาจแตกต่างจากกรณี logit ฉันเขียนที่นี่ หวังว่านี่จะช่วยได้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.