เหตุใดช่วงเวลาที่น่าเชื่อถือของเบย์ในการถดถอยพหุนามนี้จึงเอนเอียงในขณะที่ช่วงความเชื่อมั่นนั้นถูกต้อง


9

พิจารณาพล็อตด้านล่างที่ฉันจำลองข้อมูลดังนี้ เราดูผลลัพธ์แบบไบนารีซึ่งความน่าจะเป็นที่แท้จริงที่จะเป็น 1 ถูกระบุด้วยเส้นสีดำ ความสัมพันธ์การทำงานระหว่าง covariateและคือพหุนามลำดับที่ 3 ที่มีลิงค์โลจิสติก (ดังนั้นจึงไม่ใช่เชิงเส้นในสองทาง)Yโอsxพี(Yโอs=1|x)

เส้นสีเขียวคือการถดถอยโลจิสติก GLM โดยที่ถูกนำมาใช้เป็นพหุนามลำดับที่ 3 เส้นสีเขียวประคือช่วงความมั่นใจ 95% รอบการคาดการณ์โดยที่สัมประสิทธิ์การถดถอยที่พอดี ฉันใช้และสำหรับสิ่งนี้xพี(Yโอs=1|x,β^)β^R glmpredict.glm

บรรทัด pruple เป็นค่าเฉลี่ยของช่วงหลังที่น่าเชื่อถือ 95% สำหรับของแบบจำลองการถดถอยโลจิสติกแบบเบย์โดยใช้เครื่องแบบก่อนหน้า ฉันใช้แพคเกจพร้อมฟังก์ชั่นสำหรับสิ่งนี้ (การตั้งค่าให้ความรู้เบื้องต้นที่ไม่เหมือนกันมาก่อน)พี(Yโอs=1|x,β)MCMCpackMCMClogitB0=0

จุดสีแดงหมายถึงการสังเกตในชุดข้อมูลที่ , จุดสีดำมีข้อสังเกตกับ 0 โปรดทราบว่าเป็นเรื่องธรรมดาในการจัดหมวดหมู่ / การวิเคราะห์ต่อเนื่องแต่ไม่เป็นที่สังเกตYโอs=1Yโอs=0Yพี(Yโอs=1|x)

ป้อนคำอธิบายรูปภาพที่นี่

สามารถเห็นได้หลายสิ่ง:

  1. ฉันจำลองจุดประสงค์ว่ากระจัดกระจายบนมือซ้าย ฉันต้องการความมั่นใจและความน่าเชื่อถือในช่วงเวลาที่กว้างเนื่องจากขาดข้อมูล (การสังเกต)x
  2. การคาดการณ์ทั้งสองจะเอนเอียงขึ้นด้านซ้าย ความเอนเอียงนี้เกิดจากจุดสีแดงทั้งสี่ที่แสดงถึงการสังเกตซึ่งเป็นการชี้ให้เห็นอย่างผิด ๆ ว่ารูปแบบการใช้งานจริงจะขึ้นไปที่นี่ อัลกอริทึมมีข้อมูลไม่เพียงพอที่จะสรุปว่ารูปแบบการทำงานที่แท้จริงนั้นโค้งงอลงYโอs=1
  3. ช่วงความเชื่อมั่นได้รับในวงกว้างตามที่คาดไว้ในขณะที่ช่วงเวลาที่น่าเชื่อถือไม่ได้ ในความเป็นจริงช่วงความมั่นใจปิดล้อมพื้นที่พารามิเตอร์ทั้งหมดตามที่ควรเนื่องจากขาดข้อมูล

ดูเหมือนว่าช่วงเวลาที่มีความน่าเชื่อถือเป็นสิ่งที่ผิด / แง่ดีเกินไปที่นี่เพื่อเป็นส่วนหนึ่งของxมันเป็นพฤติกรรมที่ไม่พึงประสงค์จริงๆสำหรับช่วงเวลาที่น่าเชื่อถือเพื่อให้แคบลงเมื่อข้อมูลเบาบางหรือขาดหายไปอย่างสมบูรณ์ โดยปกติแล้วนี่ไม่ใช่วิธีที่ช่วงเวลาที่น่าเชื่อถือตอบสนอง ใครสามารถอธิบาย:x

  1. อะไรคือสาเหตุของสิ่งนี้
  2. ฉันสามารถทำตามขั้นตอนใดบ้างเพื่อให้ช่วงเวลาที่น่าเชื่อถือดีขึ้น (นั่นคือหนึ่งที่ล้อมรอบอย่างน้อยรูปแบบการทำงานจริงหรือดีกว่าได้รับกว้างเท่ากับช่วงความเชื่อมั่น)

รหัสที่จะได้รับช่วงเวลาการทำนายในภาพกราฟิกจะถูกพิมพ์ที่นี่:

fit <- glm(y_obs ~ x + I(x^2) + I(x^3), data=data, family=binomial)
x_pred <- seq(0, 1, by=0.01)
pred <- predict(fit, newdata = data.frame(x=x_pred), se.fit = T)
plot(plogis(pred$fit), type='l')
matlines(plogis(pred$fit + pred$se.fit %o% c(-1.96,1.96)), type='l', col='black', lty=2)


library(MCMCpack)
mcmcfit <- MCMClogit(y_obs ~ x + I(x^2) + I(x^3), data=data, family=binomial)
gibbs_samps <- as.mcmc(mcmcfit)
x_pred_dm <- model.matrix(~ x + I(x^2) + I(x^3), data=data.frame('x'=x_pred))
gibbs_preds <- apply(gibbs_samps, 1, `%*%`, t(x_pred_dm))
gibbs_pis <- plogis(apply(gibbs_preds, 1, quantile, c(0.025, 0.975)))
matlines(t(gibbs_pis), col='red', lty=2)

การ เข้าถึงข้อมูล : https://pastebin.com/1H2iXiew ขอบคุณ @DeltaIV และ @AdamO


หากใครบางคนสามารถอธิบายวิธีแบ่งปันตารางกับข้อมูลให้ฉันได้ฉันสามารถทำได้
tomka

คุณสามารถใช้dputใน dataframe ที่มีข้อมูลและรวมdputเอาท์พุทเป็นรหัสในโพสต์ของคุณ
DeltaIV

1
@ Tomka โอ้ฉันเห็น ฉันไม่ใช่คนตาบอดสี แต่มันยากสำหรับฉันที่จะเห็นความแตกต่างสีเขียว / น้ำเงิน!
AdamO

1
@AdamO หวังว่านี้จะดีกว่า
Tomka

1
@Flounderer ตรวจสอบเช่นstats.stackexchange.com/questions/26450/…หรือstats.stackexchange.com/questions/6652/…
ทิม

คำตอบ:


6

สำหรับรูปแบบการ frequentist ความแปรปรวนของ magnifies ทำนายในสัดส่วนที่สองของระยะทางจากเซนทรอยด์ของXวิธีการของคุณในการคำนวณช่วงการทำนายสำหรับ Bayesian GLM ใช้ปริมาณเชิงประจักษ์ตามเส้นโค้งความน่าจะเป็นที่ได้รับการติดตั้ง แต่ไม่ได้คำนึงถึงการใช้ประโยชน์ของXX

Binomial GLM ที่ใช้งานบ่อยไม่แตกต่างจาก GLM ที่มีลิงค์ประจำตัวยกเว้นว่าค่าความแปรปรวนเป็นสัดส่วนกับค่าเฉลี่ย

โปรดทราบว่าการแทนพหุนามของความน่าจะเป็นของ logit นำไปสู่การคาดการณ์ความเสี่ยงที่มาบรรจบกันเป็น 0 X- และ 1 เป็น Xหรือในทางกลับกันขึ้นอยู่กับสัญญาณของคำสั่งซื้อพหุนามสูงสุด

สำหรับการทำนายบ่อยครั้งการเบี่ยงเบนกำลังสอง (ระดับการใช้ประโยชน์) เพิ่มขึ้นตามสัดส่วนในความแปรปรวนของการทำนายครองแนวโน้มนี้ นี่คือเหตุผลที่อัตราการลู่เข้าสู่ช่วงการคาดคะเนโดยประมาณเท่ากับ [0, 1] เร็วกว่าการลู่เข้าสู่พหุนามลำดับที่สามที่มีความน่าจะเป็นที่ 0 หรือ 1 อย่างเดียว

นี่ไม่ใช่สำหรับควอไทล์หลังติดตั้งควอไทล์ ไม่มีการใช้การเบี่ยงเบนกำลังสองอย่างชัดเจนดังนั้นเราพึ่งพาเพียงสัดส่วนของการครอบครองแนวโน้ม 0 หรือ 1 เพื่อสร้างช่วงการทำนายระยะยาว

เรื่องนี้ทำให้เห็นได้ชัดโดยการคาดการณ์ไกลมากในสุดขั้วของ X.

ใช้รหัสที่ฉันให้ไว้ข้างต้นเราได้รับ:

> x_pred_dom <- model.matrix(~ x + I(x^2) + I(x^3), data=data.frame('x'=c(1000)))
> gibbs_preds <- plogis(apply(gibbs_samps[1000:10000, ], 1, `%*%`, t(x_pred_dom))) # a bunch of 0/1s basically past machine precision
> prop.table(table(gibbs_preds))
gibbs_preds
         0          1 
0.97733585 0.02266415 
> 

ดังนั้น 97.75% ของเวลา, พหุนามที่สามเป็นลบ นี่คือการตรวจสอบจากตัวอย่างกิ๊บส์:

> prop.table(table(gibbs_samps[, 4]< 0))

 FALSE   TRUE 
0.0225 0.9775 

ดังนั้นความน่าจะเป็นที่คาดการณ์มาถึง 0 เป็น Xไปที่อินฟินิตี้ หากเราตรวจสอบโมเดล SEs ของแบบเบย์เราจะพบการประมาณค่าพหุนามระยะที่สามคือ -185.25 โดยมี 108.81 หมายถึง 108.81 หมายถึง 1.70 SDs จาก 0 ดังนั้นใช้กฎความน่าจะเป็นปกติมันควรจะต่ำกว่า 0 95.5% ของเวลา ( ไม่แตกต่างกันอย่างมากจากการคาดการณ์ 10,000 ซ้ำ) อีกวิธีหนึ่งในการทำความเข้าใจปรากฏการณ์นี้

ในทางกลับกันการสวมใส่เป็นประจำจะเพิ่มขึ้นถึง 0,1 ตามที่คาดไว้:

freq <- predict(fit, newdata = data.frame(x=1000), se.fit=T)
plogis(freq$fit + c(-1.96, 1.96) %o% freq$se.fit)

ให้:

> plogis(freq$fit + c(-1.96, 1.96) %o% freq$se.fit)
     [,1]
[1,]    0
[2,]    1

อย่างไรก็ตาม: ไม่ใช่โมเดลของ Bayesian ที่มีความมั่นใจในด้านข้อมูล xที่มันไม่เห็นตัวอย่างจาก? ฉันรู้ว่าผู้โพสต์แบบเบย์หรือการกระจายการทำนายมักจะมีพฤติกรรมที่แตกต่างกันมาก (เช่นช่วงเวลา conf.) ฉันสงสัยว่าจะมีผลกระทบจากก่อนหน้านี้บ้าง หากคุณจัดการB0ในMCMClogitคุณระบุความแม่นยำของการก่อนที่ปกติและสามารถสังเกตค่อนข้างส่งผลกระทบต่อช่วงที่น่าเชื่อถือ
tomka

@ ทอมก้าฉันไม่รู้ว่าจะตอบอย่างไรอย่างนั้นเพราะมันดูเหมือนกับคำถามในมือ สิ่งที่สำคัญที่สุดคือชี้ให้เห็นว่าวิธีการคำนวณ PIs เหล่านี้ไม่สามารถเทียบเคียงได้โดยเฉพาะอย่างยิ่งเมื่อเกี่ยวข้องกับการคาดการณ์ แน่นอนว่าด้วยการอนุมานแบบเบย์หากคุณใช้ข้อมูลมาก่อนคุณจะได้รับประสิทธิภาพเมื่อสิ่งนั้นถูกต้องและเสียไปเมื่อสิ่งที่กล่าวมาผิด
AdamO

เพียงเพื่อให้คุณรู้ว่าฉันยังคิดเกี่ยวกับคำตอบของคุณ ฉันยังรู้สึกว่ามันแปลกที่คนหลังไม่ตอบสนองต่อ sparsity ด้วยการขยับขยาย ฉันเชื่อว่าสำหรับนักบวชคนอื่น ๆ จะมีพฤติกรรมที่ดีขึ้นในพื้นที่ห่างไกล ฉันไม่สามารถตรึงสิ่งนี้ลงได้ในขณะนี้ ฉันอาจจะปรับปรุงคำถามด้วยตัวอย่างที่ช่วงเวลาที่น่าเชื่อถือทำงานในแบบที่ฉันคาดหวังแม้ในกรณีของการคาดการณ์ (ฉันกำลังคิดถึงการถดถอยเชิงเส้นแบบเบย์แบบธรรมดาโดยเฉพาะ) เมื่อใดฉันจะแจ้งให้คุณทราบ
tomka
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.