จะคำนวณช่วงความมั่นใจของการสกัดกั้น x ในการถดถอยเชิงเส้นได้อย่างไร?


9

เนื่องจากข้อผิดพลาดมาตรฐานของการถดถอยเชิงเส้นมักจะได้รับสำหรับตัวแปรตอบสนองฉันสงสัยว่าจะได้รับช่วงความมั่นใจในทิศทางอื่นได้อย่างไร - เช่นการสกัดกั้น x ฉันสามารถเห็นภาพว่ามันอาจจะเป็นอะไร แต่ฉันแน่ใจว่าต้องมีวิธีที่ตรงไปตรงมาในการทำเช่นนี้ ด้านล่างเป็นตัวอย่างใน R ของวิธีการเห็นภาพนี้:

set.seed(1)
x <- 1:10
a <- 20
b <- -2
y <- a + b*x + rnorm(length(x), mean=0, sd=1)

fit <- lm(y ~ x)
XINT <- -coef(fit)[1]/coef(fit)[2]

plot(y ~ x, xlim=c(0, XINT*1.1), ylim=c(-2,max(y)))
abline(h=0, lty=2, col=8); abline(fit, col=2)
points(XINT, 0, col=4, pch=4)
newdat <- data.frame(x=seq(-2,12,len=1000))

# CI
pred <- predict(fit, newdata=newdat, se.fit = TRUE) 
newdat$yplus <-pred$fit + 1.96*pred$se.fit 
newdat$yminus <-pred$fit - 1.96*pred$se.fit 
lines(yplus ~ x, newdat, col=2, lty=2)
lines(yminus ~ x, newdat, col=2, lty=2)

# approximate CI of XINT
lwr <- newdat$x[which.min((newdat$yminus-0)^2)]
upr <- newdat$x[which.min((newdat$yplus-0)^2)]
abline(v=c(lwr, upr), lty=3, col=4)

ป้อนคำอธิบายรูปภาพที่นี่


1
library(boot); sims <- boot(data.frame(x, y), function(d, i) { fit <- lm(y ~ x, data = d[i,]) -coef(fit)[1]/coef(fit)[2] }, R = 1e4); points(quantile(sims$t, c(0.025, 0.975)), c(0, 0))คุณสามารถบูตนี้: สำหรับช่วงเวลาการทำนายผกผันไฟล์ช่วยเหลือของchemCal:::inverse.predictการอ้างอิงต่อไปนี้ซึ่งอาจช่วยให้ได้รับ CI: Massart, LM, Vandenginste, BGM, Buydens, LMC, De Jong, S. , Lewi, PJ, Smeyers-Verbeke, J. (1997 ) คู่มือเคมีและคุณสมบัติ: ส่วน A, p 200
Roland

1
สิ่งที่คุณแสดงในกราฟไม่ใช่ CI สำหรับการสกัดกั้น คุณแสดงจุดที่เส้นความเชื่อมั่นต่ำและสูงของการทำนายข้ามแกน
Roland

1
บ่อยครั้งที่การถดถอยเชิงเส้นมีรูปแบบที่บอกว่าสิ่งนี้:เพื่อให้ s เป็นแบบสุ่มและ s เป็นค่าคงที่ ที่อาจจะมีความชอบธรรมด้วยการบอกว่าคุณกำลังมองหาการกระจายตามเงื่อนไขที่กำหนด s ในทางปฏิบัติถ้าคุณใช้ตัวอย่างใหม่ก็มักจะไม่ได้เป็นเพียง s แต่ยัง s การเปลี่ยนแปลงที่แนะนำในบางสถานการณ์ที่พวกเขาควรได้รับการพิจารณาแบบสุ่ม ฉันสงสัยว่าสิ่งนี้จะขึ้นอยู่กับความเหมาะสมของ
Yผม=α+βxผม+εผมที่ไหน ε1,...εn~IID ยังไม่มีข้อความ(0,σ2),
YxxYx...
Michael Hardy


1
@AdrienRenaud - สำหรับฉันดูเหมือนว่าคำตอบของคุณจะง่ายเกินไปเนื่องจากลักษณะที่ไม่สมมาตรที่ฉันพูดถึง หากฉันไม่ได้ขอมากเกินไปคุณอาจขยายความเป็นไปได้ที่คุณพูดถึง
Marc ในกล่อง

คำตอบ:


9

จะคำนวณช่วงความมั่นใจของการสกัดกั้น x ในการถดถอยเชิงเส้นได้อย่างไร?

Asumptions

  • ใช้โมเดลการถดถอยอย่างง่าย Yผม=α+βxผม+εผม.
  • ข้อผิดพลาดมีการแจกแจงแบบปกติแบบมีเงื่อนไขบน regressors ε|X~ยังไม่มีข้อความ(0,σ2ผมn)
  • พอดีกับการใช้กำลังสองน้อยที่สุดธรรมดา

3 ขั้นตอนการคำนวณช่วงความมั่นใจในการสกัดกั้น x

คำสั่งแรกของการขยายตัวของเทย์เลอร์

แบบจำลองของคุณคือ Y=aX+ มีค่าเบี่ยงเบนมาตรฐานโดยประมาณ σa และ σ บน a และ พารามิเตอร์และความแปรปรวนร่วมโดยประมาณ σa. คุณแก้ปัญหา

aX+=0X=-a.

จากนั้นค่าเบี่ยงเบนมาตรฐาน σX บน X มอบให้โดย:

(σXX)2=(σ)2+(σaa)2-2σaa.

MIB

ดูรหัสจาก Marc ในกล่องที่วิธีการคำนวณช่วงความมั่นใจของการสกัดกั้น x ในการถดถอยเชิงเส้น .

Capitani-POLLASTRI

CAPITANI-POLLASTRI จัดให้มีฟังก์ชันการแจกแจงสะสมและฟังก์ชันความหนาแน่นสำหรับอัตราส่วนของตัวแปรสุ่มปกติที่สัมพันธ์กันสองตัว มันสามารถใช้ในการคำนวณช่วงความเชื่อมั่นของการสกัดกั้น x ในการถดถอยเชิงเส้น ขั้นตอนนี้ให้ผลลัพธ์ที่เหมือนกันเกือบ (กับ) จาก MIB

อันที่จริงแล้วการใช้กำลังสองน้อยที่สุดธรรมดาและสมมติว่าปกติเป็นข้อผิดพลาด β^~ยังไม่มีข้อความ(β,σ2(XTX)-1) (ยืนยันแล้ว) และ β^มีความสัมพันธ์ (ตรวจสอบแล้ว)

กระบวนการดังต่อไปนี้:

  • รับตัวประมาณ OLS สำหรับ a และ .
  • รับค่าความแปรปรวนร่วมและความแปรปรวนร่วม, แยก σa,σ,σa=ρσaσ.
  • สมมติว่า a และ ติดตามการแจกแจงแบบปกติ Bivariate ที่สัมพันธ์กัน ยังไม่มีข้อความ(a,,σa,σ,ρ). จากนั้นฟังก์ชันความหนาแน่นและฟังก์ชันการแจกแจงสะสมของxผมnเสื้ออีRอีพีเสื้อ=-a ได้รับจาก CAPITANI-POLLASTRI
  • ใช้ฟังก์ชันการแจกแจงสะสมของ xผมnเสื้ออีRอีพีเสื้อ=-a เพื่อคำนวณปริมาณที่ต้องการและกำหนดช่วงเวลาการเกิด

การเปรียบเทียบ 3 ขั้นตอน

กระบวนการเปรียบเทียบโดยใช้การกำหนดค่าข้อมูลต่อไปนี้:

  • x <- 1:10
  • a <- 20
  • b <- -2
  • y <- a + b * x + rnorm (length (x), mean = 0, sd = 1)

มีการสร้างและวิเคราะห์ตัวอย่างที่แตกต่างกัน 10,000 ตัวอย่างโดยใช้วิธีการ 3 วิธี รหัส (R) ที่ใช้สร้างและวิเคราะห์สามารถดูได้ที่: https://github.com/adrienrenaud/stackExchange/blob/master/crossValidated/q221630/answer.ipynb

  • MIB และ CAPITANI-POLLASTRI ให้ผลลัพธ์ที่เท่าเทียมกัน
  • อันดับแรกการขยายตัวของเทย์เลอร์แตกต่างอย่างมีนัยสำคัญจากสองวิธีอื่น
  • MIB และ CAPITANI-POLLASTRI ได้รับความเดือดร้อนจากความไม่ครอบคลุม พบว่า 68% (95%) ci มีค่าจริง 63% (92%) ของเวลา
  • การสั่งซื้อครั้งแรกของการขยายตัวเทย์เลอร์ทนทุกข์ทรมานจากการครอบคลุมมากเกินไป พบว่า 68% (95%) ci มีค่าจริง 87% (99%) ของเวลา

สรุปผลการวิจัย

การแจกแจง x-intercept นั้นไม่สมมาตร มันปรับช่วงความเชื่อมั่นที่ไม่สมมาตร MIB และ CAPITANI-POLLASTRI ให้ผลลัพธ์ที่เท่าเทียมกัน CAPITANI-POLLASTRI มีเหตุผลทางทฤษฎีที่ดีและให้เหตุผลสำหรับ MIB MIB และ CAPITANI-POLLASTRI ได้รับความเดือดร้อนจากการได้รับความคุ้มครองในระดับปานกลางและสามารถใช้เพื่อกำหนดช่วงความมั่นใจ


ขอบคุณสำหรับคำตอบที่ดีนี้ วิธีนี้หมายความว่าข้อผิดพลาดมาตรฐานของการสกัดกั้น x นั้นสมมาตรหรือไม่? ช่วงเวลาการทำนายในรูปของฉันบ่งบอกว่านี่ไม่ใช่กรณีและฉันได้เห็นการอ้างอิงถึงที่อื่น
Marc ในกล่อง

ใช่มันบ่งบอกถึงช่วงเวลาที่สมมาตร หากคุณต้องการแบบไม่สมมาตรคุณสามารถใช้ความเป็นไปได้ของโพรไฟล์ในการรักษาพารามิเตอร์โมเดลของคุณเป็นพารามิเตอร์ที่สร้างความรำคาญ แต่มันเป็นเรื่องการทำงานมากขึ้น :)
Adrien Renaud

คุณช่วยอธิบายรายละเอียดเพิ่มเติมเกี่ยวกับวิธีรับนิพจน์นั้นได้อย่างไร (σX/X)2?

@fcop มันคือการขยายตัวของเทย์เลอร์ ลองดูที่en.wikipedia.org/wiki/Propagation_of_uncertainty
Adrien Renaud

2

ฉันอยากจะแนะนำ bootstrapping the residual:

library(boot)

set.seed(42)
sims <- boot(residuals(fit), function(r, i, d = data.frame(x, y), yhat = fitted(fit)) {

  d$y <- yhat + r[i]

  fitb <- lm(y ~ x, data = d)

  -coef(fitb)[1]/coef(fitb)[2]
}, R = 1e4)
lines(quantile(sims$t, c(0.025, 0.975)), c(0, 0), col = "blue")

พล็อตที่เกิด

สิ่งที่คุณแสดงในกราฟคือจุดที่ขีด จำกัด ล่าง / บนของวงความเชื่อมั่นของการทำนายข้ามแกน ฉันไม่คิดว่าสิ่งเหล่านี้เป็นข้อจำกัดความเชื่อมั่นของการสกัดกั้น แต่อาจจะเป็นการประมาณคร่าวๆ


เยี่ยมมาก - สิ่งนี้ดูสมเหตุสมผลกว่าตัวอย่างจากความคิดเห็นของคุณ ขอบคุณอีกครั้ง.
Marc ในกล่อง
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.