การรับสูตรสำหรับการ จำกัด การทำนายในตัวแบบเชิงเส้น (เช่น: ช่วงการทำนาย)


18

ลองมาตัวอย่างต่อไปนี้:

set.seed(342)
x1 <- runif(100)
x2 <- runif(100)
y <- x1+x2 + 2*x1*x2 + rnorm(100)
fit <- lm(y~x1*x2)

สิ่งนี้สร้างรูปแบบของ y โดยยึดตาม x1 และ x2 โดยใช้การถดถอยแบบ OLS ถ้าเราต้องการที่จะคาดการณ์ปีสำหรับให้ x_vec summary(fit)เราก็สามารถใช้สูตรที่เราได้รับจาก

อย่างไรก็ตามถ้าเราต้องการที่จะทำนายการคาดการณ์ที่ต่ำกว่าและบนของ y? (สำหรับระดับความเชื่อมั่นที่กำหนด)

แล้วเราจะสร้างสูตรได้อย่างไร


ช่วงความเชื่อมั่นในการสังเกตการณ์ใหม่ส่วนหนึ่งของหน้านี้อาจจะช่วยให้
GaBorgulya

@Tal ขออภัย แต่ไม่ชัดเจนสำหรับฉันสิ่งที่คุณหมายถึงจริงโดย "ทำนายการคาดการณ์ที่ต่ำกว่าและบนของ y" มันมีบางอย่างเกี่ยวกับการคาดเดาหรือแถบความอดทนหรือไม่?
chl

@Tal - ข้อความค้นหาสองสามข้อ เมื่อคุณพูดว่า ".. y อิงจาก x1 และ x2 โดยใช้การถดถอยแบบ OLS" คุณหมายความว่าคุณสร้างแบบจำลองเชิงเส้นและประมาณค่าพารามิเตอร์ใช้ OLS ฉันถูกไหม? และคำถามของ @ chl - คุณต้องการคาดการณ์ขอบเขตล่างและบนสำหรับช่วงเวลาการทำนายหรือไม่
suncoolsu

@chl ขอโทษที่ยังไม่ชัดเจน ฉันกำลังมองหาสองสูตรที่จะให้ช่วงเวลาที่จะ "จับ" ค่า "ของจริง" ของ y 95% ของเวลา ฉันรู้สึกว่าฉันกำลังใช้คำจำกัดความของ CI สำหรับความหมายเมื่อมีคำอื่นที่ฉันควรจะใช้ขอโทษด้วย ...
Tal Galili

@suncoolsu - ใช่และใช่
Tal Galili

คำตอบ:


25

คุณจะต้องใช้เลขคณิตเมทริกซ์ ฉันไม่แน่ใจว่า Excel จะไปด้วยอย่างไร อย่างไรก็ตามนี่คือรายละเอียด

สมมติว่าการถดถอยของคุณเขียนเป็น Ey=Xβ+e

ให้เป็นเวกเตอร์แถวที่มีค่าของตัวทำนายสำหรับการคาดการณ์ (ในรูปแบบเดียวกับX ) จากนั้นคาดการณ์จะได้รับโดย Y = X * β = X * ( X ' X ) - 1 X ' Y ที่มีความแปรปรวนที่เกี่ยวข้อง σ 2 [ 1 + X * ( X ' X ) - 1 ( X * ) ' ] .XX

y^=Xβ^=X(XX)1XY
σ2[1+X(XX)1(X)].
จากนั้นช่วงเวลาที่การคาดการณ์ 95% สามารถคำนวณได้ (สมมติว่าข้อผิดพลาดของการกระจายตามปกติ) เป็น ปี ± 1.96 σ สิ่งนี้คำนึงถึงความไม่แน่นอนเนื่องจากคำผิดพลาดeและความไม่แน่นอนในการประมาณค่าสัมประสิทธิ์ แต่ก็จะไม่สนใจข้อผิดพลาดใด ๆ ใน X * ดังนั้นหากค่าในอนาคตของผู้ทำนายไม่แน่นอนช่วงเวลาการทำนายที่คำนวณโดยใช้นิพจน์นี้จะแคบเกินไป
y^±1.96σ^1+X(XX)1(X).
eX

1
+1 คำตอบที่ยอดเยี่ยม ฉันควรทราบว่าตัวแบบการถดถอยนั้นจะประมาณความคาดหวังตามเงื่อนไขเสมอดังนั้นมันจึงเป็นสิ่งที่ดีพอ ๆ กับการถดถอย ดังนั้นความคิดเห็นสุดท้ายถึงแม้ว่าจะดีมากก็ไม่จำเป็นอย่างเคร่งครัดเพราะถ้าคุณสร้างแบบจำลองการถดถอยคุณต้องเชื่อใจผู้ถดถอย
mpiktas

ทำไม 1 ขึ้นมาในสูตร? เรามีY = X * β + X * ( X ' X ) - 1 X 'อี จากนั้นv R Y = V R X * ( X ' X ) - 1 X ' E = σ 2 X * ( X ' X ) - 1 ( X * )y^=Xβ+X(XX)1Xe ? vary^=varX(XX)1Xe=σ2X(XX)1(X)
mpiktas

1 สำหรับช่วงเวลาการทำนาย ปล่อยทิ้งไว้เพื่อความมั่นใจ Var ) ที่เกี่ยวข้องกับช่วงความเชื่อมั่น y^
Rob Hyndman

@ RobHyndman ขอบคุณสำหรับคำตอบที่ยอดเยี่ยมของคุณ (หนึ่งปีที่ผ่านมา;)) แต่ฉันหายไปบางอย่างหรือเป็นคำที่อยู่ในรากที่สอง ? N×N
Seb

@Seb เป็นเวกเตอร์แถวดังนั้นคำนี้คือสเกลาร์ X
Rob Hyndman

7

คุณได้รับโอกาสหลังจากช่วงเวลาการทำนายต่างชนิดกันหรือไม่? predict.lmหน้าคู่มือมี

 ## S3 method for class 'lm'
 predict(object, newdata, se.fit = FALSE, scale = NULL, df = Inf, 
         interval = c("none", "confidence", "prediction"),
         level = 0.95, type = c("response", "terms"),
         terms = NULL, na.action = na.pass,
         pred.var = res.var/weights, weights = 1, ...)

และ

การตั้งค่า 'ช่วงเวลา' ระบุการคำนวณความมั่นใจหรือช่วงเวลาการทำนาย (ความอดทน) ที่ 'ระดับ' ที่ระบุซึ่งบางครั้งเรียกว่าช่วงแคบและกว้าง

นั่นคือสิ่งที่คุณมีในใจ?


สวัสดีเดิร์คนั่นคือสิ่งที่ฉันต้องการจะหา แต่ฉันต้องการให้พันธบัตรส่วนบนและส่วนล่างอยู่ในรูปแบบของสูตร (ดังนั้นในภายหลังจะนำไปใช้ในซอฟต์แวร์เชิงสถิติบางรูปแบบเช่น excel ... )
Tal Galili

ps: ตอนนี้ฉันเห็นว่ามีการแก้ไขชื่อของคำถามของฉันที่อาจทำให้คุณคิดว่าฉันถูกถามเกี่ยวกับพารามิเตอร์ interval.lm (ซึ่งฉันไม่ได้) :)
Tal Galili

8
คุณกำลังใช้คำศัพท์ที่ไม่เหมาะสมที่นี่ Excel ไม่ใช่ซอฟต์แวร์เชิงสถิติ
Dirk Eddelbuettel

1
คุณพูดถูกแล้วการเสนอราคาของฉัน "แอปพลิเคชันสเปรดชีต" เป็นอย่างไร
Tal Galili

3
ฉันสามารถอยู่กับสิ่งนั้นได้ มันเรียกปีศาจโดยใช้ชื่อ ;-)
Dirk Eddelbuettel

6

@Tal: ฉันขอแนะนำให้Kutner et alเป็นแหล่งข้อมูลที่ยอดเยี่ยมสำหรับโมเดลเชิงเส้น

E(Y|Xvec)

E(Y|Xvec)Y^ ±αY^Y^Y^σ2nXvecX¯)2σ2(XiX¯)2


1
(+1) สำหรับการสร้างความแตกต่าง อย่างไรก็ตามฉันเชื่อว่า OP กำลังขอ (1) ไม่ใช่ (2) (และฉันได้แก้ไขชื่อคำถามแล้ว) นอกจากนี้โปรดทราบว่าสูตรของคุณจะถือว่าการถดถอยนั้นขึ้นอยู่กับตัวแปรเดียวเท่านั้น
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.