ตกลงดังนั้นฉันพยายามทำความเข้าใจการถดถอยเชิงเส้น ฉันมีชุดข้อมูลและดูเหมือนว่าจะไม่เป็นไร แต่ฉันก็สับสน นี่คือสรุปโมเดลเชิงเส้นของฉัน:
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.2068621 0.0247002 8.375 4.13e-09 ***
temp 0.0031074 0.0004779 6.502 4.79e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.04226 on 28 degrees of freedom
Multiple R-squared: 0.6016, Adjusted R-squared: 0.5874
F-statistic: 42.28 on 1 and 28 DF, p-value: 4.789e-07
ดังนั้น p-value ต่ำมากซึ่งหมายความว่ามันไม่น่าเป็นไปได้ที่จะได้รับความสัมพันธ์ระหว่าง x, y โดยบังเอิญ ถ้าฉันพล็อตมันแล้ววาดเส้นการถดถอยมันมีลักษณะดังนี้: http://s14.directupload.net/images/120923/l83eellv.png (หากเป็นภาพ แต่ฉันเป็น - เป็นผู้ใช้ใหม่ - ปัจจุบันไม่ อนุญาตให้โพสต์ได้) เส้นสีฟ้า = ช่วงความมั่นใจเส้นสีเขียว = ช่วงการทำนาย
ทีนี้ประเด็นหลายข้อไม่ได้ตกอยู่ในช่วงความมั่นใจทำไมถึงเกิดขึ้น? ฉันคิดว่าไม่มีดาต้าพอยน์ใด ๆ ตกอยู่บนเส้นถดถอย b / c พวกเขาอยู่ห่างกันพอสมควร แต่สิ่งที่ฉันไม่แน่ใจ: นี่เป็นปัญหาจริงหรือไม่? พวกเขายังอยู่ใกล้เส้นการถดถอยและคุณสามารถเห็นรูปแบบโดยสิ้นเชิง แต่นั่นก็เพียงพอแล้ว ฉันพยายามที่จะคิดออก แต่ฉันก็แค่ถามตัวเองคำถามเดียวกันซ้ำแล้วซ้ำอีก
สิ่งที่ฉันคิดว่าจนถึงตอนนี้: ช่วงความมั่นใจบอกว่าถ้าคุณคำนวณ CI ซ้ำแล้วซ้ำอีกใน 95% ของค่าเฉลี่ยที่แท้จริงตกอยู่ใน CI ดังนั้น: มันไม่ใช่ปัญหาที่ dp ไม่ตกอยู่ในนั้นเพราะสิ่งเหล่านี้ไม่ใช่วิธีการที่แท้จริง ช่วงเวลาการทำนายในอีกทางหนึ่งกล่าวว่าหากคุณคำนวณ PI ซ้ำแล้วซ้ำอีกใน 95% ของจำนวนครั้งที่มูลค่าที่แท้จริงตกอยู่ในช่วงเวลานั้น ดังนั้นมันค่อนข้างสำคัญที่จะมีคะแนนอยู่ในนั้น (ซึ่งฉันมี) จากนั้นฉันก็อ่าน PI จะต้องมีช่วงกว้างกว่า CI เสมอ ทำไมถึงเป็นอย่างนั้น? นี่คือสิ่งที่ฉันได้ทำ:
conf<-predict(fm, interval=c("confidence"))
prd<-predict(fm, interval=c("prediction"))
แล้วฉันวางแผนโดย:
matlines(temp,conf[,c("lwr","upr")], col="red")
matlines(temp,prd[,c("lwr","upr")], col="red")
ทีนี้ถ้าฉันคำนวณ CI และ PI สำหรับข้อมูลเพิ่มเติมมันไม่สำคัญว่าฉันจะเลือกช่วงกว้างแค่ไหนฉันจะได้บรรทัดเดียวกันตามที่กล่าวมาข้างต้น ฉันไม่เข้าใจ. นั่นหมายความว่าอย่างไร? นี่จะเป็น:
conf<-predict(fm,newdata=data.frame(x=newx), interval=c("confidence"))
prd<-predict(fm,newdata=data.frame(x=newx), interval=c("prediction"))
สำหรับ x ใหม่ฉันเลือกลำดับที่แตกต่างกัน หากลำดับมีข้อสังเกต # ต่างจากตัวแปรในการถดถอยของฉันฉันจะได้รับคำเตือน ทำไมถึงเป็นเช่นนั้น?