ความมั่นใจและช่วงการทำนายของตัวแบบการถดถอยเชิงเส้น


9

ตกลงดังนั้นฉันพยายามทำความเข้าใจการถดถอยเชิงเส้น ฉันมีชุดข้อมูลและดูเหมือนว่าจะไม่เป็นไร แต่ฉันก็สับสน นี่คือสรุปโมเดลเชิงเส้นของฉัน:

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 0.2068621  0.0247002   8.375 4.13e-09 ***
temp        0.0031074  0.0004779   6.502 4.79e-07 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Residual standard error: 0.04226 on 28 degrees of freedom
Multiple R-squared: 0.6016, Adjusted R-squared: 0.5874 
F-statistic: 42.28 on 1 and 28 DF,  p-value: 4.789e-07 

ดังนั้น p-value ต่ำมากซึ่งหมายความว่ามันไม่น่าเป็นไปได้ที่จะได้รับความสัมพันธ์ระหว่าง x, y โดยบังเอิญ ถ้าฉันพล็อตมันแล้ววาดเส้นการถดถอยมันมีลักษณะดังนี้: http://s14.directupload.net/images/120923/l83eellv.png (หากเป็นภาพ แต่ฉันเป็น - เป็นผู้ใช้ใหม่ - ปัจจุบันไม่ อนุญาตให้โพสต์ได้) เส้นสีฟ้า = ช่วงความมั่นใจเส้นสีเขียว = ช่วงการทำนาย

ทีนี้ประเด็นหลายข้อไม่ได้ตกอยู่ในช่วงความมั่นใจทำไมถึงเกิดขึ้น? ฉันคิดว่าไม่มีดาต้าพอยน์ใด ๆ ตกอยู่บนเส้นถดถอย b / c พวกเขาอยู่ห่างกันพอสมควร แต่สิ่งที่ฉันไม่แน่ใจ: นี่เป็นปัญหาจริงหรือไม่? พวกเขายังอยู่ใกล้เส้นการถดถอยและคุณสามารถเห็นรูปแบบโดยสิ้นเชิง แต่นั่นก็เพียงพอแล้ว ฉันพยายามที่จะคิดออก แต่ฉันก็แค่ถามตัวเองคำถามเดียวกันซ้ำแล้วซ้ำอีก

สิ่งที่ฉันคิดว่าจนถึงตอนนี้: ช่วงความมั่นใจบอกว่าถ้าคุณคำนวณ CI ซ้ำแล้วซ้ำอีกใน 95% ของค่าเฉลี่ยที่แท้จริงตกอยู่ใน CI ดังนั้น: มันไม่ใช่ปัญหาที่ dp ไม่ตกอยู่ในนั้นเพราะสิ่งเหล่านี้ไม่ใช่วิธีการที่แท้จริง ช่วงเวลาการทำนายในอีกทางหนึ่งกล่าวว่าหากคุณคำนวณ PI ซ้ำแล้วซ้ำอีกใน 95% ของจำนวนครั้งที่มูลค่าที่แท้จริงตกอยู่ในช่วงเวลานั้น ดังนั้นมันค่อนข้างสำคัญที่จะมีคะแนนอยู่ในนั้น (ซึ่งฉันมี) จากนั้นฉันก็อ่าน PI จะต้องมีช่วงกว้างกว่า CI เสมอ ทำไมถึงเป็นอย่างนั้น? นี่คือสิ่งที่ฉันได้ทำ:

conf<-predict(fm, interval=c("confidence"))
prd<-predict(fm, interval=c("prediction"))

แล้วฉันวางแผนโดย:

matlines(temp,conf[,c("lwr","upr")], col="red")
matlines(temp,prd[,c("lwr","upr")], col="red")

ทีนี้ถ้าฉันคำนวณ CI และ PI สำหรับข้อมูลเพิ่มเติมมันไม่สำคัญว่าฉันจะเลือกช่วงกว้างแค่ไหนฉันจะได้บรรทัดเดียวกันตามที่กล่าวมาข้างต้น ฉันไม่เข้าใจ. นั่นหมายความว่าอย่างไร? นี่จะเป็น:

conf<-predict(fm,newdata=data.frame(x=newx), interval=c("confidence"))
prd<-predict(fm,newdata=data.frame(x=newx), interval=c("prediction"))

สำหรับ x ใหม่ฉันเลือกลำดับที่แตกต่างกัน หากลำดับมีข้อสังเกต # ต่างจากตัวแปรในการถดถอยของฉันฉันจะได้รับคำเตือน ทำไมถึงเป็นเช่นนั้น?

คำตอบ:


3

ฉันเข้าใจคำถามของคุณบ้าง แต่คำถามอื่น ๆ ยังไม่ชัดเจน ให้ฉันตอบและระบุข้อเท็จจริงบางอย่างและอาจจะทำให้คุณสับสนได้

ความพอดีที่คุณมีนั้นดีมาก ช่วงความมั่นใจควรแน่นมาก ภูมิภาคความเชื่อมั่นมีสองประเภทที่สามารถพิจารณาได้คือภูมิภาค bsimultanoues ซึ่งมีวัตถุประสงค์เพื่อให้ครอบคลุมฟังก์ชันการถดถอยที่แท้จริงทั้งหมดด้วยระดับความเชื่อมั่นที่กำหนด

ส่วนอื่น ๆ ซึ่งเป็นสิ่งที่คุณกำลังดูคือช่วงความมั่นใจสำหรับจุดถดถอยที่เหมาะสม พวกเขามีวัตถุประสงค์เพื่อให้ครอบคลุมค่าติดตั้งของ y ตามมูลค่าที่กำหนดของ covariate (s) พวกเขาไม่ได้ตั้งใจที่จะครอบคลุมค่า y ที่ค่าอื่น ๆ ของ covariates ในความเป็นจริงถ้าช่วงเวลาแน่นมากเท่าที่ควรในกรณีของคุณพวกเขาจะไม่ครอบคลุมมากถ้าจุดข้อมูลใด ๆ ที่คุณได้รับจากค่าคงที่ของ covariate สำหรับประเภทความคุ้มครองนั้นคุณจะต้องได้รับเส้นโค้งความเชื่อมั่นพร้อมกัน (เส้นโค้งบนและขอบล่าง)

ตอนนี้มันเป็นความจริงที่ว่าถ้าคุณทำนาย ay ตามค่าที่กำหนดของ covariate และคุณต้องการระดับความเชื่อมั่นที่เหมือนกันสำหรับช่วงเวลาการทำนายตามที่คุณใช้สำหรับช่วงความมั่นใจสำหรับ y ที่ค่าที่กำหนดของ covariate ช่วงเวลานั้นจะกว้างขึ้น เหตุผลก็คือโมเดลบอกคุณว่าจะมีการเพิ่มความแปรปรวนเนื่องจาก y ใหม่จะมีข้อผิดพลาดอิสระที่ต้องคำนึงถึงในช่วงเวลานั้น องค์ประกอบข้อผิดพลาดนั้นไม่ได้เข้าสู่การประมาณการตามข้อมูลที่ใช้ในการพอดี


ฉันขอโทษฉันยังไม่ค่อยเข้าใจ คุณอธิบายช่วงความมั่นใจ 2 ประเภท แต่คุณหมายถึงประเภทใดเมื่อคุณพูดว่า "คนที่ฉันกำลังดู" b / c ฉันได้วางแผนทั้งการทำนายและช่วงความมั่นใจและฉันมีปัญหาในการทำความเข้าใจความแตกต่าง นอกจากนี้ผมเพิ่ม R-คำสั่งบางอย่างที่โพสต์ก่อนหน้าของฉันที่จะชี้แจงสิ่งที่ผมได้ทำ
ลิซ่า

เส้นโค้งไม่ทำให้ชัดเจนว่าแถบความเชื่อมั่นนั้นได้มาจากการสร้างเส้นโค้งความเชื่อมั่นพร้อมกันหรือเพียงแค่ทำการเชื่อมต่ออย่างราบรื่นของช่วงความเชื่อมั่นของแต่ละบุคคล หากพวกเขาพร้อมกันคุณจะไม่เห็นจุดเชื่อมต่อมากมายนอกเส้นโค้ง แต่เมื่อฉันชี้ให้เห็นมันอาจเกิดขึ้นกับช่วงเวลาของแต่ละบุคคล ฉันยังไม่ได้ดูการแก้ไขที่มีรหัส R
Michael R. Chernick

ฉันไม่รู้ว่า R ดีพอที่จะตอบคำถามเฉพาะ R สิ่งที่ฉันไม่ทราบว่าผู้เชี่ยวชาญ R สามารถบอกคุณได้ว่าเส้นโค้งความเชื่อมั่นและเส้นโค้งการทำนายกำลังเชื่อมต่อช่วงความเชื่อมั่นของแต่ละบุคคลหรือกำลังสร้างเส้นโค้งพร้อมกัน รหัสของคุณยังทำในสิ่งที่คุณตั้งใจจะทำหรือไม่
Michael R. Chernick
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.