ฉันอยากจะรู้ว่ามันเหมาะสมหรือไม่ที่จะศึกษาพล็อตเรื่องที่เกี่ยวข้องกับตัวแปรตามเมื่อฉันมีการถดถอยแบบไม่แปร ถ้ามันสมเหตุสมผลแล้วความสัมพันธ์เชิงเส้นแรงการเติบโตที่เพิ่มขึ้นระหว่างส่วนที่เหลือ (บนแกน y) และค่าประมาณของตัวแปรตาม (บนแกน x) คืออะไร?
ฉันอยากจะรู้ว่ามันเหมาะสมหรือไม่ที่จะศึกษาพล็อตเรื่องที่เกี่ยวข้องกับตัวแปรตามเมื่อฉันมีการถดถอยแบบไม่แปร ถ้ามันสมเหตุสมผลแล้วความสัมพันธ์เชิงเส้นแรงการเติบโตที่เพิ่มขึ้นระหว่างส่วนที่เหลือ (บนแกน y) และค่าประมาณของตัวแปรตาม (บนแกน x) คืออะไร?
คำตอบ:
สมมติว่าคุณมีการถดถอยที่0 จากนั้น\ ยิ่งค่าสูงเท่าใดก็จะยิ่งตกค้างมากขึ้นเท่านั้น ในทางกลับกันพล็อตของส่วนที่เหลือต่อไม่ควรแสดงความสัมพันธ์อย่างเป็นระบบ นอกจากนี้ค่าที่คาดการณ์ควรจะประมาณ --- เหมือนกันสำหรับทุกการสังเกต หากค่าที่คาดการณ์ทั้งหมดมีค่าเท่ากันค่าเหล่านั้นควรไม่สัมพันธ์กับข้อผิดพลาดβ 1 ≈ 0 Y ฉัน - β 0 ≈ ε ฉัน Y x Yฉันβ 0
สิ่งที่พล็อตกำลังบอกฉันว่าและไม่เกี่ยวข้องกันเป็นหลัก (แน่นอนมีวิธีที่ดีกว่าในการแสดงสิ่งนี้) แจ้งให้เราทราบหากค่าสัมประสิทธิ์ของคุณไม่ใกล้กับ 0Y β 1
ในการวินิจฉัยที่ดีขึ้นให้ใช้พล็อตของส่วนที่เหลือเทียบกับค่าจ้างที่คาดการณ์ไว้หรือเทียบกับค่าคุณไม่ควรสังเกตรูปแบบที่แตกต่างในแปลงเหล่านี้
หากคุณต้องการการสาธิต R เพียงเล็กน้อยคุณไปที่นี่:
y <- rnorm(100, 0, 5)
x <- rnorm(100, 0, 2)
res <- lm(y ~ x)$residuals
fitted <- lm(y ~ x)$fitted.values
plot(y, res)
plot(x, res)
plot(fitted, res)
สมมติว่าแบบจำลองโดยประมาณถูกระบุอย่างถูกต้อง ...
แสดงว่า Let 'sเมทริกซ์เป็นเมทริกซ์ฉายดังนั้นและP_X'=
.
ดังนั้นพล็อตเรื่องการกระจายของสารตกค้างกับตัวแปรตามที่คาดการณ์ไว้ไม่ควรมีความสัมพันธ์กัน
แต่!
(I-P_X)
matrixเป็นเมทริกซ์การฉาย, ค่าลักษณะเฉพาะของมันคือ 0 หรือ +1, มันคือ semidefinite เชิงบวก ดังนั้นมันควรมีค่าที่ไม่เป็นลบในแนวทแยง ดังนั้นพล็อตเรื่องการกระจัดกระจายกับตัวแปรตามเดิมควรมีความสัมพันธ์เชิงบวก
เท่าที่ฉันรู้ Gretl สร้างตามค่าเริ่มต้นกราฟของเศษเหลือเทียบกับตัวแปรตามเดิม (ไม่ใช่ค่าที่คาดการณ์!)
เป็นไปได้หรือไม่ว่าคุณกำลังสับสนค่าติดตั้ง / คาดการณ์กับค่าจริง?
ดังที่ @ gung และ @biostat ได้กล่าวไว้คุณหวังว่าจะไม่มีความสัมพันธ์ระหว่างค่าติดตั้งและส่วนที่เหลือ ในทางกลับกันการค้นหาความสัมพันธ์เชิงเส้นตรงระหว่างค่าจริงของตัวแปรตาม / ผลลัพธ์และส่วนที่เหลือจะถูกคาดหวังและไม่ได้ให้ข้อมูลโดยเฉพาะ
เพิ่มเพื่ออธิบายประโยคก่อนหน้า: ไม่เพียง แต่คาดว่าจะมีความสัมพันธ์เชิงเส้นระหว่างค่าส่วนที่เหลือกับค่าจริงของการส่งออก ... สำหรับค่าที่วัดได้ต่ำของ Y ค่าคาดการณ์ของ Y จากแบบจำลองที่มีประโยชน์จะมีแนวโน้มสูงกว่า ค่าที่วัดได้จริงและในทางกลับกัน
คำตอบที่เสนอให้ความคิดกับฉันเกี่ยวกับสิ่งที่เกิดขึ้นที่นี่ ฉันเชื่อว่าอาจมีข้อผิดพลาดเกิดขึ้นจากอุบัติเหตุ ดูว่าเรื่องต่อไปนี้สมเหตุสมผล: ในการเริ่มต้นฉันคิดว่าอาจมีความสัมพันธ์ที่ดีระหว่าง X & Y ในข้อมูล (นี่คือรหัสและพล็อต)
set.seed(5)
wage <- rlnorm(1000, meanlog=2.3, sdlog=.5)
something_else <- .7*wage + rnorm(1000, mean=0, sd=1)
plot(wage, something_else, pch=3, col="red", main="Plot X vs. Y")
แต่โดยความผิดพลาด Y ถูกทำนายจากค่าเฉลี่ย เมื่อรวมสิ่งนี้สิ่งที่เหลืออยู่จากแบบจำลองค่าเฉลี่ยเพียงอย่างเดียวจะถูกพล็อตกับ X แม้ว่าสิ่งที่ตั้งใจไว้คือการพล็อตกับค่าที่พอดี (โค้ดและพล็อต):
meanModel <- lm(something_else~1)
windows()
plot(wage, meanModel$residuals, pch=3, col="red",
main="Plot of residuals from Mean only Model against X")
abline(h=0, lty="dotted")
เราสามารถแก้ไขปัญหานี้ได้ด้วยการปรับโมเดลที่เหมาะสมและทำการพล็อตส่วนที่เหลือจากนั้น (รหัส & พล็อต):
appropriateModel <- lm(something_else~wage)
windows()
plot(appropriateModel$fitted.values, appropriateModel$residuals, pch=3, col="red",
main="Plot of residuals from the appropriate\nmodel against fitted values")
lines(lowess(appropriateModel$residuals~appropriateModel$fitted.values))
ดูเหมือนว่าจะเป็นคนโง่ ๆ ที่ฉันทำเมื่อฉันเริ่ม
กราฟนี้แสดงว่าโมเดลที่คุณติดตั้งไม่ดี @gung กล่าวในความคิดเห็นแรกเกี่ยวกับคำถามหลักว่าไม่ควรมีความสัมพันธ์ระหว่างการตอบกลับโดยเฉพาะและที่เหลือ
"นักวิเคราะห์ควรคาดหวังว่ารูปแบบการถดถอยจะผิดพลาดในการทำนายการตอบสนองในรูปแบบสุ่ม; โมเดลควรทำนายค่าที่สูงกว่าจริงและต่ำกว่าจริงด้วยความน่าจะเป็นที่เท่าเทียมกันดูสิ่งนี้ "
ฉันจะแนะนำการตอบสนองของพล็อตแรกกับตัวแปรอิสระเพื่อดูความสัมพันธ์ระหว่างพวกเขา อาจมีเหตุผลที่จะเพิ่มคำพหุนามในโมเดล
นี่ไม่ใช่สิ่งที่จะเกิดขึ้นหากไม่มีความสัมพันธ์ระหว่างตัวแปร X & Y? จากการดูกราฟนี้ดูเหมือนว่าคุณกำลังทำนายค่า Y ด้วยค่าเฉลี่ย
ฉันคิดว่า OP แปลงส่วนที่เหลือเทียบกับตัวแปรตอบกลับดั้งเดิม ฉันเห็นพล็อตแบบนี้ตลอดเวลาด้วยรูปแบบที่แน่นอนเกือบเหมือนกัน ตรวจสอบให้แน่ใจว่าคุณพล็อตค่าที่เหลือเทียบกับค่าติดตั้งเนื่องจากฉันไม่แน่ใจว่าการอนุมานที่มีความหมายที่คุณสามารถรวบรวมได้จากส่วนที่เหลือกับค่าเดิม Y แต่ฉันอาจผิดอย่างแน่นอน