สมมติว่าฉันมีข้อมูลต่อไปนี้และกำลังใช้โมเดลการถดถอย:
df=data.frame(income=c(5,3,47,8,6,5),
won=c(0,0,1,1,1,0),
age=c(18,18,23,50,19,39),
home=c(0,0,1,0,0,1))
ในอีกด้านหนึ่งฉันใช้โมเดลเชิงเส้นเพื่อทำนายรายได้:
md1 = lm(income ~ age + home + home, data=df)
ประการที่สองฉันเรียกใช้แบบจำลอง logit เพื่อทำนายตัวแปรที่ชนะ:
md2 = glm(factor(won) ~ age + home, data=df, family=binomial(link="logit"))
สำหรับทั้งสองรุ่นฉันสงสัยว่าฉันจะสร้างตารางหรือกรอบข้อมูลด้วยหมวดการตอบสนองของผู้ทำนายค่าติดตั้งและค่าที่ทำนายรูปแบบได้อย่างไร
ดังนั้นสำหรับโมเดลเชิงเส้นบางอย่างเช่น:
age fitted_income predicted_income
18 3 5
23 3 3
50 4 2
19 5 5
39 6 4
home fitted_income predicted_income
0 5 6
1 3 9
หรือบางทีมันควรจะเป็นสำหรับแต่ละจุดข้อมูล ดังนั้นสำหรับจุดข้อมูล x_i ค่าติดตั้งและที่คาดการณ์คือ:
id age fitted_income predicted_income
1 18 3 5
2 23 3 3
3 50 4 2
4 19 5 5
5 39 6 4
จากมุมมองทางสถิติกิจการดังกล่าวมีประโยชน์หรือไม่? ทำไมหรือทำไมไม่?
สิ่งนี้สามารถทำได้ใน R? (ดูที่ชื่อ (md1) และพบสิ่งที่ฉันสามารถดึงออกมาจากแบบจำลอง แต่ยังไม่ได้ดำเนินการในอดีต)
ขอบคุณ!
residuals
คำสั่งR
ใน ใช้cbind
เพื่อเข้าร่วมกับ dataframe ดั้งเดิม