การเปิดเผยแบบเต็ม: นี่คือการบ้าน ฉันได้รวมลิงก์ไปยังชุดข้อมูล ( http://www.bertelsen.ca/R/logistic-regression.sav )
เป้าหมายของฉันคือการเพิ่มการคาดการณ์ของผู้ชำระหนี้ในชุดข้อมูลนี้
ทุกรุ่นที่ฉันคิดมานั้นคาดการณ์> 90% ของผู้ไม่ defaulters แต่ <40% ของผู้ defaulters ทำให้ประสิทธิภาพการจำแนกโดยรวมประมาณ 80% ดังนั้นฉันสงสัยว่ามีผลกระทบระหว่างการโต้ตอบตัวแปรหรือไม่ ภายในการถดถอยแบบโลจิสติกส์นอกเหนือจากการทดสอบชุดค่าผสมที่เป็นไปได้แต่ละวิธีมีวิธีการระบุผลกระทบที่อาจเกิดขึ้นจากการโต้ตอบ หรืออีกวิธีหนึ่งในการเพิ่มประสิทธิภาพของการจำแนกประเภทของ defaulters
ฉันติดอยู่คำแนะนำใด ๆ จะเป็นประโยชน์ในการเลือกคำ R-code หรือไวยากรณ์ SPSS ของคุณ
ตัวแปรหลักของฉันอยู่ในฮิสโทแกรมและสแกตเตอร์ล็อตต่อไปนี้ (ยกเว้นตัวแปร dichotomous)
คำอธิบายของตัวแปรหลัก:
age: Age in years
employ: Years with current employer
address: Years at current address
income: Household income in thousands
debtinc: Debt to income ratio (x100)
creddebt: Credit card debt in thousands
othdebt: Other debt in thousands
default: Previously defaulted (dichotomous, yes/no, 0/1)
ed: Level of education (No HS, HS, Some College, College, Post-grad)
ตัวแปรเพิ่มเติมเป็นเพียงการเปลี่ยนแปลงข้างต้น ฉันพยายามแปลงตัวแปรต่อเนื่องบางส่วนเป็นตัวแปรจัดหมวดหมู่และนำไปใช้ในโมเดลโดยไม่มีโชค
หากคุณต้องการให้มันปรากฏใน R อย่างรวดเร็วนี่คือ:
## R Code
df <- read.spss(file="http://www.bertelsen.ca/R/logistic-regression.sav", use.value.labels=T, to.data.frame=T)