4
ทำไมสแควร์ธรรมดาน้อยที่สุดจึงทำงานได้ดีกว่าการถดถอยปัวซอง?
ฉันกำลังพยายามทำให้การถดถอยเพื่ออธิบายจำนวนคดีฆาตกรรมในแต่ละเขตของเมือง แม้ว่าฉันจะรู้ว่าข้อมูลของฉันเป็นไปตามการแจกแจงปัวซอง แต่ฉันก็พยายามปรับให้เหมาะสมกับ OLS ดังนี้: log(y+1)=α+βX+ϵlog(y+1)=α+βX+ϵlog(y+1) = \alpha + \beta X + \epsilon จากนั้นฉันก็ลอง (ปฎิบัติ!) การถดถอยแบบปัวซอง ปัญหาคือว่าฉันมีผลลัพธ์ที่ดีกว่าในการถดถอย OLS: หลอก -สูงกว่า (0.71 เทียบกับ 0.57) และ RMSE เช่นกัน (3.8 vs 8.88 มาตรฐานที่มีหน่วยเดียวกัน)R2R2R^2 ทำไม? เป็นเรื่องปกติหรือไม่ มีอะไรผิดปกติในการใช้ OLS ไม่ว่าการเผยแพร่ข้อมูลจะเป็นอย่างไร แก้ไข ตามคำแนะนำของ kjetil b halvorsen และอื่น ๆ ฉันได้ติดตั้งข้อมูลผ่านสองรุ่น: OLS และ Negative Binomial GLM (NB) ฉันเริ่มด้วยฟีเจอร์ทั้งหมดที่ฉันมีจากนั้นฉันก็ทำการลบฟีเจอร์ที่ไม่สำคัญออกไปทีละแบบ …