ดังนั้นฉันจึงทำงานกับแบบจำลองการถดถอยโลจิสติกในอาร์แม้ว่าฉันจะยังใหม่กับสถิติฉันรู้สึกว่าฉันมีความเข้าใจเล็กน้อยเกี่ยวกับแบบจำลองการถดถอยในตอนนี้ แต่ยังมีบางสิ่งที่รบกวนฉัน:
เมื่อมองไปที่รูปภาพที่เชื่อมโยงคุณจะเห็นสรุป R พิมพ์สำหรับรุ่นตัวอย่างที่ฉันสร้างขึ้น รูปแบบการพยายามที่จะคาดการณ์ว่าอีเมลในชุดข้อมูลที่จะได้รับการ refound หรือไม่ (ตัวแปรไบนารีisRefound
) และชุดข้อมูลที่มีสองตัวแปรที่เกี่ยวข้องอย่างใกล้ชิดกับisRefound
คือnext24
และnext7days
- เหล่านี้เป็นยังไบนารีและบอกได้ว่า mail จะได้รับการคลิกในครั้งต่อไป 24 ชั่วโมง / 7 วันถัดจากจุดปัจจุบันในบันทึก
ค่า p สูงควรระบุว่าผลกระทบที่ตัวแปรนี้มีต่อการทำนายแบบจำลองนั้นค่อนข้างสุ่มใช่ไหม? จากนี้ฉันไม่เข้าใจว่าทำไมความแม่นยำของแบบจำลองการคาดการณ์จึงลดลงต่ำกว่า 10% เมื่อตัวแปรสองตัวนี้ไม่ได้อยู่ในสูตรการคำนวณ หากตัวแปรเหล่านี้แสดงความสำคัญต่ำทำไมการลบออกจากแบบจำลองมีผลกระทบอย่างมาก
ขอแสดงความนับถือและขอขอบคุณล่วงหน้า Rickyfox
แก้ไข:
ครั้งแรกที่ฉันลบเฉพาะ next24 ซึ่งควรให้ผลกระทบต่ำเพราะ coef มันค่อนข้างเล็ก ตามที่คาดไว้มีการเปลี่ยนแปลงเล็กน้อย - ไม่ต้องอัปโหลดรูปภาพสำหรับสิ่งนั้น
การลบรุ่นถัดไป 7 วันมีผลกระทบอย่างมากต่อโมเดล: AIC 200k ขึ้นไปความแม่นยำลดลงถึง 16% และเรียกคืนได้ถึง 73%
isRefound ~ day + next24
และละเว้นตัวแปรอื่นทั้งหมด