สถานการณ์ของฉัน:
- ตัวอย่างขนาดเล็ก: 116
- ตัวแปรผลลัพธ์ไบนารี
- รายการตัวแปรอธิบายยาวแบบยาว: 44
- ตัวแปรอธิบายไม่ได้มาจากด้านบนของหัวของฉัน ทางเลือกของพวกเขาขึ้นอยู่กับวรรณกรรม
- กรณีส่วนใหญ่ในตัวอย่างและตัวแปรส่วนใหญ่มีค่าขาดหายไป
เลือกวิธีการเลือกคุณลักษณะ: LASSO
แพ็คเกจ glmnet ของ R จะไม่ให้ฉันเรียกใช้รูทีน glmnet อย่างเห็นได้ชัดเนื่องจากมีค่าที่ขาดหายไปในชุดข้อมูลของฉัน ดูเหมือนจะมีวิธีการต่าง ๆ สำหรับการจัดการข้อมูลที่หายไปดังนั้นฉันอยากจะรู้ว่า:
- LASSO กำหนดข้อ จำกัด ใด ๆ ในแง่ของวิธีการใส่ร้ายที่ฉันสามารถใช้ได้หรือไม่?
- อะไรจะเป็นทางออกที่ดีที่สุดสำหรับวิธีการใส่ร้าย เป็นการดีที่ฉันต้องการวิธีการที่ฉันสามารถทำงานบน SPSS (ดีกว่า) หรือ R
UPDATE1: มันชัดเจนจากคำตอบบางส่วนด้านล่างที่ฉันได้จัดการกับปัญหาพื้นฐานเพิ่มเติมก่อนที่จะพิจารณาวิธีการใส่ร้าย ฉันต้องการที่จะเพิ่มคำถามใหม่เกี่ยวกับที่นี่ ในคำตอบที่แนะนำการเข้ารหัสเป็นค่าคงที่และการสร้างตัวแปรใหม่เพื่อจัดการกับค่า 'ไม่สามารถใช้งานได้' และการใช้กลุ่ม lasso:
- คุณจะบอกว่าถ้าฉันใช้กลุ่ม LASSO ฉันจะสามารถใช้วิธีการที่แนะนำให้ผู้ทำนายต่อเนื่องกับผู้ทำนายหมวดหมู่ได้หรือไม่ ถ้าเป็นเช่นนั้นฉันคิดว่ามันจะเทียบเท่ากับการสร้างหมวดหมู่ใหม่ - ฉันระแวงว่านี่อาจทำให้เกิดอคติ
- ไม่มีใครรู้ว่าแพ็คเกจ glmnet ของ R รองรับกลุ่ม LASSO หรือไม่? ถ้าไม่มีใครจะแนะนำคนอื่นที่ร่วมกับการถดถอยโลจิสติก? ตัวเลือกหลายตัวที่กล่าวถึงกลุ่ม LASSO สามารถพบได้ในที่เก็บข้อมูล CRAN คำแนะนำใด ๆ ที่เหมาะสมที่สุดสำหรับกรณีของฉัน บางที SGL
นี่คือการติดตามคำถามก่อนหน้านี้ของฉัน ( จะเลือกชุดย่อยของตัวแปรจากรายการแบบยาวดั้งเดิมของฉันเพื่อทำการวิเคราะห์การถดถอยโลจิสติกได้อย่างไร )
OBS: ฉันไม่ใช่นักสถิติ