4
วิธีจัดการกับค่าที่หายไปเพื่อเตรียมข้อมูลสำหรับการเลือกคุณสมบัติด้วย LASSO
สถานการณ์ของฉัน: ตัวอย่างขนาดเล็ก: 116 ตัวแปรผลลัพธ์ไบนารี รายการตัวแปรอธิบายยาวแบบยาว: 44 ตัวแปรอธิบายไม่ได้มาจากด้านบนของหัวของฉัน ทางเลือกของพวกเขาขึ้นอยู่กับวรรณกรรม กรณีส่วนใหญ่ในตัวอย่างและตัวแปรส่วนใหญ่มีค่าขาดหายไป เลือกวิธีการเลือกคุณลักษณะ: LASSO แพ็คเกจ glmnet ของ R จะไม่ให้ฉันเรียกใช้รูทีน glmnet อย่างเห็นได้ชัดเนื่องจากมีค่าที่ขาดหายไปในชุดข้อมูลของฉัน ดูเหมือนจะมีวิธีการต่าง ๆ สำหรับการจัดการข้อมูลที่หายไปดังนั้นฉันอยากจะรู้ว่า: LASSO กำหนดข้อ จำกัด ใด ๆ ในแง่ของวิธีการใส่ร้ายที่ฉันสามารถใช้ได้หรือไม่? อะไรจะเป็นทางออกที่ดีที่สุดสำหรับวิธีการใส่ร้าย เป็นการดีที่ฉันต้องการวิธีการที่ฉันสามารถทำงานบน SPSS (ดีกว่า) หรือ R UPDATE1: มันชัดเจนจากคำตอบบางส่วนด้านล่างที่ฉันได้จัดการกับปัญหาพื้นฐานเพิ่มเติมก่อนที่จะพิจารณาวิธีการใส่ร้าย ฉันต้องการที่จะเพิ่มคำถามใหม่เกี่ยวกับที่นี่ ในคำตอบที่แนะนำการเข้ารหัสเป็นค่าคงที่และการสร้างตัวแปรใหม่เพื่อจัดการกับค่า 'ไม่สามารถใช้งานได้' และการใช้กลุ่ม lasso: คุณจะบอกว่าถ้าฉันใช้กลุ่ม LASSO ฉันจะสามารถใช้วิธีการที่แนะนำให้ผู้ทำนายต่อเนื่องกับผู้ทำนายหมวดหมู่ได้หรือไม่ ถ้าเป็นเช่นนั้นฉันคิดว่ามันจะเทียบเท่ากับการสร้างหมวดหมู่ใหม่ - ฉันระแวงว่านี่อาจทำให้เกิดอคติ ไม่มีใครรู้ว่าแพ็คเกจ glmnet ของ R …