ฉันมีคุณสมบัติเบาบางซึ่งสามารถคาดเดาได้และฉันยังมีคุณสมบัติที่หนาแน่นซึ่งสามารถคาดเดาได้ ฉันต้องรวมคุณสมบัติเหล่านี้เข้าด้วยกันเพื่อปรับปรุงประสิทธิภาพโดยรวมของตัวจําแนก
ตอนนี้สิ่งที่เกิดขึ้นคือเมื่อฉันพยายามรวมสิ่งเหล่านี้เข้าด้วยกันคุณลักษณะที่หนาแน่นมีแนวโน้มที่จะครอบงำมากกว่าคุณสมบัติเบาบางดังนั้นจึงทำให้การปรับปรุง AUC เพียง 1% เมื่อเทียบกับรุ่นที่มีคุณสมบัติที่หนาแน่นเท่านั้น
มีใครบางคนเจอปัญหาที่คล้ายกัน? ชื่นชมอินพุตที่ติดอยู่จริงๆ ฉันได้ลองตัวแยกประเภทที่แตกต่างกันจำนวนมากการรวมกันของตัวแยกประเภทการแปลงคุณสมบัติและการประมวลผลด้วยอัลกอริทึมที่แตกต่างกัน
ขอบคุณล่วงหน้าสำหรับความช่วยเหลือ
แก้ไข :
ฉันได้ลองใช้คำแนะนำที่ให้ไว้ในความคิดเห็นแล้ว สิ่งที่ฉันสังเกตคือเกือบ 45% ของข้อมูลคุณสมบัติเบาบางทำงานได้ดีจริง ๆ ฉันได้รับ AUC ประมาณ 0.9 ด้วยฟีเจอร์เบาบางเท่านั้น แต่สำหรับคุณสมบัติที่หนาแน่นที่เหลืออยู่นั้นทำงานได้ดีกับ AUC ประมาณ 0.75 ฉันพยายามแยกชุดข้อมูลเหล่านี้ออก แต่ฉันได้รับ AUC เท่ากับ 0.6 ดังนั้นฉันจึงไม่สามารถฝึกอบรมโมเดลและตัดสินใจว่าจะใช้ฟีเจอร์ใด
เกี่ยวกับข้อมูลโค้ดฉันได้ลองหลายสิ่งหลายอย่างแล้วซึ่งฉันไม่แน่ใจว่าจะแชร์สิ่งใดกันแน่ :(