ฉันกำลังใช้ตัวแบบการถดถอยทั้งกับ Lasso และ Ridge (เพื่อทำนายตัวแปรผลลัพธ์แบบไม่ต่อเนื่องตั้งแต่ 0-5) ก่อนที่จะใช้รูปแบบที่ผมใช้SelectKBest
วิธีการในการscikit-learn
ที่จะลดการตั้งค่าให้สถานที่นั้น250ไป25 หากไม่มีการเลือกคุณสมบัติเริ่มต้นทั้ง Lasso และ Ridge ให้คะแนนความแม่นยำที่ต่ำกว่า [ซึ่งอาจเป็นเพราะกลุ่มตัวอย่างขนาดเล็ก 600] นอกจากนี้โปรดทราบว่าคุณลักษณะบางอย่างมีความสัมพันธ์
หลังจากรันโมเดลฉันสังเกตว่าความแม่นยำในการทำนายนั้นใกล้เคียงกับ Lasso และ Ridge อย่างไรก็ตามเมื่อฉันตรวจสอบ 10 คุณสมบัติแรกหลังจากสั่งซื้อโดยค่าสัมประสิทธิ์สัมบูรณ์ฉันเห็นว่ามีการทับซ้อนกันมากที่สุด 50%
นั่นคือเนื่องจากความสำคัญของคุณสมบัติที่แตกต่างกันได้รับการกำหนดโดยแต่ละวิธีฉันอาจมีการตีความที่แตกต่างกันโดยสิ้นเชิงกับรุ่นที่ฉันเลือก
โดยปกติแล้วคุณสมบัติดังกล่าวจะแสดงถึงพฤติกรรมบางประการของผู้ใช้ในเว็บไซต์ ดังนั้นฉันต้องการอธิบายสิ่งที่ค้นพบโดยเน้นคุณสมบัติ (พฤติกรรมผู้ใช้) ด้วยความสามารถในการคาดเดาที่สูงขึ้นและคุณสมบัติที่อ่อนแอกว่า (พฤติกรรมผู้ใช้) อย่างไรก็ตามฉันไม่ทราบวิธีการก้าวไปข้างหน้า ณ จุดนี้ ฉันจะเข้าใกล้การตีความตัวแบบได้อย่างไร ตัวอย่างเช่นควรรวมทั้งสองและเน้นที่ทับซ้อนกันหรือฉันควรจะไปกับ Lasso เพราะมันให้ตีความมากกว่า
Normally, the features represent some aspects of user behavior in a web site. Therefore, I want to explain the findings by highlighting the features (user behaviors) with stronger predictive ability vs weaker features (user behaviors) .