วิธีที่ดีที่สุดในการเลือกคุณสมบัติสำหรับการถดถอยแบบไม่มีพารามิเตอร์


10

คำถามใหม่ที่นี่ ขณะนี้ฉันกำลังทำการถดถอยแบบไม่ใช้พารามิเตอร์โดยใช้แพ็คเกจ np ในอาร์ฉันมีฟีเจอร์ 7 อย่างและใช้วิธีการบังคับเดรัจฉานฉันระบุว่าดีที่สุด 3. แต่ไม่นานฉันจะมีฟีเจอร์มากกว่า 7 อย่าง!

คำถามของฉันคืออะไรเป็นวิธีที่ดีที่สุดในปัจจุบันสำหรับการเลือกคุณสมบัติสำหรับการถดถอยแบบไม่มีพารามิเตอร์ และถ้าหากแพ็กเกจใด ๆ ใช้วิธีการ ขอบคุณ.


1
คุณหมายถึงอะไร "มากกว่านี้" 100 1,000 10000? 100,000
robin girard

อาจเป็นไปได้ว่าฉันจะมี 100 คุณสมบัติ แต่ฉันมีเวลาเพียงไม่กี่นาทีในการตัดสินใจเกี่ยวกับชุดย่อยคุณลักษณะที่ดีที่สุด
jmmcnew

1
คุณได้ลอง lasso หรือ elastic net แล้วหรือยัง? แพ็คเกจ: lasso, glmnet วิธีการเหล่านั้นสามารถ "เลือก" varibles บางอย่างในระหว่างเดินทาง
deps_stats

คำตอบ:


3

นอกจากว่าการระบุตัวแปรที่เกี่ยวข้องมากที่สุดเป็นเป้าหมายสำคัญของการวิเคราะห์มันมักจะดีกว่าที่จะไม่ทำการเลือกคุณสมบัติใด ๆ เลยและใช้การทำให้เป็นปกติเพื่อป้องกันการปรับตัวที่ไม่เหมาะสม การเลือกคุณสมบัติเป็นขั้นตอนที่ยุ่งยากและเป็นเรื่องง่ายเกินไปที่จะปรับให้พอดีกับเกณฑ์การเลือกคุณลักษณะเนื่องจากมีอิสระหลายระดับ LASSO และ elastic net เป็นการประนีประนอมที่ดีการบรรลุผล sparsity ผ่านการทำให้เป็นระเบียบมากกว่าการเลือกคุณสมบัติโดยตรงดังนั้นพวกเขาจึงมีแนวโน้มที่จะไม่กระชับกับรูปแบบนั้น ๆ


0

Lasso เป็นคนดีคนหนึ่ง สิ่งที่เรียบง่ายเช่นเริ่มต้นด้วยไม่มีและเพิ่มพวกเขาทีละหนึ่งเรียงใน 'usefullness' (ผ่านการตรวจสอบข้าม) ยังทำงานค่อนข้างดีในทางปฏิบัติ บางครั้งสิ่งนี้เรียกว่าการเลือกแบบป้อนไปข้างหน้า Stagewise

โปรดทราบว่าปัญหาการเลือกชุดย่อยไม่ขึ้นอยู่กับประเภทของการจำแนกประเภท / การถดถอย เป็นเพียงวิธีการแบบไม่ใช้พารามิเตอร์อาจช้าและต้องใช้วิธีการที่ชาญฉลาดกว่าในการเลือก

หนังสือ 'องค์ประกอบของการเรียนรู้เชิงสถิติ' จาก T. Hastie ให้ภาพรวมที่ดี

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.