ส่วนตัวผมชอบแบ่งการเลือกคุณสมบัติในสอง:
- การเลือกคุณสมบัติที่ไม่ได้รับการสนับสนุน
- การเลือกคุณสมบัติที่อยู่ภายใต้การดูแล
การเลือกคุณสมบัติที่ไม่ได้รับการสำรองคือสิ่งต่าง ๆ เช่นการทำคลัสเตอร์หรือ PCA ซึ่งคุณเลือกช่วงของคุณสมบัติที่ซ้ำซ้อนน้อยที่สุด (หรือสร้างคุณลักษณะที่มีความซ้ำซ้อนเล็กน้อย) การเลือกคุณสมบัติที่อยู่ภายใต้การดูแลคือสิ่งที่เหมือน Lasso ที่คุณเลือกคุณสมบัติที่มีพลังในการทำนายมากที่สุด
โดยส่วนตัวแล้วฉันชอบสิ่งที่ฉันเรียกว่าการเลือกคุณสมบัติภายใต้การดูแล ดังนั้นเมื่อใช้การถดถอยเชิงเส้นฉันจะเลือกคุณสมบัติตาม Lasso วิธีการที่คล้ายกันมีอยู่เพื่อทำให้เกิดการกระจัดกระจายในเครือข่ายประสาท
แต่แน่นอนฉันไม่เห็นว่าฉันจะทำอย่างไรในวิธีการใช้เคอร์เนลดังนั้นคุณน่าจะดีกว่าที่ใช้สิ่งที่ฉันเรียกว่าการเลือกคุณสมบัติแบบไม่สำรองข้อมูล
แก้ไข:คุณยังถามเกี่ยวกับการทำให้เป็นมาตรฐาน ฉันเห็นว่าการทำให้เป็นปกติเป็นส่วนใหญ่เพราะเราทำงานกับกลุ่มตัวอย่างที่ จำกัด ดังนั้นการกระจายการฝึกอบรมและการทดสอบจะแตกต่างกันบ้างและคุณต้องการให้แบบจำลองของคุณไม่เหมาะสม ฉันไม่แน่ใจว่าจะลบความจำเป็นในการหลีกเลี่ยงการเลือกคุณสมบัติ (ถ้าคุณมีมากเกินไป) ฉันคิดว่าการเลือกคุณสมบัติ (หรือการสร้างชุดย่อยเล็ก ๆ ของพวกเขา) ช่วยด้วยการทำให้คุณสมบัติที่คุณมีมีประสิทธิภาพมากขึ้นและหลีกเลี่ยงรูปแบบที่จะเรียนรู้จากความสัมพันธ์ปลอม ดังนั้นการทำให้เป็นมาตรฐานจะช่วยได้ แต่ไม่แน่ใจว่าเป็นทางเลือกที่สมบูรณ์ แต่ฉันไม่ได้คิดอย่างถี่ถ้วนเกี่ยวกับเรื่องนี้