ฉันมีการวิเคราะห์ชุดข้อมูลหลายครั้งซึ่งฉันไม่สามารถจำแนกประเภทได้ เพื่อดูว่าฉันจะได้ลักษณนามฉันมักจะใช้ขั้นตอนต่อไปนี้:
- สร้างพล็อตกล่องฉลากกับค่าตัวเลข
- ลดมิติเป็น 2 หรือ 3 เพื่อดูว่าคลาสแยกออกจากกันได้หรือไม่ลอง LDA ในบางครั้ง
- พยายามปรับให้เหมาะสมกับ SVM และป่าสุ่มและดูความสำคัญของฟีเจอร์เพื่อดูว่าคุณสมบัตินั้นเหมาะสมหรือไม่
- ลองเปลี่ยนความสมดุลของคลาสและเทคนิคต่าง ๆ เช่นการสุ่มตัวอย่างต่ำเกินไปและการสุ่มตัวอย่างมากเกินไปเพื่อตรวจสอบว่าความไม่สมดุลของคลาสอาจเป็นปัญหาหรือไม่
มีวิธีอื่นอีกมากมายที่ฉันนึกได้ แต่ยังไม่ได้ลอง บางครั้งฉันรู้ว่าคุณสมบัติเหล่านี้ไม่ดีและไม่เกี่ยวข้องกับป้ายกำกับที่เราพยายามคาดการณ์ จากนั้นฉันก็ใช้สัญชาตญาณทางธุรกิจนั้นเพื่อยุติการฝึกโดยสรุปว่าเราต้องการคุณสมบัติที่ดีกว่าหรือป้ายกำกับที่ต่างออกไปโดยสิ้นเชิง
คำถามของฉันคือนักวิทยาศาสตร์ข้อมูลรายงานว่าการจำแนกประเภทไม่สามารถทำได้ด้วยคุณสมบัติเหล่านี้ มีวิธีทางสถิติในการรายงานหรือปรับข้อมูลในอัลกอริทึมที่แตกต่างกันก่อนและการดูการตรวจสอบความถูกต้องเป็นตัวเลือกที่ดีที่สุดหรือไม่?