2
เมื่อไหร่ที่เราจะบอกว่าชุดข้อมูลนั้นไม่สามารถจำแนกได้?
ฉันมีการวิเคราะห์ชุดข้อมูลหลายครั้งซึ่งฉันไม่สามารถจำแนกประเภทได้ เพื่อดูว่าฉันจะได้ลักษณนามฉันมักจะใช้ขั้นตอนต่อไปนี้: สร้างพล็อตกล่องฉลากกับค่าตัวเลข ลดมิติเป็น 2 หรือ 3 เพื่อดูว่าคลาสแยกออกจากกันได้หรือไม่ลอง LDA ในบางครั้ง พยายามปรับให้เหมาะสมกับ SVM และป่าสุ่มและดูความสำคัญของฟีเจอร์เพื่อดูว่าคุณสมบัตินั้นเหมาะสมหรือไม่ ลองเปลี่ยนความสมดุลของคลาสและเทคนิคต่าง ๆ เช่นการสุ่มตัวอย่างต่ำเกินไปและการสุ่มตัวอย่างมากเกินไปเพื่อตรวจสอบว่าความไม่สมดุลของคลาสอาจเป็นปัญหาหรือไม่ มีวิธีอื่นอีกมากมายที่ฉันนึกได้ แต่ยังไม่ได้ลอง บางครั้งฉันรู้ว่าคุณสมบัติเหล่านี้ไม่ดีและไม่เกี่ยวข้องกับป้ายกำกับที่เราพยายามคาดการณ์ จากนั้นฉันก็ใช้สัญชาตญาณทางธุรกิจนั้นเพื่อยุติการฝึกโดยสรุปว่าเราต้องการคุณสมบัติที่ดีกว่าหรือป้ายกำกับที่ต่างออกไปโดยสิ้นเชิง คำถามของฉันคือนักวิทยาศาสตร์ข้อมูลรายงานว่าการจำแนกประเภทไม่สามารถทำได้ด้วยคุณสมบัติเหล่านี้ มีวิธีทางสถิติในการรายงานหรือปรับข้อมูลในอัลกอริทึมที่แตกต่างกันก่อนและการดูการตรวจสอบความถูกต้องเป็นตัวเลือกที่ดีที่สุดหรือไม่?