2
การจัดหมวดหมู่ข้อความ: รวมคุณสมบัติที่แตกต่าง
ปัญหาที่ฉันแก้ปัญหาคือการจัดหมวดหมู่ข้อความสั้น ๆ เป็นหลายคลาส วิธีการปัจจุบันของฉันคือการใช้ความถี่เทอม tf-idf และเรียนรู้ลักษณนามเชิงเส้นอย่างง่าย (การถดถอยโลจิสติก) วิธีนี้ใช้ได้ดีพอสมควร (มาโคร 90% F-1 ในชุดทดสอบเกือบ 100% สำหรับชุดฝึกอบรม) ปัญหาใหญ่คือสิ่งที่มองไม่เห็นคำ / n-g ฉันพยายามปรับปรุงตัวจําแนกโดยการเพิ่มคุณสมบัติอื่น ๆ เช่นเวกเตอร์ขนาดคงที่ที่คำนวณโดยใช้ความคล้ายคลึงกันแบบกระจาย (ตามที่คำนวณโดย word2vec) หรือคุณสมบัติหมวดหมู่อื่น ๆ ของตัวอย่าง ความคิดของฉันคือการเพิ่มคุณสมบัติให้กับคุณสมบัติการป้อนข้อมูลแบบเบาบางจากถุงคำ อย่างไรก็ตามผลลัพธ์นี้มีประสิทธิภาพที่แย่ลงในชุดการทดสอบและการฝึกอบรม คุณสมบัติเพิ่มเติมด้วยตัวเองให้ประมาณ 80% F-1 ในชุดทดสอบดังนั้นพวกเขาจึงไม่ขยะ การขยายคุณสมบัติไม่ได้ช่วยเช่นกัน ความคิดปัจจุบันของฉันคือคุณสมบัติเหล่านี้ไม่เข้ากันได้ดีกับคุณลักษณะถุงคำ (เบาบาง) ดังนั้นคำถามคือสมมติว่าคุณสมบัติเพิ่มเติมให้ข้อมูลเพิ่มเติมวิธีที่ดีที่สุดที่จะรวมพวกเขาคืออะไร? สามารถแยกตัวแยกประเภทและรวมพวกมันในงานวงดนตรีบางประเภทได้หรือไม่ (นี่อาจเป็นข้อเสียเปรียบที่จะไม่มีการโต้ตอบระหว่างคุณลักษณะของตัวแยกประเภทที่แตกต่างกัน) มีรุ่นอื่นที่ซับซ้อนกว่านี้ที่ฉันควรพิจารณาอีกหรือไม่