1
ชุดฝึกกระจัดกระจายส่งผลเสียต่อ SVM หรือไม่?
ฉันพยายามแบ่งข้อความเป็นหมวดหมู่ต่างๆโดยใช้ SVM ฉันได้รวบรวมรายการคำ / สัญลักษณ์ที่ต้องการจากชุดฝึกอบรม สำหรับเวกเตอร์แต่ละอันซึ่งแทนข้อความฉันจะตั้งค่าแถวที่เกี่ยวข้องเป็น1หากคำนั้นมีอยู่: "corpus" คือ: [mary, little, lamb, star, twinkle] ข้อความแรก: "mary มีลูกแกะน้อย" -> [1 1 1 0 0 0] ข้อความที่สอง: "twinkle little star" -> [0 1 0 1 1] ฉันคิดว่านี่เป็นการตั้งค่าทั่วไปของ SVM แต่คำถามของฉันคือมีหลายพันคำในชุดจะเกิดอะไรขึ้นถ้ามีเพียง 1-2 คำต่อข้อความที่ปรากฏขึ้นจริง การพึ่งพาเชิงเส้นของเซตเวกเตอร์การฝึกของฉันจะส่งผลเสียต่อความสามารถของอัลกอริธึมที่จะมาบรรจบกันหรือไม่?