ฉันพยายามแบ่งข้อความเป็นหมวดหมู่ต่างๆโดยใช้ SVM ฉันได้รวบรวมรายการคำ / สัญลักษณ์ที่ต้องการจากชุดฝึกอบรม
สำหรับเวกเตอร์แต่ละอันซึ่งแทนข้อความฉันจะตั้งค่าแถวที่เกี่ยวข้องเป็น1
หากคำนั้นมีอยู่:
"corpus" คือ: [mary, little, lamb, star, twinkle]
ข้อความแรก: "mary มีลูกแกะน้อย" -> [1 1 1 0 0 0]
ข้อความที่สอง: "twinkle little star" -> [0 1 0 1 1]
ฉันคิดว่านี่เป็นการตั้งค่าทั่วไปของ SVM แต่คำถามของฉันคือมีหลายพันคำในชุดจะเกิดอะไรขึ้นถ้ามีเพียง 1-2 คำต่อข้อความที่ปรากฏขึ้นจริง การพึ่งพาเชิงเส้นของเซตเวกเตอร์การฝึกของฉันจะส่งผลเสียต่อความสามารถของอัลกอริธึมที่จะมาบรรจบกันหรือไม่?
flexmix
- แม้ว่าฉันจะมี "Learn R" ในปฏิทินของฉันเป็นเวลาสองปีแล้ว!