5
การจำแนกข้อความขนาดใหญ่
ฉันต้องการจัดหมวดหมู่ข้อมูลข้อความของฉัน ฉันมี300 classes200 เอกสารการฝึกอบรมต่อชั้นเรียน (ดังนั้น60000 documents in total) และนี่น่าจะส่งผลให้ข้อมูลมิติสูงมาก (เราอาจมองเกินกว่า1 ล้านมิติ ) ฉันต้องการดำเนินการตามขั้นตอนต่อไปนี้ในไปป์ไลน์ (เพื่อให้คุณได้ทราบถึงความต้องการของฉัน): การแปลงแต่ละเอกสารเป็นฟีเจอร์เวกเตอร์ ( tf-idfหรือvector space model) Feature selection( Mutual Informationโดยเฉพาะอย่างยิ่งหรือมาตรฐานอื่น ๆ ) การฝึกอบรมลักษณนาม ( SVM, Naive Bayes, Logistic RegressionหรือRandom Forest) การทำนายข้อมูลที่มองไม่เห็นตามตัวจําแนกรุ่นที่ผ่านการฝึกอบรม ดังนั้นคำถามคือฉันใช้เครื่องมือ / กรอบการทำงานสำหรับจัดการข้อมูลมิติสูงเช่นนี้หรือไม่ ฉันตระหนักถึงผู้ต้องสงสัยตามปกติ (R, WEKA ... ) แต่เท่าที่ความรู้ของฉันไป (ฉันอาจผิด) อาจไม่มีใครสามารถจัดการข้อมูลขนาดใหญ่นี้ได้ มีเครื่องมือเก็บของอื่น ๆ ที่ฉันสามารถดูได้หรือไม่? ถ้าฉันต้องขนานมันฉันควรจะดูApache Mahoutหรือไม่? …