3
การจำแนกข้อความที่ไม่มีโครงสร้าง
ฉันจะจัดประเภทเอกสารข้อความที่ไม่มีโครงสร้างนั่นคือเว็บไซต์ที่มีโครงสร้างที่ไม่รู้จัก จำนวนชั้นเรียนที่ฉันกำลังจำแนกมี จำกัด (ณ จุดนี้ฉันเชื่อว่ามีไม่เกินสาม) ใครบ้างมีข้อเสนอแนะสำหรับวิธีฉันอาจเริ่มต้น? "คำพูด" เป็นไปได้หรือไม่? หลังจากนั้นฉันสามารถเพิ่มขั้นตอนการจัดหมวดหมู่อื่นตามโครงสร้างของเอกสาร (อาจเป็นแผนผังการตัดสินใจ) ฉันค่อนข้างคุ้นเคยกับ Mahout และ Hadoop ดังนั้นฉันจึงชอบโซลูชันที่ใช้ Java หากจำเป็นฉันสามารถเปลี่ยนเป็น Scala และ / หรือ Spark engine (ห้องสมุด ML)