แต่ฉันไม่รู้ว่าความแตกต่างระหว่างการจำแนกข้อความและตัวแบบหัวข้อในเอกสารคืออะไร
Text Classification
เป็นรูปแบบหนึ่งของการเรียนรู้ภายใต้การดูแลดังนั้นชุดของชั้นเรียนที่เป็นไปได้จะทราบ / กำหนดไว้ล่วงหน้าและจะไม่เปลี่ยนแปลง
Topic Modeling
เป็นรูปแบบของการเรียนรู้ใกล้ชิด (คล้ายกับการจัดกลุ่ม) ดังนั้นชุดของหัวข้อที่เป็นไปได้เป็นที่รู้จักaPriori พวกมันถูกกำหนดเป็นส่วนหนึ่งของการสร้างแบบจำลองหัวข้อ ด้วยอัลกอริทึมที่ไม่ได้กำหนดค่าเช่น LDA คุณจะได้รับหัวข้อที่แตกต่างกันทุกครั้งที่คุณเรียกใช้อัลกอริทึม
Text classification
มักจะเกี่ยวข้องกับคลาสที่ไม่เกิดร่วมกัน - คิดว่าสิ่งเหล่านี้เป็นที่เก็บข้อมูล
แต่ไม่จำเป็นต้อง: เนื่องจากข้อมูลอินพุตที่มีป้ายกำกับที่ถูกต้องคุณสามารถตั้งค่าชุดของตัวแยกประเภทไบนารีที่ไม่ใช่เอกสิทธิ์เฉพาะบุคคลได้
Topic modeling
โดยทั่วไปไม่ใช่เอกสิทธิ์เฉพาะบุคคล: เอกสารเดียวกันสามารถมีการกระจายความน่าจะเป็นของมันในหลายหัวข้อ นอกจากนี้ยังมีวิธีการสร้างแบบจำลองหัวข้อตามลำดับชั้น
ฉันสามารถใช้แบบจำลองหัวข้อสำหรับเอกสารเพื่อระบุหนึ่งหัวข้อในภายหลังได้ฉันสามารถใช้การจัดประเภทเพื่อจำแนกข้อความภายในเอกสารนี้ได้หรือไม่
หากคุณถามว่าคุณสามารถใช้เอกสารทั้งหมดที่กำหนดให้กับหัวข้อเดียวโดยอัลกอริทึมการสร้างแบบจำลองหัวข้อหรือไม่จากนั้นใช้ตัวจําแนกกับชุดรวมนั้นใช่แล้วคุณสามารถทําได้อย่างแน่นอน
ฉันไม่แน่ใจว่ามันสมเหตุสมผลดี แต่อย่างน้อยคุณจะต้องเลือกเกณฑ์สำหรับการแจกแจงความน่าจะเป็นหัวข้อด้านบนซึ่งคุณจะต้องรวมเอกสารไว้ในคอลเล็กชันของคุณ (โดยทั่วไปคือ 0.05-0.1)
คุณสามารถอธิบายรายละเอียดเกี่ยวกับกรณีการใช้งานของคุณได้ไหม?
ยังไงก็ตามมีบทช่วยสอนที่ดีเกี่ยวกับการสร้างแบบจำลองหัวข้อโดยใช้ห้องสมุด MALLET สำหรับ Java ที่มีอยู่ที่นี่: เริ่มต้นด้วยการสร้างแบบจำลองหัวข้อและ MALLET