ความแตกต่างระหว่างการจำแนกข้อความและตัวแบบหัวข้อคืออะไร?


20

ฉันรู้ความแตกต่างระหว่างการจัดกลุ่มและการจัดหมวดหมู่ในการเรียนรู้ของเครื่อง แต่ฉันไม่เข้าใจความแตกต่างระหว่างการจัดกลุ่มข้อความและการสร้างแบบจำลองหัวข้อสำหรับเอกสาร ฉันสามารถใช้การสร้างแบบจำลองหัวข้อบนเอกสารเพื่อระบุหัวข้อได้หรือไม่ ฉันสามารถใช้วิธีการจัดหมวดหมู่เพื่อจำแนกข้อความในเอกสารเหล่านี้ได้หรือไม่?

คำตอบ:


28

การจำแนกข้อความ

ฉันให้คุณเอกสารจำนวนมากซึ่งแต่ละอันมีป้ายกำกับแนบมาด้วย ฉันขอให้คุณเรียนรู้ว่าทำไมคุณคิดว่าเนื้อหาของเอกสารได้รับป้ายกำกับเหล่านี้ตามคำพูดของพวกเขา จากนั้นฉันจะให้เอกสารใหม่แก่คุณและถามสิ่งที่คุณคิดว่าควรมีฉลากสำหรับแต่ละรายการ ฉลากมีความหมายกับฉันไม่ใช่สำหรับคุณ

การสร้างแบบจำลองหัวข้อ

ฉันให้คุณเอกสารจำนวนมากโดยไม่มีป้ายกำกับ ฉันขอให้คุณอธิบายว่าทำไมเอกสารถึงมีคำที่พวกเขาทำโดยระบุบางหัวข้อที่แต่ละเรื่องมี "เกี่ยวกับ" คุณบอกหัวข้อโดยบอกฉันว่าแต่ละเรื่องมีจำนวนเท่าไหร่ในเอกสารแต่ละฉบับและฉันตัดสินใจว่าหัวข้อ "หมายถึง" ถ้ามีอะไร

คุณต้องอธิบายสิ่งที่ฉันโดย "ระบุหนึ่งหัวข้อ" หรือ "จำแนกข้อความ"


10

แต่ฉันไม่รู้ว่าความแตกต่างระหว่างการจำแนกข้อความและตัวแบบหัวข้อในเอกสารคืออะไร

Text Classificationเป็นรูปแบบหนึ่งของการเรียนรู้ภายใต้การดูแลดังนั้นชุดของชั้นเรียนที่เป็นไปได้จะทราบ / กำหนดไว้ล่วงหน้าและจะไม่เปลี่ยนแปลง

Topic Modelingเป็นรูปแบบของการเรียนรู้ใกล้ชิด (คล้ายกับการจัดกลุ่ม) ดังนั้นชุดของหัวข้อที่เป็นไปได้เป็นที่รู้จักaPriori พวกมันถูกกำหนดเป็นส่วนหนึ่งของการสร้างแบบจำลองหัวข้อ ด้วยอัลกอริทึมที่ไม่ได้กำหนดค่าเช่น LDA คุณจะได้รับหัวข้อที่แตกต่างกันทุกครั้งที่คุณเรียกใช้อัลกอริทึม

Text classificationมักจะเกี่ยวข้องกับคลาสที่ไม่เกิดร่วมกัน - คิดว่าสิ่งเหล่านี้เป็นที่เก็บข้อมูล
แต่ไม่จำเป็นต้อง: เนื่องจากข้อมูลอินพุตที่มีป้ายกำกับที่ถูกต้องคุณสามารถตั้งค่าชุดของตัวแยกประเภทไบนารีที่ไม่ใช่เอกสิทธิ์เฉพาะบุคคลได้

Topic modelingโดยทั่วไปไม่ใช่เอกสิทธิ์เฉพาะบุคคล: เอกสารเดียวกันสามารถมีการกระจายความน่าจะเป็นของมันในหลายหัวข้อ นอกจากนี้ยังมีวิธีการสร้างแบบจำลองหัวข้อตามลำดับชั้น

ฉันสามารถใช้แบบจำลองหัวข้อสำหรับเอกสารเพื่อระบุหนึ่งหัวข้อในภายหลังได้ฉันสามารถใช้การจัดประเภทเพื่อจำแนกข้อความภายในเอกสารนี้ได้หรือไม่

หากคุณถามว่าคุณสามารถใช้เอกสารทั้งหมดที่กำหนดให้กับหัวข้อเดียวโดยอัลกอริทึมการสร้างแบบจำลองหัวข้อหรือไม่จากนั้นใช้ตัวจําแนกกับชุดรวมนั้นใช่แล้วคุณสามารถทําได้อย่างแน่นอน

ฉันไม่แน่ใจว่ามันสมเหตุสมผลดี แต่อย่างน้อยคุณจะต้องเลือกเกณฑ์สำหรับการแจกแจงความน่าจะเป็นหัวข้อด้านบนซึ่งคุณจะต้องรวมเอกสารไว้ในคอลเล็กชันของคุณ (โดยทั่วไปคือ 0.05-0.1)

คุณสามารถอธิบายรายละเอียดเกี่ยวกับกรณีการใช้งานของคุณได้ไหม?

ยังไงก็ตามมีบทช่วยสอนที่ดีเกี่ยวกับการสร้างแบบจำลองหัวข้อโดยใช้ห้องสมุด MALLET สำหรับ Java ที่มีอยู่ที่นี่: เริ่มต้นด้วยการสร้างแบบจำลองหัวข้อและ MALLET


4

รุ่นกระทู้มักจะหากิน มี "โมเดลหัวข้อที่อยู่ภายใต้การดูแล" ด้วยเช่นกัน แต่ถึงอย่างนั้นพวกเขาพยายามที่จะจำลองหัวข้อที่อยู่ในชั้นเรียน

เช่นคุณอาจมีคลาส "ฟุตบอล" แต่อาจมีหัวข้อในคลาสนี้ที่เกี่ยวข้องกับการแข่งขันหรือทีมใดทีมหนึ่งโดยเฉพาะ

ความท้าทายของหัวข้อคือการเปลี่ยนแปลงตลอดเวลา พิจารณาตัวอย่างการแข่งขันด้านบน หัวข้อดังกล่าวอาจปรากฏขึ้นและหายไปอีกครั้ง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.