แบบจำลองหัวข้อสำหรับเอกสารสั้น ๆ


14

ได้รับแรงบันดาลใจจากคำถามนี้ฉันสงสัยว่างานใด ๆ ที่ทำกับแบบจำลองหัวข้อสำหรับคอลเลกชันขนาดใหญ่ของข้อความสั้น ๆ เป็นพิเศษหรือไม่ สัญชาตญาณของฉันคือ Twitter ควรเป็นแรงบันดาลใจตามธรรมชาติสำหรับโมเดลดังกล่าว อย่างไรก็ตามจากการทดลองที่ จำกัด บางครั้งดูเหมือนว่าหัวข้อโมเดลมาตรฐาน (LDA ฯลฯ ) จะทำงานได้ค่อนข้างแย่กับข้อมูลประเภทนี้

มีใครรู้บ้างเกี่ยวกับงานที่ทำในด้านนี้บ้างไหม บทความนี้พูดเกี่ยวกับการใช้ LDA กับ Twitter แต่ฉันสนใจจริง ๆ ว่ามีอัลกอริทึมอื่น ๆ ที่ทำงานได้ดีขึ้นในบริบทของเอกสารระยะสั้นหรือไม่


2
Twitter เป็นชุดข้อมูลที่ยากเป็นพิเศษสำหรับการสร้างแบบจำลองหัวข้อไม่เพียงเพราะขนาดเล็กของ 'เอกสาร' แต่เนื่องมาจากชนิดของข้อความ ผู้คนมักจะใช้ชวเลขการส่งข้อความที่หลากหลายซึ่งทำให้การระบุเหตุการณ์ที่เกิดขึ้นยากยิ่งขึ้น
Nick

ดูรายการเอกสารที่ดีและซอร์สโค้ดที่เกี่ยวข้องสำหรับการสร้างแบบจำลองหัวข้อบนทวีตได้ที่: quora.com/…
NQD

คำตอบ:


7

นี่เป็นคำตอบที่ล่าช้า แต่อาจเป็นประโยชน์สำหรับผู้อื่นที่ค้นหาการวิจัยและเครื่องมือที่เกี่ยวข้องสำหรับปัญหานี้:

  1. Weiwei Guo จากโคลัมเบียใช้โค้ดสำหรับการสร้างแบบจำลองหัวข้อข้อความแบบสั้น เขาอธิบายการใช้งานในบทความ "ประโยคการสร้างแบบจำลองในพื้นที่แฝง" ( http://aclweb.org/anthology-new/P/P12/P12/P12-1091v2.pdf ) และรหัสมีอยู่ที่นี่: http: // www .cs.columbia.edu / ~ Weiwei / code.html

  2. แม้ว่านี่ไม่ใช่การสร้างแบบจำลองหัวข้อหากคุณมีงานการจัดหมวดหมู่ที่เกี่ยวข้องกับข้อความสั้น ๆ คุณสามารถใช้ LibShortText จากคำอธิบายเว็บไซต์ของพวกเขา

"LibShortText เป็นเครื่องมือโอเพ่นซอร์สสำหรับการจัดหมวดหมู่และการวิเคราะห์ข้อความสั้น ๆ มันสามารถจัดการการจำแนกประเภทของเช่นชื่อเรื่องคำถามประโยคและข้อความสั้น ๆ ... "

http://www.csie.ntu.edu.tw/~cjlin/libshorttext/


6

แม้ว่าฉันจะไม่คุ้นเคยกับงานของเขา แต่ฉันรู้ว่าJacob Eisensteinทำงานด้านการวิเคราะห์ข้อความและแบบจำลองกราฟิกในข้อมูลทวิตเตอร์ โดยเฉพาะอย่างยิ่งบทความนี้จะอธิบายถึงการประยุกต์ใช้แบบจำลองหัวข้อในข้อมูล Twitter และไมโครบล็อก

แก้ไข: จริง ๆ หลังจากอ่านกระดาษอีกเล็กน้อยพวกเขาระบุ:

อย่างไรก็ตามข้อความเฉลี่ยบน Twitter เป็นเพียงสิบหกคำโทเค็นซึ่งเบาบางเกินไปสำหรับการสร้างแบบจำลองหัวข้อดั้งเดิม; แต่เรารวบรวมข้อความทั้งหมดจากผู้ใช้ที่ให้ไว้ในเอกสารเดียว

ดังนั้นบางทีกระดาษที่มีจำนวนมากอาจไม่ได้รับความช่วยเหลือมากนัก แต่สิ่งพิมพ์ Eisenstein อื่น ๆ อาจนำคุณไปในทิศทางที่ถูกต้อง


6

บทความล่าสุดที่เรียกว่า " รูปแบบหัวข้อ biterm สำหรับข้อความสั้น " (WWW13) ได้ดำเนินการบางอย่างในหัวข้อนี้และนี่คือรหัสของมัน


2
ฉันยืนยันว่า BiTerm LDA ทำงานได้ดีสำหรับการใช้ข้อความสั้น ๆ (3-8 คำ) ในการสร้างหัวข้อและการจัดหมวดหมู่ที่ตามมา
Vladislavs Dovgalecs
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.