วิธีที่ดีสำหรับการจัดกลุ่มข้อความสั้นคืออะไร

15

ฉันกำลังทำงานกับปัญหาการจัดกลุ่มข้อความ ข้อมูลมีหลายประโยค มีอัลกอริทึมที่ดีซึ่งมีความแม่นยำสูงในข้อความสั้นหรือไม่?

คุณสามารถให้การอ้างอิงที่ดีได้หรือไม่?

อัลกอริทึมเช่น KMeans การจัดกลุ่มสเปกตรัมไม่ทำงานได้ดีสำหรับปัญหานี้

machine-learning clustering text-mining

10

นั่นขึ้นอยู่กับว่า "state-of-the-art" (SOTA) ส่วนใหญ่ที่คุณต้องการเมื่อเทียบกับที่คุณต้องการจะไป (ปุนตั้งใจ ... )

หากคุณสามารถใช้ชีวิตอยู่กับงานแต่งงานที่ตื้นเพียงแค่ word2vec, ถุงมือหรือ fastText ฉันคิดว่า Word Mover Distance (WMD [ใช่จริง ๆ ... ]) เป็นฟังก์ชันที่ดีสำหรับการวัดระยะทางเอกสาร (สั้น) [1] . ฉันเคยเห็นโน้ตบุ๊ค Python หลายตัวในอดีตที่ให้ "บทเรียน" สำหรับการวัดระยะทางดังนั้นมันง่ายมากที่จะไป

อย่างไรก็ตามหากคุณสนใจ SOTA มากขึ้นคุณจะต้องเรียนรู้อย่างลึกซึ้ง (การแทนลำดับ) โดยใช้เครือข่ายที่เกิดขึ้นซ้ำ ๆ ซึ่งเรียนรู้รูปแบบหัวข้อจากประโยคของคุณ นอกเหนือจากการรวมคำศัพท์ (ความหมาย) เข้าด้วยกันแล้ววิธีการเหล่านี้นอกเหนือไปจากวิธีการ "ดี - แก่ - คำ" โดยการเรียนรู้การเป็นตัวแทนของหัวข้อโดยใช้การอ้างอิงของคำในประโยค [s] ตัวอย่างเช่นรุ่นประโยคระดับกำเริบประโยค (SLRTM) เป็นแบบจำลองที่น่าสนใจลึก ๆ ที่น่าสนใจตามแนวคิดของ LDA แบบดั้งเดิม (โดย Blei et al.) หรือ LSA (Landauer et al.) แต่เป็น arXiv เท่านั้น กระดาษ (ดังนั้นค่าเริ่มต้น "คำเตือนใช้สิ่งนี้พร้อมเม็ดเกลือ" เกี่ยวกับการวิจัยที่ไม่ผ่านการตรวจสอบโดยเพื่อนควรใช้ ... ) [2] กระดาษมีตัวชี้ที่ยอดเยี่ยมมากมายและมีการอ้างอิงเพื่อเริ่มการวิจัยของคุณหากคุณต้องการลงไปในโพรงกระต่ายนี้

ในที่สุดก็ควรจะชี้แจงว่าฉันไม่ได้อ้างว่าสิ่งเหล่านี้เป็นวิธีการที่ดีที่สุดที่ได้รับการยอมรับสำหรับรูปแบบของคำและลำดับตามลำดับ แต่พวกเขาน่าจะช่วยให้คุณใกล้เคียงกับ SOTA ที่ "ดีที่สุด" และอย่างน้อยก็ควรเป็นจุดเริ่มต้นที่ดี

[1] Matt J. Kusner และคณะ จาก Word Embeddings ไปยังเอกสารระยะทาง การประชุมวิชาการเครื่องจักรนานาชาติครั้งที่ 32, JMLR, 2015

[2] เฟยเทียนและคณะ SLRTM: การให้หัวข้อพูดด้วยตนเอง arXiv 1604.02038, 2559

— FNL
แหล่งที่มา

ฉันลอง word2vec และมันใช้งานไม่ได้กับข้อความสั้น ๆ

— คนที่กระตือรือร้น

เพียงเพื่อให้แน่ใจว่า: คำตอบของฉันข้างต้นไม่แนะนำให้ใช้ word2vec (คนเดียว) สำหรับการจัดกลุ่มข้อความสั้น ๆ ค่อนข้างจะแนะนำให้ใช้ WMD (มากกว่าเวกเตอร์แบบฝัง) และ / หรือวิธีการเรียนรู้ลึก (แต่ถ้าคุณสามารถฝึกพาหะของตัวเองได้คุณจะได้ผลลัพธ์ที่ดีกับพวกเขาโดยลำพังโดยใช้Soft Cosine Similarity อย่างน้อยสำหรับ "ต้นแบบที่ทำงานได้")

— fnl

-1

https://github.com/RandyPen/TextCluster
นี่เป็นวิธีการแบบกลุ่มสำหรับข้อความสั้น ๆ ซึ่งมีประสิทธิภาพสูงกว่า KMeans เป็นต้นไม่จำเป็นต้องตั้งค่าหมายเลขตัวแปรแฝง
แนวคิดพื้นฐานคือ tokenize ประโยคเป็นคำ จากนั้นตรงไปยังที่ฝากข้อมูลอื่นตามองค์ประกอบข้อความ ในที่เก็บข้อมูลแต่ละอันคำนวณความคล้ายคลึงกันระหว่างประโยคและที่ฝากข้อมูล หากคะแนนความคล้ายคลึงกันสูงกว่าค่าเฉพาะให้เพิ่มประโยคนี้ลงในที่ฝากข้อมูลอีกอันหนึ่งเพื่อค้นหาที่เก็บข้อมูลถัดไป

ขั้นพื้นฐาน

— ตัณหาปากกา
แหล่งที่มา

คุณต้องอธิบายรายละเอียดให้ละเอียด อย่าเพิ่งอ้างอิงลิงค์

— Michael R. Chernick