ฉันกำลังทำงานกับปัญหาการจัดกลุ่มข้อความ ข้อมูลมีหลายประโยค มีอัลกอริทึมที่ดีซึ่งมีความแม่นยำสูงในข้อความสั้นหรือไม่?
คุณสามารถให้การอ้างอิงที่ดีได้หรือไม่?
อัลกอริทึมเช่น KMeans การจัดกลุ่มสเปกตรัมไม่ทำงานได้ดีสำหรับปัญหานี้
ฉันกำลังทำงานกับปัญหาการจัดกลุ่มข้อความ ข้อมูลมีหลายประโยค มีอัลกอริทึมที่ดีซึ่งมีความแม่นยำสูงในข้อความสั้นหรือไม่?
คุณสามารถให้การอ้างอิงที่ดีได้หรือไม่?
อัลกอริทึมเช่น KMeans การจัดกลุ่มสเปกตรัมไม่ทำงานได้ดีสำหรับปัญหานี้
คำตอบ:
นั่นขึ้นอยู่กับว่า "state-of-the-art" (SOTA) ส่วนใหญ่ที่คุณต้องการเมื่อเทียบกับที่คุณต้องการจะไป (ปุนตั้งใจ ... )
หากคุณสามารถใช้ชีวิตอยู่กับงานแต่งงานที่ตื้นเพียงแค่ word2vec, ถุงมือหรือ fastText ฉันคิดว่า Word Mover Distance (WMD [ใช่จริง ๆ ... ]) เป็นฟังก์ชันที่ดีสำหรับการวัดระยะทางเอกสาร (สั้น) [1] . ฉันเคยเห็นโน้ตบุ๊ค Python หลายตัวในอดีตที่ให้ "บทเรียน" สำหรับการวัดระยะทางดังนั้นมันง่ายมากที่จะไป
อย่างไรก็ตามหากคุณสนใจ SOTA มากขึ้นคุณจะต้องเรียนรู้อย่างลึกซึ้ง (การแทนลำดับ) โดยใช้เครือข่ายที่เกิดขึ้นซ้ำ ๆ ซึ่งเรียนรู้รูปแบบหัวข้อจากประโยคของคุณ นอกเหนือจากการรวมคำศัพท์ (ความหมาย) เข้าด้วยกันแล้ววิธีการเหล่านี้นอกเหนือไปจากวิธีการ "ดี - แก่ - คำ" โดยการเรียนรู้การเป็นตัวแทนของหัวข้อโดยใช้การอ้างอิงของคำในประโยค [s] ตัวอย่างเช่นรุ่นประโยคระดับกำเริบประโยค (SLRTM) เป็นแบบจำลองที่น่าสนใจลึก ๆ ที่น่าสนใจตามแนวคิดของ LDA แบบดั้งเดิม (โดย Blei et al.) หรือ LSA (Landauer et al.) แต่เป็น arXiv เท่านั้น กระดาษ (ดังนั้นค่าเริ่มต้น "คำเตือนใช้สิ่งนี้พร้อมเม็ดเกลือ" เกี่ยวกับการวิจัยที่ไม่ผ่านการตรวจสอบโดยเพื่อนควรใช้ ... ) [2] กระดาษมีตัวชี้ที่ยอดเยี่ยมมากมายและมีการอ้างอิงเพื่อเริ่มการวิจัยของคุณหากคุณต้องการลงไปในโพรงกระต่ายนี้
ในที่สุดก็ควรจะชี้แจงว่าฉันไม่ได้อ้างว่าสิ่งเหล่านี้เป็นวิธีการที่ดีที่สุดที่ได้รับการยอมรับสำหรับรูปแบบของคำและลำดับตามลำดับ แต่พวกเขาน่าจะช่วยให้คุณใกล้เคียงกับ SOTA ที่ "ดีที่สุด" และอย่างน้อยก็ควรเป็นจุดเริ่มต้นที่ดี
[1] Matt J. Kusner และคณะ จาก Word Embeddings ไปยังเอกสารระยะทาง การประชุมวิชาการเครื่องจักรนานาชาติครั้งที่ 32, JMLR, 2015
[2] เฟยเทียนและคณะ SLRTM: การให้หัวข้อพูดด้วยตนเอง arXiv 1604.02038, 2559
https://github.com/RandyPen/TextCluster
นี่เป็นวิธีการแบบกลุ่มสำหรับข้อความสั้น ๆ ซึ่งมีประสิทธิภาพสูงกว่า KMeans เป็นต้นไม่จำเป็นต้องตั้งค่าหมายเลขตัวแปรแฝง
แนวคิดพื้นฐานคือ tokenize ประโยคเป็นคำ จากนั้นตรงไปยังที่ฝากข้อมูลอื่นตามองค์ประกอบข้อความ ในที่เก็บข้อมูลแต่ละอันคำนวณความคล้ายคลึงกันระหว่างประโยคและที่ฝากข้อมูล หากคะแนนความคล้ายคลึงกันสูงกว่าค่าเฉพาะให้เพิ่มประโยคนี้ลงในที่ฝากข้อมูลอีกอันหนึ่งเพื่อค้นหาที่เก็บข้อมูลถัดไป