การใช้การทำคลัสเตอร์ในการประมวลผลข้อความ


11

สวัสดีนี่เป็นคำถามแรกของฉันใน Data Science stack ฉันต้องการสร้างอัลกอริทึมสำหรับการจำแนกข้อความ สมมติว่าฉันมีชุดข้อความและบทความจำนวนมาก ให้พูดประมาณ 5,000 ข้อความธรรมดา ฉันแรกใช้ฟังก์ชั่นง่าย ๆ เพื่อกำหนดความถี่ของคำทั้งสี่และข้างบน จากนั้นฉันใช้สิ่งนี้เป็นคุณสมบัติของตัวอย่างการฝึกอบรมแต่ละตัวอย่าง ตอนนี้ฉันต้องการให้อัลกอริทึมของฉันสามารถจัดกลุ่มชุดการฝึกอบรมตามคุณสมบัติของพวกเขาซึ่งนี่คือความถี่ของแต่ละคำในบทความ (โปรดทราบว่าในตัวอย่างนี้แต่ละบทความจะมีคุณลักษณะเฉพาะของตนเองเนื่องจากแต่ละบทความมีคุณสมบัติที่แตกต่างกันเช่นบทความมี 10 "น้ำและ 23" บริสุทธิ์ "และอีกบทความหนึ่งมี 8" การเมือง "และ 14" อำนาจ ") คุณช่วยแนะนำขั้นตอนวิธีการจัดกลุ่มที่ดีที่สุดสำหรับตัวอย่างนี้ได้ไหม

คำตอบ:


5

ฉันไม่รู้ว่าคุณเคยอ่าน SenseCluster โดย Ted Pedersen: http://senseclusters.sourceforge.net/หรือไม่ กระดาษที่ดีมากสำหรับการจัดกลุ่มความรู้สึก

เมื่อคุณวิเคราะห์คำต่างๆให้คิดว่า "คอมพิวเตอร์", "คอมพิวเตอร์", "คอมพิวเตอร์", ... แสดงถึงแนวคิดเดียวดังนั้นคุณลักษณะเดียวเท่านั้น สำคัญมากสำหรับการวิเคราะห์ที่ถูกต้อง

เพื่อพูดคุยเกี่ยวกับขั้นตอนวิธีการจัดกลุ่มที่คุณสามารถใช้การจัดกลุ่มตามลำดับชั้น ในแต่ละขั้นตอนของอัลโกคุณจะรวมข้อความที่คล้ายกันมากที่สุด 2 ข้อความตามคุณสมบัติของพวกเขา (โดยใช้การวัดความแตกต่างระยะทางแบบยูคลิด ด้วยการวัดความแตกต่างนั้นคุณจะสามารถค้นหาจำนวนที่ดีที่สุดของกลุ่มและดังนั้นการจัดกลุ่มที่ดีที่สุดสำหรับข้อความและบทความของคุณ

โชคดี :)


6

หากคุณต้องการดำเนินการต่อบนเส้นทางที่มีอยู่ของฉันฉันขอแนะนำให้ปรับความถี่ของแต่ละคำตามความนิยมของคำศัพท์นั้นในคลังข้อมูลทั้งหมดดังนั้นจึงหาได้ยาก จากนั้นใช้การฉายแบบสุ่มเพื่อลดขนาดของเวกเตอร์ที่ยาวมาก ๆ เหล่านี้ให้มีขนาดเล็กลงดังนั้นอัลกอริทึมการจัดกลุ่มของคุณจะทำงานได้ดีขึ้น (คุณไม่ต้องการจัดกลุ่มในพื้นที่มิติสูง)

แต่มีวิธีอื่นในการสร้างแบบจำลองหัวข้อ อ่านบทช่วยสอนนี้เพื่อเรียนรู้เพิ่มเติม


2

ไม่สามารถบอกได้ว่ามันดีที่สุด แต่การวิเคราะห์ความหมายแฝงอาจเป็นตัวเลือกหนึ่ง โดยทั่วไปจะขึ้นอยู่กับการเกิดขึ้นคุณต้องน้ำหนักก่อน

http://en.wikipedia.org/wiki/Latent_semantic_analysis

http://lsa.colorado.edu/papers/dp1.LSAintro.pdf

ปัญหาคือว่า LSA ไม่มีการสนับสนุนทางสถิติที่แน่นอน

มีความสุข


โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.