การใช้การทำคลัสเตอร์ในการประมวลผลข้อความ

11

สวัสดีนี่เป็นคำถามแรกของฉันใน Data Science stack ฉันต้องการสร้างอัลกอริทึมสำหรับการจำแนกข้อความ สมมติว่าฉันมีชุดข้อความและบทความจำนวนมาก ให้พูดประมาณ 5,000 ข้อความธรรมดา ฉันแรกใช้ฟังก์ชั่นง่าย ๆ เพื่อกำหนดความถี่ของคำทั้งสี่และข้างบน จากนั้นฉันใช้สิ่งนี้เป็นคุณสมบัติของตัวอย่างการฝึกอบรมแต่ละตัวอย่าง ตอนนี้ฉันต้องการให้อัลกอริทึมของฉันสามารถจัดกลุ่มชุดการฝึกอบรมตามคุณสมบัติของพวกเขาซึ่งนี่คือความถี่ของแต่ละคำในบทความ (โปรดทราบว่าในตัวอย่างนี้แต่ละบทความจะมีคุณลักษณะเฉพาะของตนเองเนื่องจากแต่ละบทความมีคุณสมบัติที่แตกต่างกันเช่นบทความมี 10 "น้ำและ 23" บริสุทธิ์ "และอีกบทความหนึ่งมี 8" การเมือง "และ 14" อำนาจ ") คุณช่วยแนะนำขั้นตอนวิธีการจัดกลุ่มที่ดีที่สุดสำหรับตัวอย่างนี้ได้ไหม

text-mining clustering

— ราชิด
แหล่งที่มา

5

ฉันไม่รู้ว่าคุณเคยอ่าน SenseCluster โดย Ted Pedersen: http://senseclusters.sourceforge.net/หรือไม่ กระดาษที่ดีมากสำหรับการจัดกลุ่มความรู้สึก

เมื่อคุณวิเคราะห์คำต่างๆให้คิดว่า "คอมพิวเตอร์", "คอมพิวเตอร์", "คอมพิวเตอร์", ... แสดงถึงแนวคิดเดียวดังนั้นคุณลักษณะเดียวเท่านั้น สำคัญมากสำหรับการวิเคราะห์ที่ถูกต้อง

เพื่อพูดคุยเกี่ยวกับขั้นตอนวิธีการจัดกลุ่มที่คุณสามารถใช้การจัดกลุ่มตามลำดับชั้น ในแต่ละขั้นตอนของอัลโกคุณจะรวมข้อความที่คล้ายกันมากที่สุด 2 ข้อความตามคุณสมบัติของพวกเขา (โดยใช้การวัดความแตกต่างระยะทางแบบยูคลิด ด้วยการวัดความแตกต่างนั้นคุณจะสามารถค้นหาจำนวนที่ดีที่สุดของกลุ่มและดังนั้นการจัดกลุ่มที่ดีที่สุดสำหรับข้อความและบทความของคุณ

โชคดี :)

— JC R
แหล่งที่มา

6

หากคุณต้องการดำเนินการต่อบนเส้นทางที่มีอยู่ของฉันฉันขอแนะนำให้ปรับความถี่ของแต่ละคำตามความนิยมของคำศัพท์นั้นในคลังข้อมูลทั้งหมดดังนั้นจึงหาได้ยาก จากนั้นใช้การฉายแบบสุ่มเพื่อลดขนาดของเวกเตอร์ที่ยาวมาก ๆ เหล่านี้ให้มีขนาดเล็กลงดังนั้นอัลกอริทึมการจัดกลุ่มของคุณจะทำงานได้ดีขึ้น (คุณไม่ต้องการจัดกลุ่มในพื้นที่มิติสูง)

แต่มีวิธีอื่นในการสร้างแบบจำลองหัวข้อ อ่านบทช่วยสอนนี้เพื่อเรียนรู้เพิ่มเติม

— เอ็ม
แหล่งที่มา

2

ไม่สามารถบอกได้ว่ามันดีที่สุด แต่การวิเคราะห์ความหมายแฝงอาจเป็นตัวเลือกหนึ่ง โดยทั่วไปจะขึ้นอยู่กับการเกิดขึ้นคุณต้องน้ำหนักก่อน

http://en.wikipedia.org/wiki/Latent_semantic_analysis

http://lsa.colorado.edu/papers/dp1.LSAintro.pdf

ปัญหาคือว่า LSA ไม่มีการสนับสนุนทางสถิติที่แน่นอน

มีความสุข

— เฉินกัว
แหล่งที่มา

0

วิธีหนึ่งในการจำแนกข้อความคือการคำนวณระยะความถี่และความถี่เอกสารผกผัน คุณสามารถอ้างถึงเอกสารนี้: http://www.oracle.com/technetwork/testcontent/feature-preparation-130942.pdf

— Rajan Kumar Kharel
แหล่งที่มา