สวัสดีนี่เป็นคำถามแรกของฉันใน Data Science stack ฉันต้องการสร้างอัลกอริทึมสำหรับการจำแนกข้อความ สมมติว่าฉันมีชุดข้อความและบทความจำนวนมาก ให้พูดประมาณ 5,000 ข้อความธรรมดา ฉันแรกใช้ฟังก์ชั่นง่าย ๆ เพื่อกำหนดความถี่ของคำทั้งสี่และข้างบน จากนั้นฉันใช้สิ่งนี้เป็นคุณสมบัติของตัวอย่างการฝึกอบรมแต่ละตัวอย่าง ตอนนี้ฉันต้องการให้อัลกอริทึมของฉันสามารถจัดกลุ่มชุดการฝึกอบรมตามคุณสมบัติของพวกเขาซึ่งนี่คือความถี่ของแต่ละคำในบทความ (โปรดทราบว่าในตัวอย่างนี้แต่ละบทความจะมีคุณลักษณะเฉพาะของตนเองเนื่องจากแต่ละบทความมีคุณสมบัติที่แตกต่างกันเช่นบทความมี 10 "น้ำและ 23" บริสุทธิ์ "และอีกบทความหนึ่งมี 8" การเมือง "และ 14" อำนาจ ") คุณช่วยแนะนำขั้นตอนวิธีการจัดกลุ่มที่ดีที่สุดสำหรับตัวอย่างนี้ได้ไหม