2
ฉันจะจัดกลุ่มสตริงตามธีมทั่วไปได้อย่างไร
ฉันกำลังพยายามจัดกลุ่มเช่นสตริงเกี่ยวกับการเขียนโปรแกรมกับสตริงอื่น ๆ เกี่ยวกับการเขียนโปรแกรมสตริงเกี่ยวกับฟิสิกส์กับสตริงอื่น ๆ เกี่ยวกับฟิสิกส์ ฯลฯ สำหรับหัวข้อที่หลากหลาย แม้จะมีแง่มุมทางภาษาที่ชัดเจนทางทฤษฎีของปัญหา แต่ฉันกำลังมองหาที่จะทำสิ่งนี้โดยใช้การเขียนโปรแกรม / ซอฟต์แวร์ บทสรุป:ด้วยสตริงจำนวนมากฉันจะจัดกลุ่มตามธีมความหมายได้อย่างไร แอปพลิเคชันเฉพาะ:ฉันมีคำถามแบบไม่สำคัญประมาณ 200,000 คำถามที่ฉันต้องการจัดหมวดหมู่เป็นกลุ่มร่วมกัน (รถยนต์คอมพิวเตอร์การเมืองแคนาดาอาหารบารักโอบา ฯลฯ ) สิ่งที่ฉันได้ดู: Wikipedia มีรายการชุดเครื่องมือประมวลผลภาษาธรรมชาติ (สมมติว่าสิ่งที่ฉันพยายามทำจริง ๆ แล้วเรียกว่า NLP) ดังนั้นฉันจึงดูบ้าง แต่ดูเหมือนไม่มีใครทำอะไรที่คล้ายกับความต้องการของฉัน หมายเหตุ:มีการชี้ให้เห็นว่าการทำเช่นนี้ต้องใช้ความรู้เพิ่มเติม (เช่น Porsche เป็นรถยนต์ส่วน C ++ เป็นภาษาโปรแกรม) ฉันคิดว่าจำเป็นต้องใช้ข้อมูลการฝึกอบรม แต่ถ้าฉันมีเพียงรายการคำถามและคำตอบฉันจะสร้างข้อมูลการฝึกอบรมได้อย่างไร จากนั้นฉันจะใช้ข้อมูลการฝึกอบรมอย่างไร หมายเหตุเพิ่มเติม:หากการจัดรูปแบบปัจจุบันของความช่วยเหลือ Q & As ของฉัน (แม้ว่าจะดูเหมือนว่า JSON มันเป็นไฟล์ข้อความดิบ): // row 1: is metadata …