ฉันกำลังพยายามจัดกลุ่มเช่นสตริงเกี่ยวกับการเขียนโปรแกรมกับสตริงอื่น ๆ เกี่ยวกับการเขียนโปรแกรมสตริงเกี่ยวกับฟิสิกส์กับสตริงอื่น ๆ เกี่ยวกับฟิสิกส์ ฯลฯ สำหรับหัวข้อที่หลากหลาย แม้จะมีแง่มุมทางภาษาที่ชัดเจนทางทฤษฎีของปัญหา แต่ฉันกำลังมองหาที่จะทำสิ่งนี้โดยใช้การเขียนโปรแกรม / ซอฟต์แวร์
บทสรุป:ด้วยสตริงจำนวนมากฉันจะจัดกลุ่มตามธีมความหมายได้อย่างไร
แอปพลิเคชันเฉพาะ:ฉันมีคำถามแบบไม่สำคัญประมาณ 200,000 คำถามที่ฉันต้องการจัดหมวดหมู่เป็นกลุ่มร่วมกัน (รถยนต์คอมพิวเตอร์การเมืองแคนาดาอาหารบารักโอบา ฯลฯ )
สิ่งที่ฉันได้ดู: Wikipedia มีรายการชุดเครื่องมือประมวลผลภาษาธรรมชาติ (สมมติว่าสิ่งที่ฉันพยายามทำจริง ๆ แล้วเรียกว่า NLP) ดังนั้นฉันจึงดูบ้าง แต่ดูเหมือนไม่มีใครทำอะไรที่คล้ายกับความต้องการของฉัน
หมายเหตุ:มีการชี้ให้เห็นว่าการทำเช่นนี้ต้องใช้ความรู้เพิ่มเติม (เช่น Porsche เป็นรถยนต์ส่วน C ++ เป็นภาษาโปรแกรม) ฉันคิดว่าจำเป็นต้องใช้ข้อมูลการฝึกอบรม แต่ถ้าฉันมีเพียงรายการคำถามและคำตอบฉันจะสร้างข้อมูลการฝึกอบรมได้อย่างไร จากนั้นฉันจะใช้ข้อมูลการฝึกอบรมอย่างไร
หมายเหตุเพิ่มเติม:หากการจัดรูปแบบปัจจุบันของความช่วยเหลือ Q & As ของฉัน (แม้ว่าจะดูเหมือนว่า JSON มันเป็นไฟล์ข้อความดิบ):
// row 1: is metadata
// row 2: is a very specific kind of "category"
// row 3: is the question
// row 4: is the answer
{
15343
A MUSICAL PASTICHE
Of classical music's "three B's", he was the one born in Hamburg in 1833
Johannes Brahms
}
แต่ก่อนที่ใครบางคนจะชี้ให้เห็นว่ามีหมวดหมู่อยู่แล้วโปรดทราบว่ามีคำถามและคำตอบประมาณ 200,000 คำถามเช่นนี้และ "หมวดหมู่" จำนวนมากโดยทั่วไป ฉันพยายามจัดกลุ่มเหล่านี้เป็นกลุ่มที่กว้างขึ้นเช่นเดียวกับที่กล่าวข้างต้น นอกจากนี้การจัดรูปแบบนี้สามารถเปลี่ยนแปลงได้สำหรับคำถามทั้งหมดได้อย่างง่ายดายมากฉันทำได้โดยทางโปรแกรม
และหมายเหตุเพิ่มเติม:ฉันไม่รู้จริง ๆ ว่าจะต้องมีกี่หมวดหมู่ (อย่างน้อย 10-20) เพราะฉันไม่ได้อ่านคำถามทั้งหมดด้วยตัวเอง ฉันคาดหวังว่าจะมีการ จำกัด จำนวนอย่างใดในระหว่างการจัดหมวดหมู่ ไม่ว่าในกรณีใดฉันสามารถสร้างหมวดหมู่ได้ด้วยตนเองหลายครั้ง