ฉันกำลังมองหาที่จะออกแบบระบบที่ให้ย่อหน้าของข้อความจะสามารถจัดหมวดหมู่มันและระบุบริบท:
- ได้รับการฝึกฝนกับย่อหน้าข้อความที่ผู้ใช้สร้างขึ้น (เช่นความเห็น / คำถาม / คำตอบ)
- แต่ละรายการในชุดการฝึกจะถูกติดแท็กด้วย ดังนั้นสำหรับเช่น ("หมวดหมู่ 1", "ย่อหน้าข้อความ")
- จะมีหลายร้อยหมวดหมู่
อะไรจะเป็นวิธีที่ดีที่สุดในการสร้างระบบเช่นนี้? ฉันได้ดูตัวเลือกที่แตกต่างกันเล็กน้อยและต่อไปนี้เป็นรายการของวิธีแก้ปัญหาที่เป็นไปได้ ตอนนี้ Word2Vec / NN เป็นทางออกที่ดีที่สุดหรือไม่?
- Recensive Neural Tensor Network เลี้ยงด้วยข้อมูล Word2Vec เฉลี่ย
- RNTN และเวกเตอร์ย่อหน้า ( https://cs.stanford.edu/~quocle/paragraph_vector.pdf )?
- TF-IDF ใช้ในเครือข่าย Deep Belief
- TF-IDF และ Logistic Regression
- กระเป๋าของคำและการจำแนก Naive Bayes
คุณสามารถอธิบายประเภทของประเภทใดได้บ้าง มันจะต้องสามารถจัดการหมวดหมู่ใหม่และ / หรือคำที่มองไม่เห็นได้หรือไม่? ข้อกำหนดเกี่ยวกับข้อกำหนดที่ไม่บ่อยนักและหมวดหมู่ที่มองไม่เห็นจะช่วยออกแบบระบบ
—
NBartley
ขอบคุณ @NBartley คำที่มองไม่เห็นจะมีโอกาสสูงเช่นกัน พาราการป้อนข้อมูลจะเป็นเนื้อหาที่ผู้ใช้สร้างขึ้นดังนั้นความเป็นไปได้ของคำที่ไม่สามารถมองเห็นได้จะสูงมาก หมวดหมู่จะได้รับการกำหนด แต่เราจะต้องขยายรายการหมวดหมู่เมื่อเวลาผ่านไป ขอบคุณ
—
Shankar
คุณควรตรวจสอบ sense2vec เกินไปarxiv.org/abs/1511.06388 สั้น ๆ มันเป็นคำ embeddings รวมกับการติดแท็ก Part-Of-Speech มีการรายงานว่าทำให้การจัดเรียงคำถูกต้องมากขึ้นโดยทำให้เข้าใจผิดคำพ้องเสียง มันจะน่าสนใจเพื่อดูว่ามันยังช่วยเพิ่มประสิทธิภาพในการจำแนกงาน
—
wacax