การจัดประเภทข้อความ - ปัญหา: Word2Vec / NN เป็นวิธีที่ดีที่สุดหรือไม่?


10

ฉันกำลังมองหาที่จะออกแบบระบบที่ให้ย่อหน้าของข้อความจะสามารถจัดหมวดหมู่มันและระบุบริบท:

  1. ได้รับการฝึกฝนกับย่อหน้าข้อความที่ผู้ใช้สร้างขึ้น (เช่นความเห็น / คำถาม / คำตอบ)
  2. แต่ละรายการในชุดการฝึกจะถูกติดแท็กด้วย ดังนั้นสำหรับเช่น ("หมวดหมู่ 1", "ย่อหน้าข้อความ")
  3. จะมีหลายร้อยหมวดหมู่

อะไรจะเป็นวิธีที่ดีที่สุดในการสร้างระบบเช่นนี้? ฉันได้ดูตัวเลือกที่แตกต่างกันเล็กน้อยและต่อไปนี้เป็นรายการของวิธีแก้ปัญหาที่เป็นไปได้ ตอนนี้ Word2Vec / NN เป็นทางออกที่ดีที่สุดหรือไม่?

  1. Recensive Neural Tensor Network เลี้ยงด้วยข้อมูล Word2Vec เฉลี่ย
  2. RNTN และเวกเตอร์ย่อหน้า ( https://cs.stanford.edu/~quocle/paragraph_vector.pdf )?
  3. TF-IDF ใช้ในเครือข่าย Deep Belief
  4. TF-IDF และ Logistic Regression
  5. กระเป๋าของคำและการจำแนก Naive Bayes

คุณสามารถอธิบายประเภทของประเภทใดได้บ้าง มันจะต้องสามารถจัดการหมวดหมู่ใหม่และ / หรือคำที่มองไม่เห็นได้หรือไม่? ข้อกำหนดเกี่ยวกับข้อกำหนดที่ไม่บ่อยนักและหมวดหมู่ที่มองไม่เห็นจะช่วยออกแบบระบบ
NBartley

ขอบคุณ @NBartley คำที่มองไม่เห็นจะมีโอกาสสูงเช่นกัน พาราการป้อนข้อมูลจะเป็นเนื้อหาที่ผู้ใช้สร้างขึ้นดังนั้นความเป็นไปได้ของคำที่ไม่สามารถมองเห็นได้จะสูงมาก หมวดหมู่จะได้รับการกำหนด แต่เราจะต้องขยายรายการหมวดหมู่เมื่อเวลาผ่านไป ขอบคุณ
Shankar

คุณควรตรวจสอบ sense2vec เกินไปarxiv.org/abs/1511.06388 สั้น ๆ มันเป็นคำ embeddings รวมกับการติดแท็ก Part-Of-Speech มีการรายงานว่าทำให้การจัดเรียงคำถูกต้องมากขึ้นโดยทำให้เข้าใจผิดคำพ้องเสียง มันจะน่าสนใจเพื่อดูว่ามันยังช่วยเพิ่มประสิทธิภาพในการจำแนกงาน
wacax

คำตอบ:


5

1) Max-Entropy (Logistic Regression) บนเวกเตอร์ TFIDF เป็นจุดเริ่มต้นที่ดีสำหรับงานการจำแนก NLP จำนวนมาก

2) Word2vec นั้นเป็นสิ่งที่ควรค่าแก่การลองเปรียบเทียบกับแบบจำลอง 1 ฉันขอแนะนำให้ใช้รส Doc2Vec ในการดูประโยค / ย่อหน้า

Quoc Le และ Tomas Mikolov การเป็นตัวแทนการกระจายของประโยคและเอกสาร http://arxiv.org/pdf/1405.4053v2.pdf

Gensim (python) มีรูปแบบ Doc2vec ที่ดี


ขอบคุณ @rushimg หากหมวดหมู่มีความสัมพันธ์กันอย่างใกล้ชิดเช่นข้อความที่ใช้เป็นข้อมูลป้อนเข้ามีคำสามัญจำนวนมากวิธีใดในสองวิธีที่ดีกว่าในการทำความเข้าใจบริบทและความแตกต่างระหว่างทั้งสอง?
Shankar

ฉันจะใช้รุ่น Doc2Vec เนื่องจากความจริงที่ว่ามันลบข้อสมมติแบบถุงคำของรุ่นสูงสุด หากใช้ tf-idf เป็นคุณสมบัติในรุ่น max-ent สิ่งนี้จะลดผลกระทบของคำทั่วไป ฉันคิดว่าการลองทั้งสองวิธีและปรับแต่งมันจะเป็นแนวทางที่ดีที่สุด
rushimg
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.