วิธีที่ word2vec สามารถใช้เพื่อระบุคำที่มองไม่เห็นและเกี่ยวข้องกับข้อมูลที่ผ่านการฝึกอบรมแล้ว


11

ฉันทำงานกับ word2vec gensim model และพบว่ามันน่าสนใจจริงๆ ฉันกำลังขัดจังหวะในการค้นหาคำที่ไม่รู้จัก / ไม่ปรากฏเมื่อตรวจสอบกับแบบจำลองจะสามารถรับคำที่คล้ายกันจากแบบจำลองที่ผ่านการฝึกอบรม

เป็นไปได้ไหม word2vec สามารถปรับเปลี่ยนได้หรือไม่? หรือคลังข้อมูลการฝึกอบรมต้องมีคำทั้งหมดที่ฉันต้องการค้นหาความคล้ายคลึงกัน

คำตอบ:


9

อัลกอริทึมทุกข้อที่เกี่ยวข้องกับข้อมูลตัวอักษรมีคำศัพท์ ในกรณีของ word2vec คำศัพท์จะประกอบด้วยคำทั้งหมดในคลังข้อมูลป้อนเข้าหรืออย่างน้อยผู้ที่อยู่เหนือขีด จำกัด ความถี่ขั้นต่ำ

อัลกอริทึมมักจะละเลยคำที่อยู่นอกคำศัพท์ของพวกเขา อย่างไรก็ตามมีวิธีในการปรับแก้ปัญหาของคุณใหม่โดยที่ไม่มีคำศัพท์นอกคำศัพท์

โปรดจำไว้ว่าคำนั้นเป็นเพียง "โทเค็น" ใน word2vec พวกเขาอาจเป็น ngrams หรือพวกเขาอาจเป็นตัวอักษร วิธีหนึ่งในการกำหนดคำศัพท์ของคุณคือการพูดว่าทุกคำที่เกิดขึ้นอย่างน้อย X ครั้งนั้นเป็นคำศัพท์ของคุณ จากนั้นจะเพิ่ม "พยางค์" ที่ใช้กันทั่วไป (ตัวอักษรจำนวนมาก) เป็นคำศัพท์ของคุณ จากนั้นคุณเพิ่มตัวอักษรแต่ละตัวลงในคำศัพท์ของคุณ

ด้วยวิธีนี้คุณสามารถกำหนดคำใด ๆ ก็ได้เช่นกัน

  1. คำศัพท์ในคำศัพท์ของคุณ
  2. ชุดพยางค์ในคำศัพท์ของคุณ
  3. ชุดตัวอักษรและพยางค์รวมในคำศัพท์ของคุณ

3

word2vec ถือว่าคำเป็นอะตอม เพื่อให้ได้เวกเตอร์ที่มีความหมายสำหรับคำที่ไม่รู้จักคุณจะต้อง

  • เปลี่ยนสิ่งที่อะตอมเหล่านี้เป็นเช่นเปลี่ยนเป็นตัวอักษร n-g ดังคำตอบของ jamesmf หรือ
  • ใช้โมเดลที่แตกต่างซึ่งจะตรวจสอบสิ่งที่อยู่ในคำของคุณอย่างชัดเจนเช่นโมเดล CWE บนhttps://github.com/Leonard-Xu/CWEใช้งานง่าย

1
github.com/facebookresearch/fastTextดูเหมือนว่าจะทำงานได้ดี
Joachim Wagner

ใช่ฉันพยายาม แต่ไม่ได้ทำงานได้ดีกับงานเช่นการแบ่งส่วนทางสัณฐานวิทยา
gaurus

2

คลังข้อมูลการฝึกอบรมจะต้องมีคำทั้งหมดที่คุณต้องการค้นหาความคล้ายคลึงกัน


0

word2Vec และ FastText ล้มเหลวหากคำไม่ได้อยู่ในคำศัพท์ โยนข้อผิดพลาด มันให้รายการคะแนนสำหรับคำที่เกี่ยวข้อง แต่คำที่มองไม่เห็นจะไม่อยู่ในคำศัพท์ใช่ไหม? ดังนั้นมันจะแก้ปัญหาคำที่มองไม่เห็นได้อย่างไร

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.