วิธีที่ word2vec สามารถใช้เพื่อระบุคำที่มองไม่เห็นและเกี่ยวข้องกับข้อมูลที่ผ่านการฝึกอบรมแล้ว

11

ฉันทำงานกับ word2vec gensim model และพบว่ามันน่าสนใจจริงๆ ฉันกำลังขัดจังหวะในการค้นหาคำที่ไม่รู้จัก / ไม่ปรากฏเมื่อตรวจสอบกับแบบจำลองจะสามารถรับคำที่คล้ายกันจากแบบจำลองที่ผ่านการฝึกอบรม

เป็นไปได้ไหม word2vec สามารถปรับเปลี่ยนได้หรือไม่? หรือคลังข้อมูลการฝึกอบรมต้องมีคำทั้งหมดที่ฉันต้องการค้นหาความคล้ายคลึงกัน

— gaurus
แหล่งที่มา

9

อัลกอริทึมทุกข้อที่เกี่ยวข้องกับข้อมูลตัวอักษรมีคำศัพท์ ในกรณีของ word2vec คำศัพท์จะประกอบด้วยคำทั้งหมดในคลังข้อมูลป้อนเข้าหรืออย่างน้อยผู้ที่อยู่เหนือขีด จำกัด ความถี่ขั้นต่ำ

อัลกอริทึมมักจะละเลยคำที่อยู่นอกคำศัพท์ของพวกเขา อย่างไรก็ตามมีวิธีในการปรับแก้ปัญหาของคุณใหม่โดยที่ไม่มีคำศัพท์นอกคำศัพท์

โปรดจำไว้ว่าคำนั้นเป็นเพียง "โทเค็น" ใน word2vec พวกเขาอาจเป็น ngrams หรือพวกเขาอาจเป็นตัวอักษร วิธีหนึ่งในการกำหนดคำศัพท์ของคุณคือการพูดว่าทุกคำที่เกิดขึ้นอย่างน้อย X ครั้งนั้นเป็นคำศัพท์ของคุณ จากนั้นจะเพิ่ม "พยางค์" ที่ใช้กันทั่วไป (ตัวอักษรจำนวนมาก) เป็นคำศัพท์ของคุณ จากนั้นคุณเพิ่มตัวอักษรแต่ละตัวลงในคำศัพท์ของคุณ

ด้วยวิธีนี้คุณสามารถกำหนดคำใด ๆ ก็ได้เช่นกัน

คำศัพท์ในคำศัพท์ของคุณ
ชุดพยางค์ในคำศัพท์ของคุณ
ชุดตัวอักษรและพยางค์รวมในคำศัพท์ของคุณ

— jamesmf
แหล่งที่มา

3

word2vec ถือว่าคำเป็นอะตอม เพื่อให้ได้เวกเตอร์ที่มีความหมายสำหรับคำที่ไม่รู้จักคุณจะต้อง

เปลี่ยนสิ่งที่อะตอมเหล่านี้เป็นเช่นเปลี่ยนเป็นตัวอักษร n-g ดังคำตอบของ jamesmf หรือ
ใช้โมเดลที่แตกต่างซึ่งจะตรวจสอบสิ่งที่อยู่ในคำของคุณอย่างชัดเจนเช่นโมเดล CWE บนhttps://github.com/Leonard-Xu/CWEใช้งานง่าย

— โจอาคิมแว็กเนอร์
แหล่งที่มา

1

github.com/facebookresearch/fastTextดูเหมือนว่าจะทำงานได้ดี

— Joachim Wagner

ใช่ฉันพยายาม แต่ไม่ได้ทำงานได้ดีกับงานเช่นการแบ่งส่วนทางสัณฐานวิทยา

— gaurus

2

คลังข้อมูลการฝึกอบรมจะต้องมีคำทั้งหมดที่คุณต้องการค้นหาความคล้ายคลึงกัน

— Franck Dernoncourt
แหล่งที่มา

0

word2Vec และ FastText ล้มเหลวหากคำไม่ได้อยู่ในคำศัพท์ โยนข้อผิดพลาด มันให้รายการคะแนนสำหรับคำที่เกี่ยวข้อง แต่คำที่มองไม่เห็นจะไม่อยู่ในคำศัพท์ใช่ไหม? ดังนั้นมันจะแก้ปัญหาคำที่มองไม่เห็นได้อย่างไร

— แซม
แหล่งที่มา