อัลกอริทึมทุกข้อที่เกี่ยวข้องกับข้อมูลตัวอักษรมีคำศัพท์ ในกรณีของ word2vec คำศัพท์จะประกอบด้วยคำทั้งหมดในคลังข้อมูลป้อนเข้าหรืออย่างน้อยผู้ที่อยู่เหนือขีด จำกัด ความถี่ขั้นต่ำ
อัลกอริทึมมักจะละเลยคำที่อยู่นอกคำศัพท์ของพวกเขา อย่างไรก็ตามมีวิธีในการปรับแก้ปัญหาของคุณใหม่โดยที่ไม่มีคำศัพท์นอกคำศัพท์
โปรดจำไว้ว่าคำนั้นเป็นเพียง "โทเค็น" ใน word2vec พวกเขาอาจเป็น ngrams หรือพวกเขาอาจเป็นตัวอักษร วิธีหนึ่งในการกำหนดคำศัพท์ของคุณคือการพูดว่าทุกคำที่เกิดขึ้นอย่างน้อย X ครั้งนั้นเป็นคำศัพท์ของคุณ จากนั้นจะเพิ่ม "พยางค์" ที่ใช้กันทั่วไป (ตัวอักษรจำนวนมาก) เป็นคำศัพท์ของคุณ จากนั้นคุณเพิ่มตัวอักษรแต่ละตัวลงในคำศัพท์ของคุณ
ด้วยวิธีนี้คุณสามารถกำหนดคำใด ๆ ก็ได้เช่นกัน
- คำศัพท์ในคำศัพท์ของคุณ
- ชุดพยางค์ในคำศัพท์ของคุณ
- ชุดตัวอักษรและพยางค์รวมในคำศัพท์ของคุณ