นี่เป็นเหมือนคำถาม NLP ทั่วไป การป้อนข้อมูลที่เหมาะสมในการฝึกอบรมการฝังคำคืออะไร Word2Vec ประโยคทั้งหมดที่เป็นของบทความควรเป็นเอกสารแยกต่างหากในคลังข้อมูลหรือไม่? หรือแต่ละบทความควรเป็นเอกสารในคลังข้อมูลดังกล่าว? นี่เป็นเพียงตัวอย่างการใช้ python และ gensim
คอร์ปัสแยกตามประโยค:
SentenceCorpus = [["first", "sentence", "of", "the", "first", "article."],
["second", "sentence", "of", "the", "first", "article."],
["first", "sentence", "of", "the", "second", "article."],
["second", "sentence", "of", "the", "second", "article."]]
คอร์ปัสแยกตามบทความ:
ArticleCorpus = [["first", "sentence", "of", "the", "first", "article.",
"second", "sentence", "of", "the", "first", "article."],
["first", "sentence", "of", "the", "second", "article.",
"second", "sentence", "of", "the", "second", "article."]]
การฝึกอบรม Word2Vec ใน Python:
from gensim.models import Word2Vec
wikiWord2Vec = Word2Vec(ArticleCorpus)