อะไรคืออินพุตที่ดีกว่าสำหรับ Word2Vec
นี่เป็นเหมือนคำถาม NLP ทั่วไป การป้อนข้อมูลที่เหมาะสมในการฝึกอบรมการฝังคำคืออะไร Word2Vec ประโยคทั้งหมดที่เป็นของบทความควรเป็นเอกสารแยกต่างหากในคลังข้อมูลหรือไม่? หรือแต่ละบทความควรเป็นเอกสารในคลังข้อมูลดังกล่าว? นี่เป็นเพียงตัวอย่างการใช้ python และ gensim คอร์ปัสแยกตามประโยค: SentenceCorpus = [["first", "sentence", "of", "the", "first", "article."], ["second", "sentence", "of", "the", "first", "article."], ["first", "sentence", "of", "the", "second", "article."], ["second", "sentence", "of", "the", "second", "article."]] คอร์ปัสแยกตามบทความ: ArticleCorpus = [["first", "sentence", "of", "the", "first", "article.", "second", "sentence", "of", …