อะไรคืออินพุตที่ดีกว่าสำหรับ Word2Vec

22

นี่เป็นเหมือนคำถาม NLP ทั่วไป การป้อนข้อมูลที่เหมาะสมในการฝึกอบรมการฝังคำคืออะไร Word2Vec ประโยคทั้งหมดที่เป็นของบทความควรเป็นเอกสารแยกต่างหากในคลังข้อมูลหรือไม่? หรือแต่ละบทความควรเป็นเอกสารในคลังข้อมูลดังกล่าว? นี่เป็นเพียงตัวอย่างการใช้ python และ gensim

คอร์ปัสแยกตามประโยค:

SentenceCorpus = [["first", "sentence", "of", "the", "first", "article."],
                  ["second", "sentence", "of", "the", "first", "article."],
                  ["first", "sentence", "of", "the", "second", "article."],
                  ["second", "sentence", "of", "the", "second", "article."]]

คอร์ปัสแยกตามบทความ:

ArticleCorpus = [["first", "sentence", "of", "the", "first", "article.",
                  "second", "sentence", "of", "the", "first", "article."],
                 ["first", "sentence", "of", "the", "second", "article.",
                  "second", "sentence", "of", "the", "second", "article."]]

การฝึกอบรม Word2Vec ใน Python:

from gensim.models import Word2Vec

wikiWord2Vec = Word2Vec(ArticleCorpus)

nlp word-embeddings

— wacax
แหล่งที่มา

14

คำตอบของคำถามนี้ก็คือว่ามันขึ้นอยู่กับ วิธีการหลักคือการส่งผ่านประโยคโทเค็น (เช่นSentenceCorpusในตัวอย่างของคุณ) แต่ขึ้นอยู่กับเป้าหมายของคุณและสิ่งที่คุณกำลังดูคลังข้อมูลคุณอาจต้องการใช้บทความทั้งหมดเพื่อเรียนรู้งานแต่งงาน นี่คือสิ่งที่คุณอาจไม่ทราบล่วงหน้า - ดังนั้นคุณต้องคิดว่าคุณต้องการประเมินคุณภาพของงานแต่งงานอย่างไรและทำการทดลองบางอย่างเพื่อดูว่างานแต่งงานแบบไหนที่มีประโยชน์มากกว่าสำหรับงานของคุณ ( s)

— NBartley
แหล่งที่มา

ตรงจุด ฉันใช้งานแต่งงานในรูปแบบและเช่นเดียวกับที่คุณพูดถึงมีการปรับปรุงใหญ่ในประสิทธิภาพการทำนายของแบบจำลองเมื่อฉันใช้บทความทั้งหมด ดังนั้นในกรณีใดการฝึกประโยคตามประโยคจะดีกว่า

— wacax

1

คุณควรมองและดูว่าคำที่มีเวกเตอร์คล้ายกันนั้นเกี่ยวข้องกันอย่างไร มีงานบางอย่างที่ทำกับขนาดของหน้าต่างบริบทและประเภทของบริบทที่แสดงให้เห็นว่าหน้าต่างที่เล็กกว่า (และอาจจะเล็กกว่าขนาดเอกสารเช่นประโยค) อาจทำให้คำที่คล้ายกันตามหน้าที่ (เช่นสหรัฐฯ) มากกว่าที่คล้ายกัน เช่นสหรัฐอเมริกาและคำที่เกี่ยวข้องกับรัฐบาล) มีเวกเตอร์ที่คล้ายกันมากกว่านี้ ฉันส่วนใหญ่อ้าง Omer Levy และงานแต่งงานของ Word ที่อิงกับการพึ่งพาของ Yoav Goldberg จากปี 2014 ฉันอาจเข้าใจผิดว่าและชอบที่จะได้รับการแก้ไขถ้าเป็นเช่นนั้น

— NBartley

1

เป็นส่วนเสริมของคำตอบของ @ NBartley สำหรับทุกคนที่เจอคำถามนี้ ฉันได้ลองใช้บทความ / ประโยคเป็นอินพุตสำหรับ word2vec บน Spark2.2 ผลลัพธ์ดังต่อไปนี้

ใช้ประโยคเป็นอินพุต:

ใช้บทความเป็นอินพุต:

— รี
แหล่งที่มา

0

สำหรับอดีต gensim มีคลาส Word2Vec สำหรับรุ่นหลัง Doc2Vec

http://rare-technologies.com/doc2vec-tutorial/

3

doc2vec นั้นแตกต่างจากการใช้ word2vec ในคลังข้อมูลของบทความมากกว่าประโยค doc2vec จะได้เรียนรู้การเป็นตัวแทนของบทความมากกว่าแค่คำพูด

— jamesmf