คำตอบ:
ใน CBOW เวกเตอร์จากคำบริบทถูกเฉลี่ยก่อนทำนายคำกลาง ในการข้ามแกรมไม่มีการเฉลี่ยเวกเตอร์การฝัง ดูเหมือนว่าแบบจำลองสามารถเรียนรู้การเป็นตัวแทนที่ดีกว่าสำหรับคำที่หายากเมื่อเวกเตอร์ของพวกเขาไม่ได้ค่าเฉลี่ยกับคำบริบทอื่น ๆ ในกระบวนการของการทำนาย
นี่คือความเข้าใจที่เกินจริงและไร้เดียงสาของฉันเกี่ยวกับความแตกต่าง:
ดังที่เราทราบCBOWกำลังเรียนรู้ที่จะทำนายคำศัพท์ตามบริบท หรือเพิ่มความน่าจะเป็นของคำเป้าหมายให้มากที่สุดโดยดูที่บริบท และนี่เป็นปัญหาสำหรับคำที่หายาก ตัวอย่างเช่นกำหนดบริบทyesterday was really [...] day
รุ่น CBOW จะบอกคุณว่าส่วนใหญ่อาจเป็นคำหรือbeautiful
nice
คำที่ชอบdelightful
จะได้รับความสนใจน้อยกว่าของแบบจำลองเพราะมันถูกออกแบบมาเพื่อทำนายคำที่เป็นไปได้มากที่สุด คำที่หายากจะถูกทำให้ราบเรียบเหนือตัวอย่างมากมายด้วยคำที่บ่อยขึ้น
ในทางตรงกันข้ามskip-gramได้รับการออกแบบมาเพื่อทำนายบริบท ให้คำว่าdelightful
มันจะต้องเข้าใจและบอกเราว่ามีความน่าจะเป็นขนาดใหญ่บริบทคือyesterday was really [...] day
หรือบริบทที่เกี่ยวข้องอื่น ๆ ด้วยการข้าม - กรัมคำdelightful
จะไม่พยายามแข่งขันกับคำbeautiful
แต่แทนที่จะdelightful+context
เป็นคู่จะถือว่าเป็นการสังเกตใหม่ ด้วยเหตุนี้skip-gramจะต้องการข้อมูลเพิ่มเติมเพื่อที่จะได้เรียนรู้ที่จะเข้าใจคำศัพท์ที่หายาก
ฉันมีเพียงเจอกระดาษที่แสดงให้เห็นว่าตรงข้าม: ที่ CBOW จะดีกว่าสำหรับคำไม่บ่อยกว่าเฮี๊ยบกรัมhttps://arxiv.org/abs/1609.08293 ฉันสงสัยว่าแหล่งที่มาของการอ้างสิทธิ์ที่ระบุไว้บนhttps://code.google.com/p/word2vec/ เป็นอย่างไร