เหตุใดการข้ามคำดีกว่าคำที่ไม่บ่อยครั้งกว่า CBOW


คำตอบ:


14

ใน CBOW เวกเตอร์จากคำบริบทถูกเฉลี่ยก่อนทำนายคำกลาง ในการข้ามแกรมไม่มีการเฉลี่ยเวกเตอร์การฝัง ดูเหมือนว่าแบบจำลองสามารถเรียนรู้การเป็นตัวแทนที่ดีกว่าสำหรับคำที่หายากเมื่อเวกเตอร์ของพวกเขาไม่ได้ค่าเฉลี่ยกับคำบริบทอื่น ๆ ในกระบวนการของการทำนาย


13

นี่คือความเข้าใจที่เกินจริงและไร้เดียงสาของฉันเกี่ยวกับความแตกต่าง:

ดังที่เราทราบCBOWกำลังเรียนรู้ที่จะทำนายคำศัพท์ตามบริบท หรือเพิ่มความน่าจะเป็นของคำเป้าหมายให้มากที่สุดโดยดูที่บริบท และนี่เป็นปัญหาสำหรับคำที่หายาก ตัวอย่างเช่นกำหนดบริบทyesterday was really [...] dayรุ่น CBOW จะบอกคุณว่าส่วนใหญ่อาจเป็นคำหรือbeautiful niceคำที่ชอบdelightfulจะได้รับความสนใจน้อยกว่าของแบบจำลองเพราะมันถูกออกแบบมาเพื่อทำนายคำที่เป็นไปได้มากที่สุด คำที่หายากจะถูกทำให้ราบเรียบเหนือตัวอย่างมากมายด้วยคำที่บ่อยขึ้น

ในทางตรงกันข้ามskip-gramได้รับการออกแบบมาเพื่อทำนายบริบท ให้คำว่าdelightfulมันจะต้องเข้าใจและบอกเราว่ามีความน่าจะเป็นขนาดใหญ่บริบทคือyesterday was really [...] dayหรือบริบทที่เกี่ยวข้องอื่น ๆ ด้วยการข้าม - กรัมคำdelightfulจะไม่พยายามแข่งขันกับคำbeautifulแต่แทนที่จะdelightful+contextเป็นคู่จะถือว่าเป็นการสังเกตใหม่ ด้วยเหตุนี้skip-gramจะต้องการข้อมูลเพิ่มเติมเพื่อที่จะได้เรียนรู้ที่จะเข้าใจคำศัพท์ที่หายาก


0

ฉันมีเพียงเจอกระดาษที่แสดงให้เห็นว่าตรงข้าม: ที่ CBOW จะดีกว่าสำหรับคำไม่บ่อยกว่าเฮี๊ยบกรัมhttps://arxiv.org/abs/1609.08293 ฉันสงสัยว่าแหล่งที่มาของการอ้างสิทธิ์ที่ระบุไว้บนhttps://code.google.com/p/word2vec/ เป็นอย่างไร


ฉันเชื่อว่า Mikolov เขียนชุดเครื่องมือนั้นเอง สิ่งที่น่าสนใจในกระดาษของเขาคือpapers.nips.cc/paper/…เขากล่าวว่า "เราแสดงให้เห็นว่าการคำย่อยบ่อยครั้งระหว่างการฝึกจะส่งผลให้มีการเร่งความเร็วอย่างมีนัยสำคัญ (ประมาณ 2x - 10x) และช่วยเพิ่มความแม่นยำในการแสดงคำที่ไม่บ่อย " ดังนั้น skip-gram ที่มีส่วนขยาย subsampling
เควิน
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.