คำถามเกี่ยวกับ Bag of Words ต่อเนื่อง


11

ฉันมีปัญหาในการเข้าใจประโยคนี้:

สถาปัตยกรรมที่เสนอครั้งแรกคล้ายกับ NNLM ของ feedforward โดยที่เลเยอร์ที่ไม่ใช่เชิงเส้นจะถูกลบออกและเลเยอร์การฉายจะใช้ร่วมกันสำหรับทุกคำ (ไม่ใช่แค่เมทริกซ์การฉาย); ดังนั้นคำทั้งหมดจึงถูกฉายในตำแหน่งเดียวกัน (เวกเตอร์ของพวกมันมีค่าเฉลี่ย)

ชั้นฉายภาพกับเมทริกซ์การฉายคืออะไร? มันหมายความว่าอย่างไรที่คำทุกคำจะถูกฉายในตำแหน่งเดียวกัน แล้วทำไมเวกเตอร์ของพวกมันจึงมีค่าเฉลี่ย?

ประโยคที่เป็นครั้งแรกของส่วนที่ 3.1 ของการประมาณค่าที่มีประสิทธิภาพของการแสดงคำในปริภูมิเวกเตอร์ (Mikolov et al. 2013)

คำตอบ:


6

รูปที่ 1 มีความชัดเจนสิ่งเล็กน้อย คำทั้งหมดเวกเตอร์จากหน้าต่างขนาดที่กำหนดจะถูกรวมไว้ผลลัพธ์จะถูกคูณด้วย (ขนาด 1 / หน้าต่าง) จากนั้นป้อนเข้าสู่เลเยอร์ผลลัพธ์

Projection matrix หมายถึงตารางการค้นหาทั้งหมดที่แต่ละคำนั้นตรงกับเวกเตอร์ที่มีมูลค่าแท้จริง การฉายเลเยอร์เป็นกระบวนการที่ใช้คำ (ดัชนีคำ) อย่างมีประสิทธิภาพและส่งคืนเวกเตอร์ที่สอดคล้องกัน เราสามารถต่อกัน (รับอินพุตขนาด k * n โดยที่ k คือขนาดหน้าต่างและ n คือความยาวเวกเตอร์) หรือในรูปแบบ CBOW เพียงรวมทั้งหมดของพวกเขา (รับอินพุตขนาด n)

ป้อนคำอธิบายรูปภาพที่นี่


ก่อนอื่นขอบคุณสำหรับคำตอบของคุณ ฉันยังสับสนเล็กน้อยจากความแตกต่างระหว่างเมทริกซ์การฉายและเลเยอร์การฉาย พวกเขาดูเหมือนกัน
user70394

@ user70394 ใช่จริง ๆ แล้วฉันพบว่าคำศัพท์ค่อนข้างสับสน โดยทั่วไปเลเยอร์ NN ใด ๆ คือฟังก์ชันที่แม็พอินพุตกับเอาต์พุต ชั้นฉายภาพนั้นใช้น้ำหนักจากเมทริกซ์การฉายภาพ แต่มันไม่ใช่เมทริกซ์เอง รับเมทริกซ์เดียวกันหนึ่งสามารถกำหนดฟังก์ชั่นที่แตกต่างกันมากมาย ในความเป็นจริงในกรณีของ CBOW เราอาจพูดได้ว่าเรามีชั้นฉายภาพที่มีการหน่วงเวลาตามด้วยชั้นสรุป ในโมเดล RNNLM "ชั้นฉายภาพ" เป็นส่วนหนึ่งของเลเยอร์ซ่อนเร้นที่รวมเอา weigths ของเมทริกซ์การฉายเข้ากับ weigths ที่เกิดขึ้นซ้ำเพื่อคำนวณเอาต์พุต
เดนิส Tarasov

1

ในขณะที่ฉันกำลังดูรอบ ๆ เกี่ยวกับปัญหา CBOW และสะดุดเมื่อนี่คือคำตอบทางเลือกสำหรับคำถามแรกของคุณ (" ชั้นการฉายกับแมทริกซ์คืออะไร?") โดยดูที่โมเดล NNLM (Bengio et al., 2003):

Bengio et al., 2003, รูปที่ 1: สถาปัตยกรรมระบบประสาท: f (i, w_ {t − 1}, ···, w_ {t − n + 1}) = g (i, C (w_ {t − 1} ), ···, C (w_ {t − n + 1})) โดยที่ g คือเครือข่ายประสาทและ C (i) เป็นเวกเตอร์คุณลักษณะคำที่ i

tanhC(wi)Ctanh

ในการเพิ่มและ "เพียงเพื่อบันทึก": ส่วนที่น่าตื่นเต้นจริง ๆ คือแนวทางของมิโกลอฟในการแก้ไขส่วนที่ภาพลักษณ์ของเบงคิโอคุณเห็นวลี "การคำนวณมากที่สุดที่นี่" Bengio พยายามลดปัญหาดังกล่าวด้วยการทำบางสิ่งที่เรียกว่าsoftmax แบบลำดับชั้น (แทนที่จะใช้ softmax) ในบทความต่อมา (Morin & Bengio 2005) แต่มิโกลอฟพร้อมด้วยกลยุทธ์ย่อยตัวอย่างเชิงลบของเขาได้เพิ่มอีกขั้นหนึ่ง: เขาไม่ได้คำนวณความน่าจะเป็นในเชิงลบของคำว่า "ผิด" ทั้งหมด (หรือการเข้ารหัส Huffman ตามที่ Bengio แนะนำในปี 2005) และเพียงคำนวณ ตัวอย่างเล็ก ๆ ของกรณีลบที่ให้การคำนวณดังกล่าวและการกระจายความน่าจะเป็นที่ฉลาดมากพอทำงานได้ดีมาก และการบริจาคครั้งที่สองและที่สำคัญยิ่งกว่าก็คือP(context|wt=i)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.