1
การไล่ระดับสีสำหรับ skipgram word2vec
ฉันกำลังประสบปัญหาในปัญหาการมอบหมายการเรียนรู้อย่างลึกของ Stanford NLP http://cs224d.stanford.edu/assignment1/assignment1_soln ฉันพยายามที่จะเข้าใจคำตอบของ 3a ที่พวกเขากำลังหาอนุพันธ์ของเวกเตอร์สำหรับคำกลาง สมมติว่าคุณได้คำทำนายเวกเตอร์ตรงกับคำกลางcสำหรับ skipgram และการคาดคะเนคำจะทำกับฟังก์ชัน softmax ที่พบในรุ่น word2vecvcvcv_{c} y^o=p(o|c)=exp(uTovc)∑Ww=1exp(uTwvc)y^o=p(o|c)=exp(uoTvc)∑w=1Wexp(uwTvc)\hat{y}^{o} = p(o | c) = \frac {exp(u_{o}^{T} v_{c})}{\sum_{w=1}^{W}exp(u_{w}^{T} v_{c})} โดยที่wหมายถึงคำ w-th และ (w = 1,..., W) คือเวกเตอร์คำว่า "เอาท์พุท" สำหรับคำทั้งหมดในคำศัพท์ สมมติว่าค่าใช้จ่ายข้ามเอนโทรปีถูกนำไปใช้กับการทำนายนี้และคำoเป็นคำที่คาดหวังuwuwu_w โดยที่คือเมทริกซ์ของเวกเตอร์เอาต์พุตทั้งหมดและให้เป็นเวกเตอร์คอลัมน์ของการคาดคะเนคำ softmax และyเป็นป้ายกำกับที่ร้อนแรงที่สุดซึ่ง ยังเป็นเวกเตอร์คอลัมน์U=[u1,u2,⋅⋅⋅,uW]U=[u1,u2,···,uW]U = [u_1,u_2, · · · ,u_W ]y^y^\hat{y} ที่เอนโทรปีของการข้ามคือCE(y,y^)=−∑iyilog(y^i)CE(y,y^)=−∑iyilog(y^i)CE(y, \hat{y}) = − \sum_iy_i\log(\hat{y}_i) …