ปัญหา
มีปัญหาบางอย่างในการเรียนรู้คำว่าเวคเตอร์โดยใช้เครือข่ายนิวรัล "มาตรฐาน" ด้วยวิธีนี้คำว่าเวกเตอร์จะได้เรียนรู้ในขณะที่เครือข่ายเรียนรู้ที่จะคาดการณ์คำถัดไปที่กำหนดหน้าต่างของคำ (อินพุตของเครือข่าย)
การทำนายคำถัดไปก็เหมือนกับการทำนายชั้นเรียน นั่นคือเครือข่ายดังกล่าวเป็นเพียงลักษณนาม "มาตรฐาน" multinomial (หลายคลาส) และเครือข่ายนี้จะต้องมีเซลล์ประสาทเอาท์พุทมากเท่าที่เรียนมี เมื่อเรียนเป็นคำที่เกิดขึ้นจริงจำนวนของเซลล์ประสาทคือดีมาก
โครงข่ายประสาท "มาตรฐาน" มักจะได้รับการฝึกอบรมด้วยฟังก์ชั่นค่าใช้จ่ายข้ามเอนโทรปีซึ่งต้องการค่าของเซลล์ประสาทเอาท์พุทเพื่อเป็นตัวแทนความน่าจะเป็น - ซึ่งหมายความว่าเอาท์พุท "คะแนน" ที่คำนวณโดยเครือข่ายสำหรับแต่ละชั้นเรียน ความน่าจะเป็นจริงสำหรับแต่ละชั้นเรียน ขั้นตอนการทำให้เป็นมาตรฐานนี้ทำได้โดยใช้ฟังก์ชันsoftmax Softmax นั้นมีราคาสูงมากเมื่อใช้กับเลเยอร์เอาท์พุทขนาดใหญ่
ทางออก (a)
เพื่อจัดการกับปัญหานี้นั่นคือการคำนวณค่า softmax ที่มีราคาแพง Word2Vec ใช้เทคนิคที่เรียกว่าการประมาณค่าตัดกันเสียง เทคนิคนี้ได้รับการแนะนำโดย [A] (สร้างใหม่โดย [B]) จากนั้นนำไปใช้ใน [C], [D], [E] เพื่อเรียนรู้คำศัพท์การปักจากข้อความภาษาธรรมชาติที่ไม่มีป้ายกำกับ
แนวคิดพื้นฐานคือการแปลงปัญหาการจัดหมวดหมู่พหุนาม (เนื่องจากเป็นปัญหาของการทำนายคำถัดไป ) เป็นปัญหาการจำแนกประเภทไบนารี นั่นคือแทนที่จะใช้ softmax เพื่อประเมินการแจกแจงความน่าจะเป็นจริงของคำที่ส่งออกจะใช้การถดถอยแบบลอจิสติกแบบไบนารี (การจำแนกประเภทไบนารี) แทน
สำหรับตัวอย่างการฝึกอบรมตัวแยกประเภทที่ได้รับการปรับปรุง (ปรับให้เหมาะสม) จะได้รับคู่จริง (คำกลางและคำอื่นที่ปรากฏในบริบท) และจำนวนคู่ที่เสียหายแบบสุ่มประกอบด้วยคู่ของคำกลางและคำที่สุ่มเลือกจาก คำศัพท์). โดยการเรียนรู้ที่จะแยกแยะคู่แท้จากคู่ที่เสียหายลักษณนามจะได้เรียนรู้คำว่าk
นี้เป็นสิ่งสำคัญ: แทนคำทำนายถัดไป ( "มาตรฐาน" เทคนิคการฝึกอบรม) ลักษณนามที่ดีที่สุดเพียงแค่คาดการณ์ว่าจะเป็นคู่ของคำพูดเป็นสิ่งที่ดีหรือไม่ดี
Word2Vec เล็กน้อยปรับแต่งกระบวนการและเรียกมันว่าการสุ่มตัวอย่างเชิงลบ ใน Word2Vec คำสำหรับตัวอย่างเชิงลบ (ใช้สำหรับคู่ที่เสียหาย) จะถูกดึงมาจากการแจกแจงที่ออกแบบมาเป็นพิเศษซึ่งจะช่วยให้คำที่มีความถี่น้อยจะถูกดึงบ่อยขึ้น
อ้างอิง
[A] (2005) - การประมาณคอนทราสต์: การฝึกอบรมโมเดลบันทึกเชิงเส้นตรงกับข้อมูลที่ไม่มีป้ายกำกับ
[B] (2010) - การประมาณค่าความแตกต่างของเสียงรบกวน: หลักการการประมาณค่าแบบใหม่สำหรับแบบจำลองทางสถิติที่ผิดปกติ
[C] (2008) - สถาปัตยกรรมแบบครบวงจรสำหรับการประมวลผลภาษาธรรมชาติ: เครือข่ายประสาทเทียมระดับลึกพร้อมการเรียนรู้แบบมัลติทาสก์
[D] (2012) - ได้อย่างรวดเร็วและขั้นตอนวิธีการที่ง่ายสำหรับการฝึกอบรมประสาทรุ่นภาษาน่าจะเป็น
[E] (2013) - การเรียนรู้ embeddings คำอย่างมีประสิทธิภาพด้วยการประมาณค่าเสียงเปรียบ
คำตอบขึ้นอยู่กับบันทึกเก่า ๆ ของฉัน - ฉันหวังว่าพวกเขาจะถูกต้อง :)