คำตอบ:
ฉันไม่ใช่ผู้เชี่ยวชาญใน word2vec แต่เมื่ออ่านRong, X. (2014) การเรียนรู้พารามิเตอร์ word2vec อธิบายและจากประสบการณ์ NN ของฉันเองฉันจะทำให้การใช้เหตุผลง่ายขึ้น:
ทั้งสองวิธีดูเหมือนจะไม่เป็นเอกเทศตามหลักทฤษฏี แต่อย่างไรก็ตามนั่นน่าจะเป็นเหตุผลว่าทำไมพวกเขาถึงดีกว่าสำหรับคำที่ใช้บ่อยและไม่บ่อยนัก
ความเข้าใจของฉันเป็นเพราะการเข้ารหัส Huffmanใช้เมื่อสร้างลำดับชั้นหมวดหมู่
Softier ลำดับชั้นใช้ต้นไม้ของโหนด sigmoid แทนที่จะเป็น softmax ขนาดใหญ่หนึ่งรหัส Huffman ทำให้แน่ใจได้ว่าการกระจายของจุดข้อมูลที่อยู่ในแต่ละด้านของโหนด sigmoid ใด ๆ มีความสมดุล ดังนั้นจึงช่วยลดการตั้งค่าสำหรับหมวดหมู่ที่พบบ่อยเมื่อเปรียบเทียบกับการใช้การสุ่มตัวอย่าง softmax ขนาดใหญ่และการสุ่มตัวอย่างเชิงลบหนึ่งรายการ
softmax แบบลำดับชั้นสร้างต้นไม้ขึ้นเหนือคำศัพท์ทั้งหมดและโหนดใบที่แสดงคำที่หายากจะสืบทอดการเป็นตัวแทนเวกเตอร์ของบรรพบุรุษในต้นไม้ซึ่งอาจได้รับผลกระทบจากคำที่พบบ่อยอื่น ๆ ในคลังข้อมูล สิ่งนี้จะเป็นประโยชน์ต่อการฝึกอบรมที่เพิ่มขึ้นสำหรับคลังข้อมูลใหม่
การสุ่มตัวอย่างเชิงลบได้รับการพัฒนาโดยใช้การประมาณความเปรียบต่างของเสียงและสุ่มตัวอย่างคำที่ไม่ได้อยู่ในบริบทเพื่อแยกแยะข้อมูลที่สังเกตได้จากการสุ่มเสียงที่สร้างขึ้นปลอม