ทำไม softmax แบบลำดับขั้นดีกว่าสำหรับคำที่ไม่บ่อยนักในขณะที่การสุ่มตัวอย่างเชิงลบจะดีกว่าสำหรับคำที่ใช้บ่อย


12

ฉันสงสัยว่าทำไม softmax แบบลำดับชั้นนั้นดีกว่าสำหรับคำที่ไม่บ่อยนักในขณะที่การสุ่มตัวอย่างเชิงลบจะดีกว่าสำหรับคำที่ใช้บ่อยใน CBOW ของ word2vec และโมเดล skip-gram ฉันได้อ่านข้อเรียกร้องในhttps://code.google.com/p/word2vec/

คำตอบ:


10

ฉันไม่ใช่ผู้เชี่ยวชาญใน word2vec แต่เมื่ออ่านRong, X. (2014) การเรียนรู้พารามิเตอร์ word2vec อธิบายและจากประสบการณ์ NN ของฉันเองฉันจะทำให้การใช้เหตุผลง่ายขึ้น:

  • Softmax แบบลำดับชั้นให้การปรับปรุงประสิทธิภาพการฝึกอบรมเนื่องจากเวกเตอร์เอาต์พุตถูกกำหนดโดยการข้ามผ่านเหมือนต้นไม้ของเลเยอร์เครือข่าย ตัวอย่างการฝึกอบรมที่กำหนดเท่านั้นที่มีการประเมินผลการปรับปรุง /หน่วยเครือข่ายไม่(N) สิ่งนี้จะช่วยเพิ่มน้ำหนักเพื่อรองรับคำศัพท์ขนาดใหญ่ - คำที่กำหนดเกี่ยวข้องกับเซลล์ประสาทและวีซ่าน้อยลงO ( N )O(log(N))O(N)
  • การสุ่มตัวอย่างเชิงลบเป็นวิธีการสุ่มตัวอย่างข้อมูลการฝึกอบรมคล้ายกับการไล่ระดับสีแบบสุ่มสุ่ม แต่ที่สำคัญคือคุณมองหาตัวอย่างการฝึกอบรมเชิงลบ โดยสัญชาตญาณมันฝึกบนพื้นฐานของการสุ่มตัวอย่างสถานที่ซึ่งอาจคาดหวังคำ แต่ไม่พบคำใดคำหนึ่งซึ่งเร็วกว่าการฝึกอบรมคลังข้อมูลทั้งหมดทุกการวนซ้ำและเหมาะสมสำหรับคำทั่วไป

ทั้งสองวิธีดูเหมือนจะไม่เป็นเอกเทศตามหลักทฤษฏี แต่อย่างไรก็ตามนั่นน่าจะเป็นเหตุผลว่าทำไมพวกเขาถึงดีกว่าสำหรับคำที่ใช้บ่อยและไม่บ่อยนัก


1

ความเข้าใจของฉันเป็นเพราะการเข้ารหัส Huffmanใช้เมื่อสร้างลำดับชั้นหมวดหมู่

Softier ลำดับชั้นใช้ต้นไม้ของโหนด sigmoid แทนที่จะเป็น softmax ขนาดใหญ่หนึ่งรหัส Huffman ทำให้แน่ใจได้ว่าการกระจายของจุดข้อมูลที่อยู่ในแต่ละด้านของโหนด sigmoid ใด ๆ มีความสมดุล ดังนั้นจึงช่วยลดการตั้งค่าสำหรับหมวดหมู่ที่พบบ่อยเมื่อเปรียบเทียบกับการใช้การสุ่มตัวอย่าง softmax ขนาดใหญ่และการสุ่มตัวอย่างเชิงลบหนึ่งรายการ


0

softmax แบบลำดับชั้นสร้างต้นไม้ขึ้นเหนือคำศัพท์ทั้งหมดและโหนดใบที่แสดงคำที่หายากจะสืบทอดการเป็นตัวแทนเวกเตอร์ของบรรพบุรุษในต้นไม้ซึ่งอาจได้รับผลกระทบจากคำที่พบบ่อยอื่น ๆ ในคลังข้อมูล สิ่งนี้จะเป็นประโยชน์ต่อการฝึกอบรมที่เพิ่มขึ้นสำหรับคลังข้อมูลใหม่

การสุ่มตัวอย่างเชิงลบได้รับการพัฒนาโดยใช้การประมาณความเปรียบต่างของเสียงและสุ่มตัวอย่างคำที่ไม่ได้อยู่ในบริบทเพื่อแยกแยะข้อมูลที่สังเกตได้จากการสุ่มเสียงที่สร้างขึ้นปลอม

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.