4
คำอธิบายที่ใช้งานง่ายของการสูญเสียการประมาณค่าเสียงรบกวน (NCE)?
ฉันอ่านเกี่ยวกับ NCE (รูปแบบของการสุ่มตัวอย่างผู้สมัคร) จากทั้งสองแหล่ง: การเขียน Tensorflow กระดาษต้นฉบับ ใครสามารถช่วยฉันด้วยสิ่งต่อไปนี้: คำอธิบายง่ายๆเกี่ยวกับวิธีการทำงานของ NCE (ฉันพบว่าข้างต้นยากที่จะแยกวิเคราะห์และทำความเข้าใจเกี่ยวกับดังนั้นสิ่งที่ใช้งานง่ายที่นำไปสู่คณิตศาสตร์ที่นำเสนอจะมีมาก) หลังจากจุดที่ 1 ด้านบนคำอธิบายที่ใช้งานง่ายตามธรรมชาติของสิ่งนี้แตกต่างจากการสุ่มตัวอย่างเชิงลบ ฉันเห็นว่ามีการเปลี่ยนแปลงเล็กน้อยในสูตร แต่ไม่สามารถเข้าใจคณิตศาสตร์ได้ ฉันมีความเข้าใจที่เข้าใจง่ายเกี่ยวกับการสุ่มตัวอย่างเชิงลบในบริบทของword2vec- เราสุ่มเลือกตัวอย่างจากคำศัพท์Vและอัปเดตเฉพาะสิ่งเหล่านั้นเนื่องจาก|V|มีขนาดใหญ่และนี่เป็นการเพิ่มความเร็ว โปรดแก้ไขหากผิด เมื่อใดควรใช้สิ่งใดและจะตัดสินใจอย่างไร มันจะดีถ้าคุณมีตัวอย่าง (อาจเข้าใจได้ง่ายเกี่ยวกับแอปพลิเคชัน) NCE ดีกว่าการสุ่มตัวอย่างเชิงลบหรือไม่ ดีกว่าในลักษณะใด ขอขอบคุณ.