ฟังก์ชั่น softmax ที่ใช้กันทั่วไปในเครือข่ายประสาทเทียมเพื่อแปลงจำนวนจริงเป็นความน่าจะเป็นเป็นฟังก์ชันเดียวกับการแจกแจง Boltzmann การกระจายความน่าจะเป็นเหนือพลังงานสำหรับทั้งมวลของอนุภาคในสมดุลความร้อนที่อุณหภูมิ T ในอุณหพลศาสตร์
ฉันเห็นเหตุผลบางประการที่ชัดเจนว่าทำไมถึงเป็นจริง:
- ไม่ว่าหากค่าอินพุตเป็นลบ softmax จะส่งออกค่าบวกที่รวมเป็นหนึ่ง
- มันแตกต่างกันเสมอซึ่งเป็นประโยชน์สำหรับการ backpropagation
- มันมีพารามิเตอร์ 'อุณหภูมิ' ที่ควบคุมว่าเครือข่ายควรผ่อนปรนค่าขนาดเล็กได้อย่างไร (เมื่อ T มีขนาดใหญ่มากผลลัพธ์ทั้งหมดมีแนวโน้มเท่ากันเมื่อมีขนาดเล็กมากเฉพาะค่าที่เลือกอินพุตมากที่สุดเท่านั้น)
ฟังก์ชั่น Boltzmann ใช้เป็น softmax เพียงอย่างเดียวสำหรับเหตุผลในทางปฏิบัติหรือมีการเชื่อมต่อกับอุณหพลศาสตร์ / ฟิสิกส์เชิงสถิติที่ลึกซึ้งขึ้นหรือไม่?