ในวรรณคดีการเรียนรู้ของเครื่องเพื่อแสดงถึงการแจกแจงความน่าจะเป็นฟังก์ชัน softmax มักถูกใช้ มีเหตุผลสำหรับสิ่งนี้หรือไม่? เหตุใดจึงไม่ใช้ฟังก์ชันอื่น
ในวรรณคดีการเรียนรู้ของเครื่องเพื่อแสดงถึงการแจกแจงความน่าจะเป็นฟังก์ชัน softmax มักถูกใช้ มีเหตุผลสำหรับสิ่งนี้หรือไม่? เหตุใดจึงไม่ใช้ฟังก์ชันอื่น
คำตอบ:
จากมุมมองการเพิ่มประสิทธิภาพมีคุณสมบัติที่ดีในแง่ของความสามารถ สำหรับปัญหาการเรียนรู้ของเครื่องจำนวนมากมันเหมาะสำหรับการจัดหมวดหมู่ 1-of-N
จากมุมมองการเรียนรู้ลึก: หนึ่งอาจโต้แย้งว่าในทางทฤษฎีการใช้เครือข่ายที่ลึกกับตัวจําแนก softmax ด้านบนสามารถแทนฟังก์ชันความน่าจะเป็น N-class ใด ๆ เหนือพื้นที่คุณลักษณะเนื่องจาก MLP มีคุณสมบัติการประมาณสากล
Softmax ยังเป็นลักษณะทั่วไปของฟังก์ชัน sigmoid logistic ดังนั้นจึงมีคุณสมบัติของ sigmoid เช่นความง่ายในการแยกความแตกต่างและอยู่ในช่วง 0-1 เอาต์พุตของฟังก์ชัน sigmoid logistic นั้นอยู่ระหว่าง 0 ถึง 1 ดังนั้นจึงเป็นตัวเลือกที่เหมาะสมสำหรับการแสดงความน่าจะเป็น อนุพันธ์ของมันก็ถูกดูดซับในแง่ของผลผลิตของตัวเอง อย่างไรก็ตามหากฟังก์ชันของคุณมีเอาต์พุตเวกเตอร์คุณต้องใช้ฟังก์ชัน Softmax เพื่อให้ได้การแจกแจงความน่าจะเป็นเหนือเวกเตอร์เอาต์พุต มีข้อดีอื่น ๆ ของการใช้ Softmax ที่อินดี้เอไอได้กล่าวถึงแม้ว่ามันไม่จำเป็นต้องเกี่ยวข้องกับทฤษฎีการประมาณแบบสากลเนื่องจาก Softmax ไม่ใช่ฟังก์ชั่นที่ใช้สำหรับโครงข่ายประสาทเทียมเท่านั้น
อ้างอิง