เหตุใด softmax จึงถูกใช้เพื่อแสดงการแจกแจงความน่าจะเป็น


10

ในวรรณคดีการเรียนรู้ของเครื่องเพื่อแสดงถึงการแจกแจงความน่าจะเป็นฟังก์ชัน softmax มักถูกใช้ มีเหตุผลสำหรับสิ่งนี้หรือไม่? เหตุใดจึงไม่ใช้ฟังก์ชันอื่น

คำตอบ:


7

จากมุมมองการเพิ่มประสิทธิภาพมีคุณสมบัติที่ดีในแง่ของความสามารถ สำหรับปัญหาการเรียนรู้ของเครื่องจำนวนมากมันเหมาะสำหรับการจัดหมวดหมู่ 1-of-N

จากมุมมองการเรียนรู้ลึก: หนึ่งอาจโต้แย้งว่าในทางทฤษฎีการใช้เครือข่ายที่ลึกกับตัวจําแนก softmax ด้านบนสามารถแทนฟังก์ชันความน่าจะเป็น N-class ใด ๆ เหนือพื้นที่คุณลักษณะเนื่องจาก MLP มีคุณสมบัติการประมาณสากล


1
ดังนั้นเหตุผลหลักสำหรับความนิยมของ Softmax ก็คือมันมีคุณสมบัติการแยกความแตกต่างที่ดีซึ่งมีประโยชน์ในการตั้งค่าการเรียนรู้แบบไล่โทนสี ใช่ไหม
SHASHANK GUPTA

ใช่แล้วในความเห็นของฉัน Softmax นั้นง่ายพร้อมอนุพันธ์ที่ดีและน่าสนใจสำหรับการเรียนรู้แบบไล่ระดับสี เห็นด้วยกับทุกสิ่งที่คุณพูด
อินดี้ AI

คุณสามารถคิดว่า softmax เป็นฟังก์ชันมวลความหนาแน่นของความน่าจะเป็นของฟังก์ชันที่คุณกำลังจะปรับให้เหมาะสม ในความคิดของฉัน softmax เป็นเพียงวิธีที่สะดวกในการจำลองฟังก์ชันมวล / ความหนาแน่นของความน่าจะเป็น
Charles Chow

3

Softmax ยังเป็นลักษณะทั่วไปของฟังก์ชัน sigmoid logistic ดังนั้นจึงมีคุณสมบัติของ sigmoid เช่นความง่ายในการแยกความแตกต่างและอยู่ในช่วง 0-1 เอาต์พุตของฟังก์ชัน sigmoid logistic นั้นอยู่ระหว่าง 0 ถึง 1 ดังนั้นจึงเป็นตัวเลือกที่เหมาะสมสำหรับการแสดงความน่าจะเป็น อนุพันธ์ของมันก็ถูกดูดซับในแง่ของผลผลิตของตัวเอง อย่างไรก็ตามหากฟังก์ชันของคุณมีเอาต์พุตเวกเตอร์คุณต้องใช้ฟังก์ชัน Softmax เพื่อให้ได้การแจกแจงความน่าจะเป็นเหนือเวกเตอร์เอาต์พุต มีข้อดีอื่น ๆ ของการใช้ Softmax ที่อินดี้เอไอได้กล่าวถึงแม้ว่ามันไม่จำเป็นต้องเกี่ยวข้องกับทฤษฎีการประมาณแบบสากลเนื่องจาก Softmax ไม่ใช่ฟังก์ชั่นที่ใช้สำหรับโครงข่ายประสาทเทียมเท่านั้น

อ้างอิง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.