การเชื่อมต่อระหว่างฟังก์ชั่น softmax ใน ML และการกระจาย Boltzmann ในอุณหพลศาสตร์มีความลึกเพียงใด


12

ฟังก์ชั่น softmax ที่ใช้กันทั่วไปในเครือข่ายประสาทเทียมเพื่อแปลงจำนวนจริงเป็นความน่าจะเป็นเป็นฟังก์ชันเดียวกับการแจกแจง Boltzmann การกระจายความน่าจะเป็นเหนือพลังงานสำหรับทั้งมวลของอนุภาคในสมดุลความร้อนที่อุณหภูมิ T ในอุณหพลศาสตร์

ฉันเห็นเหตุผลบางประการที่ชัดเจนว่าทำไมถึงเป็นจริง:

  • ไม่ว่าหากค่าอินพุตเป็นลบ softmax จะส่งออกค่าบวกที่รวมเป็นหนึ่ง
  • มันแตกต่างกันเสมอซึ่งเป็นประโยชน์สำหรับการ backpropagation
  • มันมีพารามิเตอร์ 'อุณหภูมิ' ที่ควบคุมว่าเครือข่ายควรผ่อนปรนค่าขนาดเล็กได้อย่างไร (เมื่อ T มีขนาดใหญ่มากผลลัพธ์ทั้งหมดมีแนวโน้มเท่ากันเมื่อมีขนาดเล็กมากเฉพาะค่าที่เลือกอินพุตมากที่สุดเท่านั้น)

ฟังก์ชั่น Boltzmann ใช้เป็น softmax เพียงอย่างเดียวสำหรับเหตุผลในทางปฏิบัติหรือมีการเชื่อมต่อกับอุณหพลศาสตร์ / ฟิสิกส์เชิงสถิติที่ลึกซึ้งขึ้นหรือไม่?


1
ฉันไม่เห็นว่าทำไมสิ่งนี้จึงดึงดูดการโหวตอย่างใกล้ชิด - เป็นคำถามที่สมเหตุสมผลอย่างสมบูรณ์
Matt Krause

2
+1 ถึง @ MattKrause— NNs อยู่ในหัวข้อแน่นอนเช่นเดียวกับ - ฉันคิดว่า - ฟิสิกส์เชิงสถิติ
ฌอนอีสเตอร์

ฉันเห็นได้ว่าคำถามนั้น 'เปิด' มากกว่าคำถาม SO ส่วนใหญ่ในแง่ที่ว่าฉันไม่ได้มองหาวิธีการแก้ปัญหา แต่มีความรู้ทั่วไปมากกว่า อย่างไรก็ตามฉันไม่สามารถนึกถึงสถานที่ที่ดีกว่าที่จะถามหรือวิธีที่เจาะจงกว่าในการถาม
ahura

คำตอบ:


3

สำหรับความรู้ของฉันไม่มีเหตุผลที่ลึกซึ้งยิ่งไปกว่าความจริงที่ว่าผู้คนจำนวนมากที่รับ ANN นอกเหนือจากเวที Perceptron เป็นนักฟิสิกส์

นอกเหนือจากประโยชน์ที่กล่าวมาตัวเลือกนี้มีข้อดีมากกว่า ตามที่กล่าวไว้มันมีพารามิเตอร์เดียวที่กำหนดพฤติกรรมการส่งออก ซึ่งในทางกลับกันนั้นสามารถปรับให้เหมาะสมหรือปรับจูนได้เอง

ในระยะสั้นมันเป็นฟังก์ชั่นที่ใช้งานง่ายและเป็นที่รู้จักกันดีซึ่งได้รับ 'การทำให้เป็นมาตรฐาน' ในแง่ที่ว่าแม้แต่ค่าอินพุตที่ใหญ่ที่สุดก็ถูก จำกัด

แน่นอนว่ายังมีฟังก์ชั่นอื่น ๆ อีกมากมายที่ตอบสนองความต้องการเดียวกัน แต่ก็ไม่ค่อยมีใครรู้จักในโลกแห่งฟิสิกส์ และส่วนใหญ่แล้วก็ใช้งานยากกว่า


2

ฟังก์ชั่น softmax ยังใช้ในการสร้างแบบจำลองทางเลือกโดยสิ้นเชิงมันก็เหมือนกับตัวจำลอง logit ถ้าคุณสมมติว่ามีฟังก์ชั่นยูทิลิตี้ที่เกี่ยวข้องกับแต่ละชั้นเรียนและฟังก์ชั่นยูทิลิตี้เท่ากับเอาท์พุทของเครือข่ายประสาท การแจกแจงความน่าจะเป็นของคลาสเท่ากับฟังก์ชัน softmax ที่มีโครงข่ายประสาทเทียมเป็นอินพุต ดู: https://eml.berkeley.edu/reprints/mcfadden/zarembka.pdf

มีทางเลือกอื่นสำหรับโมเดล logit เช่นโมเดล probit ซึ่งมีข้อผิดพลาดที่สันนิษฐานว่าเป็นไปตามการแจกแจงแบบปกติมาตรฐานซึ่งเป็นสมมติฐานที่ดีกว่า แม้กระนั้นความน่าจะเป็นที่ดื้อรั้นและมีราคาแพงในการแก้ปัญหาดังนั้นจึงไม่นิยมใช้ในเครือข่ายประสาท

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.