ปัญญาประดิษฐ์ gradient-descent

ข้อผิดพลาดเฉลี่ยกำลังสองนูนในบริบทของเครือข่ายประสาทเสมอหรือไม่

หลายแหล่งข้อมูลที่ฉันพูดถึงนั้นก็คือ MSE นั้นยอดเยี่ยมเพราะมันนูน แต่ฉันไม่เข้าใจโดยเฉพาะในบริบทของเครือข่ายประสาท สมมติว่าเรามีดังต่อไปนี้: XXX : ชุดข้อมูลการฝึกอบรม YYY : เป้าหมาย ΘΘ\Theta : ชุดพารามิเตอร์ของแบบจำลอง (แบบจำลองโครงข่ายใยประสาทเทียมที่ไม่มีเส้นตรง)fΘfΘf_\Theta แล้ว: MSE(Θ)=(fΘ(X)−Y)2MSE⁡(Θ)=(fΘ(X)−Y)2\operatorname{MSE}(\Theta) = (f_\Theta(X) - Y)^2 ฟังก์ชั่นการสูญเสียนี้ทำไมจะนูนตลอดเวลา สิ่งนี้ขึ้นอยู่กับหรือไม่?fΘ(X)fΘ(X)f_\Theta(X)

9 neural-networks math backpropagation gradient-descent

คำถามติดแท็ก gradient-descent