ฉันอาจไปงานปาร์ตี้สาย แต่ดูเหมือนว่ามีบางสิ่งที่จำเป็นต้องล้างออกที่นี่
g(x)∂C∂zCz
C(y,g(z))=12(y−g(z))2g(x)=x∂C(y,g(z))∂z=∂C(y,g(z))∂g(z)⋅∂g(z)∂z=∂∂g(z)(12(y−g(z))2)⋅∂∂z(z)=−(y−g(z))⋅1=g(z)−y
∂C∂z
∂C∂z
ประการที่สองฉันต้องการเพิ่มว่ามีฟังก์ชั่นการเปิดใช้งานมากมายที่สามารถใช้สำหรับเลเยอร์ที่ซ่อนอยู่ Sigmoids (เช่นฟังก์ชั่นลอจิสติกและค่าไฮเพอร์โบลิกแทนเจนต์) พิสูจน์แล้วว่าทำงานได้ดี แต่จากJatinแล้วสิ่งเหล่านี้จะหายไปจากการไล่ระดับสีเมื่อเครือข่ายของคุณลึกเกินไป ในกรณีนี้ ReLUs ได้กลายเป็นที่นิยม สิ่งที่ฉันต้องการจะเน้นคือมีฟังก์ชั่นการเปิดใช้งานมากมายและนักวิจัยหลายคนมองหาสิ่งใหม่ ๆ (เช่นหน่วยเชิงเส้นเชิงเส้น (ELUs) หน่วย Gaussian Error Linear (GELU), ... ) ที่แตกต่างกัน / คุณสมบัติที่ดีกว่า
เพื่อสรุป: เมื่อมองหาฟังก์ชั่นการเปิดใช้งานที่ดีที่สุดเพียงแค่มีความคิดสร้างสรรค์ ลองใช้สิ่งต่าง ๆ และดูว่าชุดค่าผสมใดนำไปสู่ประสิทธิภาพที่ดีที่สุด
ภาคผนวก: สำหรับฟังก์ชั่นการสูญเสียและการเปิดใช้งานที่มากขึ้นคุณอาจต้องการค้นหาฟังก์ชันการเชื่อมโยง (canonical)