นี่คือวิธีที่ฉันจะแสดงการสูญเสียข้ามเอนโทรปี :
L(X,Y)=−1n∑i=1ny(i)lna(x(i))+(1−y(i))ln(1−a(x(i)))
ที่นี่เป็นชุดของตัวอย่างอินพุตในชุดข้อมูลการฝึกอบรมและเป็นชุดป้ายกำกับที่สอดคล้องกันสำหรับตัวอย่างอินพุตเหล่านั้น หมายถึงการส่งออกของเครือข่ายที่กำหนดอินพุตประสาทxX={x(1),…,x(n)}Y={y(1),…,y(n)}a(x)x
แต่ละเป็น 0 หรือ 1 และเอาท์พุทเปิดใช้งานมักจะถูก จำกัด ให้เปิดช่วง (0, 1) โดยใช้sigmoid โลจิสติก ตัวอย่างเช่นสำหรับเครือข่ายหนึ่งชั้น (ซึ่งเทียบเท่ากับการถดถอยโลจิสติก) การเปิดใช้งานจะได้รับโดยโดยที่คือ เมทริกซ์น้ำหนักและเป็นเวกเตอร์อคติ สำหรับหลายเลเยอร์คุณสามารถขยายฟังก์ชั่นการเปิดใช้งานโดยที่และคือเมทริกซ์น้ำหนักและอคติสำหรับเลเยอร์แรกและy(i)a(x)
a(x)=11+e−Wx−b
Wba(x)=11+e−Wz(x)−bz(x)=11+e−Vx−c
Vcz(x) เป็นการเปิดใช้งานเลเยอร์ที่ซ่อนอยู่ในเครือข่าย
ฉันใช้ตัวยก (i) เพื่อแสดงตัวอย่างเพราะฉันพบว่ามันค่อนข้างมีประสิทธิภาพในหลักสูตรการเรียนรู้ด้วยเครื่องของ Andrew Ng; บางครั้งคนแสดงตัวอย่างเป็นคอลัมน์หรือแถวในเมทริกซ์ แต่ความคิดยังคงเหมือนเดิม