เอนโทรปีข้ามสูตรจะใช้เวลาในสองแจกแจง , การกระจายความจริงและ , การกระจายประมาณกว่ากำหนดตัวแปรต่อเนื่องและจะได้รับจากp(x)q(x)x
H(p,q)=−∑∀xp(x)log(q(x))
สำหรับเครือข่ายนิวรัลการคำนวณนั้นขึ้นอยู่กับสิ่งต่อไปนี้:
สำหรับเครือข่ายประสาทคุณมักจะเห็นสมการที่เขียนในรูปแบบที่เป็นเวกเตอร์พื้นจริงและ (หรือค่าอื่น ๆ ที่นำโดยตรงจากเอาท์พุทเลเยอร์สุดท้าย) คือ การประมาณ สำหรับตัวอย่างเดียวมันจะมีลักษณะเช่นนี้:yy^
L=−y⋅log(y^)
โดยที่คือผลคูณดอทเวกเตอร์⋅
ตัวอย่างความจริงพื้นฐานของคุณให้ความน่าจะเป็นทั้งหมดกับค่าแรกและค่าอื่น ๆ เป็นศูนย์ดังนั้นเราจึงสามารถเพิกเฉยได้และใช้คำที่ตรงกันจากการประมาณyy^
L=−(1×log(0.1)+0×log(0.5)+...)
L=−log(0.1)≈2.303
จุดสำคัญจากความคิดเห็น
นั่นหมายถึงการสูญเสียจะเหมือนกันไม่ว่าถ้าการคาดการณ์ที่มีหรือ ?[0.1,0.5,0.1,0.1,0.2][0.1,0.6,0.1,0.1,0.1]
ใช่นี่เป็นคุณสมบัติสำคัญของมัลติคาสซอลโลสโคปมันให้รางวัล / ลงโทษความน่าจะเป็นของคลาสที่ถูกต้องเท่านั้น ค่าเป็นอิสระจากวิธีการแยกความน่าจะเป็นที่เหลือระหว่างคลาสที่ไม่ถูกต้อง
คุณมักจะเห็นสมการนี้เฉลี่ยอยู่เหนือตัวอย่างทั้งหมดเป็นฟังก์ชันต้นทุน ไม่ยึดติดกับคำอธิบายอย่างเคร่งครัดเสมอ แต่โดยทั่วไปแล้วฟังก์ชั่นการสูญเสียจะอยู่ในระดับที่ต่ำกว่าและอธิบายว่าอินสแตนซ์เดียวหรือส่วนประกอบกำหนดค่าความผิดพลาดได้อย่างไรในขณะที่ฟังก์ชั่นค่าใช้จ่ายนั้นมีระดับสูงกว่า ฟังก์ชั่นค่าใช้จ่ายขึ้นอยู่กับการสูญเสียบันทึกหลายคลาสสำหรับชุดข้อมูลขนาดอาจมีลักษณะเช่นนี้:N
J=−1N(∑i=1Nyi⋅log(y^i))
การใช้งานหลายอย่างจะต้องมีค่าความจริงพื้นฐานของคุณจะถูกเข้ารหัสร้อนแรง (มีคลาสจริงเดียว) เพราะนั่นช่วยให้การเพิ่มประสิทธิภาพพิเศษบางอย่าง อย่างไรก็ตามในหลักการแล้วการคำนวณการสูญเสียพลังงานจากเอนโทรปีสามารถคำนวณได้และปรับให้เหมาะสมเมื่อไม่เป็นเช่นนั้น