Cross-Entropy หรือ Log Likelihood ในเลเยอร์เอาต์พุต


31

ฉันอ่านหน้านี้: http://neuralnetworksanddeeplearning.com/chap3.html

และมันบอกว่าชั้นเอาท์พุท sigmoid ที่มีการข้ามเอนโทรปีนั้นค่อนข้างจะคล้ายกับเลเยอร์เอาต์พุต softmax ที่มีความเป็นไปได้ในการบันทึก

จะเกิดอะไรขึ้นถ้าฉันใช้ sigmoid กับ log-likelihood หรือ softmax กับ cross entropy ใน layer output มันดีไหม เพราะฉันเห็นว่ามีความแตกต่างเพียงเล็กน้อยในสมการระหว่างเอนโทรปีของครอส

C=1nx(ylna+(1y)ln(1a))

และบันทึกโอกาส (eq.80):

C=1nx(lnayL)

คำตอบ:


51

ความน่าจะเป็นบันทึกเชิงลบ (eq.80) ยังเป็นที่รู้จักกันในนามการข้ามเอนโทรปีแบบหลายคลาส (การอ้างอิง: การจดจำรูปแบบและการเรียนรู้ของเครื่องมาตรา 4.3.4) เนื่องจากในความเป็นจริงแล้วการตีความสองสูตรที่แตกต่างกันของสูตรเดียวกัน

eq.57 คือความน่าจะเป็นบันทึกเชิงลบของการแจกแจงเบอร์นูลลีในขณะที่ eq.80 คือความน่าจะเป็นบันทึกเชิงลบของการแจกแจงพหุนามด้วยการสังเกตเพียงครั้งเดียว (เป็นเวอร์ชั่นคลาสของ Bernoulli)

สำหรับปัญหาการจำแนกเลขฐานสองฟังก์ชัน softmax ส่งออกสองค่า (ระหว่าง 0 ถึง 1 และผลรวมถึง 1) เพื่อให้การคาดการณ์ของแต่ละชั้นเรียน ในขณะที่ฟังก์ชั่น sigmoid ส่งออกหนึ่งค่า (ระหว่าง 0 ถึง 1) เพื่อให้การคาดการณ์ของหนึ่งคลาส (ดังนั้นคลาสอื่นคือ 1-p)

ดังนั้น eq.80 จึงไม่สามารถนำไปใช้กับเอาต์พุต sigmoid โดยตรงได้

ดูคำตอบนี้ด้วย


ต่อไปนี้เป็นภาพประกอบอย่างง่ายของการเชื่อมต่อระหว่าง (sigmoid + binary cross-entropy) และ (softmax + multiclass cross-entropy) สำหรับปัญหาการจำแนกเลขฐานสอง

0.5

σ(wx+b)=0.5
wx+b=0

ew1x+b1ew1x+b1+ew2x+b2=0.5
ew1x+b1=ew2x+b2
w1x+b1=w2x+b2
(w1w2)x+(b1b2)=0

ต่อไปนี้แสดงขอบเขตการตัดสินใจที่ได้รับโดยใช้สองวิธีนี้ซึ่งเกือบจะเหมือนกัน


คุณหมายถึงสมการใด ในหนังสือสมการมีตัวเลขต่างกัน บางทีมันอาจจะเป็นหนังสือเล่มที่เฉพาะเจาะจง? คุณช่วยอธิบายเรื่องนี้ได้ไหม? ฉันกำลังดูหนังสืออยู่ที่users.isr.ist.utl.pt/~wurmd/Livros/school/…หน้า 209 (มาตรา 4.3.4)
nbro

@brobro ขออภัยในความสับสนฉันหมายถึงสมการในหน้าที่เชื่อมโยงที่ระบุในคำถาม
dontloo
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.