ฟังก์ชั่นค่าใช้จ่ายข้ามเอนโทรปีในเครือข่ายประสาท


11

ฉันกำลังดูฟังก์ชั่นค่าใช้จ่ายข้ามเอนโทรปีที่พบในบทช่วยสอนนี้ :

C=1nx[ylna+(1y)ln(1a)]

เราสรุปอะไรกันแน่? มันเป็นของแน่นอนกว่าแต่และไม่เปลี่ยนกับxทั้งหมดของ 's เป็นปัจจัยการผลิตเข้าไปในหนึ่ง ถูกกำหนดแม้ในย่อหน้าข้างต้นสมการที่เป็นฟังก์ชั่นของผลรวมของทั้งหมดที่ 'และ ' s xyaxxaawx

นอกจากนี้ถูกนิยามเป็นจำนวนอินพุตในเซลล์ประสาทนี้โดยเฉพาะใช่ไหม มันเป็นคำพูดเป็น"จำนวนรายการข้อมูลการฝึกอบรม"n


แก้ไข:

ฉันคิดถูกแล้ว

C=1nx[ylna+(1y)ln(1a)]

จะเป็นฟังก์ชั่นค่าใช้จ่ายสำหรับเครือข่ายทั้งหมดในขณะที่

C=[ylna+(1y)ln(1a)]

จะมีค่าใช้จ่ายสำหรับเซลล์ประสาทส่วนบุคคลหรือไม่ ผลรวมไม่ควรอยู่เหนือเซลล์ประสาทขาออกแต่ละอัน?

คำตอบ:


14

นี่คือวิธีที่ฉันจะแสดงการสูญเสียข้ามเอนโทรปี :

L(X,Y)=1ni=1ny(i)lna(x(i))+(1y(i))ln(1a(x(i)))

ที่นี่เป็นชุดของตัวอย่างอินพุตในชุดข้อมูลการฝึกอบรมและเป็นชุดป้ายกำกับที่สอดคล้องกันสำหรับตัวอย่างอินพุตเหล่านั้น หมายถึงการส่งออกของเครือข่ายที่กำหนดอินพุตประสาทxX={x(1),,x(n)}Y={y(1),,y(n)}a(x)x

แต่ละเป็น 0 หรือ 1 และเอาท์พุทเปิดใช้งานมักจะถูก จำกัด ให้เปิดช่วง (0, 1) โดยใช้sigmoid โลจิสติก ตัวอย่างเช่นสำหรับเครือข่ายหนึ่งชั้น (ซึ่งเทียบเท่ากับการถดถอยโลจิสติก) การเปิดใช้งานจะได้รับโดยโดยที่คือ เมทริกซ์น้ำหนักและเป็นเวกเตอร์อคติ สำหรับหลายเลเยอร์คุณสามารถขยายฟังก์ชั่นการเปิดใช้งานโดยที่และคือเมทริกซ์น้ำหนักและอคติสำหรับเลเยอร์แรกและy(i)a(x)

a(x)=11+eWxb
Wb
a(x)=11+eWz(x)bz(x)=11+eVxc
Vcz(x) เป็นการเปิดใช้งานเลเยอร์ที่ซ่อนอยู่ในเครือข่าย

ฉันใช้ตัวยก (i) เพื่อแสดงตัวอย่างเพราะฉันพบว่ามันค่อนข้างมีประสิทธิภาพในหลักสูตรการเรียนรู้ด้วยเครื่องของ Andrew Ng; บางครั้งคนแสดงตัวอย่างเป็นคอลัมน์หรือแถวในเมทริกซ์ แต่ความคิดยังคงเหมือนเดิม


ขอบคุณ! ดังนั้นนี่จะให้ตัวเลขเดียวสำหรับข้อผิดพลาดของเราสำหรับเครือข่ายทั้งหมด, ตัวอย่างทั้งหมดของเรา สำหรับการขยายพันธุ์ด้านหลังฉันต้องการค้นหาอนุพันธ์บางส่วนของฟังก์ชันนี้โดยใช้เมทริกซ์น้ำหนักในชั้นสุดท้าย ฉันจะทำอย่างไร
Adam12344

การทำ backprop นั้นเป็นเวิร์มที่แยกกันโดยสิ้นเชิง! หน้าเว็บที่คุณเชื่อมโยงมีคำอธิบายเกี่ยวกับการคำนวณอนุพันธ์เป็นต้นและมีคำถามมากมายเกี่ยวกับ backprop เกี่ยวกับ stackoverflow และไซต์นี้ ลองดูสักหน่อยแล้วโพสต์คำถามแยกต่างหากโดยเฉพาะเกี่ยวกับ backprop
lmjohns3

นี่อาจเป็นประโยชน์สำหรับคุณในการทำความเข้าใจ backprop มันต้องผ่าน back back กับโครงข่ายประสาทสี่ชั้นที่มีการสูญเสียเอนโทรปีในรายละเอียดเต็มไปด้วยเลือด :) cookedsashimi.wordpress.com/2017/05/06/ …
YellowPillow

5

เราสรุปอะไรกันแน่?

การสอนนั้นค่อนข้างชัดเจน:

...คือจำนวนทั้งหมดของข้อมูลการฝึกอบรมผลรวมอยู่เหนืออินพุตการฝึกอบรมทั้งหมด ...n

ฟังก์ชั่นต้นทุนเซลล์ประสาทต้นฉบับดั้งเดิมที่ให้ไว้ในบทช่วยสอน (Eqn. 57) ยังมีตัวห้อยใต้ซึ่งควรจะบอกใบ้ในเรื่องนี้ สำหรับกรณีของเซลล์ประสาทเดี่ยวไม่มีสิ่งใดที่จะสรุปนอกเหนือจากตัวอย่างการฝึกอบรมเนื่องจากเราได้รวมน้ำหนักที่นำเข้าทั้งหมดแล้วเมื่อคำนวณ :xΣa

a=jwjxj.

ต่อมาในบทช่วยสอนเดียวกันนีลเส็นให้การแสดงออกสำหรับฟังก์ชั่นค่าใช้จ่ายสำหรับเครือข่ายหลายเซลล์หลายชั้น (Eqn. 63):

C=1nxj[yjlnajL+(1yj)ln(1ajL)].

ในกรณีนี้ผลรวมจะวิ่งไปบนทั้งสองตัวอย่างการฝึกอบรม ( ) และเซลล์ประสาทส่วนบุคคลในชั้นเลเยอร์ผลลัพธ์ ( )xj


ขอบคุณสำหรับความเข้าใจอย่างถ่องแท้คำถามหนึ่งข้อ: ข้อหลังที่คุณกำหนดไม่ใช่เอนโทรปีของการจัดหมวดหมู่ข้ามใช่ไหม?
Tommaso Guerrini

นอกจากนี้เขายังกล่าวในการสอนของเขาว่า "บางครั้ง y สามารถรับค่ากลางระหว่าง 0 และ 1" แต่ฟังก์ชั่นที่เขาให้ไว้คือ y และไม่มีอินพุตการเปิดใช้งาน เราจะใช้ค่ากลางในฟังก์ชั่นเซนต์ได้อย่างไร?
Feras

ในบทช่วยสอนของ Nielsen ซึ่งแสดง perceptron ชั้นเดียว, a = \ sigma (\ sum_ {j} w_j x_j) เพราะคุณมีฟังก์ชั่นการเปิดใช้งาน sigmoid สำหรับชั้นเอาท์พุทของคุณไม่ใช่ = \ sum_ {j} w_j x_j
ARAT
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.