แบ็คกราวน์:ฉันกำลังศึกษาบทที่ 6 ของ Deep Learning โดย Ian Goodfellow และ Yoshua Bengio และ Aaron Courville ในส่วน 6.2.2.2 (หน้า 182 จาก 183 ซึ่งสามารถดูได้ที่นี่ ) การใช้ sigmoid เพื่อส่งออกเป็นแรงจูงใจ
เพื่อสรุปเนื้อหาบางส่วนที่พวกเขาปล่อยให้เป็นเซลล์ประสาทเอาท์พุทก่อนที่จะมีการเปิดใช้งานโดยที่hคือผลลัพธ์ของเลเยอร์ที่ซ่อนอยู่ก่อนหน้านี้wคือเวกเตอร์ของน้ำหนักและbเป็นสเกลาร์สเกลา เวกเตอร์อินพุตถูกเขียนแทนx (ซึ่งhคือฟังก์ชันของ) และค่าเอาต์พุตจะแสดงเป็นy = ϕ ( z )โดยที่ϕคือฟังก์ชัน sigmoid หนังสือมีความประสงค์ที่จะแจกแจงความน่าจะเป็นเหนือyโดยใช้ค่าz
เราละเว้นการพึ่งพาสำหรับช่วงเวลาที่จะหารือถึงวิธีการเดสายตะวันออกเฉียงเหนือการกระจายความน่าจะเป็นในช่วงปีโดยใช้ค่าZ sigmoid สามารถสร้างแรงจูงใจได้โดยสร้างการแจกแจงความน่าจะเป็นแบบไม่ปกติ˜ P ( y )ซึ่งไม่ได้รวมกับ 1 จากนั้นเราสามารถหารด้วยค่าคงที่ที่เหมาะสมเพื่อให้ได้การแจกแจงความน่าจะเป็นที่ถูกต้อง หากเราเริ่มต้นด้วยการสันนิษฐานว่าความน่าจะเป็นของการบันทึกที่ไม่เป็นปกตินั้นเป็นเชิงเส้นในyและzเราสามารถยกกำลังเพื่อให้ได้ความน่าจะเป็นที่ไม่ปกติ จากนั้นเราจะทำให้เป็นมาตรฐานเพื่อดูว่าสิ่งนี้ทำให้การแจกแจงแบบเบอนูลลี่ควบคุมโดยการแปลง sigmoidal ของ z: log ˜
คำถาม:ฉันสับสนเกี่ยวกับสองสิ่งโดยเฉพาะอย่างยิ่งสิ่งแรก:
- สมมติฐานเริ่มต้นมาจากที่ไหน เป็นความน่าจะเป็นเชิงเส้นล็อก unnormalized ทำไมและZ ? ใครสามารถให้ฉันบางสถานการณ์ในการที่ผู้เขียนเริ่มต้นด้วยlog ˜ P ( y ) = y z ?
- บรรทัดสุดท้ายทำตามอย่างไร