การสร้างแรงจูงใจหน่วยเอาท์พุท sigmoid ในเครือข่ายประสาทเทียมเริ่มต้นด้วยความน่าจะเป็นของบันทึกที่ไม่เป็นเส้นตรงใน


12

แบ็คกราวน์:ฉันกำลังศึกษาบทที่ 6 ของ Deep Learning โดย Ian Goodfellow และ Yoshua Bengio และ Aaron Courville ในส่วน 6.2.2.2 (หน้า 182 จาก 183 ซึ่งสามารถดูได้ที่นี่ ) การใช้ sigmoid เพื่อส่งออกเป็นแรงจูงใจP(y=1|x)

เพื่อสรุปเนื้อหาบางส่วนที่พวกเขาปล่อยให้เป็นเซลล์ประสาทเอาท์พุทก่อนที่จะมีการเปิดใช้งานโดยที่hคือผลลัพธ์ของเลเยอร์ที่ซ่อนอยู่ก่อนหน้านี้wคือเวกเตอร์ของน้ำหนักและbเป็นสเกลาร์สเกลา เวกเตอร์อินพุตถูกเขียนแทนx (ซึ่งhคือฟังก์ชันของ) และค่าเอาต์พุตจะแสดงเป็นy = ϕ ( z )โดยที่ϕคือฟังก์ชัน sigmoid หนังสือมีความประสงค์ที่จะแจกแจงความน่าจะเป็นเหนือyโดยใช้ค่าz

z=wTh+b
hwbxhy=ϕ(z)ϕyz. จากย่อหน้าที่สองของหน้า 183:

เราละเว้นการพึ่งพาสำหรับช่วงเวลาที่จะหารือถึงวิธีการเดสายตะวันออกเฉียงเหนือการกระจายความน่าจะเป็นในช่วงปีโดยใช้ค่าZ sigmoid สามารถสร้างแรงจูงใจได้โดยสร้างการแจกแจงความน่าจะเป็นแบบไม่ปกติ˜ P ( y )ซึ่งไม่ได้รวมกับ 1 จากนั้นเราสามารถหารด้วยค่าคงที่ที่เหมาะสมเพื่อให้ได้การแจกแจงความน่าจะเป็นที่ถูกต้อง หากเราเริ่มต้นด้วยการสันนิษฐานว่าความน่าจะเป็นของการบันทึกที่ไม่เป็นปกตินั้นเป็นเชิงเส้นในyและzเราสามารถยกกำลังเพื่อให้ได้ความน่าจะเป็นที่ไม่ปกติ จากนั้นเราจะทำให้เป็นมาตรฐานเพื่อดูว่าสิ่งนี้ทำให้การแจกแจงแบบเบอนูลลี่ควบคุมโดยการแปลง sigmoidal ของ z: log ˜xyzP~(y)yz

logP~(y)=yzP~(y)=exp(yz)P(y)=exp(yz)y=01exp(yz)P(y)=ϕ((2y1)z)

คำถาม:ฉันสับสนเกี่ยวกับสองสิ่งโดยเฉพาะอย่างยิ่งสิ่งแรก:

  1. สมมติฐานเริ่มต้นมาจากที่ไหน เป็นความน่าจะเป็นเชิงเส้นล็อก unnormalized ทำไมและZ ? ใครสามารถให้ฉันบางสถานการณ์ในการที่ผู้เขียนเริ่มต้นด้วยlog ˜ P ( y ) = y z ?yzlogP~(y)=yz
  2. บรรทัดสุดท้ายทำตามอย่างไร

คำตอบ:


8

y{0,1}

logP~(y=1)=zlogP~(y=0)=0

y=0y=1y=0

ต่อไปเรากำลังใช้การยกกำลังกับความน่าจะเป็นลอการิทึมแบบไม่ปกติเพื่อให้ได้ความน่าจะเป็นแบบไม่ปกติ

P~(y=1)=ezP~(y=0)=e0=1

ต่อไปเราจะทำการปรับความน่าจะเป็นแบบปกติให้หารความน่าจะเป็นแบบผิดปกติแต่ละตัวด้วยผลรวมของความน่าจะเป็นแบบผิดปกติที่เป็นไปได้ทั้งหมด

P(y=1)=ez1+ezP(y=0)=11+ez

P(y=1)

P(y=1)=ex1+ex=1ex+1ex=11+1ex=11+ex

(2y1)0111

P(y)=σ((2y1)z)={σ(z)=11+ez=ez1+ezwhen y=1σ(z)=11+e(z)=11+ezwhen y=0

σP(y)


y=0y=1

y=1

y×zyzay+bz+clogyz

ฉันเห็นว่าเป็นคำถามที่น่าสนใจจริง ๆ ฉันไม่ได้ใส่ใจกับคำแถลงนี้เมื่อฉันอ่านคำถามเป็นครั้งแรก ตอนนี้มันก็ดูแปลกสำหรับฉันเช่นกัน ปัญหาหนึ่งคือตัวแปร y y และฉันไม่แน่ใจว่าจะตรวจสอบคุณสมบัติของฟังก์ชันเชิงเส้นภายใต้สถานการณ์เหล่านี้ได้อย่างไร ฉันเดาว่ามันจะสมเหตุสมผลถ้าคุณถามคำถามแยกต่างหากบางทีใครบางคนสามารถอธิบายคุณได้ว่าทำไมมันถูกเขียนด้วยวิธีนี้
itdxer

2

ฉันพบว่าส่วนของหนังสือเล่มนี้ท้าทายที่จะติดตามและคำตอบข้างต้นโดย itdxer สมควรได้รับเวลาพอสมควรที่จะเข้าใจเช่นกันสำหรับคนที่ไม่คล่องแคล่วในเรื่องความน่าจะเป็นและความคิดทางคณิตศาสตร์ ฉันทำมันโดยการอ่านคำตอบย้อนหลังดังนั้นเริ่มด้วย sigmoid ของ z

P(y=1)=ez1+ez=11+ez

และลองติดตามกลับไปที่

logP~(y)=yz

จากนั้นมันก็สมเหตุสมผลว่าทำไมพวกเขาเริ่มอธิบายด้วย yz - โดยการออกแบบเช่นเดียวกับขั้นสุดท้าย

σ((2y1)z)

โดยการก่อสร้างช่วยให้ได้รับ -1 สำหรับ y = 0 และ 1 สำหรับ y = 1 ซึ่งเป็นค่าที่เป็นไปได้เพียงอย่างเดียวของ y ภายใต้ Bernoulli


0

ต่อไปนี้เป็นวลีที่เป็นทางการมากกว่าที่จะดึงดูดผู้ที่มีภูมิหลังทางทฤษฎี

YPYy{0,1}PY(y)=P(Y=y)P~Y

เรามีห่วงโซ่ของความหมายดังนี้

logP~Y(y)=yzP~Y(y)=exp(yz)PY(y)=eyze0z+e1z=eyz1+ezPY(y)=yez1+ez+(1y)11+ezPY(y)=yσ(z)+(1y)σ(z)PY(y)=σ((2y1)z)

{0,1}{1,1}

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.