ทำไมค่าเฉลี่ยความคลาดเคลื่อนกำลังสองเป็นค่าเอนโทรปีระหว่างการกระจายเชิงประจักษ์กับแบบจำลองเกาส์เซียน?


28

ใน 5.5 การเรียนรู้เชิงลึก (โดย Ian Goodfellow, Yoshua Bengio และ Aaron Courville) กล่าวไว้ว่า

การสูญเสียใด ๆ ที่ประกอบด้วยความน่าจะเป็นบันทึกเชิงลบคือการข้ามเอนโทรปีระหว่างการแจกแจงเชิงประจักษ์ที่กำหนดโดยชุดการฝึกอบรมและการแจกแจงความน่าจะเป็นที่กำหนดโดยแบบจำลอง ยกตัวอย่างเช่นค่าเฉลี่ยความคลาดเคลื่อนกำลังสองคือการข้ามเอนโทรปีระหว่างการแจกแจงเชิงประจักษ์และแบบจำลองเกาส์เซียน

ฉันไม่สามารถเข้าใจว่าทำไมพวกเขาถึงเทียบเท่าและผู้เขียนไม่ขยายในจุด

คำตอบ:


32

ให้ข้อมูลเป็นx_n) เขียนสำหรับการแจกแจงเชิงประจักษ์ ตามคำนิยามสำหรับฟังก์ชั่นใด ๆ ,F ( x ) fx=(x1,,xn)F(x)f

EF(x)[f(X)]=1ni=1nf(xi).

ปล่อยให้โมเดลมีความหนาแน่นโดยที่ถูกกำหนดไว้บนส่วนรองรับของโมเดล การข้ามเอนโทรปีของและถูกกำหนดให้เป็นe f ( x ) f F ( x ) MMef(x)fF(x)M

(1)H(F(x),M)=EF(x)[log(ef(X)]=EF(x)[f(X)]=1ni=1nf(xi).

สมมติว่าเป็นตัวอย่างสุ่มอย่างง่ายโอกาสในการลบของมันคือx

(2)log(L(x))=logi=1nef(xi)=i=1nf(xi)

โดยอาศัยคุณสมบัติของลอการิทึม (พวกเขาแปลงผลิตภัณฑ์เป็นผลรวม) การแสดงออกคือคงที่ครั้งการแสดงออก(1)เนื่องจากฟังก์ชั่นการสูญเสียถูกใช้ในสถิติโดยการเปรียบเทียบเท่านั้นมันจึงไม่มีความแตกต่างว่าหนึ่งคือค่าคงที่ (บวก) คูณด้วยค่าอื่น ในแง่นี้ความน่าจะเป็นของบันทึกเชิงลบ "เป็น" การข้ามเอนโทรปีในใบเสนอราคาn ( 1 )(2)n(1)


ใช้จินตนาการเพิ่มขึ้นอีกเล็กน้อยเพื่อแสดงให้เห็นถึงการยืนยันที่สองของใบเสนอราคา การเชื่อมต่อกับข้อผิดพลาดกำลังสองนั้นชัดเจนเพราะสำหรับ "แบบเกาส์เซียน" ที่ทำนายค่าที่จุดค่าที่จุดใด ๆ นั้นคือx fp(x)xf

f(x;p,σ)=12(log(2πσ2)+(xp(x))2σ2),

ซึ่งเป็นข้อผิดพลาดยกกำลังสองแต่ rescaled โดยและเปลี่ยนจากการทำงานของ\ วิธีหนึ่งในการแก้ไขใบเสนอราคาให้ถูกต้องคือถือว่ามันไม่ได้พิจารณาส่วนหนึ่งของ "model" -จะต้องพิจารณาจากข้อมูล ในกรณีนั้นความแตกต่างระหว่างค่าเฉลี่ยความคลาดเคลื่อนกำลังสองจะแปรผันตามความแตกต่างระหว่างความเอนโทรไขว้หรือความน่าจะเป็นของล็อก1 / ( 2 σ 2 ) σ σ σ(xp(x))2 1/(2σ2)σσσ

(โดยทั่วไปแม้ว่ามีความเหมาะสมเป็นส่วนหนึ่งของกระบวนการสร้างแบบจำลองซึ่งในกรณีนี้ใบเสนอราคาจะไม่ถูกต้องนัก)σ=σ(x)


1
1 มีสองข้อเสนอแนะ - สามารถใช้แทนเพื่อหลีกเลี่ยงความสับสนกับ() ประการที่สองคือการประมาณการที่สุดของจะไปเป็น 2 เมื่อคุณเสียบและเพิ่มมันคุณจะได้รับ(k) คล้ายกับสูตรประเภท AIC ...g()f()F()σ2ki=1n(xip(xi))212log[i=1n(xip(xi))2]+h(k)
ความน่าจะเป็นทาง

@probabilityislogic ฉันเลือกคู่และเพราะพวกเขาจะเป็นตัวแทนของปริมาณที่เกี่ยวข้องอย่างใกล้ชิด Ff
whuber

สวัสดีฉันคิดว่านี่ใช้กับการกระจายเชิงเส้นเท่านั้น ในปัญหาการกระจายแบบไม่เชิงเส้นฉันคิดว่าเรายังคงสามารถใช้ MSE เป็นฟังก์ชันต้นทุนได้ใช่ไหม
ไลไลลาย

5

สำหรับผู้อ่านหนังสือการเรียนรู้ลึกฉันต้องการที่จะเพิ่มให้กับคำตอบที่ได้รับการยอมรับที่ดีที่ผู้เขียนอธิบายคำสั่งของพวกเขาในรายละเอียดในส่วน 5.5.1 คือตัวอย่าง: การถดถอยเชิงเส้นเป็นโอกาสสูงสุด

ที่นั่นพวกเขาแสดงรายการข้อ จำกัด ที่กล่าวถึงในคำตอบที่ยอมรับ:

Y ( x ; W ) σ 2p(y|x)=N(y;y^(x;w),σ2)ใหญ่) ฟังก์ชั่นให้การทำนายค่าเฉลี่ยของเกาส์เซียน ในตัวอย่างนี้เราถือว่าความแปรปรวนได้รับการแก้ไขเป็นค่าคงที่ที่ผู้ใช้เลือกy^(x;w)σ2

จากนั้นพวกเขาแสดงให้เห็นว่าการย่อขนาดของ MSE ให้สอดคล้องกับค่าประมาณความน่าจะเป็นสูงสุดและทำให้การข้ามเอนโทรปีระหว่างการกระจายเชิงประจักษ์และลงp(y|x)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.