ทำไมฟังก์ชั่นการสูญเสีย 0-1 จึงเป็นเรื่องยาก?


12

ในหนังสือการเรียนรู้ลึกของเอียนกู๊ดเฟลโลว์มันเขียนไว้ว่า

บางครั้งฟังก์ชั่นการสูญเสียที่เราสนใจ (พูดว่าการจำแนกผิดพลาด) ไม่ใช่สิ่งที่สามารถเพิ่มประสิทธิภาพได้อย่างมีประสิทธิภาพ ตัวอย่างเช่นการลดการสูญเสียที่คาดไว้ 0-1 ให้น้อยที่สุดนั้นเป็นไปไม่ได้ ในสถานการณ์เช่นนี้มักจะปรับฟังก์ชันการสูญเสียตัวแทนให้เหมาะสมซึ่งทำหน้าที่เป็นพร็อกซี แต่มีข้อดี

เหตุใดการสูญเสีย 0-1 จึงเป็นเรื่องยากหรืออธิบายได้อย่างไรในมิติข้อมูลเข้า

คำตอบ:


18

β1(Yผมβxผม0)ผม2nnคะแนนตัวอย่างทั้งหมด สิ่งนี้เป็นที่รู้จักกันว่า NP-hard การรู้มูลค่าปัจจุบันของฟังก์ชั่นการสูญเสียของคุณไม่ได้ให้เงื่อนงำใด ๆ ว่าคุณควรปรับเปลี่ยนโซลูชันปัจจุบันของคุณเพื่อปรับปรุงอย่างไรเนื่องจากคุณสามารถหาวิธีการไล่ระดับสีสำหรับฟังก์ชันนูนหรือฟังก์ชันต่อเนื่องได้


1
จุดที่ดีมาก - ในทางปฏิบัติการค้นหาแบบสุ่มหรือการค้นหาแบบละเอียดเป็นวิธีเดียวที่สามารถใช้เพื่อค้นหาฟังก์ชันการสูญเสียขั้นต่ำได้ใช่ไหม
DeltaIV

2
^^ หรืออาจจะใช้วิธีการทางสติปัญญาแบบวิวัฒนาการ / แบบจับกลุ่ม
samra irshad

@samrairshad ใช่จริง ๆ แล้วการสูญเสีย 0-1 ไม่ใช่เรื่องแปลกที่จะเห็นในวิธีการวิวัฒนาการ
John Doucette

ก่อนที่จะกระโดดจากการค้นหาแบบสุ่มไปสู่อัลกอริธึมวิวัฒนาการ / การจับกลุ่มที่ซับซ้อนฉันจะตรวจสอบวิธีการข้ามเอนโทรปี (CEM)
maxy

1

ข้อผิดพลาดการจำแนกเป็นจริงบางครั้งเวไนย สามารถปรับให้เหมาะสมได้อย่างมีประสิทธิภาพ - แม้ว่าจะไม่ใช่ - โดยใช้วิธี Nelder-Mead ดังที่แสดงในบทความนี้:

https://www.computer.org/csdl/trans/tp/1994/04/i0420-abs.html

"การลดขนาดเป็นกระบวนการเปลี่ยนเวกเตอร์หลายมิติเป็นพื้นที่ต่ำในการจดจำรูปแบบบ่อยครั้งที่ต้องการให้งานนี้ดำเนินการโดยไม่มีการสูญเสียข้อมูลการจำแนกอย่างมีนัยสำคัญข้อผิดพลาด Bayes เป็นเกณฑ์ในอุดมคติสำหรับวัตถุประสงค์นี้อย่างไรก็ตาม เป็นที่ทราบกันดีว่าเป็นการยากสำหรับการรักษาทางคณิตศาสตร์ดังนั้นจึงมีการนำเกณฑ์ย่อยมาใช้ในทางปฏิบัติเราเสนอเกณฑ์ทางเลือกขึ้นอยู่กับการประเมินข้อผิดพลาดของเบย์ซึ่งหวังว่าจะใกล้เคียงกับเกณฑ์ที่เหมาะสมที่สุดในปัจจุบัน อัลกอริทึมสำหรับการลดมิติเชิงเส้นซึ่งเป็นไปตามเกณฑ์นี้ได้ถูกนำมาคิดและนำไปใช้การทดลองแสดงให้เห็นถึงประสิทธิภาพที่เหนือกว่าเมื่อเปรียบเทียบกับอัลกอริทึมทั่วไป "

ข้อผิดพลาดของ Bayes ที่กล่าวถึงในที่นี้คือการสูญเสีย 0-1

งานนี้ทำในบริบทของการลดมิติเชิงเส้น ฉันไม่รู้ว่ามันจะมีประสิทธิภาพแค่ไหนสำหรับการฝึกอบรมเครือข่ายการเรียนรู้ลึก แต่ประเด็นคือและคำตอบสำหรับคำถาม: การสูญเสีย 0-1 นั้นไม่ยากนักในระดับสากล สามารถปรับให้เหมาะสมสำหรับรุ่นบางรุ่นได้อย่างน้อย

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.