ฟังก์ชั่นการสูญเสียของอัตรากำไรขั้นต้นแข็ง SVM คืออะไร?


23

คนบอกว่าฟังก์ชั่นการสูญเสียการใช้ขอบนุ่ม SVM บานพับ:B)) อย่างไรก็ตามฟังก์ชั่นวัตถุประสงค์ที่แท้จริงที่ soft margin SVM พยายามลดให้น้อยที่สุดคือ \ frac {1} {2} \ | w \ | ^ 2 + C \ sum_i \ max (0,1-y_i (w ^ \ intercal x_i + b) ) ผู้เขียนบางคนเรียกว่า\ | w \ | ^ 2 regularizer คำและ\ max (0,1-y_i (w ^ \ intercal x_i + b))ฟังก์ชั่นการสูญเสียระยะmax(0,1yi(wxi+b))

12w2+Cimax(0,1yi(wxi+b))
w2max(0,1yi(wxi+b))

อย่างไรก็ตามสำหรับ SVM ขอบแข็งฟังก์ชันวัตถุประสงค์ทั้งหมดเป็นเพียง

12w2
นั่นหมายความว่า SVM ขอบยากเพียงลดขนาดเรกูเลเตอร์ปกติโดยไม่มีฟังก์ชั่นการสูญเสียหรือไม่? ฟังดูแปลกมาก

ถ้า12w2เป็นฟังก์ชันการสูญเสียในกรณีนี้เราจะเรียกมันว่าฟังก์ชันการสูญเสียกำลังสองได้หรือไม่? ถ้าเป็นเช่นนั้นทำไมฟังก์ชั่นการสูญเสียของฮาร์ดมาร์จิ้น SVM กลายเป็นเครื่องมือปรับสภาพในซอฟท์แวร์ SVM แบบนิ่มและทำการเปลี่ยนแปลงจากการสูญเสียกำลังสองเป็นการสูญเสียบานพับ


สำหรับสิ่งที่ฉันเข้าใจมาร์จิ้นอย่างหนักหมายความว่าคุณไม่รับข้อมูลในส่วนต่างของคุณ ด้วยเหตุนี้ค่าสูงสุด (0, การคำนวณ) จะส่งคืนค่า 0
fxm

คำตอบ:


26

การสูญเสียบานพับระยะimax(0,1yi(wxi+b))ในระยะขอบ SVM penalizes นุ่มmisclassifications ในอัตรากำไรขั้นต้นที่ยากมีตามคำนิยามไม่มีการจัดหมวดหมู่

นี้แน่นอนหมายความว่าอัตรากำไรยาก SVM พยายามที่จะลดw2 2 เนื่องจากการกำหนดปัญหาของ SVM ขอบคือ2/w. ดังนั้นการลดบรรทัดฐานของwนั้นเทียบเท่ากับการเพิ่มระยะขอบให้กับรูปทรงเรขาคณิต สิ่งที่เราต้องการ!

การทำให้เป็นมาตรฐานเป็นเทคนิคเพื่อหลีกเลี่ยงการ overfitting โดยการลงโทษสัมประสิทธิ์ขนาดใหญ่ในเวกเตอร์วิธีการแก้ปัญหา ในอัตรากำไร SVM ยากเป็นทั้งฟังก์ชั่นการสูญเสียและ regularizerL 2w2L2

ใน SVM นุ่มขอบระยะการสูญเสียบานพับยังทำหน้าที่เหมือน regularizer แต่ในตัวแปรหย่อนแทนและในมากกว่าL_2ทำให้เป็นมาตรฐานทำให้เกิดช่องว่างซึ่งเป็นสาเหตุที่ SVM มาตรฐานกระจัดกระจายในแง่ของการสนับสนุนเวกเตอร์ (ตรงกันข้ามกับ SVM กำลังสองน้อยที่สุด)L 1 L 2 L 1wL1L2L1


คุณสามารถอธิบายสองย่อหน้าสุดท้ายพร้อมรายละเอียดและคณิตศาสตร์เพิ่มเติมได้ไหม?
Nain

0

เพื่อชี้แจง จะถูกย่อให้เล็กสุดภายใต้ข้อ จำกัด ที่จุดนั้นสามารถแยกได้เป็นเส้นตรง (เป็นหนึ่งสามารถวาดไฮเปอร์เพลนที่แยกทั้งสอง) กล่าวอีกนัยหนึ่งเฉพาะค่าที่อนุญาตของ w ที่เราสามารถพิจารณาเป็นวิธีแก้ไขคือค่าที่แยกสองชุดของคะแนน

12w2

ตอนนี้ก็คิดว่าอัตรากำไรขั้นต้นที่แข็ง SVM "overfits" พร้อมมากกว่าขอบนุ่ม นี่เป็นเรื่องง่ายที่จะจินตนาการด้วย RBF SVM ที่มีค่าสูงซึ่งสามารถสร้าง (มากเกินไป) ที่ซับซ้อนและ (อาจ) ขอบเขตการตัดสินใจที่เหมาะสม ยิ่งระยะขอบ (การจำลองไม่ถูกต้องด้วย "C" ที่สูงขึ้น) ยิ่งการค้นหายากขึ้นเท่าไหร่ก็จะพยายามค้นหาขอบเขตการตัดสินใจที่จำแนกประเภทของคะแนนทั้งสองได้อย่างสมบูรณ์แบบยิ่งขึ้นγ

เมื่อเราย้ายไปที่ "ระยะขอบที่อ่อนนุ่ม" ข้อ จำกัด จะผ่อนคลายและแทนที่ด้วยความยับยั้งชั่งใจผ่านการแนะนำของ "หย่อน" ตัวแปรหย่อนนี้ถูกกำหนดด้วยคำว่า "การสูญเสียบานพับ" หลังจากที่ทำให้เข้าใจง่ายคน ๆ หนึ่งจะมาถึงบานพับ + l2 เหมือนกับคำศัพท์การสูญเสียที่ทุกคนเชื่อมโยงกับ SVM FWIW ฉันต้องการวางกรอบ SVM ให้เป็นปัญหาการเพิ่มประสิทธิภาพมากกว่าปัญหา "ติดตามการไล่ระดับสี" ที่อยู่ทั่วไปทุกหนทุกแห่ง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.