ปรีชาสำหรับพารามิเตอร์ regularization ใน SVM


11

การเปลี่ยนแปลงพารามิเตอร์การทำให้เป็นมาตรฐานใน SVM เปลี่ยนแปลงขอบเขตการตัดสินใจสำหรับชุดข้อมูลที่ไม่สามารถแบ่งแยกได้อย่างไร คำตอบที่มองเห็นและ / หรือความเห็นบางอย่างเกี่ยวกับพฤติกรรมการ จำกัด (สำหรับระเบียบขนาดใหญ่และขนาดเล็ก) จะเป็นประโยชน์มาก

คำตอบ:


17

พารามิเตอร์การทำให้เป็นมาตรฐาน (แลมบ์ดา) ทำหน้าที่เป็นระดับความสำคัญที่มอบให้กับการจัดประเภทแบบไม่ได้ SVM ก่อให้เกิดปัญหาการหาค่าเหมาะที่สุดกำลังสองที่มองหาการเพิ่มระยะห่างระหว่างคลาสทั้งสองให้มากที่สุดและลดจำนวนการจัดหมวดหมู่แบบพลาดให้น้อยที่สุด อย่างไรก็ตามสำหรับปัญหาที่ไม่สามารถแบ่งแยกได้เพื่อหาวิธีแก้ปัญหาข้อ จำกัด ในการจำแนกมิสจะต้องผ่อนคลายและจะทำโดยการตั้งค่า

ดังนั้นโดยสังเขปแลมบ์ดามีการเติบโตมากขึ้นตัวอย่างที่ได้รับการจำแนกอย่างผิดพลาดก็น้อยลง (หรือราคาสูงสุดที่จ่ายในฟังก์ชันการสูญเสีย) จากนั้นเมื่อแลมบ์ดามีแนวโน้มที่จะไม่มีที่สิ้นสุดวิธีการแก้ปัญหามีแนวโน้มที่จะยาก (ไม่พลาดการจำแนก) เมื่อแลมบ์ดามีแนวโน้มเป็น 0 (โดยไม่ต้องเป็น 0) ยิ่งอนุญาตให้จำแนกประเภทพลาดได้มากขึ้น

แน่นอนว่ามีการแลกเปลี่ยนระหว่างแกะทั้งสองตัวกับลูกแกะขนาดเล็ก แต่ไม่เล็กเกินไป ด้านล่างนี้เป็นสามตัวอย่างสำหรับการจัดหมวดหมู่ SVM เชิงเส้น (ไบนารี)

Linear SVM Lambda = 0.1 Linear SVM Lambda = 1 ป้อนคำอธิบายรูปภาพที่นี่

สำหรับ SVM ที่ไม่ใช่เชิงเส้นเคอร์เนลแนวคิดจะคล้ายกัน เมื่อพิจารณาจากค่าแลมบ์ดาที่สูงกว่าจะมีความเป็นไปได้สูงที่จะเกิด overfitting ในขณะที่สำหรับแลมบ์ดาที่มีค่าต่ำกว่าจะมีค่า underfitting สูงกว่า

ภาพด้านล่างแสดงพฤติกรรมของเคอร์เนล RBF ปล่อยให้พารามิเตอร์ sigma จับจ้องที่ 1 และลอง lambda = 0.01 และ lambda = 10

RBF เคอร์เนล SVM แลมบ์ดา = 0.01 RBF เคอร์เนล SVM แลมบ์ดา = 10

คุณสามารถพูดได้ว่าตัวเลขแรกที่แลมบ์ดาต่ำกว่านั้นคือ "ผ่อนคลาย" มากกว่าตัวเลขที่สองที่มีการติดตั้งข้อมูลไว้อย่างแม่นยำมากขึ้น

(สไลด์จากศ. Oriol Pujol. Universitat de Barcelona)


ภาพที่ดี! คุณสร้างด้วยตัวเองหรือไม่? ถ้าใช่คุณอาจแชร์รหัสเพื่อวาดได้หรือไม่
Alexey Grigorev

กราฟิกที่ดี เกี่ยวกับสอง = สุดท้ายจากข้อความที่คิดโดยนัยว่าภาพแรกคือภาพที่มีแลมบ์ดา = 0.01 แต่จากความเข้าใจของฉัน (และเพื่อให้สอดคล้องกับกราฟในตอนแรก) นี่คือภาพที่มีแลมบ์ดา = 10 เพราะ เห็นได้ชัดว่านี่คือสิ่งที่มีการทำให้เป็นมาตรฐานน้อยที่สุด (overfitting ที่สุด, ผ่อนคลายที่สุด)
Wim 'titte' Thiels

^ นี่คือความเข้าใจของฉันเช่นกัน ด้านบนของกราฟสองสีแสดงรูปร่างที่ชัดเจนมากขึ้นสำหรับรูปร่างของข้อมูลดังนั้นจะต้องเป็นกราฟที่ขอบของสมการ SVM ได้รับการสนับสนุนด้วยแลมบ์ดาที่สูงขึ้น ด้านล่างของกราฟสองสีแสดงการจำแนกข้อมูลที่ผ่อนคลายมากขึ้น (กลุ่มเล็ก ๆ ของสีน้ำเงินในพื้นที่สีส้ม) หมายถึงการเพิ่มระยะขอบไม่ได้รับความนิยมมากกว่าการลดจำนวนข้อผิดพลาดในการจำแนก
Brian Ambielli
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.