ฉันสนใจในผลลัพธ์ทางทฤษฎีสำหรับความสามารถในการวางนัยทั่วไปของ Support Vector Machines เช่นขอบเขตของความน่าจะเป็นของข้อผิดพลาดการจัดหมวดหมู่และมิติ Vapnik-Chervonenkis (VC) ของเครื่องเหล่านี้ อย่างไรก็ตามการอ่านวรรณกรรมฉันรู้สึกว่าผลลัพธ์ที่คล้าย ๆ กันบางครั้งมีแนวโน้มที่จะแตกต่างกันเล็กน้อยจากผู้เขียนถึงผู้เขียนโดยเฉพาะอย่างยิ่งเกี่ยวกับเงื่อนไขทางเทคนิคที่จำเป็นสำหรับขอบเขตที่กำหนดไว้
ในต่อไปนี้ฉันจะเรียกคืนโครงสร้างของปัญหา SVM และสถานะ 3 ของผลลัพธ์การสรุปทั่วไปหลักที่ฉันพบซ้ำในรูปแบบเดียวหรืออีกรูปแบบหนึ่งฉันให้การอ้างอิงหลัก 3 รายการตลอดการจัดนิทรรศการ
การตั้งค่าปัญหา :
สมมติว่าเรามีตัวอย่างข้อมูลของคู่อิสระและการกระจาย (iid) คู่โดยที่ ,และ\} เราสร้างเครื่องเวกเตอร์สนับสนุน (SVM) ที่เพิ่มระยะขอบให้น้อยที่สุดระหว่างไฮเปอร์เพลนแยกที่กำหนดโดย ,และและจุดที่ใกล้ที่สุดในหมู่เพื่อแยกทั้งสองเรียนที่กำหนดโดยและ1 เราปล่อยให้ SVM ยอมรับข้อผิดพลาดบางอย่างผ่านการทำกำไรขั้นต้นโดยการแนะนำตัวแปรหย่อน - w ∗ b ∗ แต่สำหรับความเรียบง่ายที่สังเกตได้เราไม่สนใจความเป็นไปได้ของเมล็ด สามารถหาพารามิเตอร์ของโซลูชันและได้โดยการแก้ไขโปรแกรมการหาค่ากำลังสองแบบนูนต่อไปนี้:
เราสนใจความสามารถทั่วไปของเครื่องนี้
มิติ Vapnik-Chervonenkis :
ผลลัพธ์แรกเกิดจาก (Vapnik, 2000) ซึ่งเขากำหนดขอบเขต VC ของไฮเปอร์เพลนแบบแยกทฤษฎีบท 5.1 การให้, เรามี:
ผลลัพธ์นี้สามารถพบได้อีกใน (Burges, 1998), ทฤษฎีบท 6 อย่างไรก็ตามดูเหมือนว่าทฤษฎีบทของ Burges นั้นมีข้อ จำกัด มากกว่าผลลัพธ์เดียวกันโดย Vapnik ในขณะที่เขาต้องการกำหนดหมวดหมู่พิเศษของตัวแยกประเภทที่รู้จักกันในชื่อซึ่งเป็นสมาชิกของ SVMเพื่อระบุทฤษฎีบท-
ขอบเขตความน่าจะเป็นของข้อผิดพลาด :
ใน (Vapnik, 2000), ทฤษฎีบท 5.2 ในหน้า 139 ให้ความผูกพันกับความสามารถในการวางนัยทั่วไปต่อไปนี้
โดยที่คือจำนวนเวกเตอร์สนับสนุนของ SVM ผลลัพธ์นี้น่าจะพบได้อีกใน (Burges, 1998), สมการ (86) และ (93) ตามลำดับ แต่อีกครั้ง Burges ดูเหมือนจะแตกต่างจาก Vapnik ในขณะที่เขาแยกส่วนประกอบภายในฟังก์ชันขั้นต่ำข้างต้นในทฤษฎีบทต่าง ๆ โดยมีเงื่อนไขแตกต่างกัน
ผลลัพธ์อื่นที่ปรากฏใน (Vapnik, 2000), p.133 มีดังต่อไปนี้ สมมติว่าอีกครั้งสำหรับ ,และให้และเรานิยามให้เท่ากับ:‖ x ฉัน‖ 2 ≤ R 2ชั่วโมง≡ V C ϵ ∈ [ 0 , 1 ] ζ
นอกจากนี้เรายังกำหนดเป็นจำนวนตัวอย่างการฝึกอบรมที่ไม่ได้รับการจำแนกโดย SVM จากนั้นด้วยความน่าจะเป็นเราสามารถยืนยันได้ว่าความน่าจะเป็นที่ตัวอย่างทดสอบจะไม่ถูกแยกอย่างถูกต้องโดย -margin hyperplaneเช่น SVM กับ marginมีขอบเขต: 1 - ϵ m ∗ - m ∗ -
อย่างไรก็ตามใน (Hastie, Tibshirani และ Friedman, 2009), p.438 พบผลลัพธ์ที่คล้ายกันมาก:
สรุป :
สำหรับฉันดูเหมือนว่ามีความขัดแย้งระดับหนึ่งระหว่างผลลัพธ์เหล่านี้ ในอีกทางหนึ่งการอ้างอิงทั้งสองนี้ถึงแม้ว่าจะเป็นที่ยอมรับในวรรณคดี SVM แต่ก็เริ่มค่อนข้างเก่า (1998 และ 2000) โดยเฉพาะอย่างยิ่งหากเราพิจารณาว่าการวิจัยเกี่ยวกับอัลกอริทึม SVM นั้นเริ่มต้นขึ้นในช่วงกลางยุค
คำถามของฉันคือ:
- ผลลัพธ์เหล่านี้ยังคงใช้งานได้ในปัจจุบันหรือมีการพิสูจน์ว่าผิดหรือเปล่า?
- ขอบเขตที่แน่นขึ้นและมีสภาวะค่อนข้างหลวมนับตั้งแต่นั้นมา? ถ้าเป็นเช่นนั้นฉันจะพบพวกเขาโดยใครและที่ไหน?
- ในที่สุดมีวัสดุอ้างอิงใดที่สังเคราะห์ผลลัพธ์หลักทั่วไปเกี่ยวกับ SVM หรือไม่?
การอ้างอิง :
Vapnik, VN (1998) ทฤษฎีการเรียนรู้ทางสถิติ , ฉบับที่ 1, John Wiley & Sons
Vapnik, VN (2000) ธรรมชาติของทฤษฎีการเรียนรู้ทางสถิติ , รุ่นที่ 2, Springer