ขอบเขตทั่วไปบน SVM


11

ฉันสนใจในผลลัพธ์ทางทฤษฎีสำหรับความสามารถในการวางนัยทั่วไปของ Support Vector Machines เช่นขอบเขตของความน่าจะเป็นของข้อผิดพลาดการจัดหมวดหมู่และมิติ Vapnik-Chervonenkis (VC) ของเครื่องเหล่านี้ อย่างไรก็ตามการอ่านวรรณกรรมฉันรู้สึกว่าผลลัพธ์ที่คล้าย ๆ กันบางครั้งมีแนวโน้มที่จะแตกต่างกันเล็กน้อยจากผู้เขียนถึงผู้เขียนโดยเฉพาะอย่างยิ่งเกี่ยวกับเงื่อนไขทางเทคนิคที่จำเป็นสำหรับขอบเขตที่กำหนดไว้

ในต่อไปนี้ฉันจะเรียกคืนโครงสร้างของปัญหา SVM และสถานะ 3 ของผลลัพธ์การสรุปทั่วไปหลักที่ฉันพบซ้ำในรูปแบบเดียวหรืออีกรูปแบบหนึ่งฉันให้การอ้างอิงหลัก 3 รายการตลอดการจัดนิทรรศการ

การตั้งค่าปัญหา :

สมมติว่าเรามีตัวอย่างข้อมูลของคู่อิสระและการกระจาย (iid) คู่โดยที่ ,และ\} เราสร้างเครื่องเวกเตอร์สนับสนุน (SVM) ที่เพิ่มระยะขอบให้น้อยที่สุดระหว่างไฮเปอร์เพลนแยกที่กำหนดโดย ,และและจุดที่ใกล้ที่สุดในหมู่เพื่อแยกทั้งสองเรียนที่กำหนดโดยและ1 เราปล่อยให้ SVM ยอมรับข้อผิดพลาดบางอย่างผ่านการทำกำไรขั้นต้นโดยการแนะนำตัวแปรหย่อน(xi,yi)1inixiRpyi{1,1}m{x:wx+b=0}wRpbRx1,,xny=1y=1 - w b ξ1,,ξn แต่สำหรับความเรียบง่ายที่สังเกตได้เราไม่สนใจความเป็นไปได้ของเมล็ด สามารถหาพารามิเตอร์ของโซลูชันและได้โดยการแก้ไขโปรแกรมการหาค่ากำลังสองแบบนูนต่อไปนี้:wb

minw,b,ξ1,,ξn12w2+Ci=1nξis.t.:yi(wxi+b)1ξi,i{1,,n}ξi0,i{1,,n}

เราสนใจความสามารถทั่วไปของเครื่องนี้

มิติ Vapnik-Chervonenkis VC :

ผลลัพธ์แรกเกิดจาก (Vapnik, 2000) ซึ่งเขากำหนดขอบเขต VC ของไฮเปอร์เพลนแบบแยกทฤษฎีบท 5.1 การให้, เรามี:R=maxxixi

VCmin((Rm)2,p)+1

ผลลัพธ์นี้สามารถพบได้อีกใน (Burges, 1998), ทฤษฎีบท 6 อย่างไรก็ตามดูเหมือนว่าทฤษฎีบทของ Burges นั้นมีข้อ จำกัด มากกว่าผลลัพธ์เดียวกันโดย Vapnik ในขณะที่เขาต้องการกำหนดหมวดหมู่พิเศษของตัวแยกประเภทที่รู้จักกันในชื่อซึ่งเป็นสมาชิกของ SVMเพื่อระบุทฤษฎีบท-

ขอบเขตความน่าจะเป็นของข้อผิดพลาด :

ใน (Vapnik, 2000), ทฤษฎีบท 5.2 ในหน้า 139 ให้ความผูกพันกับความสามารถในการวางนัยทั่วไปต่อไปนี้

E[Perror]1nE[min(p,nSV,(Rw)2)]

โดยที่คือจำนวนเวกเตอร์สนับสนุนของ SVM ผลลัพธ์นี้น่าจะพบได้อีกใน (Burges, 1998), สมการ (86) และ (93) ตามลำดับ แต่อีกครั้ง Burges ดูเหมือนจะแตกต่างจาก Vapnik ในขณะที่เขาแยกส่วนประกอบภายในฟังก์ชันขั้นต่ำข้างต้นในทฤษฎีบทต่าง ๆ โดยมีเงื่อนไขแตกต่างกันnSV

ผลลัพธ์อื่นที่ปรากฏใน (Vapnik, 2000), p.133 มีดังต่อไปนี้ สมมติว่าอีกครั้งสำหรับ ,และให้และเรานิยามให้เท่ากับ:x ฉัน2R 2ชั่วโมงV C ϵ [ 0 , 1 ] ζixi2R2hVCϵ[0,1]ζ

ζ=4h(ln2nh+1)lnϵ4n

นอกจากนี้เรายังกำหนดเป็นจำนวนตัวอย่างการฝึกอบรมที่ไม่ได้รับการจำแนกโดย SVM จากนั้นด้วยความน่าจะเป็นเราสามารถยืนยันได้ว่าความน่าจะเป็นที่ตัวอย่างทดสอบจะไม่ถูกแยกอย่างถูกต้องโดย -margin hyperplaneเช่น SVM กับ marginมีขอบเขต: 1 - ϵ m - m -nerror1ϵmm

Perrornerrorn+ζ2(1+1+4nerrornζ)

อย่างไรก็ตามใน (Hastie, Tibshirani และ Friedman, 2009), p.438 พบผลลัพธ์ที่คล้ายกันมาก:

ErrorTestζ

สรุป :

สำหรับฉันดูเหมือนว่ามีความขัดแย้งระดับหนึ่งระหว่างผลลัพธ์เหล่านี้ ในอีกทางหนึ่งการอ้างอิงทั้งสองนี้ถึงแม้ว่าจะเป็นที่ยอมรับในวรรณคดี SVM แต่ก็เริ่มค่อนข้างเก่า (1998 และ 2000) โดยเฉพาะอย่างยิ่งหากเราพิจารณาว่าการวิจัยเกี่ยวกับอัลกอริทึม SVM นั้นเริ่มต้นขึ้นในช่วงกลางยุค

คำถามของฉันคือ:

  • ผลลัพธ์เหล่านี้ยังคงใช้งานได้ในปัจจุบันหรือมีการพิสูจน์ว่าผิดหรือเปล่า?
  • ขอบเขตที่แน่นขึ้นและมีสภาวะค่อนข้างหลวมนับตั้งแต่นั้นมา? ถ้าเป็นเช่นนั้นฉันจะพบพวกเขาโดยใครและที่ไหน?
  • ในที่สุดมีวัสดุอ้างอิงใดที่สังเคราะห์ผลลัพธ์หลักทั่วไปเกี่ยวกับ SVM หรือไม่?

การอ้างอิง :

Burges, JC (1998) "การสอนเกี่ยวกับการสนับสนุนเครื่องเวกเตอร์สำหรับการจดจำรูปแบบ", การทำเหมืองข้อมูลและการค้นหาความรู้ , 2: 121-167

Hastie, T. , Tibshirani, R. และ Friedman, J. (2009) องค์ประกอบของการเรียนรู้ทางสถิติ , รุ่นที่ 2, Springer

Vapnik, VN (1998) ทฤษฎีการเรียนรู้ทางสถิติ , ฉบับที่ 1, John Wiley & Sons

Vapnik, VN (1999) "ภาพรวมของทฤษฎีการเรียนรู้ทางสถิติ", ธุรกรรม IEEE บนโครงข่ายประสาทเทียม , 10 (5): 988-999

Vapnik, VN (2000) ธรรมชาติของทฤษฎีการเรียนรู้ทางสถิติ , รุ่นที่ 2, Springer


การอ้างอิงสรุปรัฐของศิลปะ (ราว 2008) ขอบเขตความเสี่ยงสำหรับการจำแนก: "การสนับสนุนเวกเตอร์เครื่อง" (Ingo Steinwart, Andreas Christmann สปริงเกอร์ 2008)
ลงทะเบียน

คำตอบ:


3

ฉันไม่ทราบวรรณกรรมที่คุณอ้างถึงในรายละเอียด แต่ฉันคิดว่าบทสรุปที่ครอบคลุมของขอบเขตทั่วไปที่ควรเป็นข้อมูลล่าสุดสามารถพบได้ใน Boucheron และคณะ (2004) (Link: https://www.researchgate.net/profile/Olivier_Bousquet/publication/238718428_Advanced_Lectures_on_Machine_Learning_ML_Summer_Schools_2003_Canberra_Australia_February_2-14_2003_Tubingen_Germany_August_4-16_2003_Revised_Lectures/links/02e7e52c5870850311000000/Advanced-Lectures-on-Machine-Learning-ML-Summer-Schools-2003- Canberra-Australia-February-2-14-2003-Tuebingen-Germany-August-4-16-2003-Revised-Lectures.pdf # หน้า = 176 )

ฉันจะร่างส่วนหนึ่งของ SVM ที่ถูกผูกไว้ในสิ่งต่อไปนี้โดยละทิ้งรายละเอียดและพิสูจน์

ก่อนที่จะอธิบายอย่างละเอียดเกี่ยวกับขอบเขตของ SVM เราต้องเข้าใจว่าขอบเขตการวางตัวแบบทั่วไปกำลังพยายามที่จะบรรลุผลอย่างไร

ก่อนอื่นให้เราสมมติว่าความน่าจะเป็นที่แท้จริงเป็นที่รู้จักกันแล้วตัวจําแนกที่ดีที่สุดที่เป็นไปได้คือตัวจําแนกเบย์คือ start start P(Y=+1|X=x)

g={+1  ifP(Y=1|X=x)>0.51  otherwise

เป้าหมายของทฤษฎีการเรียนรู้เชิงสถิติในขณะนี้คือการหาความแตกต่างระหว่างลักษณนามของคลาส (เช่น SVM) และตัวจําแนกเบส์นั่นคือ start โปรดทราบว่าคือการสูญเสียที่ได้รับข้อมูลที่คาดหวังและเป็นลักษณนามที่ดีที่สุดในรูปแบบคลาสCคำว่าเรียกว่าข้อผิดพลาดในการประมาณค่าและมักจะให้ความสำคัญเพราะมันสามารถล้อมรอบได้ง่ายกว่าข้อผิดพลาดการประมาณ (อีกคำ) ฉันจะละเว้นข้อผิดพลาดการประมาณที่นี่C

g^n=argmingCLn(g)
L(g^n)L(g)=L(g^n)L(gc)+L(gc)L(g).
L(g)=El(g(X),Y)gcCZ=:L(g)L(g^n)

ข้อผิดพลาดในการประมาณค่าสามารถจำแนกได้ด้วย ตอนนี้สิ่งนี้สามารถล้อมรอบด้วยสองขั้นตอน:Z

Z=ZEZ+EZ.
  1. Boundโดยใช้ความไม่เท่าเทียมกันของ McDiarmidZEZ

  2. Boundพร้อมความซับซ้อนของ RademacherEZRn(C)=EsupgC|1/ni=1nl(g(Xi),Yi)|

การใช้ความไม่เท่าเทียมกันของ McDiarmids สามารถแสดงให้เห็นว่าหากฟังก์ชันการสูญเสียอยู่ในช่วงไม่เกินขั้นตอนที่หนึ่งส่งผลให้มีขอบเขตของ โดยที่คือระดับความมั่นใจ สำหรับขั้นตอนที่สองเราสามารถแสดงให้เห็นว่า หากคุณมีฟังก์ชั่นการสูญเสียแบบไม่ต่อเนื่องนั่นคือไม่ใช่ Lipschitz เช่น 0-1 - สูญเสียคุณจะต้องใช้ VC-Dimension เพื่อเพิ่มขอบเขตความซับซ้อนของ Rademacher อย่างไรก็ตามสำหรับฟังก์ชั่น L-lipschitz เช่น Hinge-loss สิ่งนี้สามารถล้อมรอบได้โดย โดยที่B

ZEZ2Bln(1/δ)2n,
δ
EZ2Rn(C),
Rn(C)λLR/n,

λหมายถึง regularizer เนื่องจาก Hinge-Lossและ (พิสูจน์ด้วยความไม่เท่าเทียมกันของ Gauchy-Schwartz) สิ่งนี้จะลดความซับซ้อนลง ในที่สุดการรวมผลลัพธ์ทั้งหมดเข้าด้วยกันเราสามารถ จำกัด L=1B=1+λR
L(g^n)L(gc)2(1+λR)ln(1/δ)2n+4λLR/n
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.