การตีความระยะทางจากไฮเปอร์เพลนใน SVM


14

ฉันมีข้อสงสัยเล็กน้อยในการทำความเข้าใจ SVMs อย่างสังหรณ์ใจ สมมติว่าเราได้ฝึกอบรมรูปแบบ SVM สำหรับการจำแนกประเภทโดยใช้เครื่องมือมาตรฐานบางอย่างเช่น SVMLight หรือ LibSVM

  1. เมื่อเราใช้แบบจำลองนี้เพื่อทำนายข้อมูลทดสอบแบบจำลองจะสร้างไฟล์ที่มีค่า "อัลฟา" สำหรับการทดสอบแต่ละจุด หากค่าอัลฟาเป็นค่าบวกจุดทดสอบเป็นของคลาส 1 มิฉะนั้นจะเป็นของคลาส 2 ทีนี้เราสามารถพูดได้หรือไม่ว่าจุดทดสอบที่มีค่า "อัลฟ่า" มากกว่านั้นเป็นของคลาสที่สอดคล้องกัน

  2. คล้ายกับคำถามแรกเมื่อเราได้รับการฝึกอบรม SVM SV อยู่ใกล้กับเครื่องบินมากเกินไป นั่นหมายความว่า SV อยู่ในชั้นเรียนนั้นด้วยความน่าจะเป็นสูงหรือไม่? เราสามารถเชื่อมโยงความน่าจะเป็นของจุดที่อยู่ในชั้นเรียนด้วยระยะทางจาก "ไฮเปอร์เพลน" ได้หรือไม่? ค่า "อัลฟา" แทนระยะห่างจาก "ไฮเปอร์เพล" หรือไม่?

ขอบคุณสำหรับข้อมูลของคุณ


ฉันคิดว่าคำตอบคือ "ไม่" แต่ฉันยังไม่พอสำหรับ SVM ที่จะให้คำตอบแบบเต็ม คำตอบของฉันคือเมื่อคุณอยู่ทางฝั่งตะวันออกของกำแพงเบอร์ลินคุณก็อยู่ผิดด้านไม่ว่าคุณจะมาจากไหน
อาเธอร์

scikits.learnมีpredict_probaสำหรับ SVC และ linear_model.SGDClassifier ฉันเชื่อว่าสำหรับตัวแยกประเภทไบนารีเท่านั้น ฉันไม่ได้ใช้มัน
เดนิส

คำตอบ:


18

ก่อนอื่นให้ฉันตอบคำถามของคุณโดยทั่วไป SVM ไม่ใช่โมเดลความน่าจะเป็น เหตุผลหนึ่งก็คือมันไม่สอดคล้องกับความเป็นไปได้ในการทำให้เป็นปกติ ยกตัวอย่างเช่นใน regularized สี่เหลี่ยมน้อยคุณมีฟังก์ชั่นการสูญเสียและ regularizer W 2 2 น้ำหนักเวกเตอร์ได้มาจากการลดผลรวมของทั้งสองให้น้อยที่สุด อย่างไรก็ตามนี่เทียบเท่ากับการเพิ่ม log-posterior ของ wให้กับข้อมูลp ( w | ( y |iyiw,xib22w22wซึ่งคุณสามารถเห็นได้ว่าเป็นผลิตภัณฑ์ของ ความเป็นไปได้ของเกาส์เซียนและเกาส์เซียนก่อนหน้านี้บน w ( Zp(w|(y1,x1),...,(ym,xm))1/Zexp(w22)iexp(yiw,xib22)wZทำให้แน่ใจว่าเป็นปกติ) คุณจะได้โอกาสแบบเกาส์เซียนจากฟังก์ชั่นการสูญเสียโดยพลิกเครื่องหมายของมันแล้วยกกำลัง อย่างไรก็ตามหากคุณทำเช่นนั้นด้วยฟังก์ชันสูญเสียของ SVM โอกาสในการบันทึกไม่ใช่รูปแบบความน่าจะเป็นแบบปกติ

มีความพยายามเปลี่ยน SVM ให้เป็นหนึ่งเดียว สิ่งที่น่าสังเกตมากที่สุดซึ่งเป็นสิ่งที่ฉันคิดว่ามีการใช้งานใน libsvm ก็คือ:

John Platt: ผลลัพธ์ที่เป็นไปได้สำหรับการสนับสนุนเครื่อง Vector และวิธีเปรียบเทียบความน่าจะเป็นปกติ (NIPS 1999): http://www.cs.colorado.edu/~mozer/Teaching/syllabi/6622/papers/Platt1999.pdf

ααiSVαik(x,xi)+yy=iSVαik(x,xi)+b=w,ϕ(x)H+bwywwH=i,jSVαiαjk(xi,xj)


ขอบคุณสำหรับคำอธิบายของคุณ ... จะอ่านกระดาษ
Amit
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.