ทำไมต้องกังวลกับปัญหาสองอย่างเมื่อทำการปรับแต่ง SVM?


50

เมื่อกำหนดจุดข้อมูลและป้ายกำกับy 1 , , y n{ - 1 , 1 } , ปัญหาระยะขอบ SVM ที่ยากคือx1,,xnRdy1,,yn{1,1}

s.t.

minimizew,w012wTw
s.t.i:yi(wTxi+w0)1

ซึ่งเป็นโปรแกรมกำลังสองที่มีตัวแปรที่จะปรับให้เหมาะสมสำหรับและข้อ จำกัด ของฉัน ทั้งคู่d+1i

s.t.

maximizeαi=1nαi12i=1nj=1nyiyjαiαjxiTxj
เป็นโปรแกรมกำลังสองกับ n + 1ตัวแปรที่จะเพิ่มประสิทธิภาพและ nความไม่เท่าเทียมกันและ nความเสมอภาค จำกัด
s.t.i:αi0i=1nyiαi=0
n+1nn

เมื่อนำ SVM มาร์จิ้นแข็งมาใช้ทำไมฉันจะแก้ปัญหาสองปัญหาแทนที่จะเป็นปัญหาแรก ปัญหาแรกดูเป็น 'สัญชาตญาณ' สำหรับฉันมากขึ้นและฉันไม่จำเป็นต้องกังวลเกี่ยวกับตัวฉันเองกับช่องว่างแบบคู่สภาพ Kuhn-Tucker ฯลฯ

มันจะทำให้รู้สึกถึงฉันจะแก้ปัญหาที่เกิดขึ้นคู่ถ้าแต่ฉันสงสัยว่ามีเหตุผลที่ดีกว่า เป็นกรณีนี้หรือไม่?dn


26
คำตอบสั้น ๆ คือเมล็ด คำตอบที่ยาวคือ keeerneeels (-;

สิ่งที่สำคัญที่สุดของปัญหาสองประการคือการแนะนำเคอร์เนลเคล็ดลับโดยมีจุดมุ่งหมายเพื่อทำแผนที่ข้อมูลดั้งเดิมสู่อวกาศด้วยมิติที่สูงขึ้น
BigeyeDestroyer

คำตอบ:


40

จากบันทึกการบรรยายที่อ้างอิงในคำตอบของ @ user765195 (ขอบคุณ!) เหตุผลที่ชัดเจนที่สุดดูเหมือนจะเป็น:

wαixwTxd

αiαi=0x

wTx+w0=(i=1nαiyixi)Tx+w0=i=1nαiyixi,x+w0

คำนี้คำนวณอย่างมีประสิทธิภาพหากมีเวกเตอร์สนับสนุนเพียงไม่กี่ตัว นอกจากนี้ตั้งแต่ตอนนี้เรามีผลิตภัณฑ์เกลาเฉพาะที่เกี่ยวข้องกับข้อมูลเวกเตอร์เราอาจใช้เคล็ดลับเคอร์เนล


5
รอเดี๋ยวก่อน สมมุติว่าคุณมีเวกเตอร์สนับสนุนสองตัว x1 และ x2 คุณไม่สามารถมีน้อยกว่าสองคนใช่ไหม คุณกำลังบอกว่าการคำนวณ <x1, x> และ <x2, x> นั้นเร็วกว่า <w, x> หรือไม่?
Leo

1
@Leo: หมายเหตุที่ผมใช้และ<x1, x> wTxอดีตถูกใช้เป็นสัญลักษณ์สำหรับการประเมินเคอร์เนล K (x1, x), ซึ่งฉาย x1 และ x ลงในพื้นที่มิติสูงมากและคำนวณโดยนัยผลิตภัณฑ์สเกลาร์ของค่าที่คาดการณ์ไว้ หลังเป็นผลิตภัณฑ์เกลาปกติดังนั้นwและxจะต้องมีการคาดการณ์ไว้อย่างชัดเจนแล้วคูณจะถูกคำนวณอย่างชัดเจน การคำนวณที่ชัดเจนเพียงครั้งเดียวอาจใช้การคำนวณมากกว่าการประเมินเคอร์เนลขึ้นอยู่กับทางเลือกของเคอร์เนล
blubb

1
ααα

2
"เพิ่มเติมเนื่องจากตอนนี้เรามีผลิตภัณฑ์สเกลาร์ที่เกี่ยวข้องกับเวกเตอร์ข้อมูลเท่านั้นเราจึงอาจใช้เคล็ดลับเคอร์เนลได้" - นั่นเป็นความจริงในสูตรดั้งเดิม
Firebug

2
หากผู้คนต้องการรายละเอียดเพิ่มเติมเกี่ยวกับความคิดเห็นจาก @Firebug ... ลองดูสมการที่ 10-12 ของlib.kobe-u.ac.jp/repository/90001050.pdf (ซึ่งเป็นรุ่นแรกที่ไม่มีข้อ จำกัด )
MrDrFenner

13

อ่านย่อหน้าที่สองในหน้า 13 และการอภิปรายดำเนินการในหมายเหตุเหล่านี้:

http://cs229.stanford.edu/notes/cs229-notes3.pdf


17
นั่นคือการอ้างอิงที่ดีและตอบคำถามอย่างชัดเจน ฉันคิดว่าคำตอบของคุณจะได้รับการชื่นชมที่ดีขึ้นหากคุณสามารถสรุปคำตอบได้ที่นี่: นั่นทำให้กระทู้นี้อยู่เคียงข้างกัน
whuber

3

นี่คือเหตุผลหนึ่งว่าทำไมการกำหนดสูตรคู่จึงมีความน่าสนใจจากมุมมองการเพิ่มประสิทธิภาพเชิงตัวเลข คุณสามารถค้นหารายละเอียดในเอกสารต่อไปนี้:

Hsieh, C.-J. , Chang, K.-W. , Lin, C.-J. , Keerthi, SS, และ Sundararajan, S. ,“ วิธีการประสานงานแบบโคตรคู่สำหรับขนาด SVM เชิงเส้นขนาดใหญ่”, การดำเนินการของ การประชุมนานาชาติเรื่องการเรียนรู้ของเครื่องจักรที่เฮลซิงกิครั้งที่ 25

สูตรคู่เกี่ยวข้องกับข้อ จำกัด ความเท่าเทียมกันเลียนแบบเดียวและข้อ จำกัด ที่ถูกผูกไว้ n

1. ข้อ จำกัด ความเท่าเทียมกันของเลียนแบบสามารถ "กำจัด" ออกจากสูตรคู่ได้

สิ่งนี้สามารถทำได้โดยเพียงแค่ดูข้อมูลของคุณใน R ^ (d + 1) ผ่านการฝัง R ^ d ใน R ^ (d + 1) resuling จากการเพิ่มพิกัด "1" เดียวไปยังแต่ละจุดข้อมูลเช่น R ^ d ----> R ^ (d + 1): (a1, ... , ad) | ---> (a1, ... , โฆษณา, 1)

การทำเช่นนี้กับทุกจุดในชุดการฝึกอบรมจะทำให้เกิดปัญหาการแยกเชิงเส้นใน R ^ (d + 1) และกำจัดคำคงที่ w0 จากตัวจําแนกของคุณซึ่งจะช่วยลดข้อจํากัดความเหมือนกันจากคู่

2. ตามจุดที่ 1 คู่สามารถถูกทำให้กลายเป็นปัญหาการหาค่าเหมาะที่สุดแบบสมการกำลังสองนูนได้อย่างง่ายดาย

3. ขณะนี้สามารถแก้ไขปัญหาสองอย่างได้อย่างมีประสิทธิภาพเช่นผ่านอัลกอริธึมแบบโคตรสองพิกัดที่ให้ผลการแก้ปัญหา epsilon ที่ดีที่สุดใน O (log (1 / epsilon))

สิ่งนี้ทำได้โดยการสังเกตว่าการซ่อมอัลฟ่าทั้งหมดยกเว้นตัวเดียวให้ผลเฉลยแบบปิด จากนั้นคุณสามารถหมุนเวียนไปตามตัวอักษรทั้งหมดทีละตัว (เช่นเลือกแบบสุ่มแก้ไขตัวอักษรอื่น ๆ ทั้งหมดคำนวณแบบฟอร์มปิด) หนึ่งสามารถแสดงให้เห็นว่าคุณจะได้รับทางออกที่ดีที่สุด "ค่อนข้างเร็ว" (ดูทฤษฎีบทที่ 1 ในกระดาษข้างต้น)

มีเหตุผลอื่น ๆ อีกมากมายที่ทำให้ปัญหาสองประการนั้นน่าสนใจจากมุมมองของการปรับให้เหมาะสมซึ่งบางข้อก็ใช้ประโยชน์จากข้อเท็จจริงที่ว่ามันมีข้อ จำกัด เลียนแบบความเท่าเทียมเพียงข้อเดียวเท่านั้น ของปัญหาสอง "บ่อยที่สุดส่วนใหญ่" เป็นศูนย์ (ไม่ใช่ศูนย์ที่สอดคล้องกับเวกเตอร์สนับสนุน)

คุณสามารถรับภาพรวมที่ดีของการพิจารณาการเพิ่มประสิทธิภาพเชิงตัวเลขสำหรับ SVM จากการนำเสนอของ Stephen Wright ที่การประชุมเชิงปฏิบัติการการเรียนรู้ (2009)

PS: ฉันใหม่ที่นี่ ขออภัยในความไม่สะดวกในการใช้สัญลักษณ์ทางคณิตศาสตร์ในเว็บไซต์นี้


1
ข้อมูลเกี่ยวกับวิธีใช้ typsetting คณิตศาสตร์อยู่ที่นี่: math.meta.stackexchange.com/questions/5020/…
Reinstate Monica

-5

ในความเห็นของฉันในบันทึกการบรรยายของ Andrew ng ได้รับการกล่าวถึงอย่างชัดเจนว่าปัญหาแรกของ 1 / | | w | | เป็นปัญหาที่ไม่ใช่นูน Dual เป็นปัญหานูนและง่ายต่อการค้นหาฟังก์ชันนูนที่เหมาะสมที่สุด


1
ครั้งแรกของ SVM ตามที่ระบุไว้ข้างต้นเป็นแบบนูน
Dougal
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.