การทำความเข้าใจการถดถอย SVM: ฟังก์ชั่นวัตถุประสงค์และ "ความเรียบ"


12

SVM สำหรับการจัดหมวดหมู่ทำให้เข้าใจได้ง่ายสำหรับฉัน: ฉันเข้าใจว่าการย่อขนาดให้ผลกำไรสูงสุด อย่างไรก็ตามฉันไม่เข้าใจวัตถุประสงค์นั้นในบริบทของการถดถอย ข้อความต่าง ๆ ( ที่นี่และที่นี่ ) อธิบายว่านี่เป็นการเพิ่ม "ความเรียบ" ให้สูงสุด ทำไมเราต้องการทำเช่นนั้น? อะไรคือความถดถอยที่เทียบเท่ากับแนวคิดของ "margin"?||θ||2

ต่อไปนี้เป็นคำตอบพยายามสองสามข้อ แต่ไม่มีผู้ใดที่ช่วยฉันเข้าใจ


ฉันไม่ได้ขึ้นอยู่กับทฤษฎี SVM จริงๆ แต่ 'ความเรียบ' ในการอภิปรายเครื่องจักรเคอร์เนลที่คุณเชื่อมโยงกับดูเหมือนจะเป็น: 'มีอนุพันธ์อันดับสองขนาดเล็ก' (คิดว่าเป็นแรงจูงใจทั่วไปสำหรับแบบจำลองการทำให้เป็นเส้นโค้งเรียบ)
conjugateprior

คำตอบ:


11

วิธีหนึ่งที่ฉันคิดเกี่ยวกับความเรียบคือมันทำให้การคาดการณ์ของฉันไม่ไวต่อการรบกวนในคุณสมบัติ นั่นคือถ้าฉันกำลังสร้างรูปแบบของแบบฟอร์ม ที่เวกเตอร์คุณลักษณะของฉันxได้รับปกติอยู่แล้วค่าที่มีขนาดเล็กในθหมายถึงรูปแบบของฉันคือไม่ไวต่อความผิดพลาดในการวัด / กระแทกสุ่ม / ไม่ใช่ -stationarity ของคุณสมบัติ x ด้วยสองโมเดล ( เช่นค่าสองค่าที่เป็นไปได้ของθ ) ซึ่งอธิบายข้อมูลได้ดีเท่า ๆ กันฉันชอบรุ่น 'ประจบ'

y=xθ+ϵ,
xθxθ

นอกจากนี้คุณยังสามารถนึกถึงการถดถอยแบบริดจ์ในลักษณะเดียวกันโดยไม่มีเคอร์เนลหลอกหรือสูตรการถดถอยของหลอด SVM

แก้ไข : เพื่อตอบสนองต่อความคิดเห็นของ @ Yang มีคำอธิบายเพิ่มเติม:

  1. พิจารณากรณีการเชิงเส้น: ε สมมติว่าxจะวาด IID จากการกระจายบางอิสระของθ โดยข้อมูลผลิตภัณฑ์ดอทเรามีy = | | x | | | | θ | | cos ψ + ϵโดยที่ψคือมุมระหว่างθและxซึ่งอาจกระจายอยู่ภายใต้การกระจายสม่ำเสมอของทรงกลม ตอนนี้ทราบ: 'การแพร่กระจาย' ( เช่นค่าเบี่ยงเบนมาตรฐานตัวอย่าง) ของการทำนายของเราy=xθ+ϵxθy=||x||||θ||cosψ+ϵψθxเป็นสัดส่วนกับ | | θ | | . เพื่อให้ได้ MSE ที่ดีเมื่อใช้การสังเกตแบบไม่มีแฝงในเวอร์ชันที่ซ่อนเร้นเราต้องการลดขนาดให้ | | θ | | . CFเจมส์สไตน์ประมาณการy||θ||||θ||
  2. พิจารณากรณีเชิงเส้นที่มีคุณสมบัติมากมาย พิจารณารูปแบบและY = x θ 2 + ε ถ้าθ 1มีศูนย์องค์ประกอบอื่น ๆ ในกว่าθ 2แต่เกี่ยวกับการชี้แจงประเด็นเดียวกันเราจะชอบมันฐานในสาธารณรัฐโคลัมเบียเนื่องจากมีการอ้างอิงกับตัวแปรน้อยลง ( เช่นเรามี 'การเลือกคุณลักษณะทำ' โดยการตั้งค่าองค์ประกอบบางอย่าง จากθ 1ถึงศูนย์) ความเรียบเป็นชนิดของอาร์กิวเมนต์นี้รุ่นต่อเนื่อง หากระยะขอบแต่ละส่วนของxy=xθ1+ϵy=xθ2+ϵθ1θ2θ1xมีค่าเบี่ยงเบนมาตรฐานของหน่วยและมีเช่น 2 องค์ประกอบคือ 10 และส่วนที่เหลือn - 2มีขนาดเล็กกว่า 0.0001 ขึ้นอยู่กับความอดทนของเสียงรบกวนของคุณนี่คือ 'การเลือก' คุณสมบัติทั้งสองอย่างมีประสิทธิภาพ .θ1n2
  3. θkθmkkθkkθll

1
ดังนั้นนี่คือการถดถอยด้วยฟังก์ชันการสูญเสีย 'tube' (0 ค่าปรับสำหรับคะแนน +/- epsilon ของการทำนาย) แทนที่จะเป็นฟังก์ชันการสูญเสียกำลังสองจาก OLS?
conjugateprior

f(x)=(|x|ϵ)+

@shabbychef ขอบคุณ ฉันมักจะสงสัยว่าเกิดอะไรขึ้นที่นั่น
ผัน

@ Conjugate ก่อนหน้า: ฉันไม่คิดว่านี่เป็นฟังก์ชั่นการสูญเสียที่ต้องการ แต่คณิตศาสตร์ก็จบลงด้วยดีดังนั้นพวกเขาจึงวิ่งไปด้วย อย่างน้อยนั่นก็เป็นความสงสัยของฉัน
shabbychef

y=θxθϵθ=1e91θ=1e9θ=1e9+1

3

shabbychefให้คำอธิบายที่ชัดเจนมากจากมุมมองของความซับซ้อนของแบบจำลอง ฉันจะพยายามเข้าใจปัญหานี้จากมุมมองอื่นในกรณีที่อาจช่วยใครก็ได้

e

(xi,yi)y=ωx+bee

|ωxiyi+b|ω2+1

eω

ทุกคนสามารถขยายเคสหนึ่งมิติไปยังเคส N- มิติได้อย่างง่ายดายเนื่องจากสมการระยะทางจะเป็นระยะทางแบบยุคลิดเสมอ

นอกจากนี้เราอาจพบปัญหาการเพิ่มประสิทธิภาพใน SVR สำหรับการเปรียบเทียบ [1]

min12||ω||2
s.t.{yi<ω,xi>be<ω,xi>+byie

ขอบคุณ

[1] Smola, A. และ B. Schölkopf บทช่วยสอนเกี่ยวกับการถดถอยเวกเตอร์สนับสนุน สถิติและคอมพิวเตอร์, ฉบับที่ 14, ฉบับที่ 3, ส.ค. 2004, หน้า 199–222


โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.