วิธีการฝึกอบรม SVM ผ่านการ backpropagation?


11

ฉันสงสัยว่าเป็นไปได้ไหมที่จะฝึก SVM (พูดเป็นเส้นตรงเพื่อทำให้เป็นเรื่องง่าย) โดยใช้การขยายภาพย้อนหลัง?

ปัจจุบันฉันอยู่ในอุปสรรคเพราะฉันสามารถคิดได้เฉพาะการเขียนผลลัพธ์ของตัวจําแนกเป็น

f(x;θ,b)=sgn(θx(b+1))=sgn(g(x;θ,b))

ดังนั้นเมื่อเราลองและคำนวณ "ย้อนกลับผ่าน" (ข้อผิดพลาดที่แพร่กระจาย) เราจะได้รับ เนื่องจากอนุพันธ์ของsgn(x)คือ dsgn(x)

Ex=Ef(x;θ,b)f(x;θ,b)x=Ef(x;θ,b)sgn(g(x;θ,b))g(x;θ,b)g(x;θ,b)x=δdsgn(z)dzθ=δ0θ=0
sgn(x)
dsgn(x)dx={0if x02δ(x)if x=0

ในทำนองเดียวกันเราพบว่าซึ่งหมายความว่าเราไม่สามารถส่งกลับข้อมูลใด ๆ หรือดำเนินการปรับปรุงการไล่ระดับสี!E/θ=E/b=0

สิ่งที่ช่วยให้?

คำตอบ:


14

คุณถูกต้องว่าหากคุณพยายามเพิ่มประสิทธิภาพความแม่นยำของ SVM ในกรณีการฝึกอบรมโดยตรงหรือที่เรียกว่าการสูญเสีย 0-1 การไล่ระดับสีจะหายไป นี่คือสาเหตุที่ผู้คนไม่ทำเช่นนั้น :)

แม้ว่าสิ่งที่คุณพยายามจะทำยังไม่ได้เป็น SVM จริงๆ ; มันเป็นเพียงลักษณนามเชิงเส้นทั่วไป SVM เกิดขึ้นโดยเฉพาะอย่างยิ่งเมื่อคุณเปลี่ยนฟังก์ชั่นการสูญเสีย 0-1 กับนูนตัวแทนที่รู้จักกันในการสูญเสียบานพับ ; จำนวนนี้เป็นความคิดของการเพิ่มอัตรากำไรขั้นต้นซึ่งเป็นหลักในการคิดของ SVM ฟังก์ชั่นการสูญเสียนี้ (เกือบ) differentiable; ปัญหาเดียวคือถ้าผลลัพธ์ใด ๆ อยู่ที่จุดบานพับซึ่ง (a) เกิดขึ้นกับศูนย์ความน่าจะเป็นภายใต้สมมติฐานที่สมเหตุสมผลที่สุดและ (b) จากนั้นคุณสามารถใช้ 0 หรือ 1 เป็นอนุพันธ์ (หรืออะไรก็ได้ระหว่าง) ใน ในกรณีนี้คุณกำลังทำโคตร subgradient ทางเทคนิค

เนื่องจากคุณกำลังพูดถึง backpropagation ฉันจะถือว่าคุณอย่างน้อยคุ้นเคยกับการปรับโครงข่ายประสาท ปัญหาเดียวกันนี้เกิดขึ้นกับตัวแยกประเภทโครงข่ายประสาทเทียมเช่นกัน นี่คือเหตุผลที่ผู้คนใช้ฟังก์ชั่นการสูญเสียอื่น ๆ ที่นั่นด้วย


Ax+b

1
ใช่ SVM เชิงเส้นนั้นโดยทั่วไปเทียบเท่ากับ NN 1 เลเยอร์ที่มีการเปิดใช้งานเชิงเส้นบนโหนดเอาต์พุตและผ่านการฝึกอบรมผ่านการสูญเสียบานพับ
Dougal

5

หากคุณสนใจเฉพาะตัวอักษรเชิงเส้นดังนั้นการถดถอยแบบโลจิสติกส์ (LR) จึงเป็นตัวเลือกที่ดีกว่าเนื่องจากทั้งนูนและการวิเคราะห์ (คุณอาจต้องการริดจ์มันหากคุณสนใจในการทำให้เป็นมาตรฐาน) แต่เมื่อคุณไปที่ไม่ใช่เชิงเส้นนั่นคือส่วนที่หากินเข้ามาในภาพ สำหรับกรณีที่ไม่เป็นเชิงเส้นไม่มีวิธีที่สมเหตุสมผลในการรักษาสิ่งต่าง ๆ ทั้งนูนและการวิเคราะห์คุณจะต้องเสียสละอย่างใดอย่างหนึ่งในสองในมุ้งประสาทคุณเสียสละนูนและใน svms คุณเสียสละโฮ

การพูดอย่างเคร่งครัดไม่มีความแตกต่างระหว่าง LR และ SVM, svms เพียงทำนายว่าด้านใดของเส้นตรงอยู่ LRs ยังคำนึงถึงระยะที่พวกเขาอยู่ห่างจากขอบเขต (บนเส้นขอบขอบเขตที่ sigmoid ให้ความน่าจะเป็น 0.5 ในกรณีของ LR) SVMs ถูกบังคับให้ทำการประนีประนอมเพราะเมล็ดที่ไม่ใช่เชิงเส้นนั้นสัญชาตญาณของระยะทางจากส่วนโค้ง - ไฮเปอร์เพลน (ความหลากหลายของพีชคณิตเป็นคำที่ดีกว่า) ไม่เหมือนกับในกรณีเชิงเส้นในความเป็นจริงปัญหาของการแก้ระยะทางสั้นที่สุดจากพื้นผิวมากเกินไป ถึงจุดที่เฉพาะเจาะจงนั้นยากมาก (ยากกว่า SVM เอง) แต่ในทางกลับกัน Vapnik ได้ตระหนักว่าเพียงแค่คาดการณ์ว่าขอบเขตของจุดใดจุดหนึ่งนั้นง่ายมากเหมือนในเวลา O (1) นี่เป็นข้อมูลเชิงลึกที่แท้จริงของ SVM ทำให้เป็นทางเลือกการเพิ่มประสิทธิภาพนูนแบบเดียวในทฤษฎีการเรียนรู้ทางสถิติ แต่ความรู้สึกของฉันคือคุณเสียสละมากเกินไปทั้ง holomorphism และธรรมชาติน่าจะหายไป แต่สำหรับบางกรณีเช่น SVM ที่ยึดถือพื้นดินมีความน่าเชื่อถือมากและยังเป็นแบบจำลองทางวิทยาศาสตร์ที่ผิดพลาดอย่างสิ้นเชิงซึ่งแตกต่างจากทางเลือกที่ไม่ใช่นูน

Tldr: ใช่ทฤษฎีบทค่าเฉลี่ยมาเพื่อช่วยเหลือสำหรับฟังก์ชันที่ไม่ใช่การวิเคราะห์ในกรณีที่ไม่ใช่การวิเคราะห์นูนค่าเฉลี่ยของทฤษฏีจะเปลี่ยนเป็นการตั้งค่าความไม่เท่าเทียมกันบางเงื่อนไขในขอบเขตการไล่ระดับย่อยที่ใช้ในการไล่ระดับย่อย


1
LR มีความหมายต่อคุณอย่างไร
Sycorax พูดว่า Reinstate Monica

@Sycorax logistic regression
Franck Dernoncourt
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.