เหตุใดคำอคติใน SVM จึงถูกประเมินแยกต่างหากแทนที่จะเป็นมิติเพิ่มเติมในเวกเตอร์คุณลักษณะ


11

ไฮเปอร์เพลนที่ดีที่สุดใน SVM ถูกกำหนดเป็น:

wx+b=0,

โดยที่หมายถึงขีด จำกัด หากเรามีการแมปซึ่งแมปพื้นที่อินพุตกับบางพื้นที่เราสามารถกำหนด SVM ในช่องว่างโดยที่ hiperplane ที่ดีที่สุดจะเป็น:ϕ Z ZbϕZZ

wϕ(x)+b=0.

อย่างไรก็ตามเราสามารถกำหนดการแมปเพื่อให้ ,แล้ว hiperplane ที่ดีที่สุดจะถูกกำหนดเป็น ϕ 0 ( x ) = 1 x wϕ ( x ) = 0ϕϕ0(x)=1x

wϕ(x)=0.

คำถาม:

  1. ทำไมกระดาษจำนวนมากใช้เมื่อพวกเขามีการแมปและประมาณค่าพารามิเตอร์และ theshold separatelly?ϕ w bwϕ(x)+b=0ϕwb

  2. มีปัญหาในการกำหนด SVM เป็น และประมาณเฉพาะพารามิเตอร์เวกเตอร์สมมติว่าเรากำหนด ? s t. y n w ϕ ( x n )1,n w ϕ 0 ( x )=1, x

    minw||w||2
    s.t. ynwϕ(xn)1,n
    wϕ0(x)=1,x
  3. หากคำจำกัดความของ SVM จากคำถามที่ 2 เป็นไปได้เราจะมีและเกณฑ์จะเป็นเพียงซึ่งเราจะไม่แยกกัน ดังนั้นเราจะไม่ใช้สูตรอย่างเพื่อประมาณจากเวกเตอร์สนับสนุนบางตัว ขวา?b = w 0 b = t n - wϕ ( x n ) b x nw=nynαnϕ(xn)b=w0b=tnwϕ(xn)bxn


ที่เกี่ยวข้อง: เหตุผลในการไม่หดตัวอคติ (ตัด) ระยะในการถดถอย
อะมีบา

คำตอบ:


12

ทำไมความลำเอียงจึงมีความสำคัญ

คำอคติคือแท้จริงแล้วคือพารามิเตอร์พิเศษใน SVM หากไม่มีมันตัวจําแนกจะผ่านจุดเริ่มต้นเสมอ ดังนั้น SVM จะไม่ให้ไฮเปอร์เพลนที่แยกออกมาพร้อมกับระยะห่างสูงสุดหากคุณไม่ได้ผ่านต้นกำเนิดเว้นแต่ว่าคุณจะมีคำอคติb

ด้านล่างคือการสร้างภาพของปัญหาอคติ SVM ที่ผ่านการฝึกอบรมโดยไม่ใช้คำว่าไบอัสจะปรากฏทางด้านซ้าย (ขวา) แม้ว่า SVM ทั้งสองจะได้รับการฝึกอบรมเกี่ยวกับข้อมูลเดียวกันแต่พวกเขาดูแตกต่างกันมาก

ป้อนคำอธิบายรูปภาพที่นี่

ทำไมอคติควรได้รับการปฏิบัติแยกกัน

เมื่อเบ็นไดชี้ให้เห็นคำว่าอคติควรได้รับการปฏิบัติแยกกันเนื่องจากการทำให้เป็นมาตรฐาน SVM ขยายขนาดขอบให้ใหญ่สุดซึ่งคือ (หรือขึ้นอยู่กับวิธีที่คุณกำหนด)1b 21||w||22||w||2

การเพิ่มอัตรากำไรขั้นต้นเป็นเช่นเดียวกับการลด 2 สิ่งนี้เรียกว่าเทอมการทำให้เป็นมาตรฐานและสามารถตีความได้ว่าเป็นการวัดความซับซ้อนของลักษณนาม แต่คุณไม่ต้องการที่จะเป็นระเบียบระยะอคติเพราะกะอคติคะแนนการจัดหมวดหมู่ขึ้นหรือลงด้วยจำนวนเดียวกันสำหรับจุดข้อมูลทั้งหมด โดยเฉพาะอคติไม่ได้เปลี่ยนรูปร่างของลักษณนามหรือขนาดขอบ ดังนั้น ...||w||2

ไม่ควรกำหนดคำอคติใน SVM

อย่างไรก็ตามในทางปฏิบัติมันง่ายกว่าที่จะผลักอคติไปสู่เวกเตอร์ของฟีเจอร์แทนที่จะต้องจัดการเป็นกรณีพิเศษ

หมายเหตุ:เมื่อผลักไบแอสไปยังฟังก์ชั่นฟีเจอร์มันเป็นการดีที่สุดที่จะแก้ไขมิติของฟีเจอร์เวกเตอร์ให้เป็นจำนวนมากเช่นเพื่อลดผลข้างเคียงของการทำให้ไบอัสเป็นปกติϕ0(x)=10


คุณใช้โปรแกรมอะไรในการสร้างแปลงจากความอยากรู้อยากเห็น?
d0rmLife

1
@ d0rmLife: นี่เป็นเพียงการ์ตูนที่ฉันสร้างขึ้นโดยใช้ MS PowerPoint!
Sobi

+1 ที่เกี่ยวข้อง: เหตุผลในการไม่หดตัวอคติ (ตัด) ระยะในการถดถอย
อะมีบา

1

บางครั้งผู้คนจะละเว้นการสกัดกั้นใน SVM แต่ฉันคิดว่าเหตุผลที่เราสามารถลงโทษการสกัดกั้นเพื่อละเว้นได้ กล่าวคือ

เราสามารถแก้ไขข้อมูลและเพื่อให้ละเว้นการตัด ตามที่คุณ กล่าวว่าเทคนิคที่คล้ายกันสามารถนำมาใช้ในรุ่นเคอร์เนล W =(W0,WT)TxW+x^=(1,x)w^=(w0,wT)T

x w+b=x^ w^

อย่างไรก็ตามถ้าเราใส่จุดตัดเข้าไปในตุ้มน้ำหนักฟังก์ชันวัตถุประสงค์จะแตกต่างจากเดิมเล็กน้อย นั่นเป็นเหตุผลที่เราเรียกว่า "ลงโทษ"


ฉัน aggree ว่าเราจะมีฟังก์ชั่นวัตถุประสงค์ที่แตกต่างกัน กรณีที่เมื่อเราไม่รวมถึงการสกัดกั้นในพารามิเตอร์จะนำไปสู่ปัญหาการปรับให้เหมาะสมภายใต้ข้อ จำกัด ในขณะที่เรามีปัญหา 2 แต่ฉันไม่เข้าใจว่าทำไมการสกัดกั้นการปิดกั้นอย่างมากเป็นสิ่งสำคัญสำหรับตัวแบบ bminw,b||w||2minw,b||w||2+b2
Dejan

สิ่งที่อยู่ในใจของฉันคือเหตุผลหลักที่เรามีจุดตัดอาจเป็นเพราะในปัญหาคู่การสกัดกั้นทำให้เรามีข้อ จำกัดซึ่งเป็นสิ่งสำคัญที่จะใช้อัลกอริธึม SMO และถ้าเราไม่มีการสกัดกั้นเรา จะมีค่าคงที่เท่านั้นและการเพิ่มประสิทธิภาพแบบคู่จะยากกว่าในกรณีนั้น α n0αntn=0αn0
Dejan

@ Petar สิ่งหนึ่งที่ฉันรู้คือมันมีพลังเมื่อเราพิจารณาเกี่ยวกับรูปแบบ Dual ของรุ่นนี้ เทคนิคนี้จะกำจัดข้อ จำกัด เชิงเส้น
Ben Dai

@Petar ฉันไม่คิดว่าการเพิ่มประสิทธิภาพแบบคู่จะยากขึ้นเนื่องจากเรามีโดเมนที่ง่ายขึ้น
Ben Dai

@Petar สำหรับอัลกอริทึมเฉพาะอาจยากกว่านี้ อย่างไรก็ตามในเชิงคณิตศาสตร์แล้วฉันคิดว่าโดเมนกล่องอาจจะดีกว่า
เบ็นได

0

นอกเหนือจากเหตุผลที่กล่าวมาข้างต้นระยะทางของจุดถึงไฮเปอร์เพลนที่กำหนดโดยความชันและการสกัดกั้นคือ นี่คือวิธี แนวคิดของอัตรากำไรขั้นต้นใน SVM ถูกเคลื่อนย้าย หากคุณเปลี่ยนเพื่อรวมคำดักจับบรรทัดฐานของจะได้รับผลกระทบจากขนาดของการสกัดกั้นซึ่งจะทำให้ SVM เพิ่มประสิทธิภาพต่อการสกัดกั้นขนาดเล็กซึ่งไม่สมเหตุสมผลในหลายกรณีxθb

|θTx+b|||θ||
θbθ


แม้คิดว่าระยะห่างของไฮเปอร์เพลนนั้นถูกต้องและคำอธิบายดูน่าสนใจฉันไม่เห็นความสัมพันธ์ระหว่างสูตรนี้กับการฝึกอบรม SVM คุณช่วยอธิบายได้ดีขึ้นว่าสูตรนี้ใช้อย่างไรในระหว่างการฝึกอบรมหรือให้ลิงก์เพิ่มเติม
Dejan

@Dejan แนวคิดเบื้องหลัง SVM คือการค้นหาไฮเปอร์เพลนที่เพิ่มระยะขอบขั้นต่ำของชุดข้อมูล ระยะขอบคือ "ระยะทาง" (โดยไม่มีค่าสัมบูรณ์ซึ่งบ่งชี้ถึงความเชื่อมั่นที่ลักษณนามมีต่อสมมติฐาน) ของจุดนั้นไปยังไฮเปอร์เพลน ครั้งฉลากที่อยู่ใน\} ผลิตภัณฑ์คือซึ่งเป็นค่าบวกหากเอาต์พุตตัวแยกประเภทตรงกับเลเบลและลบ ในทางปฏิบัติเราก็ขนาดรูปแบบของเราเพื่อให้อัตรากำไรขั้นต่ำของชุดข้อมูลเป็น||} {-1,1}y(θTx+b)θTx+b||θ||{1,1}1y(θTx+b)||θ||1||θ||
charlieh_7

@Dejan คุณสามารถค้นหารายละเอียดเพิ่มเติมได้ในหมายเหตุของ Andrew Ng: cs229.stanford.edu/notes/cs229-notes3.pdf
charlieh_7
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.