ความสัมพันธ์ระหว่างจำนวนเวกเตอร์สนับสนุนและจำนวนของคุณสมบัติ

ฉันใช้ SVM กับชุดข้อมูลที่กำหนดและทำการสังเกตต่อไปนี้: ถ้าฉันเปลี่ยนจำนวนของคุณสมบัติสำหรับการสร้างตัวจําแนก

ฉันต้องการทราบวิธีอธิบายสถานการณ์ประเภทนี้

ประเภทและสไตล์ของคุณสมบัติพิเศษเหล่านั้นคืออะไร ลักษณะที่ปรากฏคล้ายกับคุณสมบัติการขยายหรือคุณสมบัติใหม่ที่คุณคิดว่าอาจมีอำนาจในการแก้ไขเป็นพิเศษ

— Philip Oakley

นี่เป็นปัญหาการจำแนกเอกสารและคุณสมบัติพิเศษเป็นเพียงคำพูด ฉันใช้ unigram เพื่อสร้างพื้นที่คุณลักษณะ

— user3269

จากคำตอบของ @ marc ซึ่งมีการเปลี่ยนแปลงไปจำนวนของเวกเตอร์เพิ่มขึ้นตามจำนวนฟีเจอร์หรือย้อนกลับ

— Philip Oakley

@Pillip การตอบกลับดั้งเดิมของฉันผิด ฉันคิดว่าคำตอบที่แก้ไขนั้นถูกต้องแล้ว

— Marc Shivers

หากคุณดูที่ปัญหาการปรับให้เหมาะสมที่ SVM แก้ไข:

$\min_{\mathbf{w},\mathbf{\xi}, b } \left\{\frac{1}{2} \|\mathbf{w}\|^2 + C \sum_{i=1}^n \xi_i \right\}$

st สำหรับ $y_i(\mathbf{w}\cdot\mathbf{x_i} - b) \ge 1 - \xi_i, ~~~~\xi_i \ge 0,$ $i=1,\dots n$

เวกเตอร์การสนับสนุนเป็นผู้ที่สอดคล้องกัน0 กล่าวอีกนัยหนึ่งก็คือจุดข้อมูลที่ไม่ได้จัดประเภทไว้หรือใกล้กับขอบเขต $x_i$ $\xi_i \gt 0$

ทีนี้ลองเปรียบเทียบวิธีแก้ปัญหากับปัญหานี้เมื่อคุณมีคุณสมบัติครบชุดกับกรณีที่คุณทิ้งคุณสมบัติบางอย่างไป การขว้างปาคุณลักษณะนั้นเทียบเท่ากับการรักษาคุณสมบัติเอาไว้ แต่การเพิ่มข้อสำหรับคุณลักษณะที่เราต้องการทิ้ง $w_j=0$ $j$

เมื่อคุณเปรียบเทียบปัญหาการปรับให้เหมาะสมทั้งสองนี้และทำงานผ่านทางคณิตศาสตร์กลับกลายเป็นว่าไม่มีความสัมพันธ์อย่างหนักระหว่างจำนวนของคุณลักษณะและจำนวนของเวกเตอร์การสนับสนุน มันสามารถไปทางใดทางหนึ่ง

การคิดถึงกรณีง่าย ๆ มีประโยชน์ ลองนึกภาพกรณี 2 มิติที่คุณสมบัติเชิงลบและบวกของคุณมีการจัดกลุ่มรอบ (-1, -1) และ (1,1) ตามลำดับและสามารถแยกได้ด้วยไฮเปอร์เพลตแยกตามแนวทแยงที่มีเวกเตอร์รองรับ 3 เวกเตอร์ ตอนนี้ลองนึกถึงการลดคุณสมบัติแกน y ดังนั้นข้อมูลของคุณในตอนนี้จึงฉายบนแกน x หากข้อมูลยังแยกออกได้ให้พูดที่ x = 0 คุณอาจจะเหลือเวกเตอร์สนับสนุนเพียง 2 ตัวอันละข้างดังนั้นการเพิ่มฟีเจอร์ y จะเพิ่มจำนวนเวกเตอร์สนับสนุน อย่างไรก็ตามหากข้อมูลไม่สามารถแยกได้อีกต่อไปคุณจะได้รับเวกเตอร์สนับสนุนอย่างน้อยหนึ่งจุดสำหรับแต่ละจุดที่ผิดด้านของ x = 0 ซึ่งในกรณีนี้การเพิ่มคุณสมบัติ y จะลดจำนวนเวกเตอร์สนับสนุน

ดังนั้นหากสัญชาตญาณนี้ถูกต้องหากคุณกำลังทำงานในพื้นที่คุณลักษณะมิติสูงมากหรือใช้เคอร์เนลที่แมปกับพื้นที่คุณลักษณะมิติสูงแล้วข้อมูลของคุณมีแนวโน้มที่จะแยกได้ดังนั้นการเพิ่มคุณสมบัติจะมีแนวโน้ม เพื่อเพิ่มเวกเตอร์การสนับสนุนอื่น โดยที่ถ้าข้อมูลของคุณไม่สามารถแยกได้ในขณะนี้และคุณเพิ่มคุณสมบัติที่ช่วยเพิ่มความสามารถในการแยกได้อย่างมีนัยสำคัญคุณก็มีแนวโน้มที่จะเห็นจำนวนเวกเตอร์สนับสนุนที่ลดลง

— Marc Shivers
แหล่งที่มา