ความสัมพันธ์ระหว่างจำนวนเวกเตอร์สนับสนุนและจำนวนของคุณสมบัติ


12

ฉันใช้ SVM กับชุดข้อมูลที่กำหนดและทำการสังเกตต่อไปนี้: ถ้าฉันเปลี่ยนจำนวนของคุณสมบัติสำหรับการสร้างตัวจําแนก

ฉันต้องการทราบวิธีอธิบายสถานการณ์ประเภทนี้


ประเภทและสไตล์ของคุณสมบัติพิเศษเหล่านั้นคืออะไร ลักษณะที่ปรากฏคล้ายกับคุณสมบัติการขยายหรือคุณสมบัติใหม่ที่คุณคิดว่าอาจมีอำนาจในการแก้ไขเป็นพิเศษ
Philip Oakley

นี่เป็นปัญหาการจำแนกเอกสารและคุณสมบัติพิเศษเป็นเพียงคำพูด ฉันใช้ unigram เพื่อสร้างพื้นที่คุณลักษณะ
user3269

จากคำตอบของ @ marc ซึ่งมีการเปลี่ยนแปลงไปจำนวนของเวกเตอร์เพิ่มขึ้นตามจำนวนฟีเจอร์หรือย้อนกลับ
Philip Oakley

@Pillip การตอบกลับดั้งเดิมของฉันผิด ฉันคิดว่าคำตอบที่แก้ไขนั้นถูกต้องแล้ว
Marc Shivers

คำตอบ:


13

หากคุณดูที่ปัญหาการปรับให้เหมาะสมที่ SVM แก้ไข:

minw,ξ,b{12w2+Ci=1nξi}

st สำหรับyi(wxib)1ξi,    ξi0,i=1,n

เวกเตอร์การสนับสนุนเป็นผู้ที่สอดคล้องกัน0 กล่าวอีกนัยหนึ่งก็คือจุดข้อมูลที่ไม่ได้จัดประเภทไว้หรือใกล้กับขอบเขตxiξi>0

ทีนี้ลองเปรียบเทียบวิธีแก้ปัญหากับปัญหานี้เมื่อคุณมีคุณสมบัติครบชุดกับกรณีที่คุณทิ้งคุณสมบัติบางอย่างไป การขว้างปาคุณลักษณะนั้นเทียบเท่ากับการรักษาคุณสมบัติเอาไว้ แต่การเพิ่มข้อสำหรับคุณลักษณะที่เราต้องการทิ้ง wj=0j

เมื่อคุณเปรียบเทียบปัญหาการปรับให้เหมาะสมทั้งสองนี้และทำงานผ่านทางคณิตศาสตร์กลับกลายเป็นว่าไม่มีความสัมพันธ์อย่างหนักระหว่างจำนวนของคุณลักษณะและจำนวนของเวกเตอร์การสนับสนุน มันสามารถไปทางใดทางหนึ่ง

การคิดถึงกรณีง่าย ๆ มีประโยชน์ ลองนึกภาพกรณี 2 มิติที่คุณสมบัติเชิงลบและบวกของคุณมีการจัดกลุ่มรอบ (-1, -1) และ (1,1) ตามลำดับและสามารถแยกได้ด้วยไฮเปอร์เพลตแยกตามแนวทแยงที่มีเวกเตอร์รองรับ 3 เวกเตอร์ ตอนนี้ลองนึกถึงการลดคุณสมบัติแกน y ดังนั้นข้อมูลของคุณในตอนนี้จึงฉายบนแกน x หากข้อมูลยังแยกออกได้ให้พูดที่ x = 0 คุณอาจจะเหลือเวกเตอร์สนับสนุนเพียง 2 ตัวอันละข้างดังนั้นการเพิ่มฟีเจอร์ y จะเพิ่มจำนวนเวกเตอร์สนับสนุน อย่างไรก็ตามหากข้อมูลไม่สามารถแยกได้อีกต่อไปคุณจะได้รับเวกเตอร์สนับสนุนอย่างน้อยหนึ่งจุดสำหรับแต่ละจุดที่ผิดด้านของ x = 0 ซึ่งในกรณีนี้การเพิ่มคุณสมบัติ y จะลดจำนวนเวกเตอร์สนับสนุน

ดังนั้นหากสัญชาตญาณนี้ถูกต้องหากคุณกำลังทำงานในพื้นที่คุณลักษณะมิติสูงมากหรือใช้เคอร์เนลที่แมปกับพื้นที่คุณลักษณะมิติสูงแล้วข้อมูลของคุณมีแนวโน้มที่จะแยกได้ดังนั้นการเพิ่มคุณสมบัติจะมีแนวโน้ม เพื่อเพิ่มเวกเตอร์การสนับสนุนอื่น โดยที่ถ้าข้อมูลของคุณไม่สามารถแยกได้ในขณะนี้และคุณเพิ่มคุณสมบัติที่ช่วยเพิ่มความสามารถในการแยกได้อย่างมีนัยสำคัญคุณก็มีแนวโน้มที่จะเห็นจำนวนเวกเตอร์สนับสนุนที่ลดลง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.