ฉันใช้ SVM กับชุดข้อมูลที่กำหนดและทำการสังเกตต่อไปนี้: ถ้าฉันเปลี่ยนจำนวนของคุณสมบัติสำหรับการสร้างตัวจําแนก
ฉันต้องการทราบวิธีอธิบายสถานการณ์ประเภทนี้
ฉันใช้ SVM กับชุดข้อมูลที่กำหนดและทำการสังเกตต่อไปนี้: ถ้าฉันเปลี่ยนจำนวนของคุณสมบัติสำหรับการสร้างตัวจําแนก
ฉันต้องการทราบวิธีอธิบายสถานการณ์ประเภทนี้
คำตอบ:
หากคุณดูที่ปัญหาการปรับให้เหมาะสมที่ SVM แก้ไข:
st สำหรับ
เวกเตอร์การสนับสนุนเป็นผู้ที่สอดคล้องกัน0 กล่าวอีกนัยหนึ่งก็คือจุดข้อมูลที่ไม่ได้จัดประเภทไว้หรือใกล้กับขอบเขต
ทีนี้ลองเปรียบเทียบวิธีแก้ปัญหากับปัญหานี้เมื่อคุณมีคุณสมบัติครบชุดกับกรณีที่คุณทิ้งคุณสมบัติบางอย่างไป การขว้างปาคุณลักษณะนั้นเทียบเท่ากับการรักษาคุณสมบัติเอาไว้ แต่การเพิ่มข้อสำหรับคุณลักษณะที่เราต้องการทิ้ง
เมื่อคุณเปรียบเทียบปัญหาการปรับให้เหมาะสมทั้งสองนี้และทำงานผ่านทางคณิตศาสตร์กลับกลายเป็นว่าไม่มีความสัมพันธ์อย่างหนักระหว่างจำนวนของคุณลักษณะและจำนวนของเวกเตอร์การสนับสนุน มันสามารถไปทางใดทางหนึ่ง
การคิดถึงกรณีง่าย ๆ มีประโยชน์ ลองนึกภาพกรณี 2 มิติที่คุณสมบัติเชิงลบและบวกของคุณมีการจัดกลุ่มรอบ (-1, -1) และ (1,1) ตามลำดับและสามารถแยกได้ด้วยไฮเปอร์เพลตแยกตามแนวทแยงที่มีเวกเตอร์รองรับ 3 เวกเตอร์ ตอนนี้ลองนึกถึงการลดคุณสมบัติแกน y ดังนั้นข้อมูลของคุณในตอนนี้จึงฉายบนแกน x หากข้อมูลยังแยกออกได้ให้พูดที่ x = 0 คุณอาจจะเหลือเวกเตอร์สนับสนุนเพียง 2 ตัวอันละข้างดังนั้นการเพิ่มฟีเจอร์ y จะเพิ่มจำนวนเวกเตอร์สนับสนุน อย่างไรก็ตามหากข้อมูลไม่สามารถแยกได้อีกต่อไปคุณจะได้รับเวกเตอร์สนับสนุนอย่างน้อยหนึ่งจุดสำหรับแต่ละจุดที่ผิดด้านของ x = 0 ซึ่งในกรณีนี้การเพิ่มคุณสมบัติ y จะลดจำนวนเวกเตอร์สนับสนุน
ดังนั้นหากสัญชาตญาณนี้ถูกต้องหากคุณกำลังทำงานในพื้นที่คุณลักษณะมิติสูงมากหรือใช้เคอร์เนลที่แมปกับพื้นที่คุณลักษณะมิติสูงแล้วข้อมูลของคุณมีแนวโน้มที่จะแยกได้ดังนั้นการเพิ่มคุณสมบัติจะมีแนวโน้ม เพื่อเพิ่มเวกเตอร์การสนับสนุนอื่น โดยที่ถ้าข้อมูลของคุณไม่สามารถแยกได้ในขณะนี้และคุณเพิ่มคุณสมบัติที่ช่วยเพิ่มความสามารถในการแยกได้อย่างมีนัยสำคัญคุณก็มีแนวโน้มที่จะเห็นจำนวนเวกเตอร์สนับสนุนที่ลดลง