ทำไมการปรับขนาดจึงมีความสำคัญสำหรับการจัดประเภท SVM เชิงเส้น


15

เมื่อทำการจัดหมวดหมู่ SVM แบบเส้นตรงมักจะเป็นประโยชน์ในการทำให้ข้อมูลการฝึกอบรมเป็นปกติเช่นการลบค่าเฉลี่ยและหารด้วยค่าเบี่ยงเบนมาตรฐาน ทำไมกระบวนการนี้จึงเปลี่ยนประสิทธิภาพการจำแนกอย่างรวดเร็ว?


1
คำถามนี้ได้รับการตอบแล้วstackoverflow.com/questions/15436367/svm-scaling-input-values
jpmuc

ขอบคุณ juampa! อย่างไรก็ตามฉันยังไม่ชัดเจนว่าทำไมชุดการทดสอบจำเป็นต้องปรับขนาดด้วยค่าเฉลี่ยและค่าเฉลี่ยของชุดการฝึกอบรมแทนที่จะเป็นของตัวเอง ในบางกรณีดูเหมือนว่าในภายหลังจะทำงานได้ดีหรือดียิ่งขึ้นเมื่อตัวอย่างสองคลาสมีความสมดุลในชุดทดสอบ
Qinghua

1
เพราะเมื่อนั้นคุณจะไม่สอดคล้องกัน คุณกำลังทดสอบข้อมูลที่แตกต่างกัน ลองนึกภาพคุณวาดตัวอย่างจาก Gaussian N (mu, sigma) คุณได้รับการฝึกฝนด้วย N (0,1) (หลังจากอยู่กึ่งกลางและปรับขนาด) แต่ผ่านการทดสอบกับ N (mu, sigma)
jpmuc

คำตอบ:


12

ฉันคิดว่ามันสามารถทำให้ชัดเจนขึ้นผ่านตัวอย่าง สมมุติว่าคุณมีเวกเตอร์อินพุตสองตัว: X1 และ X2 และสมมุติว่า X1 มีช่วง (0.1 ถึง 0.8) และ X2 มีช่วง (3000 ถึง 50,000) ตอนนี้ตัวจําแนก SVM ของคุณจะเป็นขอบเขตเชิงเส้นซึ่งอยู่ในระนาบ X1-X2 การเรียกร้องของฉันคือความชันของขอบเขตการตัดสินใจเชิงเส้นไม่ควรขึ้นอยู่กับช่วงของ X1 และ X2 แต่ขึ้นอยู่กับการกระจายของคะแนน

ทีนี้ลองทำการทำนายจุด (0.1, 4000) และ (0.8, 4000) จะมีความแตกต่างเล็กน้อยในค่าของฟังก์ชั่นดังนั้นจึงทำให้ SVM มีความแม่นยำน้อยลงเนื่องจากจะมีความไวต่อคะแนนในทิศทาง X1 น้อยลง


7

SVM พยายามที่จะเพิ่มระยะห่างระหว่างระนาบที่แยกและเวกเตอร์สนับสนุน หากหนึ่งคุณลักษณะ (เช่นหนึ่งมิติในพื้นที่นี้) มีค่าที่สูงมากมันจะครอบงำคุณสมบัติอื่น ๆ เมื่อคำนวณระยะทาง หากคุณขายฟีเจอร์ทั้งหมด (เช่น [0, 1]) ฟีเจอร์ทั้งหมดนั้นจะมีผลเหมือนกันกับการวัดระยะทาง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.