SVM จัดการชุดข้อมูลที่ไม่สมดุลหรือไม่ นั่นคือพารามิเตอร์ใด ๆ (เช่น C หรือค่าการแบ่งประเภท) การจัดการชุดข้อมูลที่ไม่สมดุล
SVM จัดการชุดข้อมูลที่ไม่สมดุลหรือไม่ นั่นคือพารามิเตอร์ใด ๆ (เช่น C หรือค่าการแบ่งประเภท) การจัดการชุดข้อมูลที่ไม่สมดุล
คำตอบ:
สำหรับชุดข้อมูลที่ไม่สมดุลเรามักจะเปลี่ยนบทลงโทษการจำแนกประเภทต่อคลาส สิ่งนี้เรียกว่า SVM แบบถ่วงน้ำหนักระดับซึ่งจะลดสิ่งต่อไปนี้:
โดยที่และNแสดงถึงอินสแตนซ์การฝึกอบรมเชิงบวก ใน SVM มาตรฐานเรามีค่าCเพียงค่าเดียวในขณะที่เรามี 2 ค่าปรับประเภทสำหรับการชนกลุ่มน้อยถูกเลือกให้มากกว่าค่าส่วนใหญ่
วิธีการนี้ได้รับการแนะนำก่อนหน้านี้ซึ่งมีการกล่าวถึงในบทความปี 1997:
Edgar Osuna, Robert Freund และ Federico Girosi สนับสนุน Vector Machines: การฝึกอบรมและการใช้งาน รายงานทางเทคนิค AIM-1602, 1997. ( pdf )
SVM สามารถจัดการกับชุดข้อมูลด้วยความถี่ของคลาสที่ไม่สมดุล การใช้งานหลายอย่างช่วยให้คุณมีค่าที่แตกต่างกันสำหรับการปรับหย่อน (C) สำหรับคลาสบวกและลบ (ซึ่งเทียบเท่ากับการเปลี่ยนความถี่ของคลาส) ฉันอยากจะแนะนำการตั้งค่าของพารามิเตอร์เหล่านี้เพื่อเพิ่มประสิทธิภาพการวางนัยทั่วไปในชุดทดสอบที่ความถี่ของคลาสเป็นค่าที่คุณคาดว่าจะเห็นในการใช้งานจริง
ฉันเป็นหนึ่งในหลาย ๆ คนที่เขียนบทความเกี่ยวกับเรื่องนี้ที่นี่เป็นของฉันฉันจะดูว่าฉันสามารถหาสิ่งที่ใหม่กว่า / ดีกว่า ลองใช้Veropoulos, Campbell และ Cristianini (1999)