นี่เป็นปัญหาที่น่าสนใจและบ่อยครั้งมากในการจัดหมวดหมู่ - ไม่เพียง แต่ในต้นไม้การตัดสินใจ แต่ในอัลกอริทึมการจำแนกประเภทแทบทั้งหมด
เมื่อคุณพบเชิงประจักษ์ชุดการฝึกอบรมที่ประกอบด้วยตัวแทนจำนวนแตกต่างกันจากทั้งสองคลาสอาจส่งผลให้ตัวจําแนกที่มีอคติต่อคนส่วนใหญ่ เมื่อนำไปใช้กับชุดทดสอบที่ไม่สมดุลกันตัวแยกประเภทนี้ให้การประเมินความแม่นยำในแง่ดี ในกรณีที่รุนแรงผู้จําแนกอาจกําหนดกรณีทดสอบทุกกรณีให้กับคนส่วนใหญ่จึงบรรลุความถูกต้องเท่ากับสัดส่วนของกรณีทดสอบที่เป็นของคนส่วนใหญ่ นี่เป็นปรากฏการณ์ที่รู้จักกันดีในการจำแนกเลขฐานสอง (และขยายออกไปตามการตั้งค่าแบบหลายคลาสอย่างเป็นธรรมชาติ)
นี่เป็นปัญหาสำคัญเนื่องจากชุดข้อมูลที่ไม่สมดุลอาจนำไปสู่การประเมินประสิทธิภาพที่สูงเกินจริง สิ่งนี้อาจนำไปสู่ข้อสรุปที่ผิดพลาดเกี่ยวกับความสำคัญซึ่งอัลกอริทึมทำงานได้ดีกว่าโอกาส
วรรณกรรมการเรียนรู้ด้วยเครื่องจักรในหัวข้อนี้ได้พัฒนากลยุทธ์การแก้ปัญหาสามประการ
คุณสามารถเรียกคืนความสมดุลในชุดการฝึกอบรมโดยundersamplingชั้นขนาดใหญ่หรือโดยoversamplingชั้นขนาดเล็กเพื่อป้องกันไม่ให้เกิดอคติจากในสถานที่แรก
หรือคุณสามารถแก้ไขค่าใช้จ่ายของการจัดประเภทตามที่ระบุไว้ในการตอบกลับก่อนหน้าอีกครั้งเพื่อป้องกันอคติ
เพิ่มเติมคุ้มครองคือการเปลี่ยนความถูกต้องโดยที่เรียกว่าความถูกต้องสมดุล มันถูกกำหนดให้เป็นค่าเฉลี่ยเลขคณิตของความถูกต้องเฉพาะระดับที่และแสดงถึงความแม่นยำที่ได้รับจากตัวอย่างบวกและลบตามลำดับ หากตัวจําแนกทํางานได้ดีเท่ากันในแต่ละคลาสเทอมนี้จะลดความแม่นยําทั่วไป (เช่นจํานวนการทำนายที่ถูกต้องหารด้วยจํานวนการคาดการณ์ทั้งหมด) ในทางตรงกันข้ามหากความแม่นยำแบบดั้งเดิมมีโอกาสสูงกว่าเท่านั้นเนื่องจากตัวจําแนกใช้ประโยชน์จากชุดการทดสอบแบบไม่สมดุลย์ความถูกต้องแบบสมดุลจะลดลงถึงโอกาสตามความเหมาะสมตามความเหมาะสมπ+π-ϕ:=12(π++π−),π+π−
ฉันอยากจะแนะนำให้พิจารณาอย่างน้อยสองวิธีข้างต้นร่วมกัน ตัวอย่างเช่นคุณสามารถใช้คลาสของชนกลุ่มน้อยเพื่อป้องกันตัวจําแนกของคุณจากการได้รับอคติเพื่อสนับสนุนกลุ่มเสียงข้างมาก การติดตามสิ่งนี้เมื่อประเมินประสิทธิภาพของลักษณนามของคุณคุณสามารถแทนที่ความถูกต้องด้วยความแม่นยำสมดุล ทั้งสองวิธีนี้เป็นส่วนเสริม เมื่อใช้ร่วมกันพวกเขาควรช่วยคุณทั้งคู่ป้องกันปัญหาดั้งเดิมของคุณและหลีกเลี่ยงข้อสรุปที่ผิดพลาดที่ตามมา
ฉันยินดีที่จะโพสต์การอ้างอิงเพิ่มเติมไปยังวรรณกรรมหากคุณต้องการติดตามเรื่องนี้