ถ้าฉันเข้าใจถูกต้องคุณมีปัญหาการจำแนกประเภทสองชั้นซึ่งคลาสบวก (การจับคู่) หายาก ลักษณนามหลายคนต่อสู้กับความไม่สมดุลของคลาสเช่นนี้และเป็นเรื่องปกติที่จะจัดกลุ่มตัวอย่างส่วนใหญ่เพื่อให้ได้ประสิทธิภาพที่ดีขึ้นดังนั้นคำตอบของคำถามแรกคือ "ใช่" อย่างไรก็ตามหากคุณย่อยตัวอย่างมากเกินไปคุณจะพบกับลักษณนามที่คาดคะเนคลาสบวกของชนกลุ่มน้อยมากเกินไปสิ่งที่ดีที่สุดที่ต้องทำคือเลือกปันส่วนการสุ่มตัวอย่างย่อยเพื่อเพิ่มประสิทธิภาพ ข้อผิดพลาดในการตรวจสอบความถูกต้องที่ข้อมูลการทดสอบไม่ได้ถูกสุ่มตัวอย่างย่อยดังนั้นคุณจะได้รับการบ่งชี้ประสิทธิภาพการทำงานที่ดี
หากคุณมีลักษณนามลางที่น่าจะเป็นซึ่งจะประมาณความน่าจะเป็นของการจำกลุ่มคุณสามารถไปได้ดีขึ้นหนึ่งครั้งและประมวลผลเอาท์พุทเพื่อชดเชยความแตกต่างระหว่างความถี่ของชั้นเรียนในชุดฝึกอบรมและในการปฏิบัติงาน ฉันสงสัยว่าสำหรับตัวแยกประเภทบางวิธีที่ดีที่สุดคือการเพิ่มประสิทธิภาพอัตราส่วนการสุ่มตัวอย่างย่อยและการแก้ไขผลลัพธ์ด้วยการปรับข้อผิดพลาดการตรวจสอบข้ามให้เหมาะสม
แทนที่จะใช้การสุ่มตัวอย่างย่อยสำหรับบางตัวแยกประเภท (เช่น SVM) คุณสามารถให้น้ำหนักที่แตกต่างกับรูปแบบบวกและลบ ฉันชอบสิ่งนี้ในการสุ่มตัวอย่างย่อยเนื่องจากหมายความว่าไม่มีความแปรปรวนในผลลัพธ์เนื่องจากตัวอย่างย่อยที่ใช้ ในกรณีที่ไม่สามารถทำได้ให้ใช้ bootstrapping เพื่อสร้างลักษณนามแบบถุงซึ่งมีตัวอย่างย่อยที่แตกต่างกันของคลาสส่วนใหญ่ที่ใช้ในการวนซ้ำแต่ละครั้ง
อีกสิ่งหนึ่งที่ฉันจะพูดก็คือโดยทั่วไปที่มีความไม่สมดุลของคลาสขนาดใหญ่ข้อผิดพลาดเชิงลบที่ผิดพลาดและข้อผิดพลาดเชิงบวกที่ผิดพลาดก็ไม่เลวเท่ากันและเป็นความคิดที่ดีที่จะสร้างสิ่งนี้ลงในการออกแบบลักษณนาม รูปแบบการสุ่มตัวอย่างหรือการชั่งน้ำหนักที่เป็นของแต่ละชั้นเรียน)