ฉันมีงานการจัดหมวดหมู่ที่ฉันมีตัวทำนายจำนวนหนึ่ง (หนึ่งในนั้นมีข้อมูลมากที่สุด) และฉันใช้แบบจำลองMARSเพื่อสร้างตัวจําแนกของฉัน (ฉันสนใจในแบบจําลองง่าย ๆ และใช้ glms เพื่อจุดประสงค์ในการอธิบาย ดีเกินไป). ตอนนี้ฉันมีความไม่สมดุลระดับมากในข้อมูลการฝึกอบรม (ประมาณ 2700 ตัวอย่างลบสำหรับตัวอย่างบวกแต่ละตัวอย่าง) เช่นเดียวกับงานสืบค้นข้อมูลฉันมีความกังวลมากขึ้นเกี่ยวกับการทำนายตัวอย่างการทดสอบเชิงบวกอันดับสูงสุด ด้วยเหตุนี้ประสิทธิภาพในการโค้งแม่นยำของ Recall จึงเป็นสิ่งสำคัญสำหรับฉัน
ก่อนอื่นฉันเพียงแค่ฝึกฝนโมเดลข้อมูลการฝึกอบรมของฉันเพื่อรักษาความไม่สมดุลของคลาสเหมือนเดิม ฉันเห็นรูปแบบการฝึกของฉันเป็นสีแดงและอินพุตที่สำคัญที่สุดเป็นสีน้ำเงิน
การฝึกอบรมเกี่ยวกับข้อมูลที่ไม่สมดุลการประเมินข้อมูลที่ไม่สมดุล :
การคิดว่าความไม่สมดุลในชั้นเรียนกำลังลดลงของแบบจำลองเนื่องจากการเรียนรู้ตัวอย่างเชิงบวกอันดับสูงสุดเป็นส่วนสั้น ๆ ของชุดข้อมูลทั้งหมดฉันเพิ่มจุดฝึกอบรมเชิงบวกเพื่อให้ได้ชุดข้อมูลการฝึกอบรมที่สมดุล เมื่อฉันวางแผนการแสดงในชุดการฝึกอบรมที่สมดุลฉันจะได้รับประสิทธิภาพที่ดี ทั้งในส่วนโค้ง PR และ ROC แบบจำลองที่ผ่านการฝึกอบรมของฉันทำได้ดีกว่าอินพุต
การฝึกอบรมเกี่ยวกับข้อมูลที่สมดุล (อัปแซมปิน) การประเมินบนข้อมูลที่สมดุล (อัปแซมปิน):
อย่างไรก็ตามหากฉันใช้โมเดลนี้ที่ได้รับการฝึกอบรมเกี่ยวกับข้อมูลที่สมดุลเพื่อคาดการณ์ชุดฝึกอบรมที่ไม่สมดุลแบบดั้งเดิมฉันยังคงได้รับประสิทธิภาพที่ไม่ดีบนกราฟเส้นโค้ง
การฝึกอบรมเรื่องข้อมูลที่สมดุล (อัปตัวอย่าง), การประเมินข้อมูลที่ไม่สมดุลเดิม:
ดังนั้นคำถามของฉันคือ:
- เหตุผลที่การสร้างภาพข้อมูลของเส้นโค้ง PR แสดงถึงประสิทธิภาพที่ด้อยกว่าของรุ่นที่ได้รับการฝึกอบรมของฉัน (สีแดง) ในขณะที่เส้นโค้ง ROC แสดงการปรับปรุงเนื่องจากความไม่สมดุลของคลาส?
- วิธี resampling / up-sampling / down-sampling สามารถแก้ไขปัญหานี้เพื่อบังคับให้การฝึกอบรมมุ่งเน้นไปที่ภูมิภาคที่มีความแม่นยำสูง / การเรียกคืนต่ำได้หรือไม่?
- มีวิธีอื่นอีกไหมในการมุ่งเน้นการฝึกอบรมในภูมิภาคที่มีความแม่นยำสูง / การเรียกคืนต่ำ