ปรับให้เหมาะสมสำหรับเส้นโค้ง Precision-Recall ภายใต้ความไม่สมดุลของคลาส

30

ฉันมีงานการจัดหมวดหมู่ที่ฉันมีตัวทำนายจำนวนหนึ่ง (หนึ่งในนั้นมีข้อมูลมากที่สุด) และฉันใช้แบบจำลองMARSเพื่อสร้างตัวจําแนกของฉัน (ฉันสนใจในแบบจําลองง่าย ๆ และใช้ glms เพื่อจุดประสงค์ในการอธิบาย ดีเกินไป). ตอนนี้ฉันมีความไม่สมดุลระดับมากในข้อมูลการฝึกอบรม (ประมาณ 2700 ตัวอย่างลบสำหรับตัวอย่างบวกแต่ละตัวอย่าง) เช่นเดียวกับงานสืบค้นข้อมูลฉันมีความกังวลมากขึ้นเกี่ยวกับการทำนายตัวอย่างการทดสอบเชิงบวกอันดับสูงสุด ด้วยเหตุนี้ประสิทธิภาพในการโค้งแม่นยำของ Recall จึงเป็นสิ่งสำคัญสำหรับฉัน

ก่อนอื่นฉันเพียงแค่ฝึกฝนโมเดลข้อมูลการฝึกอบรมของฉันเพื่อรักษาความไม่สมดุลของคลาสเหมือนเดิม ฉันเห็นรูปแบบการฝึกของฉันเป็นสีแดงและอินพุตที่สำคัญที่สุดเป็นสีน้ำเงิน

การฝึกอบรมเกี่ยวกับข้อมูลที่ไม่สมดุลการประเมินข้อมูลที่ไม่สมดุล :

PR สำหรับการฝึกอบรมที่ไม่สมดุล ROC สำหรับการฝึกอบรมที่ไม่สมดุล

การคิดว่าความไม่สมดุลในชั้นเรียนกำลังลดลงของแบบจำลองเนื่องจากการเรียนรู้ตัวอย่างเชิงบวกอันดับสูงสุดเป็นส่วนสั้น ๆ ของชุดข้อมูลทั้งหมดฉันเพิ่มจุดฝึกอบรมเชิงบวกเพื่อให้ได้ชุดข้อมูลการฝึกอบรมที่สมดุล เมื่อฉันวางแผนการแสดงในชุดการฝึกอบรมที่สมดุลฉันจะได้รับประสิทธิภาพที่ดี ทั้งในส่วนโค้ง PR และ ROC แบบจำลองที่ผ่านการฝึกอบรมของฉันทำได้ดีกว่าอินพุต

การฝึกอบรมเกี่ยวกับข้อมูลที่สมดุล (อัปแซมปิน) การประเมินบนข้อมูลที่สมดุล (อัปแซมปิน):

การประชาสัมพันธ์เพื่อการฝึกอบรมที่สมดุลมองเห็นได้บนชุดข้อมูลที่สมดุล ROC สำหรับการฝึกที่สมดุลโดยมองเห็นชุดข้อมูลที่สมดุล

อย่างไรก็ตามหากฉันใช้โมเดลนี้ที่ได้รับการฝึกอบรมเกี่ยวกับข้อมูลที่สมดุลเพื่อคาดการณ์ชุดฝึกอบรมที่ไม่สมดุลแบบดั้งเดิมฉันยังคงได้รับประสิทธิภาพที่ไม่ดีบนกราฟเส้นโค้ง

การฝึกอบรมเรื่องข้อมูลที่สมดุล (อัปตัวอย่าง), การประเมินข้อมูลที่ไม่สมดุลเดิม:

PR สำหรับการฝึกอบรมที่มีความสมดุลมองเห็นได้ในชุดข้อมูลดั้งเดิมที่ไม่สมดุล ROC สำหรับการฝึกอบรมที่สมดุลเห็นได้จากชุดข้อมูลต้นฉบับที่ไม่สมดุล

ดังนั้นคำถามของฉันคือ:

เหตุผลที่การสร้างภาพข้อมูลของเส้นโค้ง PR แสดงถึงประสิทธิภาพที่ด้อยกว่าของรุ่นที่ได้รับการฝึกอบรมของฉัน (สีแดง) ในขณะที่เส้นโค้ง ROC แสดงการปรับปรุงเนื่องจากความไม่สมดุลของคลาส?
วิธี resampling / up-sampling / down-sampling สามารถแก้ไขปัญหานี้เพื่อบังคับให้การฝึกอบรมมุ่งเน้นไปที่ภูมิภาคที่มีความแม่นยำสูง / การเรียกคืนต่ำได้หรือไม่?
มีวิธีอื่นอีกไหมในการมุ่งเน้นการฝึกอบรมในภูมิภาคที่มีความแม่นยำสูง / การเรียกคืนต่ำ

— highBandWidth
แหล่งที่มา

คุณสามารถแก้ไขคำถามของคุณเพื่อให้ความกระจ่างเกี่ยวกับมาตรการที่คำนวณในชุดการฝึกอบรมและการเก็บข้อมูลใด

— Jack Tanner

@ JackTanner ทุกอย่างถูกคำนวณในชุดการฝึกอบรมในตอนนี้ เนื่องจากแบบจำลองไม่มีพารามิเตอร์จำนวนมากและจำนวนตัวอย่างในชุดการฝึกอบรมมีขนาดใหญ่มากฉันจึงไม่ต้องกังวลกับการมีน้ำหนักเกินมากเกินไป นอกจากนี้ฉันต้องการแน่ใจว่าฉันได้รับประสิทธิภาพที่ดีในชุดฝึกอบรมก่อนที่ฉันจะคาดหวังในชุดทดสอบ

— สูง

ลูกบิดแบบใดที่คุณควบคุมในอัลกอริทึมการเรียนรู้ของคุณเพื่อประเมินความแม่นยำในระดับการเรียกคืนที่แตกต่างกัน คุณพยายามที่จะขยายชุดคุณสมบัติของคุณเช่นด้วยการรวมคุณสมบัติและการแปลง?

— Jack Tanner

@ JackTanner โมเดลที่ฉันมี (MARS พร้อมฟังก์ชัน logit) ให้เอาต์พุตในช่วง 0 ถึง 1 ซึ่งคล้ายกับการถดถอยโลจิสติก โดยพื้นฐานแล้วมันเหมือนกัน แต่มีคุณสมบัติอีกสองสามอย่าง เพื่อให้ได้ความแม่นยำในการเรียกคืนที่แตกต่างกันฉันเพียงแค่ตั้งค่าเกณฑ์ที่จุดต่าง ๆ ฉันใช้วิธีมาตรฐานในการคำนวณ PR หรือ ROC จากรายการอันดับ

— สูงกว่า

15

เส้นโค้ง ROC ไม่ตอบสนองต่อการเปลี่ยนแปลงในระดับความไม่สมดุล ดู Fawcett (2004) "กราฟ ROC: หมายเหตุและข้อควรพิจารณาในทางปฏิบัติสำหรับนักวิจัย"
การสุ่มตัวอย่างชั้นความถี่ต่ำเป็นวิธีการที่สมเหตุสมผล
มีวิธีอื่นในการจัดการกับความไม่สมดุลของคลาส การส่งเสริมและการบรรจุเป็นสองเทคนิคที่อยู่ในใจ ดูเหมือนว่าการศึกษาล่าสุดที่เกี่ยวข้อง: การเปรียบเทียบการเพิ่มและการห่อด้วยเทคนิคที่มีเสียงดังและข้อมูลที่ไม่สมดุล

ปัญหา PS เรียบร้อย; ฉันชอบที่จะรู้ว่ามันจะเปิดออก

— แจ็คแทนเนอร์
แหล่งที่มา

1

การศึกษาเมื่อเร็ว ๆ นี้ " ความเข้าใจในการจำแนกประเภทที่มีข้อมูลที่ไม่สมดุล: ผลลัพธ์เชิงประจักษ์และแนวโน้มในปัจจุบันเกี่ยวกับการใช้คุณลักษณะที่แท้จริงของข้อมูล " เปรียบเทียบวิธีการจำแนกประเภทที่ปรับปรุงแล้วสามวิธีในข้อมูลที่ไม่สมดุล:

การสุ่มตัวอย่างข้อมูล (ตามที่แนะนำในคำถาม)
การปรับเปลี่ยนอัลกอริทึม
การเรียนรู้ที่อ่อนไหวด้านต้นทุน

— shark8me
แหล่งที่มา

1

ฉันต้องการที่จะดึงความสนใจไปที่ความจริงที่ว่าการทดลอง 2 ครั้งล่าสุดนั้นจริงแล้วใช้โมเดล SAME บนเกือบชุดข้อมูลเดียวกัน ความแตกต่างในประสิทธิภาพไม่ใช่ความแตกต่างของแบบจำลองอธิบายโดยชุดข้อมูลการตรวจสอบความถูกต้องที่แตกต่างกันและคุณสมบัติของ METRICS เฉพาะที่ใช้ - ความแม่นยำและการเรียกคืนซึ่งขึ้นอยู่กับการกระจายที่มาก หากต้องการสรุปประเด็นนี้ให้ละเอียดยิ่งขึ้นถ้าคุณนำรายการ X ที่แตกต่างจากชุดข้อมูลการตรวจสอบความถูกต้องเริ่มต้นของคุณและทำซ้ำคลาสของชนกลุ่มน้อยสำหรับชุดข้อมูลที่มีการลดสัดส่วนแบบจำลองของคุณจะทำการพยากรณ์เดียวกันสำหรับรายการ X เหล่านั้น ชุดข้อมูลการตรวจสอบความถูกต้อง ข้อแตกต่างเพียงอย่างเดียวคือสำหรับแต่ละค่าบวกที่เป็นเท็จจะมีผลบวกจริงน้อยกว่าในชุดข้อมูลเริ่มต้น (ซึ่งมีความแม่นยำต่ำกว่า) และผลบวกที่แท้จริงในชุดข้อมูลที่สมดุล (เนื่องจากความจริงที่ว่ามีตัวอย่างที่เป็นบวกมากขึ้นในชุดข้อมูลทั่วไป) . นี่คือเหตุผลที่ความแม่นยำและการเรียกคืนมีความไวต่อความเบ้ ในขณะที่การทดสอบของคุณแสดงให้เห็นเช่นกัน ROC จะไม่เปลี่ยนแปลง สิ่งนี้สามารถสังเกตได้โดยดูที่นิยามของมันเช่นกัน นั่นเป็นเหตุผลที่ ROC ถูกกล่าวว่าไม่ไวต่อความเบ้

ฉันยังไม่มีคำตอบที่ดีสำหรับจุด 2 และ 3 เหมือนที่กำลังมองหาตัวฉันเอง :)

— նանԱռաքելյան
แหล่งที่มา

0

สมมติว่าตัวอย่างบวกที่ยกตัวอย่างมี "การแจกแจงแบบเดียวกัน" เหมือนกับใน "ชุดต้นฉบับ" เมื่อจำนวนตัวอย่างบวกเพิ่มขึ้นมีการเปลี่ยนแปลงเล็กน้อยเกิดขึ้น

1) จำนวน TruePositives (TP) เพิ่มขึ้นสำหรับ "all thresholds" และเป็นผลให้อัตราส่วน TP / (TP + FP) และ TP / (TP + FN) เพิ่มขึ้นสำหรับเกณฑ์ทั้งหมด เพื่อให้พื้นที่ภายใต้ PRC เพิ่มขึ้น

2) ความแม่นยำที่คาดไว้ซึ่งเรียกอีกอย่างว่าความแม่นยำของโมเดล "ใบ้" เพิ่มจาก ~ 1/2700 (ในเซ็ตดั้งเดิม) เป็น ~ 1/2 (ในกรณีของสมดุล "อุดมคติ") สมมติว่าแบบจำลองของคุณมีประสิทธิภาพดีกว่าแบบจำลอง "โง่" หมายความว่าพื้นที่ใต้เส้นโค้งจะมีค่ามากกว่า 0.00037 ใน "ชุดดั้งเดิม" และมากกว่า 0.5 ในชุดสมดุลที่สมบูรณ์แบบ

3) ในขณะที่การฝึกอบรมแบบจำลองบนชุดข้อมูลที่มีการลดขนาดบางรุ่นอาจมีตัวอย่างบวก

ในเรื่องของเส้นโค้ง ROC นั้นเส้นโค้ง ROC เป็นที่ทราบกันว่ามีผลเพียงเล็กน้อยจากการกระจายของคลาส (การลดอัตราการสุ่มมีผลกระทบเล็กน้อยต่อ FPR ในขณะที่คุณสามารถเห็นผลกระทบบางอย่างต่อ TPR)

ในแง่ของการมุ่งเน้นไปที่ภูมิภาคที่มีความแม่นยำสูง / การเรียกคืนต่ำคุณสามารถปรับให้เหมาะสมกับฟังก์ชันต้นทุนที่มีการบวกเท็จจะถูกลงโทษมากกว่าเชิงลบเท็จ

— Danylo Zherebetskyy
แหล่งที่มา