ตัวอย่างที่ไม่สมดุลย์มีความสำคัญหรือไม่เมื่อทำการถดถอยโลจิสติก


81

โอเคดังนั้นฉันคิดว่าฉันมีตัวอย่างที่ดีพอโดยคำนึงถึงกฎ 20: 1 นิ้วหัวแม่มือ: ตัวอย่างที่ค่อนข้างใหญ่ (N = 374) สำหรับตัวแปรตัวทำนายผู้สมัครทั้งหมด 7 คน

ปัญหาของฉันคือสิ่งต่อไปนี้: ไม่ว่าชุดตัวแปรพยากรณ์ใดที่ฉันใช้การจำแนกไม่เคยดีไปกว่าความจำเพาะ 100% และความไว 0% อย่างไรก็ตามไม่น่าพอใจจริง ๆ แล้วนี่อาจเป็นผลลัพธ์ที่ดีที่สุดที่เป็นไปได้เนื่องจากชุดของตัวแปรตัวทำนายผู้สมัคร (ซึ่งฉันไม่สามารถเบี่ยงเบน)

แต่ฉันไม่สามารถช่วยได้ แต่คิดว่าฉันทำได้ดีกว่านี้ฉันจึงสังเกตเห็นว่าหมวดหมู่ของตัวแปรตามนั้นค่อนข้างสมดุลไม่สมดุลเกือบ 4: 1 ตัวอย่างย่อยที่สมดุลสามารถปรับปรุงการจำแนกประเภทได้หรือไม่


5
มันยากที่จะจินตนาการว่ามันจะเป็นเช่นไร บางทีคุณอาจลดความน่าจะเป็นที่คาดการณ์ไว้ที่ 0.5? หากเป็นเช่นนั้นให้ลองตัดส่วนที่ต่างออกไป
Aniko

4
พื้นที่ใต้เส้นโค้ง ROC คือ. 585 ซึ่งค่อนข้างได้ผล นี่หมายความว่าไม่มีค่าตัดยอดที่ความจำเพาะ / ความไวต่อการแลกเปลี่ยนนั้นคุ้มค่า การเล่นซอกับทางลัดจะไม่ปรับปรุงการจำแนกประเภทมากนักเพราะมันจะลดความเฉพาะเจาะจงลงได้มากพอ ๆ กับการเพิ่มความไว
Michiel

3
สัมประสิทธิ์ตัวแปรใดมีความแตกต่างอย่างมีนัยสำคัญจาก (พูดข้อผิดพลาดมาตรฐานมากกว่าห้าข้อ) หรือไม่? หากไม่ใช่ปัญหาของคุณอาจเป็นไปได้ว่าคุณไม่มีพลังในการอธิบายมากนักกับชุดตัวแปรของคุณ 0
ความน่าจะเป็นที่เป็นไปได้

2
โปรดทราบว่าขนาดตัวอย่างของคุณในแง่ของการคาดคะเนที่ดีนั้นเป็นจำนวนของรูปแบบที่ไม่ซ้ำกันในตัวแปรตัวทำนายและไม่ใช่จำนวนของตัวอย่างบุคคล ตัวอย่างเช่นโมเดลที่มีตัวแปรตัวพยากรณ์หมวดหมู่เดียวที่มีสองระดับเท่านั้นที่จะสามารถพอดีกับโมเดลการถดถอยแบบโลจิสติกที่มีพารามิเตอร์สองตัว (หนึ่งตัวสำหรับแต่ละหมวดหมู่) แม้ว่าจะมีคนนับล้านในตัวอย่าง
ความน่าจะเป็นที่เป็นไปได้

ที่เกี่ยวข้อง: stats.stackexchange.com/questions/67903
อะมีบา

คำตอบ:


75

ยอดคงเหลือในชุดการฝึกอบรม

สำหรับโมเดลการถดถอยแบบโลจิสติกส์ข้อมูลการฝึกอบรมที่ไม่สมดุลนั้นมีผลเฉพาะกับการประมาณของการสกัดกั้นแบบจำลอง (แม้ว่าหลักสูตรนี้จะบิดเบือนความน่าจะเป็นที่คาดการณ์ทั้งหมดซึ่งจะกระทบต่อการทำนายของคุณ โชคดีที่การแก้ไขการสกัดกั้นนั้นตรงไปตรงมา: หากคุณรู้หรือคาดเดาสัดส่วนที่แท้จริงของ 0s และ 1s และรู้สัดส่วนในชุดการฝึกอบรมที่คุณสามารถใช้การแก้ไขเหตุการณ์ที่หายากกับการสกัดกั้น รายละเอียดอยู่ในKing and Zeng (2001) [ PDF ]

'การแก้ไขเหตุการณ์ที่หายาก' เหล่านี้ถูกออกแบบมาสำหรับการออกแบบการควบคุมกรณีศึกษาซึ่งส่วนใหญ่ใช้ในการระบาดวิทยาที่เลือกกรณีโดยการเลือกจำนวนคงที่โดยปกติแล้วมีจำนวน 0 กรณีและ 1 กรณีแล้วต้องแก้ไขอคติการเลือกตัวอย่างที่เกิดขึ้น แน่นอนคุณอาจฝึกตัวจําแนกของคุณในลักษณะเดียวกัน เลือกตัวอย่างที่มีความสมดุลที่ดีจากนั้นแก้ไขการสกัดกั้นเพื่อพิจารณาข้อเท็จจริงที่ว่าคุณได้เลือกตัวแปรตามเพื่อเรียนรู้เพิ่มเติมเกี่ยวกับคลาสที่หายากกว่าตัวอย่างแบบสุ่มจะสามารถบอกคุณได้

การทำนายผล

ในหัวข้อที่เกี่ยวข้อง แต่แตกต่างกัน: อย่าลืมว่าคุณควรทำการกำหนดใหม่อย่างชาญฉลาดเพื่อคาดการณ์ ไม่ควรทำนาย 1 เสมอเมื่อความน่าจะเป็นแบบจำลองมีค่ามากกว่า 0.5 เกณฑ์อื่นอาจดีกว่า ด้วยเหตุนี้คุณควรตรวจสอบเส้นโค้งการดำเนินงานของตัวรับ (ROC) ของตัวจําแนกของคุณไม่ใช่แค่ความสําเร็จในการทำนายด้วยค่าความน่าจะเป็นเริ่มต้น


8
หากคุณไม่ทราบความถี่ในการใช้งานคลาส EM สามารถประมาณค่าได้โดยไม่ต้องทราบฉลากของตัวอย่างทดสอบ / ตัวอย่างการใช้งาน รายละเอียดอยู่ใน Saerens และคณะ "การปรับเอาท์พุทของลักษณนามเป็นความน่าจะเป็นของ Priori: ขั้นตอนง่าย ๆ ", การคำนวณทางประสาท, ฉบับที่ 5 14 หมายเลข 1, pp. 21-41, 2002 ( dx.doi.org/10.1162/089976602753284446 ) ฉันเคยใช้มันสองสามครั้งและรู้สึกประทับใจกับวิธีการทำงานที่ดี อย่างไรก็ตามโปรดทราบว่าการแก้ไขตามทฤษฎีไม่เหมาะสมที่สุดและการตั้งค่าผ่านเช่นการตรวจสอบข้ามมักจะดีกว่า
Dikran Marsupial

ใช่ฉันควรจะพูดถึงว่าผลลัพธ์จากกราฟ ROC ก็ไม่น่าเชื่อเช่นกัน ในกรณีนี้ฉันคิดว่าไม่มีเกณฑ์ที่ให้ผลลัพธ์ที่น่าพอใจ
Michiel

เกี่ยวกับการทำนาย: ฉันจะคำนึงถึงขนาดของการฝึกที่กำหนดไว้สำหรับผลลัพธ์ที่ 0 และ 1 ได้อย่างไร ฉันไม่ต้องการใช้ขีด จำกัด 0.5 แต่ไม่แน่ใจว่าจะทำสิ่งนี้ได้อย่างไรใน R.
Perlnika

1
@Perlnika รายละเอียดอยู่ในลิงค์กระดาษ (ในกรณีที่ง่ายที่สุดที่คุณเปลี่ยนการสกัดกั้นโดยประมาณ) หากต้องการเกณฑ์ไม่เท่ากับ 0.5 เพียงรับความน่าจะเป็นที่คาดการณ์ไว้โดยใช้predictและคำนวณสำหรับแต่ละค่าว่าสูงกว่าขีด จำกัด ใหม่หรือไม่
ผัน

1
@SassaNF มันเป็นความจริงที่การเปลี่ยนแปลงการสกัดกั้นสามารถชดเชยโดยการเปลี่ยนเกณฑ์ อย่างไรก็ตามการประเมินความน่าจะเป็นของคุณ (การอนุมาน) กับค่าใช้จ่ายที่เกี่ยวข้องของข้อผิดพลาด (ฟังก์ชั่นการสูญเสีย) ในขณะที่หลังอาจแตกต่างกันในการใช้งาน ตัวอย่างเช่นเมื่อค่าใช้จ่ายในการเข้าใจผิด 1 สำหรับ 0 คือ C คูณค่าของการเข้าใจผิดว่า 0 สำหรับ 1 คุณจะต้องกำหนดความน่าจะเป็นโดยประมาณของคุณที่ 1 / (1 + C)
ผัน

41

ปัญหาไม่ได้อยู่ที่คลาสนั้นไม่สมดุลต่อ se มันอาจจะมีรูปแบบที่ไม่เพียงพอในคลาสของชนกลุ่มน้อยเพื่อเป็นตัวแทนของการกระจายอย่างเพียงพอ ซึ่งหมายความว่าปัญหาสามารถเกิดขึ้นได้สำหรับตัวจําแนกใด ๆ (แม้ว่าคุณจะมีปัญหาสังเคราะห์และคุณรู้ว่าคุณมีรูปแบบที่แท้จริง) ไม่เพียง แต่การถดถอยโลจิสติก สิ่งที่ดีคือเมื่อมีข้อมูลมากขึ้นปัญหา "ความไม่สมดุลของชั้นเรียน" มักจะหมดไป ต้องบอกว่า 4: 1 ไม่ใช่ทั้งหมดที่ไม่สมดุล

หากคุณใช้ชุดข้อมูลที่สมดุลสิ่งสำคัญคือการจำเอาท์พุทของโมเดลตอนนี้เป็นการประมาณค่าความน่าจะเป็นของ A-posteriori โดยสมมติว่าคลาสนั้นมีความเท่าเทียมกันดังนั้นคุณจึงอาจวางตัวแบบจำลองได้ไกลเกินไป ฉันจะยกน้ำหนักรูปแบบที่เป็นของแต่ละคลาสให้แตกต่างกันและเลือกน้ำหนักโดยการลดการข้ามเอนโทรปีของชุดทดสอบด้วยความถี่ของคลาสปฏิบัติการที่ถูกต้อง


6
+1If you use a balanced dataset, the important thing is to remember that the output of the model is now an estimate of the a-posteriori probability
Zhubarb

2

ลองคิดถึงการแจกแจงพื้นฐานของสองตัวอย่าง คุณมีตัวอย่างเพียงพอที่จะวัดทั้งกลุ่มประชากรย่อยโดยไม่มีอคติจำนวนมากในกลุ่มตัวอย่างขนาดเล็กหรือไม่?

ดูคำอธิบายเพิ่มเติมที่นี่

https://statisticalhorizons.com/logistic-regression-for-rare-events


5
ดูเหมือนจะไม่ตอบคำถาม
Michael Chernick

นั่นเป็นเพราะไม่มีคำตอบที่ชัดเจน! เป็นเรื่องเกี่ยวกับวิธีที่คุณใช้และจำนวนอคติที่ยอมให้เข้าสู่กระบวนการประเมิน
Paul Tulloch

1
ฉันคิดว่านี่เป็นคำตอบที่ดี เท่าที่ฉันเข้าใจความพยายามทั้งหมดในการแก้ไขความไม่สมดุลนั้นต้องอาศัยความรู้ภายนอกที่ไม่ได้ถูกจับในการทดลอง โดยเฉพาะอย่างยิ่งการรู้ว่าการแจกจ่ายต้นแบบจะช่วยแก้ไข
user1700890
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.