วิธีการเลือกความน่าจะเป็นทางลัดสำหรับ Logistic Regression ที่หายาก


11

ฉันมีการสังเกต 100,000 ครั้ง (ตัวแปรตัวบ่งชี้จำลอง 9 ตัว) พร้อม 1,000 ผลบวก การถดถอยโลจิสติกควรทำงานได้ดีในกรณีนี้ แต่ความเป็นไปได้ที่จะตัดตัวฉัน

ในวรรณกรรมทั่วไปเราเลือกตัด 50% เพื่อทำนาย 1s และ 0s ฉันทำสิ่งนี้ไม่ได้เพราะแบบจำลองของฉันให้ค่าสูงสุด ~ 1% ดังนั้นเกณฑ์อาจอยู่ที่ 0.007 หรือที่ใดที่หนึ่งโดยรอบ

ฉันเข้าใจROCเส้นโค้งและพื้นที่ใต้เส้นโค้งสามารถช่วยฉันเลือกระหว่างรุ่น LR สองชุดสำหรับชุดข้อมูลเดียวกันได้อย่างไร อย่างไรก็ตาม ROC ไม่ได้ช่วยฉันเลือกความน่าจะเป็นทางลัดที่เหมาะสมที่สามารถใช้ในการทดสอบแบบจำลองกับข้อมูลที่ไม่อยู่ในกลุ่มตัวอย่าง

ฉันควรใช้ค่า cutoff ที่ลดmisclassification rateหรือไม่ ( http://www2.sas.com/proceedings/sugi31/210-31.pdf )

เพิ่ม -> สำหรับอัตราเหตุการณ์ที่ต่ำเช่นนี้อัตราการผิดพลาดของฉันได้รับผลกระทบจากผลบวกปลอมจำนวนมาก ในขณะที่อัตราโดยรวมนั้นดูดีเนื่องจากขนาดของจักรวาลทั้งหมดยังใหญ่ แต่แบบจำลองของฉันไม่ควรมีผลบวกผิด ๆ มากมาย (เพราะเป็นแบบจำลองการคืนทุน) 5/10 coeff มีความสำคัญ


3
มันเป็นค่าใช้จ่ายสัมพัทธ์ของการจำแนกประเภทสองประเภทพร้อมกับความน่าจะเป็นที่ควรพิจารณาการตัดออก หากคุณเพียงต้องการตรวจสอบรูปแบบความน่าจะเป็นให้คำนวณคะแนน AUC หรือ Brier เมื่อใช้กับชุดทดสอบ
Scortchi - Reinstate Monica

นี่อาจเป็นคำตอบที่ดี: stats.stackexchange.com/a/25398/5597
Tae-Sung Shin

นอกจากนี้ยังมีคำตอบที่เกี่ยวข้องที่นี่และที่นี่
Scortchi - Reinstate Monica

@ Tae-SungShin ขอบคุณสำหรับลิงค์ มันมีประโยชน์ ฉันเดาว่าไม่ได้มีคำตอบที่แน่นอนสำหรับคำถามของฉันแบบจำลองของฉันทนทุกข์ทรมานจากผลบวกปลอมจำนวนมาก
แมดดี้

@Scortchi ขอบคุณ การใช้ AUC อาจมีประโยชน์หากฉันเปรียบเทียบตัวแบบการถดถอยโลจิสติก 2 แบบ (กับตัวทำนายพิเศษ) แต่ฉันไม่แน่ใจว่ามันช่วยฉันได้อย่างไรในกรณีของฉัน มันทำให้ฉันมีโอกาสประสบความสำเร็จโดยรวมของแบบจำลองของฉัน แต่มันก็ไม่ได้ช่วยฉันเลือกความน่าจะเป็นทางลัด
แมดดี้

คำตอบ:


5

ฉันไม่เห็นด้วยว่าการตัด 50% นั้นถูกต้องตามกฎหมายหรือได้รับการสนับสนุนจากวรรณกรรม กรณีเดียวที่การตัดเช่นนี้อาจพิสูจน์ได้ว่าอยู่ในการออกแบบตัวควบคุมกรณีที่ความชุกของผลลัพธ์นั้นเป็น 50% อย่างแน่นอน แต่ถึงอย่างนั้นตัวเลือกก็จะอยู่ภายใต้เงื่อนไขบางประการ ฉันคิดว่าเหตุผลหลักสำหรับการเลือกตัดเป็นลักษณะการทำงานที่ต้องการของการทดสอบวินิจฉัย

อาจเลือกตัดเพื่อให้ได้ความไวหรือความจำเพาะที่ต้องการ สำหรับตัวอย่างนี้ให้ดูเอกสารประกอบของอุปกรณ์การแพทย์ ความไวมักถูกกำหนดเป็นจำนวนคงที่: ตัวอย่าง ได้แก่ 80%, 90%, 95%, 99%, 99.9% หรือ 99.99% ควรเปรียบเทียบความไว / ความจำเพาะเฉพาะกับอันตรายของข้อผิดพลาด Type I และ Type II บ่อยครั้งเช่นเดียวกับการทดสอบทางสถิติอันตรายของข้อผิดพลาดประเภทที่ 1 จึงมากกว่าและดังนั้นเราจึงควบคุมความเสี่ยงนั้น ถึงกระนั้นอันตรายเหล่านี้ก็ไม่สามารถวัดได้ ด้วยเหตุนี้ฉันจึงมีข้อคัดค้านที่สำคัญในการเลือกวิธีการตัดซึ่งขึ้นอยู่กับการวัดความแม่นยำในการทำนายเดียว: มันถ่ายทอดไม่ถูกต้องที่เป็นอันตรายและสามารถหาจำนวนได้

ปัญหาด้านบวกที่ผิดพลาดของคุณมากเกินไปเป็นตัวอย่างของข้อผิดพลาด: ข้อผิดพลาด Type II อาจเป็นอันตรายมากกว่า จากนั้นคุณอาจตั้งค่าขีด จำกัด เพื่อให้ได้ความเฉพาะเจาะจงที่ต้องการและรายงานความไวที่ทำได้ที่ขีด จำกัด นั้น

หากคุณพบว่าทั้งคู่ต่ำเกินไปที่จะยอมรับได้สำหรับการฝึกแบบจำลองความเสี่ยงของคุณไม่ทำงานและควรถูกปฏิเสธ

ความไวและความจำเพาะจะถูกคำนวณหรือค้นหาจากตารางในช่วงค่าตัดที่เป็นไปได้ทั้งหมดอย่างง่ายดาย ปัญหาเกี่ยวกับ ROC คือมันไม่ใช้ข้อมูลการตัดเฉพาะจากกราฟิก ROC จึงไม่เกี่ยวข้องกับการเลือกค่า cutoff

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.