ทำไม P> 0.5 cutoff ไม่“ ดีที่สุด” สำหรับการถดถอยโลจิสติก


13

คำนำ: ฉันไม่สนใจเกี่ยวกับข้อดีของการใช้ cutoff หรือไม่หรือควรเลือก cutoff ด้วยวิธีใด คำถามของฉันเป็นคณิตศาสตร์อย่างหมดจดและเนื่องจากความอยากรู้

การถดถอยแบบลอจิสติกเป็นแบบจำลองความน่าจะเป็นแบบมีเงื่อนไขหลังของคลาส A กับคลาส B และมันเหมาะกับไฮเปอร์เพลนที่ความน่าจะเป็นแบบเงื่อนไขหลังมีค่าเท่ากัน ดังนั้นในทางทฤษฎีฉันเข้าใจว่า 0.5 การจำแนกจุดจะลดข้อผิดพลาดทั้งหมดโดยไม่คำนึงถึงความสมดุลเนื่องจากมันเป็นแบบจำลองความน่าจะเป็นด้านหลัง (สมมติว่าคุณพบอัตราส่วนระดับเดียวกันอย่างสม่ำเสมอ)

ในตัวอย่างชีวิตจริงของฉันฉันได้รับความแม่นยำต่ำมากโดยใช้ P> 0.5 เป็นตัวเลือกการแยกประเภทของฉัน (ความแม่นยำประมาณ 51%) อย่างไรก็ตามเมื่อฉันดูที่ AUC มันสูงกว่า 0.99 ดังนั้นฉันจึงดูค่า cutoff ที่แตกต่างกันและพบว่า P> 0.6 ให้ความแม่นยำ 98% (90% สำหรับคลาสที่เล็กกว่าและ 99% สำหรับคลาสที่ใหญ่กว่า) - มีเพียง 2% ของคดีที่ไม่ได้จัดประเภท

ชั้นเรียนมีความไม่สมดุลอย่างมาก (1: 9) และเป็นปัญหาระดับสูง อย่างไรก็ตามฉันจัดสรรคลาสอย่างเท่าเทียมกันในแต่ละชุดการตรวจสอบความถูกต้องไขว้กันเพื่อไม่ให้มีความแตกต่างระหว่างความสมดุลของคลาสระหว่างแบบจำลองพอดีกับการคาดเดา ฉันพยายามใช้ข้อมูลเดียวกันจากตัวแบบและในการทำนายและปัญหาเดียวกันก็เกิดขึ้น

ฉันสนใจในเหตุผลที่ 0.5 จะไม่ลดข้อผิดพลาดให้น้อยที่สุดฉันคิดว่านี่น่าจะเป็นเพราะการออกแบบถ้าแบบจำลองนั้นพอดีโดยลดการสูญเสียเอนโทรปี

ไม่มีใครมีข้อเสนอแนะใด ๆ เกี่ยวกับสาเหตุที่เกิดขึ้น? เป็นเพราะการเพิ่มบทลงโทษใครบางคนสามารถอธิบายสิ่งที่เกิดขึ้นถ้าเป็นเช่นนั้น?



Scortchi คุณอาจจะเจาะจงมากขึ้นสำหรับคำถามเกี่ยวกับการตัดที่คุณคิดว่ามีความเกี่ยวข้องหรือไม่ ฉันไม่เห็นคำถามหรือคำตอบที่เกี่ยวข้องก่อนโพสต์หรือตอนนี้
felix000

ขออภัยฉันไม่ได้หมายความว่าพวกเขาตอบคำถามของคุณทั้งหมด แต่ฉันคิดว่าพวกเขามีความเกี่ยวข้องในการแนะนำว่าไม่ใช้ความถูกต้องที่การตัดใด ๆ เป็นตัวชี้วัดประสิทธิภาพหรืออย่างน้อยก็ไม่ได้ถูกตัดโดยพลการ ฟังก์ชัน
Scortchi - Reinstate Monica

คำตอบ:


16

คุณไม่ต้องรับหมวดหมู่ที่คาดการณ์จากตัวแบบการถดถอยโลจิสติก มันสามารถอยู่ได้ดีกับความน่าจะเป็นที่คาดการณ์ไว้ หากคุณได้รับหมวดหมู่ที่คาดการณ์ไว้คุณไม่ควรใช้ข้อมูลนั้นเพื่อทำสิ่งใดนอกจากพูดว่า 'การสังเกตนี้จำแนกได้ดีที่สุดในหมวดหมู่นี้' ตัวอย่างเช่นคุณไม่ควรใช้ 'ความแม่นยำ' / เปอร์เซ็นต์ที่ถูกต้องเพื่อเลือกรุ่น

เมื่อพูดถึงสิ่งเหล่านี้แล้วมักจะเป็นทางลัดที่เหมาะสมที่สุดสำหรับการจำแนกการสังเกตการณ์ เพื่อให้เข้าใจได้ง่ายว่าเหตุการณ์นี้เกิดขึ้นได้อย่างไรลองจินตนาการว่าคุณมีโดยมีการสังเกตครั้งในหมวดหมู่ที่เป็นบวก โมเดลที่ดักจับง่ายเท่านั้นอาจมีเนกาทีฟได้ข้อเมื่อคุณใช้เป็นตัวลัด ในทางกลับกันถ้าคุณเรียกทุกอย่างว่าเป็นบวกคุณจะมีผลบวกที่เป็นเท็จ แต่ถูกต้อง .50N=1009949.50199%

โดยทั่วไปแล้วการถดถอยโลจิสติกพยายามที่จะปรับความน่าจะเป็นจริงที่เป็นบวกสำหรับการสังเกตในฐานะฟังก์ชันของตัวแปรอธิบาย มันไม่ได้พยายามที่จะเพิ่มความแม่นยำสูงสุดโดยการจัดกึ่งกลางความน่าจะเป็นที่คาดการณ์ไว้รอบตัวตัดหากตัวอย่างของคุณไม่ได้เป็นค่าบวกจะไม่มีเหตุผลใดเลยที่จะทำให้เปอร์เซ็นต์ถูกต้องสูงสุด.5050%.50


สวัสดีขอบคุณสำหรับคำอธิบายของคุณ แต่ฉันไม่ได้รับตัวอย่างจากโมเดลสกัดกั้นเท่านั้น ด้วยโมเดลดักจับอย่างเดียวคุณจะมีค่า 0.99 สำหรับตัวอย่างใด ๆ ดังนั้นคุณจะมีความแม่นยำ 99% โดยการใช้ค่าขีด จำกัด ใด ๆ
abcdaire

0

ฉันคิดว่าอาจเป็นเพราะสาเหตุหลายประการ:

  1. อาจมีความไม่เป็นเชิงเส้นในข้อมูลของคุณดังนั้นการเพิ่มน้ำหนักแบบเชิงเส้นอาจไม่ส่งผลให้ความน่าจะเป็นที่ถูกต้องเสมอไป
  2. ตัวแปรเป็นส่วนผสมของตัวทำนายที่ดีและตัวทำนายที่อ่อนแอดังนั้นคะแนนของประชากรที่อยู่ในระดับ 0.5 เป็นเพราะตัวทำนายที่อ่อนแอหรือผลกระทบของตัวทำนายที่แข็งแกร่งน้อยกว่า ในขณะที่คุณไปด้านบนคุณจะได้รับผู้คนซึ่งผลของการทำนายนั้นแข็งแกร่ง

ดังนั้นคุณอาจต้องเล่นกับค่าที่ตัดออกเพื่อเพิ่มผลลัพธ์ที่คุณต้องการเช่นความแม่นยำความแม่นยำเป็นต้นเนื่องจากประชากรส่วนใหญ่ไม่ได้เป็นเนื้อเดียวกัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.