ฉันใช้การถดถอยโลจิสติกกับข้อมูลของฉันบน SAS และนี่คือเส้นโค้ง ROC และตารางการจำแนก
ฉันพอใจกับตัวเลขในตารางการจัดหมวดหมู่ แต่ไม่แน่ใจว่าเส้นโค้งและพื้นที่ใต้กราฟนั้นเป็นเท่าใด คำอธิบายใด ๆ ที่จะได้รับการชื่นชมอย่างมาก
ฉันใช้การถดถอยโลจิสติกกับข้อมูลของฉันบน SAS และนี่คือเส้นโค้ง ROC และตารางการจำแนก
ฉันพอใจกับตัวเลขในตารางการจัดหมวดหมู่ แต่ไม่แน่ใจว่าเส้นโค้งและพื้นที่ใต้กราฟนั้นเป็นเท่าใด คำอธิบายใด ๆ ที่จะได้รับการชื่นชมอย่างมาก
คำตอบ:
ในกรณีส่วนใหญ่คุณจะทำผิดพลาดเพราะโดยปกติแล้วทั้งสองกลุ่มจะไม่สามารถแยกแยะได้อย่างสมบูรณ์ สำหรับเกณฑ์นี้คุณสามารถคำนวณข้อผิดพลาดของคุณและความไวที่เรียกว่าและความเฉพาะเจาะจง หากคุณทำสิ่งนี้สำหรับขีด จำกัด หลาย ๆ ตัวคุณสามารถสร้างเส้นโค้ง ROC โดยการวางแผนความไวต่อ 1-Specificity สำหรับขีด จำกัด ที่เป็นไปได้มากมาย พื้นที่ใต้เส้นโค้งจะปรากฏขึ้นหากคุณต้องการเปรียบเทียบวิธีการต่าง ๆ ที่พยายามแยกแยะระหว่างคลาสสองคลาสเช่นการวิเคราะห์แบบเลือกปฏิบัติหรือแบบจำลองโปรบิต คุณสามารถสร้าง ROC curve สำหรับทุกรุ่นเหล่านี้และรุ่นที่มีพื้นที่สูงสุดภายใต้ส่วนโค้งสามารถมองได้ว่าเป็นรุ่นที่ดีที่สุด
หากคุณต้องการความเข้าใจที่ลึกซึ้งยิ่งขึ้นคุณสามารถอ่านคำตอบของคำถามอื่นเกี่ยวกับ ROC curves ได้โดยคลิกที่นี่
โดยทั่วไปแล้ว AUC จะบอกคุณเสมอว่าการสุ่มจับจากความน่าจะเป็นคำตอบที่คาดการณ์ไว้ในข้อมูล 1 ป้ายของคุณจะดีกว่าการสุ่มจับจากความน่าจะเป็นคำตอบที่คาดการณ์ไว้ในข้อมูล 0 ป้ายกำกับของคุณ
แบบจำลองการถดถอยโลจิสติกเป็นวิธีการประมาณความน่าจะเป็นโดยตรง การจำแนกประเภทไม่ควรมีบทบาทในการใช้งาน การจำแนกประเภทใด ๆ ที่ไม่ได้ขึ้นอยู่กับการประเมินระบบสาธารณูปโภค (ฟังก์ชั่นการสูญเสีย / ต้นทุน) ในแต่ละวิชานั้นไม่เหมาะสมยกเว้นในกรณีฉุกเฉินที่พิเศษมาก เส้นโค้ง ROC ไม่มีประโยชน์ที่นี่ ไม่ใช่ความไวหรือความเฉพาะเจาะจงซึ่งเช่นความถูกต้องของการจัดประเภทโดยรวมเป็นกฎการให้คะแนนความแม่นยำที่ไม่เหมาะสม
ฉันไม่ใช่ผู้เขียนของบล็อกนี้และฉันพบว่าบล็อกนี้มีประโยชน์อย่างยิ่ง: http://fouryears.eu/2011/10/12/roc-area-under-the-curve-explained
เมื่อใช้คำอธิบายนี้กับข้อมูลของคุณตัวอย่างเชิงบวกโดยเฉลี่ยจะมีตัวอย่างเชิงลบประมาณ 10% ที่ให้คะแนนสูงกว่ามัน