คุณคาดการณ์หมวดหมู่การตอบสนองอย่างไรตามรูปแบบการถดถอยโลจิสติกอันดับ


13

ฉันต้องการทำนายปัญหาสุขภาพ ฉันมีหมวดหมู่ผลลัพธ์ 3 รายการที่เรียงลำดับ: 'ปกติ', 'อ่อน' และ 'รุนแรง' ฉันต้องการที่จะทำนายสิ่งนี้จากตัวแปรทำนายสองตัว, ผลการทดสอบ (ความต่อเนื่อง, ช่วงเวลา covariate) และประวัติครอบครัวที่มีปัญหานี้ (ใช่หรือไม่ใช่) ในตัวอย่างของฉันความน่าจะเป็น 55% (ปกติ), 35% (ไม่รุนแรง) และ 10% (รุนแรง) ในแง่นี้ฉันสามารถทำนาย 'ปกติ' ได้เสมอและคิดถูก 55% ของเวลาแม้ว่ามันจะไม่ให้ข้อมูลกับฉันเกี่ยวกับคนไข้ ฉันพอดีกับรุ่นต่อไปนี้:

the cut point for (y1)^=2.18the cut point for (y2)^=4.27β^test=0.60β^family history=1.05

สมมติว่าไม่มีการโต้ตอบและทุกอย่างใช้ได้ดีกับตัวแบบ ความสอดคล้อง c คือ 60.5% ซึ่งฉันเข้าใจว่าเป็นความแม่นยำในการทำนายขั้นสูงสุดที่โมเดลใช้

ฉันเจอผู้ป่วยใหม่สองคนที่มีข้อมูลต่อไปนี้: 1. test = 3.26, family = 0; 2. test = 2.85, family = 1. ฉันต้องการทำนายการพยากรณ์โรค การใช้สูตร: (จากนั้นรับความแตกต่างระหว่าง ความน่าจะเป็นแบบสะสม) ฉันสามารถคำนวณการแจกแจงความน่าจะเป็นไปตามเงื่อนไขหมวดหมู่การตอบสนองของแบบจำลอง รหัส R (nb เนื่องจากปัญหาการปัดเศษผลลัพธ์ไม่ตรงกันอย่างสมบูรณ์):

exp(XβcutPoint)(1+exp(XβcutPoint))
cut1 <- -2.18
cut2 <- -4.27
beta <- c(0.6, 1.05)
X    <- rbind(c(3.26, 0), c(2.85, 1))

pred_cat1      <- exp(-1*(X%*%beta)-cut1)/(1+exp(-1*(X%*%beta)-cut1))
pred_cat2.temp <- exp(-1*(X%*%beta)-cut2)/(1+exp(-1*(X%*%beta)-cut2))
pred_cat3      <- 1-pred_cat2.temp
pred_cat2      <- pred_cat2.temp-pred_cat1

predicted_distribution <- cbind(pred_cat1, pred_cat2, pred_cat3)

กล่าวคือ 1. 0 = 55.1%, 1 = 35.8%, 2 = 9.1%; และ 2. 0 = 35.6%, 1 = 46.2%, 2 = 18.2% คำถามของฉันคือฉันจะไปจากการแจกแจงความน่าจะเป็นหมวดหมู่การตอบสนองที่คาดการณ์ได้อย่างไร

ฉันได้ลองหลายวิธีโดยใช้ข้อมูลตัวอย่างซึ่งเป็นที่รู้จักผลลัพธ์ ถ้าฉันเลือกค่าสูงสุด (ความน่าจะเป็น) ความแม่นยำคือ 57% การปรับปรุงเล็กน้อยสำหรับค่า null แต่ต่ำกว่าความสอดคล้อง ยิ่งไปกว่านั้นในตัวอย่างวิธีการนี้ไม่เคยเลือก 'รุนแรง' ซึ่งเป็นสิ่งที่ฉันอยากรู้ ฉันลองใช้วิธีแบบเบย์โดยแปลงค่าความน่าจะเป็นโมฆะและแบบจำลองให้เป็นอัตราต่อรองแล้วเลือกค่าสูงสุด (อัตราส่วนอัตราต่อรอง) สิ่งนี้จะเลือก 'รุนแรง' เป็นครั้งคราว แต่ให้ความแม่นยำที่ต่ำกว่า 49.5% ฉันยังลองผลรวมของหมวดหมู่ที่ถ่วงน้ำหนักด้วยความน่าจะเป็นและการปัดเศษ สิ่งนี้ไม่เคยเลือก 'รุนแรง' และมีความแม่นยำต่ำ 51.5%

สมการที่นำข้อมูลข้างต้นมาใช้และให้ความแม่นยำสูงสุด (60.5%) คืออะไร

คำตอบ:


11

คุณกำลังก้าวกระโดดที่คุณต้องจำแนกค่าที่ทำนายไว้ ความจริงที่ว่าวิธีการของคุณไม่เคยเลือกหมวดหมู่ "รุนแรง" เป็นผลมาจากลักษณะของปัญหาที่ไม่ต่อเนื่องและ "รุนแรง" นั้นไม่บ่อยนัก ด้วยโมเดลการตอบสนองตามลำดับคุณสามารถใช้ความน่าจะเป็นที่เกินได้ด้วยตัวเอง (สำหรับทุกประเภทยกเว้นหนึ่งหมวดหมู่) หรือเพียงแค่อ้างถึงความน่าจะเป็นแต่ละอย่าง หากมีการปรับช่วงเวลาโดยประมาณคุณสามารถใช้ค่าเฉลี่ยที่ทำนาย เหล่านี้ที่มีอยู่ทั้งหมดใน R แพคเกจและฟังก์ชั่นที่เกี่ยวข้อง หลายคนคิดว่าการจำแนกประเภทเป็นเป้าหมายเมื่อการทำนายความเสี่ยงเป็นเป้าหมายที่แท้จริงYrmslrmpredict.lrm


1
ขอบคุณสำหรับความช่วยเหลือของคุณ. ฉันสงสัยว่าความถี่ต่ำที่รุนแรงเป็นส่วนหนึ่งของปัญหา ฉันคิดว่า raw Y ของฉัน 0 1 2 เป็นช่วงเวลาที่เท่ากันไม่เพียงพอ ฉันรวบรวมเป้าหมายของฉันถูกเข้าใจผิด แต่ฉันคิดว่าฉันต้องการที่จะรู้ว่าสิ่งที่ประเภทของผู้ป่วยใหม่ที่จะตกอยู่ใน / ไม่เข้าใจสิ่งที่เป้าหมายของฉันควรจะเป็น เป็นไปได้หรือไม่ที่จะให้ข้อมูลเชิงลึกมากขึ้น (อันที่จริงฉันสงสัยว่า CV ไม่ใช่ฟอรัมสำหรับบทเรียนที่สมบูรณ์หรือคุณรู้ว่าฉันสามารถเรียนรู้เกี่ยวกับปัญหานี้ได้จากที่ใดฉันได้อ่านหัวข้อจาก Logest ของ Agresti Intro & Hosmer & Lemeshow แต่ไม่มีประโยชน์)
gung - Reinstate Monica

1
เป้าหมายขับเคลื่อนด้วยการตัดสินใจที่จำเป็นหรือเรื่อง หากคุณระบุเป้าหมายสูงสุดฉันอาจแสดงความคิดเห็นได้
Frank Harrell

ขออภัยเกี่ยวกับการขาดความชัดเจนของฉันดูเหมือนว่าจะมีปัญหาข้างต้น ในปัจจุบันฉันต้องการที่จะสามารถคาดการณ์ผลลัพธ์สำหรับผู้ป่วยรายใหม่ ในระยะยาวฉันต้องการทำความเข้าใจกับ log log reg ดีขึ้นเช่นคุณจะได้รับส่วนที่เหลือได้อย่างไรถ้าคุณไม่ได้คาดคะเนหมวดหมู่ ฉันรวบรวมความแม่นยำได้ดีขึ้นเล็กน้อย แต่ก็ไม่รู้ว่าจะรับได้อย่างไร ฉันแน่ใจว่าคุณไม่มีเวลาที่จะอธิบายทุกอย่าง แต่ไม่ใช่ Agresti และ H&L ไม่พูดอะไรเกี่ยวกับการคาดการณ์หรือสิ่งที่เหลือเป็นต้นและฉันไม่สามารถหาอะไรได้เลยด้วย google ดังนั้นฉันถาม CV ฉันขอขอบคุณสำหรับความช่วยเหลืออย่างต่อเนื่องของคุณ
gung - Reinstate Monica

กรุณาอธิบายความต้องการของคุณสำหรับส่วนที่เหลือ สิ่งเหล่านี้ไม่ได้อยู่ในส่วนภายในของโมเดล ในแง่ของวิธีการพยากรณ์การให้ความน่าจะเป็นที่คาดการณ์ว่าสำหรับต่างๆนั้นเป็นวิธีที่ดีและไม่จำเป็นต้องตัดสินใจเอง เมื่อดูที่ฮิสโตแกรมของความน่าจะเป็นที่คาดการณ์คุณสามารถตัดสินได้ว่าแบบจำลองนั้นมีประโยชน์อย่างไรเช่นความถี่นั้นมีความน่าจะเป็นที่แน่นอนมากขึ้นซึ่งใกล้เคียงกับ 0 หรือ 1 มากกว่า 0.5 jYjj
Frank Harrell

-1

ความสอดคล้องถูกกำหนดโดยการตรวจสอบคะแนนเฉลี่ยไม่ใช่คะแนนสูงสุด

ดังนั้นสำหรับตัวอย่างของคุณคะแนนเฉลี่ยสำหรับ 1 คือ 0 * 55.1% + 1 * 35.8% + 2 * 9.1% = 0.54 และ 2 คือ (ผ่านการคำนวณที่คล้ายกัน) 0.826

เป็นค่าที่คุณควรเปรียบเทียบเพื่อให้สอดคล้องหรือสถิติการเชื่อมโยงอื่น ๆ

Ref - http://support.sas.com/documentation/cdl/th/statug/63347/HTML/default/viewer.htm#statug_logistic_sect042.htm


3
ไม่ความสอดคล้องกันถูกคำนวณโดยใช้ตัวแปรผลลัพธ์ดิบและตัวทำนายเชิงเส้นหรือความน่าจะเป็นที่คาดการณ์ใด ๆ ซอมเมอร์ 'สัมประสิทธิ์สหสัมพันธ์อันดับใช้การวัดความสอดคล้องนี้ X β D x yYXβDxy
Frank Harrell

2
PS โปรดทราบว่าเอกสาร SAS ซึ่งเป็นการเขียนเอกสารต้นฉบับของฉันอีกครั้งสำหรับสารตั้งต้นที่SAS PROC LOGISTฉันเขียนเมื่อหลายปีก่อนตอนนี้ไม่ถูกต้องและสูตรสำหรับค่าเฉลี่ยนั้นไม่ถูกต้องยกเว้นว่าประกอบด้วยจำนวนเต็มต่อเนื่อง Y
Frank Harrell
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.