คุณคาดการณ์หมวดหมู่การตอบสนองอย่างไรตามรูปแบบการถดถอยโลจิสติกอันดับ

ฉันต้องการทำนายปัญหาสุขภาพ ฉันมีหมวดหมู่ผลลัพธ์ 3 รายการที่เรียงลำดับ: 'ปกติ', 'อ่อน' และ 'รุนแรง' ฉันต้องการที่จะทำนายสิ่งนี้จากตัวแปรทำนายสองตัว, ผลการทดสอบ (ความต่อเนื่อง, ช่วงเวลา covariate) และประวัติครอบครัวที่มีปัญหานี้ (ใช่หรือไม่ใช่) ในตัวอย่างของฉันความน่าจะเป็น 55% (ปกติ), 35% (ไม่รุนแรง) และ 10% (รุนแรง) ในแง่นี้ฉันสามารถทำนาย 'ปกติ' ได้เสมอและคิดถูก 55% ของเวลาแม้ว่ามันจะไม่ให้ข้อมูลกับฉันเกี่ยวกับคนไข้ ฉันพอดีกับรุ่นต่อไปนี้:

\begin{aligned} the cut point for \hat{(y \geq 1)} & = - 2.18 \\ the cut point for \hat{(y \geq 2)} & = - 4.27 \\ {\hat{β}}_{t e s t} & = 0.60 \\ {\hat{β}}_{f a m i l y h i s t o r y} & = 1.05 \end{aligned}

$\begin{align} \text{the cut point for }\widehat{(y \ge 1)} &= -2.18 \\ \text{the cut point for }\widehat{(y \ge 2)} &= -4.27 \\ \hat\beta_{\rm test} &= 0.60 \\ \hat\beta_{\rm family\ history} &= 1.05 \end{align}$

สมมติว่าไม่มีการโต้ตอบและทุกอย่างใช้ได้ดีกับตัวแบบ ความสอดคล้อง c คือ 60.5% ซึ่งฉันเข้าใจว่าเป็นความแม่นยำในการทำนายขั้นสูงสุดที่โมเดลใช้

ฉันเจอผู้ป่วยใหม่สองคนที่มีข้อมูลต่อไปนี้: 1. test = 3.26, family = 0; 2. test = 2.85, family = 1. ฉันต้องการทำนายการพยากรณ์โรค การใช้สูตร: (จากนั้นรับความแตกต่างระหว่าง ความน่าจะเป็นแบบสะสม) ฉันสามารถคำนวณการแจกแจงความน่าจะเป็นไปตามเงื่อนไขหมวดหมู่การตอบสนองของแบบจำลอง รหัส R (nb เนื่องจากปัญหาการปัดเศษผลลัพธ์ไม่ตรงกันอย่างสมบูรณ์):

\frac{\exp (- X β - c u t P o i n t)}{(1 + \exp (- X β - c u t P o i n t))}

$\frac{\exp(-X\beta - {\rm cutPoint})}{(1+\exp(-X\beta - {\rm cutPoint}))}$

cut1 <- -2.18
cut2 <- -4.27
beta <- c(0.6, 1.05)
X    <- rbind(c(3.26, 0), c(2.85, 1))

pred_cat1      <- exp(-1*(X%*%beta)-cut1)/(1+exp(-1*(X%*%beta)-cut1))
pred_cat2.temp <- exp(-1*(X%*%beta)-cut2)/(1+exp(-1*(X%*%beta)-cut2))
pred_cat3      <- 1-pred_cat2.temp
pred_cat2      <- pred_cat2.temp-pred_cat1

predicted_distribution <- cbind(pred_cat1, pred_cat2, pred_cat3)

กล่าวคือ 1. 0 = 55.1%, 1 = 35.8%, 2 = 9.1%; และ 2. 0 = 35.6%, 1 = 46.2%, 2 = 18.2% คำถามของฉันคือฉันจะไปจากการแจกแจงความน่าจะเป็นหมวดหมู่การตอบสนองที่คาดการณ์ได้อย่างไร

ฉันได้ลองหลายวิธีโดยใช้ข้อมูลตัวอย่างซึ่งเป็นที่รู้จักผลลัพธ์ ถ้าฉันเลือกค่าสูงสุด (ความน่าจะเป็น) ความแม่นยำคือ 57% การปรับปรุงเล็กน้อยสำหรับค่า null แต่ต่ำกว่าความสอดคล้อง ยิ่งไปกว่านั้นในตัวอย่างวิธีการนี้ไม่เคยเลือก 'รุนแรง' ซึ่งเป็นสิ่งที่ฉันอยากรู้ ฉันลองใช้วิธีแบบเบย์โดยแปลงค่าความน่าจะเป็นโมฆะและแบบจำลองให้เป็นอัตราต่อรองแล้วเลือกค่าสูงสุด (อัตราส่วนอัตราต่อรอง) สิ่งนี้จะเลือก 'รุนแรง' เป็นครั้งคราว แต่ให้ความแม่นยำที่ต่ำกว่า 49.5% ฉันยังลองผลรวมของหมวดหมู่ที่ถ่วงน้ำหนักด้วยความน่าจะเป็นและการปัดเศษ สิ่งนี้ไม่เคยเลือก 'รุนแรง' และมีความแม่นยำต่ำ 51.5%

สมการที่นำข้อมูลข้างต้นมาใช้และให้ความแม่นยำสูงสุด (60.5%) คืออะไร

logistic ordered-logit

— gung - Reinstate Monica
แหล่งที่มา

คำตอบ:

คุณกำลังก้าวกระโดดที่คุณต้องจำแนกค่าที่ทำนายไว้ ความจริงที่ว่าวิธีการของคุณไม่เคยเลือกหมวดหมู่ "รุนแรง" เป็นผลมาจากลักษณะของปัญหาที่ไม่ต่อเนื่องและ "รุนแรง" นั้นไม่บ่อยนัก ด้วยโมเดลการตอบสนองตามลำดับคุณสามารถใช้ความน่าจะเป็นที่เกินได้ด้วยตัวเอง (สำหรับทุกประเภทยกเว้นหนึ่งหมวดหมู่) หรือเพียงแค่อ้างถึงความน่าจะเป็นแต่ละอย่าง หากมีการปรับช่วงเวลาโดยประมาณคุณสามารถใช้ค่าเฉลี่ยที่ทำนาย เหล่านี้ที่มีอยู่ทั้งหมดใน R แพคเกจและฟังก์ชั่นที่เกี่ยวข้อง หลายคนคิดว่าการจำแนกประเภทเป็นเป้าหมายเมื่อการทำนายความเสี่ยงเป็นเป้าหมายที่แท้จริง $Y$ rmslrmpredict.lrm

— Frank Harrell
แหล่งที่มา

ขอบคุณสำหรับความช่วยเหลือของคุณ. ฉันสงสัยว่าความถี่ต่ำที่รุนแรงเป็นส่วนหนึ่งของปัญหา ฉันคิดว่า raw Y ของฉัน 0 1 2 เป็นช่วงเวลาที่เท่ากันไม่เพียงพอ ฉันรวบรวมเป้าหมายของฉันถูกเข้าใจผิด แต่ฉันคิดว่าฉันต้องการที่จะรู้ว่าสิ่งที่ประเภทของผู้ป่วยใหม่ที่จะตกอยู่ใน / ไม่เข้าใจสิ่งที่เป้าหมายของฉันควรจะเป็น เป็นไปได้หรือไม่ที่จะให้ข้อมูลเชิงลึกมากขึ้น (อันที่จริงฉันสงสัยว่า CV ไม่ใช่ฟอรัมสำหรับบทเรียนที่สมบูรณ์หรือคุณรู้ว่าฉันสามารถเรียนรู้เกี่ยวกับปัญหานี้ได้จากที่ใดฉันได้อ่านหัวข้อจาก Logest ของ Agresti Intro & Hosmer & Lemeshow แต่ไม่มีประโยชน์)

— gung - Reinstate Monica

เป้าหมายขับเคลื่อนด้วยการตัดสินใจที่จำเป็นหรือเรื่อง หากคุณระบุเป้าหมายสูงสุดฉันอาจแสดงความคิดเห็นได้

— Frank Harrell

ขออภัยเกี่ยวกับการขาดความชัดเจนของฉันดูเหมือนว่าจะมีปัญหาข้างต้น ในปัจจุบันฉันต้องการที่จะสามารถคาดการณ์ผลลัพธ์สำหรับผู้ป่วยรายใหม่ ในระยะยาวฉันต้องการทำความเข้าใจกับ log log reg ดีขึ้นเช่นคุณจะได้รับส่วนที่เหลือได้อย่างไรถ้าคุณไม่ได้คาดคะเนหมวดหมู่ ฉันรวบรวมความแม่นยำได้ดีขึ้นเล็กน้อย แต่ก็ไม่รู้ว่าจะรับได้อย่างไร ฉันแน่ใจว่าคุณไม่มีเวลาที่จะอธิบายทุกอย่าง แต่ไม่ใช่ Agresti และ H&L ไม่พูดอะไรเกี่ยวกับการคาดการณ์หรือสิ่งที่เหลือเป็นต้นและฉันไม่สามารถหาอะไรได้เลยด้วย google ดังนั้นฉันถาม CV ฉันขอขอบคุณสำหรับความช่วยเหลืออย่างต่อเนื่องของคุณ

— gung - Reinstate Monica

กรุณาอธิบายความต้องการของคุณสำหรับส่วนที่เหลือ สิ่งเหล่านี้ไม่ได้อยู่ในส่วนภายในของโมเดล ในแง่ของวิธีการพยากรณ์การให้ความน่าจะเป็นที่คาดการณ์ว่าสำหรับต่างๆนั้นเป็นวิธีที่ดีและไม่จำเป็นต้องตัดสินใจเอง เมื่อดูที่ฮิสโตแกรมของความน่าจะเป็นที่คาดการณ์คุณสามารถตัดสินได้ว่าแบบจำลองนั้นมีประโยชน์อย่างไรเช่นความถี่นั้นมีความน่าจะเป็นที่แน่นอนมากขึ้นซึ่งใกล้เคียงกับ 0 หรือ 1 มากกว่า 0.5

Y \geq j

$Y\geq j$

j

$j$

— Frank Harrell

-1

ความสอดคล้องถูกกำหนดโดยการตรวจสอบคะแนนเฉลี่ยไม่ใช่คะแนนสูงสุด

ดังนั้นสำหรับตัวอย่างของคุณคะแนนเฉลี่ยสำหรับ 1 คือ 0 * 55.1% + 1 * 35.8% + 2 * 9.1% = 0.54 และ 2 คือ (ผ่านการคำนวณที่คล้ายกัน) 0.826

เป็นค่าที่คุณควรเปรียบเทียบเพื่อให้สอดคล้องหรือสถิติการเชื่อมโยงอื่น ๆ

Ref - http://support.sas.com/documentation/cdl/th/statug/63347/HTML/default/viewer.htm#statug_logistic_sect042.htm

— KalEl
แหล่งที่มา

ไม่ความสอดคล้องกันถูกคำนวณโดยใช้ตัวแปรผลลัพธ์ดิบและตัวทำนายเชิงเส้นหรือความน่าจะเป็นที่คาดการณ์ใด ๆ ซอมเมอร์ 'สัมประสิทธิ์สหสัมพันธ์อันดับใช้การวัดความสอดคล้องนี้

Y

$Y$

X β

$X\beta$

D_{x y}

$D_{xy}$

— Frank Harrell

PS โปรดทราบว่าเอกสาร SAS ซึ่งเป็นการเขียนเอกสารต้นฉบับของฉันอีกครั้งสำหรับสารตั้งต้นที่SAS PROC LOGISTฉันเขียนเมื่อหลายปีก่อนตอนนี้ไม่ถูกต้องและสูตรสำหรับค่าเฉลี่ยนั้นไม่ถูกต้องยกเว้นว่าประกอบด้วยจำนวนเต็มต่อเนื่อง

Y

$Y$

— Frank Harrell