เรามีข้อมูลที่มีผลลัพธ์เป็นเลขฐานสองและเพื่อนร่วมทุนบางคน ฉันใช้การถดถอยโลจิสติกเพื่อทำแบบจำลองข้อมูล แค่การวิเคราะห์อย่างง่ายไม่มีอะไรพิเศษ ผลลัพธ์สุดท้ายควรจะเป็นเส้นโค้งการตอบสนองต่อปริมาณที่เราแสดงให้เห็นว่าความน่าจะเป็นเปลี่ยนแปลงสำหรับ covariate ที่เฉพาะเจาะจงอย่างไร บางสิ่งเช่นนี้
เราได้รับคำวิจารณ์จากผู้ตรวจสอบภายใน (ไม่ใช่นักสถิติบริสุทธิ์) สำหรับการเลือกการถดถอยโลจิสติก การถดถอยโลจิสติกถือว่า (หรือกำหนด) ว่าจุดผันของเส้นโค้งรูปตัว S ในระดับความน่าจะเป็นอยู่ที่ความน่าจะเป็น 0.5 เขาแย้งว่าจะไม่มีเหตุผลที่จะคิดว่าจุดเปลี่ยนความเว้าเป็นจริงที่ความน่าจะเป็น 0.5 และเราควรเลือกรูปแบบการถดถอยที่แตกต่างกันซึ่งช่วยให้จุดเปลี่ยนความเว้าแตกต่างกันไปตามตำแหน่งที่เกิดขึ้นจริง
ในตอนแรกฉันถูกจับโดยการโต้แย้งของเขาตั้งแต่ฉันไม่เคยคิดเกี่ยวกับประเด็นนี้ ฉันไม่มีข้อโต้แย้งใด ๆ ว่าทำไมจึงสมควรที่จะสันนิษฐานว่าจุดโรคติดเชื้ออยู่ที่ 0.5 หลังจากทำวิจัยแล้วฉันยังไม่มีคำตอบสำหรับคำถามนี้
ฉันเจอการถดถอยโลจิสติก 5 พารามิเตอร์ซึ่งจุดเปลี่ยนเป็นพารามิเตอร์เพิ่มเติม แต่ดูเหมือนว่ารูปแบบการถดถอยนี้มักจะใช้เมื่อสร้างเส้นโค้งการตอบสนองต่อปริมาณด้วยผลลัพธ์ที่ต่อเนื่อง ฉันไม่แน่ใจว่าสามารถขยายไปยังตัวแปรตอบกลับแบบไบนารี่ได้หรือไม่
ฉันเดาคำถามหลักของฉันคือทำไมหรือเมื่อไรที่สมมติว่าจุดเปลี่ยนของการถดถอยโลจิสติกอยู่ที่ 0.5 มันสำคัญหรือไม่ ฉันไม่เคยเห็นใครเหมาะกับโมเดลการถดถอยแบบโลจิสติกส์และพูดคุยอย่างชัดเจนในประเด็นของจุดโรคติดเชื้อ มีทางเลือกอื่นในการสร้างเส้นโค้งการตอบสนองปริมาณรังสีที่จุดผันน้ำไม่จำเป็นต้องอยู่ที่ 0.5 หรือไม่?
เพื่อความสมบูรณ์รหัส R สำหรับสร้างภาพด้านบน:
dat <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")
dat$rank <- factor(dat$rank)
logit <- glm(admit ~ gre + gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,ylab="Probability", xlab="Dose")
แก้ไข 1:
เพียงแค่เพิ่มสิ่งที่ Scortchi กล่าวไว้ในความคิดเห็นอย่างใดอย่างหนึ่ง: ผู้ตรวจสอบยืนยันว่าทางชีวภาพอาจเป็นไปได้ว่าการเปลี่ยนแปลงของความโค้งเกิดขึ้นเร็วกว่า 0.5 ดังนั้นความต้านทานของเขาต่อสมมติว่าจุดเปลี่ยนเป็น 0.5
แก้ไข 2:
เป็นปฏิกิริยาต่อความคิดเห็นโดย Frank Harrell:
ตัวอย่างเช่นฉันแก้ไขโมเดลของฉันด้านบนเพื่อรวมกำลังสองและเทอมลูกบาศก์ในgre
(ซึ่งก็คือ "ปริมาณ" ในตัวอย่างนี้)
logit <- glm(admit ~ gre+I(gre^2)+I(gre^3)+ gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(admit=1, gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,xlim=c(-2000,4000),ylab="Probability", xlab="Dose")
แม้ว่าที่จริงแล้วมันอาจจะไม่มีความหมายที่จะเพิ่มกำลังสองและลูกบาศก์gre
เทอมในกรณีนี้เราจะเห็นว่ารูปแบบของเส้นโค้งการตอบสนองต่อยามีการเปลี่ยนแปลง ตอนนี้เรามีจุดเปลี่ยนสองจุดที่ประมาณ 0.25 และใกล้ 0.7