การถดถอยโลจิสติกและจุดโรคติดเชื้อ


11

เรามีข้อมูลที่มีผลลัพธ์เป็นเลขฐานสองและเพื่อนร่วมทุนบางคน ฉันใช้การถดถอยโลจิสติกเพื่อทำแบบจำลองข้อมูล แค่การวิเคราะห์อย่างง่ายไม่มีอะไรพิเศษ ผลลัพธ์สุดท้ายควรจะเป็นเส้นโค้งการตอบสนองต่อปริมาณที่เราแสดงให้เห็นว่าความน่าจะเป็นเปลี่ยนแปลงสำหรับ covariate ที่เฉพาะเจาะจงอย่างไร บางสิ่งเช่นนี้

ป้อนคำอธิบายรูปภาพที่นี่

เราได้รับคำวิจารณ์จากผู้ตรวจสอบภายใน (ไม่ใช่นักสถิติบริสุทธิ์) สำหรับการเลือกการถดถอยโลจิสติก การถดถอยโลจิสติกถือว่า (หรือกำหนด) ว่าจุดผันของเส้นโค้งรูปตัว S ในระดับความน่าจะเป็นอยู่ที่ความน่าจะเป็น 0.5 เขาแย้งว่าจะไม่มีเหตุผลที่จะคิดว่าจุดเปลี่ยนความเว้าเป็นจริงที่ความน่าจะเป็น 0.5 และเราควรเลือกรูปแบบการถดถอยที่แตกต่างกันซึ่งช่วยให้จุดเปลี่ยนความเว้าแตกต่างกันไปตามตำแหน่งที่เกิดขึ้นจริง

ในตอนแรกฉันถูกจับโดยการโต้แย้งของเขาตั้งแต่ฉันไม่เคยคิดเกี่ยวกับประเด็นนี้ ฉันไม่มีข้อโต้แย้งใด ๆ ว่าทำไมจึงสมควรที่จะสันนิษฐานว่าจุดโรคติดเชื้ออยู่ที่ 0.5 หลังจากทำวิจัยแล้วฉันยังไม่มีคำตอบสำหรับคำถามนี้

ฉันเจอการถดถอยโลจิสติก 5 พารามิเตอร์ซึ่งจุดเปลี่ยนเป็นพารามิเตอร์เพิ่มเติม แต่ดูเหมือนว่ารูปแบบการถดถอยนี้มักจะใช้เมื่อสร้างเส้นโค้งการตอบสนองต่อปริมาณด้วยผลลัพธ์ที่ต่อเนื่อง ฉันไม่แน่ใจว่าสามารถขยายไปยังตัวแปรตอบกลับแบบไบนารี่ได้หรือไม่

ฉันเดาคำถามหลักของฉันคือทำไมหรือเมื่อไรที่สมมติว่าจุดเปลี่ยนของการถดถอยโลจิสติกอยู่ที่ 0.5 มันสำคัญหรือไม่ ฉันไม่เคยเห็นใครเหมาะกับโมเดลการถดถอยแบบโลจิสติกส์และพูดคุยอย่างชัดเจนในประเด็นของจุดโรคติดเชื้อ มีทางเลือกอื่นในการสร้างเส้นโค้งการตอบสนองปริมาณรังสีที่จุดผันน้ำไม่จำเป็นต้องอยู่ที่ 0.5 หรือไม่?

เพื่อความสมบูรณ์รหัส R สำหรับสร้างภาพด้านบน:

dat <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")
dat$rank <- factor(dat$rank)
logit <- glm(admit ~ gre + gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,ylab="Probability", xlab="Dose")

แก้ไข 1:

เพียงแค่เพิ่มสิ่งที่ Scortchi กล่าวไว้ในความคิดเห็นอย่างใดอย่างหนึ่ง: ผู้ตรวจสอบยืนยันว่าทางชีวภาพอาจเป็นไปได้ว่าการเปลี่ยนแปลงของความโค้งเกิดขึ้นเร็วกว่า 0.5 ดังนั้นความต้านทานของเขาต่อสมมติว่าจุดเปลี่ยนเป็น 0.5

แก้ไข 2:

เป็นปฏิกิริยาต่อความคิดเห็นโดย Frank Harrell:

ตัวอย่างเช่นฉันแก้ไขโมเดลของฉันด้านบนเพื่อรวมกำลังสองและเทอมลูกบาศก์ในgre(ซึ่งก็คือ "ปริมาณ" ในตัวอย่างนี้)

logit <- glm(admit ~ gre+I(gre^2)+I(gre^3)+  gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(admit=1, gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,xlim=c(-2000,4000),ylab="Probability", xlab="Dose")

ป้อนคำอธิบายรูปภาพที่นี่

แม้ว่าที่จริงแล้วมันอาจจะไม่มีความหมายที่จะเพิ่มกำลังสองและลูกบาศก์greเทอมในกรณีนี้เราจะเห็นว่ารูปแบบของเส้นโค้งการตอบสนองต่อยามีการเปลี่ยนแปลง ตอนนี้เรามีจุดเปลี่ยนสองจุดที่ประมาณ 0.25 และใกล้ 0.7


2
นั่นไม่ใช่เพียงแค่ถามเพื่อตรวจสอบความสัมพันธ์ที่ไม่เป็นเชิงเส้นตรงของตัวทำนายผลกับอัตราต่อรองของการตอบสนองหรือไม่?
Scortchi - Reinstate Monica

คำตอบ:


8

ดังที่สัมผัสโดย @ scortchi ผู้ตรวจทานทำงานภายใต้การแสดงผลที่ผิดพลาดซึ่งเป็นไปไม่ได้ที่จะสร้างแบบจำลองผลกระทบที่ไม่เชิงเส้นของตัวทำนายในระดับ logit ในบริบทของการถดถอยโลจิสติกส์ แบบจำลองดั้งเดิมนั้นรวดเร็วในการสมมติความเป็นเชิงเส้นของตัวทำนายทั้งหมด โดยการผ่อนคลายสมมติฐานเชิงเส้นตรงการใช้ตัวอย่างเช่นลูกบาศก์ Splines ที่ จำกัด (Splines ธรรมชาติ) รูปร่างทั้งหมดของเส้นโค้งนั้นมีความยืดหยุ่นและจุดโรคติดเชื้อจะไม่เป็นปัญหาอีกต่อไป หากมีตัวทำนายเดียวและขยายออกไปโดยใช้เส้นโค้งการถดถอยเราสามารถพูดได้ว่าแบบจำลองโลจิสติกส์สร้างเพียงสมมติฐานของความราบรื่นและความเป็นอิสระของการสังเกต


ฉันต้องยอมรับว่าฉันไม่คุ้นเคยกับการถดถอยเชิงเส้นมาก ฉันจะทำอย่างไรกับการถดถอยโลจิสติก (ใน R) ฉันแก้ไขโพสต์ดั้งเดิมของฉัน (แก้ไข 2) เพื่อรวมคำพหุนามในตัวทำนาย ฉันสามารถใช้สิ่งนี้เป็นทางเลือกในการทำให้เส้นโค้งเรียบ แน่นอนว่าฉันไม่มีความยืดหยุ่นเหมือนกับที่ฉันจะได้รับด้วยเส้นโค้ง
ฟรานซิส

1
@Franco: ตัวเองถดถอยการสร้างแบบจำลองกลยุทธ์แฟรงก์ Harrell ของ - หนังสือ , เว็บไซต์ , แพคเกจ R - ควรจะรับคุณไป การสนทนาสั้นของบางส่วนของข้อดีของเส้นโค้งการถดถอยเป็นที่นี่ ; แต่คุณคิดถูกแล้วว่าชื่อพหุนามเป็นอีกทางเลือกหนึ่ง
Scortchi - Reinstate Monica

4

สำหรับฉันแล้วผู้วิจารณ์กำลังมองหาบางสิ่งที่จะพูด ก่อนที่จะตรวจสอบคุณสมบัติดังกล่าวของสเปคเหมือนจุดโรคติดเชื้อโดยนัยที่มีตันของสมมติฐานที่เราได้ทำในการสั่งซื้อที่จะมาถึงรูปแบบการนับถือ ทั้งหมดอาจถูกตั้งคำถามและถกเถียงกัน - การใช้ฟังก์ชันโลจิสติกส์นั้นเป็นเป้าหมายหลักที่เป็นไปได้: ใครบอกเราว่าการแจกแจงเงื่อนไขของคำผิดพลาดพื้นฐานคือโลจิสติก ไม่มีใคร

ดังนั้นปัญหาคือ: การเปลี่ยนแปลงของความโค้งหมายถึงอะไร? สิ่งสำคัญสำหรับปรากฏการณ์โลกแห่งความจริงที่อยู่ระหว่างการศึกษาอาจเป็นจุดที่การเปลี่ยนแปลงของความโค้งเกิดขึ้นดังนั้นเราจะพิจารณาทำให้เป็น "การขับเคลื่อนข้อมูล" ย้ายออกห่างจากหลักการของความประหยัด?

คำถามไม่ได้ "ทำไมจุดเปลี่ยนควรอยู่ที่ 0.5?" แต่ "มันอาจทำให้เข้าใจผิดได้อย่างไรสำหรับบทสรุปของเราถ้ามันเหลือที่ 0.5?"


2
ดูเหมือนว่าไม่เป็นอันตรายเล็กน้อย เราไม่ทราบว่าผู้ตรวจทานไม่มีเหตุผลที่ดีที่จะท้าทายสมมติฐานนี้มากกว่าคนอื่น ๆ ที่เขาอาจท้าทาย ออกไปด้านหนึ่งโดยวิธีแปลก ๆ ในการวางในรูปแบบของคะแนนการผัน & ความเข้าใจผิดที่เป็นไปได้เกี่ยวกับการถดถอยโลจิสติกและเขาโดยทั่วไปถามว่าทำไมแบบจำลองทำให้การเปลี่ยนแปลงโค้งและยืด แต่ไม่โค้งงอซึ่งอาจสมควรได้รับคำตอบ
Scortchi - Reinstate Monica

@Scortchi "วิธีที่แปลกของการวาง" ... "ความเข้าใจผิดที่เป็นไปได้เกี่ยวกับการถดถอยโลจิสติก" ... ถ้านี่คือสิ่งที่จะใช้ในการหาเหตุผลเข้าข้างตนเองวิจารณ์วิจารณ์ของผู้วิจารณ์เขาไม่ควรตรวจสอบกระดาษหลังจากทั้งหมด
Alecos Papadopoulos

1
เช่นเดียวกับ @Scortchi ฉันพบว่ามันคมเกินไปเล็กน้อย ผู้คนที่กระตือรือร้นจำนวนมากที่นี่มีภูมิหลังทางวิทยาศาสตร์ที่หลากหลายมากกว่าสถิติกระแส การเป็นนักสถิติบริสุทธิ์หรืออย่างอื่นนั้นไม่จำเป็นและไม่เพียงพอที่จะให้คำแนะนำที่ดี (แม้ว่าในเกือบทุกกรณีจะช่วยได้อย่างชัดเจน)
Nick Cox

@ Nick Cox ฉันยอมรับ "ความคมชัด" และฉันเพิ่งลบประโยคสุดท้ายของฉันเป็นสัญญาณของฉันทามติ ประเด็นของฉันคือการตั้งคำถามในลักษณะโดยทั่วไปสมมติฐานของตัวแบบไม่มีค่า - โมเดลมักเป็นเท็จ ดังนั้นหากความน่าจะเป็นที่การเปลี่ยนแปลงความโค้งมีความสำคัญอย่างยิ่งต่อปรากฏการณ์โลกแห่งความจริงที่อยู่ระหว่างการศึกษาผู้ตรวจสอบนั้นถูกต้องอย่างแท้จริงที่จะถามว่าประเด็นนี้กลายเป็นตัวขับเคลื่อนข้อมูล แต่ถ้าผู้ตรวจทานให้ความเห็น "ทำไมที่ p = 0.5 และไม่ใช่ที่อื่น?" ความคิดเห็นนี้ไม่สร้างสรรค์
Alecos Papadopoulos

2
ขอบคุณสำหรับสิ่งนี้. ฉันเห็นด้วยกับท่าทางทั่วไปของคุณ: (a) การอภิปรายเกี่ยวกับข้อดีของวิธีการที่แตกต่างกันและ (b) การอภิปรายว่าเราควรหารือเรื่องเหล่านั้นอย่างไรทั้งสองเป็นเกมที่ยุติธรรม ความคิดเห็นของบุคคลหรือกลุ่มต่าง ๆ โดยทั่วไปจะไม่เป็นประโยชน์ (แม้ว่าบางครั้งฉันก็ข้ามเส้นด้วยความโมโห ... )
Nick Cox

0

ใน mho, logit regression เป็นตัวเลือกที่สมเหตุสมผลสำหรับการตอบสนองต่อปริมาณ แน่นอนคุณสามารถใช้ probit, log-log, ลิงค์ c-log-log และเปรียบเทียบความดีของความพอดี (DEV, BIC, CAIC, ฯลฯ ) แต่การถดถอยแบบ logit ที่ง่ายที่สุดให้การประเมินอย่างเป็นทางการที่สะดวกสบายของจุดโรคติดเชื้อ LD50 = -b0 / b1 เราจำได้ว่ามันเป็นจุดเฉพาะที่เราได้รับความไม่แน่นอนขั้นต่ำ (เช่น LD16, LD84 และอื่น ๆ จะมี CI ที่กว้างขึ้นดู "การวิเคราะห์ Probit" ของ Finney, 1947, 1977) จากประสบการณ์ของฉัน เสมอ (?) เป็นการดีกว่าที่จะใช้ลอการิทึมปริมาณแล้วแปลง 95% CI ในระดับเดิมธรรมชาติของ covariates อื่น ๆ ในแบบจำลองคืออะไรฉันหมายถึงความเป็นไปได้ที่จะใช้วิธีการหลายรูปแบบ ... แน่นอน Splines นั้นมีความยืดหยุ่น แต่การตีความแบบพารามิเตอร์อย่างเป็นทางการนั้นง่ายกว่า!

ดูhttp://www.epa.gov/ncea/bmds/bmds_training/software/overp.htm


0

จุดเบี่ยงเบน 0.5 เป็นเพียงส่วนเล็ก ๆ ของคำถามที่มีขนาดใหญ่กว่า: สมการโลจิสติกคือการสร้างสมมาตร และในส่วนของผลที่ได้จากการจำลองนั้นมีเหตุผลที่จะสมมาตร เช่นเมื่อผู้เล่นคนหนึ่งชนะผู้เล่นคนอื่นที่แพ้หรือผลที่เกิดจากความอิ่มตัวคือผลกระทบทางกายภาพที่มีผลต่อการเจริญเติบโตเริ่มต้น ฯลฯ ดังนั้นหากมีเหตุผลว่าทำไมต้นกำเนิดของพฤติกรรม X ต่ำเป็นแหล่งกำเนิดเดียวกัน ในฐานะมือขวาที่ประพฤติไม่ดีหรือด้วยเหตุผลอื่นใดปัญหานั้นมีความสมมาตรดังนั้นคุณจึงมีเหตุผลของคุณ

ถ้าไม่ใช่บางทีแบบจำลองที่ง่ายที่สุดถัดไปคือสมการโลจิสติกทั่วไป มันมีพารามิเตอร์มากขึ้นและคุณอาจต้องการเพิ่มข้อ จำกัด ดังนั้นมันจึงไม่ใช่พารามิเตอร์อิสระทั้งหมด นี่อาจเป็นที่ต้องการมากกว่า kludges ที่คุณเพิ่มเพราะมันเพิ่มชั้นวางซึ่งอนุพันธ์อันดับแรกสั่นไปมา - สิ่งนั้นมีแนวโน้มที่จะสร้างจุดเท็จสมมติของดุลยภาพท้องถิ่นถ้าคุณพยายามเพิ่มประสิทธิภาพความคาดหวังของสิ่งนี้ การกระจาย รูปแบบทั่วไปจะทำลายความสมมาตร แต่อย่างราบรื่น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.