ความแตกต่างระหว่างการถดถอยเชิงเส้นของ logit-transformed, การถดถอยโลจิสติกและการผสมแบบโลจิสติกคืออะไร?

10

สมมติว่าฉันมีนักเรียน 10 คนแต่ละคนพยายามแก้ปัญหาคณิตศาสตร์ 20 ข้อ ปัญหาคะแนนถูกต้องหรือไม่ถูกต้อง (ใน longdata) และประสิทธิภาพของนักเรียนแต่ละคนสามารถสรุปได้ด้วยการวัดความแม่นยำ (ใน subjdata) แบบจำลอง 1, 2 และ 4 ด้านล่างดูเหมือนจะให้ผลลัพธ์ที่แตกต่างกัน แต่ฉันเข้าใจว่าพวกเขากำลังทำสิ่งเดียวกัน ทำไมพวกเขาถึงให้ผลลัพธ์ที่แตกต่างกัน? (ฉันรวมโมเดล 3 ไว้สำหรับการอ้างอิง)

library(lme4)

set.seed(1)
nsubjs=10
nprobs=20
subjdata = data.frame('subj'=rep(1:nsubjs),'iq'=rep(seq(80,120,10),nsubjs/5))
longdata = subjdata[rep(seq_len(nrow(subjdata)), each=nprobs), ]
longdata$correct = runif(nsubjs*nprobs)<pnorm(longdata$iq/50-1.4)
subjdata$acc = by(longdata$correct,longdata$subj,mean)
model1 = lm(logit(acc)~iq,subjdata)
model2 = glm(acc~iq,subjdata,family=gaussian(link='logit'))
model3 = glm(acc~iq,subjdata,family=binomial(link='logit'))
model4 = lmer(correct~iq+(1|subj),longdata,family=binomial(link='logit'))

— user20061
แหล่งที่มา

ฉันยังลองการถดถอยเบต้า แต่มีข้อผิดพลาด ... library(betareg) model5 = betareg(acc~scale(iq),subjdata)

— user20061

library(car)จำเป็นสำหรับฟังก์ชัน logit

— user20061

1

มันอาจช่วยให้คุณอ่านคำตอบของฉันสองคำถามที่เกี่ยวข้อง: ความแตกต่างระหว่าง logit และ probit model (ซึ่งพูดถึงฟังก์ชั่นลิงค์ & GLiMs โดยทั่วไป - ความคิดเห็นท้ายท้ายระบุ 1 & 3 ของคุณ) และความแตกต่างระหว่างโมเดลเชิงเส้นทั่วไป & โมเดลเชิงเส้นผสมทั่วไป (ซึ่งอธิบายว่า 4 ของคุณแตกต่างจาก 1 & 3 อย่างไร)

— gung - Reinstate Monica

15

รุ่นที่ 1 และ 2 นั้นแตกต่างกันเพราะการแปลงครั้งแรกการตอบสนองและที่ 2 แปลงค่าที่คาดหวัง

สำหรับรุ่น 1 logit ของการตอบกลับแต่ละครั้งจะกระจายโดยทั่วไป ด้วยค่าเฉลี่ย เป็นฟังก์ชันเชิงเส้นของตัวทำนาย & ค่าสัมประสิทธิ์ & ดังนั้น สำหรับรุ่น 2 การตอบสนองของมันจะกระจายปกติ ด้วย logit ของค่าเฉลี่ยเป็นฟังก์ชันเชิงเส้นของตัวทำนายและสัมประสิทธิ์เวกเตอร์ & ดังนั้น

logit Y_{i} \sim N (μ_{i}, σ^{2})

$\newcommand{\logit}{\operatorname{logit}}\logit Y_i\sim\mathrm{N}\left(\mu_i,\sigma^2\right)$

μ_{i} = x_{i}^{'} β

$\mu_i=x_i'\beta$

Y_{i} = {logit}^{- 1} (x_{i}^{'} β + ε_{i})

$Y_i=\logit^{-1}\left(x_i'\beta+\varepsilon_i\right)$

Y_{i} \sim N (μ_{i}, σ^{2})

$\newcommand{\logit}{\operatorname{logit}} Y_i\sim\mathrm{N}\left(\mu_i,\sigma^2\right)$

logit μ_{i} = x_{i} β

$\logit\mu_i=x_i\beta$

Y_{i} = {logit}^{- 1} (x_{i}^{'} β) + ε_{i}

$Y_i=\logit^{-1}\left(x_i'\beta\right)+\varepsilon_i$

ดังนั้นโครงสร้างความแปรปรวนจะแตกต่างกัน ลองนึกภาพการจำลองจากรุ่น 2: ความแปรปรวนจะเป็นอิสระจากค่าที่คาดไว้ และแม้ว่าค่าที่คาดหวังของการตอบกลับจะอยู่ระหว่าง 0 & 1 แต่การตอบกลับจะไม่ทั้งหมด

ทั่วไปเชิงเส้นหลากหลายรูปแบบเช่นรุ่น 4 ของคุณจะแตกต่างกันอีกครั้งเพราะพวกเขามีผลกระทบสุ่ม: ดูที่นี่และที่นี่

— Scortchi - Reinstate Monica
แหล่งที่มา

ขอบคุณมาก - รุ่น 1 และ 2 รุ่นนี้มีความชัดเจนมากการใช้เหตุผลของคุณในแบบจำลอง 2 ทำนายคะแนนความแม่นยำ (แม้ว่าจะไม่ใช่ค่าที่คาดหวัง) ที่จะอยู่นอก [0,1] มีประโยชน์อย่างยิ่ง (และตัดสิทธิ์สำหรับวัตถุประสงค์ของฉัน ) ฉันเชื่อว่าสัญชาตญาณที่คล้ายกันสามารถใช้กับโมเดล 1: ช่วงของคะแนนความแม่นยำที่เป็นไปได้ที่คาดการณ์ไว้อยู่ใน (0,1) ไม่ใช่ [0,1] ด้วยคำถามจำนวน จำกัด แบบจำลองควรทำนายคะแนนความแม่นยำเป็น 0 หรือ 1 และการแจกแจงทวินามสามารถทำได้เช่นกัน

— user20061

2

โปรดทราบว่าคุณควรใส่ GLM ทวินามด้วยการเชื่อมโยง logit กับข้อมูลดิบ (ของคุณlongdata) ไม่ใช่สัดส่วนตามรุ่น 3 ของคุณ

— Scortchi - Reinstate Monica

7

+1 ถึง @Scortchi ซึ่งได้ให้คำตอบที่ชัดเจนและรัดกุม ฉันต้องการทำคะแนนเสริมสองสามข้อ ขั้นแรกสำหรับรุ่นที่สองของคุณคุณกำลังระบุว่าการกระจายคำตอบของคุณคือเกาส์เซียน (อาคาปกติ) สิ่งนี้จะต้องเป็นเท็จเพราะคำตอบแต่ละคะแนนนั้นถูกต้องหรือไม่ถูกต้อง นั่นคือแต่ละคำตอบคือการพิจารณาคดีของ Bernoulli ดังนั้นการกระจายการตอบสนองของคุณคือทวินาม แนวคิดนี้สะท้อนให้เห็นอย่างถูกต้องในโค้ดของคุณเช่นกัน ถัดไปความน่าจะเป็นที่ควบคุมการแจกแจงการตอบสนองจะถูกกระจายตามปกติดังนั้นลิงก์ควรเป็น probit ไม่ใช่ logit ท้ายที่สุดถ้านี่เป็นสถานการณ์จริงคุณจะต้องคำนึงถึงเอฟเฟ็กต์แบบสุ่มสำหรับทั้งวิชาและคำถามเนื่องจากพวกมันไม่เหมือนกันมาก วิธีที่คุณสร้างข้อมูลเหล่านี้สิ่งที่เกี่ยวข้องเพียงอย่างเดียวของแต่ละคนคือ IQ ของพวกเขา ซึ่งคุณคิดไว้อย่างชัดเจน ดังนั้นจึงไม่มีอะไรเหลือที่จะต้องพิจารณาด้วยเอฟเฟกต์แบบสุ่มในโมเดล สิ่งนี้ก็เป็นจริงสำหรับคำถามด้วยเช่นกันเนื่องจากความแตกต่างของการสุ่มในความยากของคำถามไม่ได้เป็นส่วนหนึ่งของกระบวนการสร้างข้อมูลในรหัสของคุณ

ฉันไม่ได้ตั้งใจจะไป nitpicking ที่นี่ ฉันรู้ว่าการตั้งค่าของคุณได้รับการออกแบบมาเพื่ออำนวยความสะดวกให้กับคำถามของคุณ @Scortchi สามารถที่จะตอบคำถามของคุณโดยตรงมากด้วยความยุ่งยากน้อยที่สุด อย่างไรก็ตามฉันชี้ให้เห็นสิ่งเหล่านี้เพราะพวกเขาให้โอกาสเพิ่มเติมในการเข้าใจสถานการณ์ที่คุณกำลังต่อสู้และเนื่องจากคุณอาจไม่ได้ตระหนักว่ารหัสของคุณตรงกับบางส่วนของเนื้อเรื่อง แต่ไม่ใช่คนอื่น ๆ

— gung - Reinstate Monica
แหล่งที่มา

ขอบคุณสำหรับความคิดที่ระมัดระวังเกี่ยวกับรหัสของฉัน ในฐานะคนที่ทำงานกับข้อมูลเชิงประจักษ์ฉันภูมิใจที่จะบอกว่าฉันไม่มีความเชี่ยวชาญในการสร้างข้อมูลปลอมและมันแสดงให้เห็นในข้อบกพร่องที่คุณระบุไว้ที่นี่ แม้ว่าความเข้าใจในระดับสามเณรของฉันก็อาจเปิดเผยตัวเองได้เช่นกัน

— user20061

ขอบคุณ gung ข้อมูลพิเศษนั้นมีประโยชน์และช่วยคนอื่น (อย่างน้อยฉัน) เข้าใจสถานการณ์ทั้งหมดดีขึ้นเล็กน้อย การจัดการกับวิธี GLM นั้นยาก

— Christopher Poile