เมื่อการสร้างแบบจำลองสัดส่วนอย่างต่อเนื่อง (เช่นพืชพรรณตามสัดส่วนที่ quadrats สำรวจหรือสัดส่วนของเวลาในกิจกรรม) การถดถอยโลจิสติกถือว่าไม่เหมาะสม (เช่นWarton & Hui (2011) Arcsine เป็น asinine: การวิเคราะห์สัดส่วนในระบบนิเวศ ) แต่การถดถอยของ OLS หลังจาก logit-transform สัดส่วนหรือบางทีการถดถอยเบต้ามีความเหมาะสมมากกว่า
การประมาณค่าสัมประสิทธิ์ของการถดถอยแบบ logit-linear และ logistic regression แตกต่างกันอย่างไรเมื่อใช้ R's lmและglm?
ใช้ชุดข้อมูลจำลองต่อไปนี้ซึ่งเราสามารถสันนิษฐานได้ว่าpเป็นข้อมูลดิบของเรา (เช่นสัดส่วนต่อเนื่องแทนที่จะแสดง ):
set.seed(1)
x <- rnorm(1000)
a <- runif(1)
b <- runif(1)
logit.p <- a + b*x + rnorm(1000, 0, 0.2)
p <- plogis(logit.p)
plot(p ~ x, ylim=c(0, 1))

การติดตั้งโมเดล logit-linear เราได้รับ:
summary(lm(logit.p ~ x))
## 
## Call:
## lm(formula = logit.p ~ x)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.64702 -0.13747 -0.00345  0.15077  0.73148 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 0.868148   0.006579   131.9   <2e-16 ***
## x           0.967129   0.006360   152.1   <2e-16 ***
## ---
## Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
## 
## Residual standard error: 0.208 on 998 degrees of freedom
## Multiple R-squared:  0.9586, Adjusted R-squared:  0.9586 
## F-statistic: 2.312e+04 on 1 and 998 DF,  p-value: < 2.2e-16
อัตราผลตอบแทนการถดถอยโลจิสติก:
summary(glm(p ~ x, family=binomial))
## 
## Call:
## glm(formula = p ~ x, family = binomial)
## 
## Deviance Residuals: 
##      Min        1Q    Median        3Q       Max  
## -0.32099  -0.05475   0.00066   0.05948   0.36307  
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)    
## (Intercept)  0.86242    0.07684   11.22   <2e-16 ***
## x            0.96128    0.08395   11.45   <2e-16 ***
## ---
## Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 176.1082  on 999  degrees of freedom
## Residual deviance:   7.9899  on 998  degrees of freedom
## AIC: 701.71
## 
## Number of Fisher Scoring iterations: 5
## 
## Warning message:
## In eval(expr, envir, enclos) : non-integer #successes in a binomial glm!
การประมาณค่าสัมประสิทธิ์การถดถอยโลจิสติกจะไม่เสมอภาคกับการประมาณของตัวแบบเชิงเส้นของ logit หรือไม่?
family=binomialแสดงให้เห็นว่าตัวแปรตามหมายถึงการนับทวินาม - ไม่ได้สัดส่วน และจะglmรู้ได้อย่างไรว่า0.1เป็น "หนึ่งในสิบ" และไม่ใช่ "หนึ่งในสิบ" ในขณะที่สัดส่วนไม่แตกต่างกัน แต่สิ่งนี้มีนัยสำคัญสำหรับวิธีการคำนวณข้อผิดพลาดมาตรฐาน
                weightsARG (แม้ว่านี่ไม่ใช่สิ่งที่ฉันพยายามในโพสต์ของฉันที่ฉันได้วิเคราะห์ข้อมูลอย่างไม่ถูกต้อง)
                
0.1นั้นมี "ถูก" กล่าวว่าการทดลองอิสระ 10 ครั้งให้ผลสำเร็จหนึ่งครั้ง สำหรับตัวแบบเชิงเส้นนั้น0.1เป็นเพียงค่าบางค่าโดยพลการ