กรณีของ "อคติการลดทอน" สามารถนำเสนอได้ชัดเจนยิ่งขึ้นถ้าเราตรวจสอบรูปแบบ "probit" - แต่ผลที่ได้จะนำไปสู่การถดถอยโลจิสติกด้วยเช่นกัน
ภายใต้โมเดลความน่าจะเป็นตามเงื่อนไข (Logistic (logit), "probit" และ "Linear Probability" รุ่น) เราสามารถกำหนดรูปแบบการถดถอยเชิงเส้นแฝง (ไม่สามารถสังเกตเห็นได้):
Y* * * *= Xβ+ u
ที่เป็นตัวแปรสำรวจอย่างต่อเนื่อง (และXเป็นเมทริกซ์ regressor) ที่ คำข้อผิดพลาดจะถือว่าเป็นอิสระจาก regressors และจะปฏิบัติตามการจัดจำหน่ายที่มีสมมาตรหนาแน่นรอบศูนย์และในกรณีของเราการกระจายปกติมาตรฐาน F U ( U ) = Φ ( U )Y* * * *XFยู(u)=Φ(u)
เราคิดว่าสิ่งที่เราสังเกตคือตัวแปรไบนารีเป็นฟังก์ชั่นตัวชี้วัดของการสำรวจปี* :yy∗
y=1ify∗>0,y=0ify∗≤0
จากนั้นเราถาม "ความน่าจะเป็นที่จะรับค่า1จาก regressors คืออะไร" (เช่นเรากำลังดูความน่าจะเป็นแบบมีเงื่อนไข) นี่คือy1
P(y=1∣X)=P(y∗>0∣X)=P(Xβ+u>0∣X)=P(u>−Xβ∣X)=1−Φ(−Xβ)=Φ(Xβ)
ความเท่าเทียมกันครั้งสุดท้ายเนื่องจากคุณสมบัติ "ไตร่ตรอง" ของฟังก์ชันการแจกแจงสะสมแบบมาตรฐานซึ่งมาจากสมมาตรของฟังก์ชันความหนาแน่นรอบศูนย์ โปรดทราบว่าแม้ว่าเราจะสันนิษฐานว่ามีความเป็นอิสระจากXจำเป็นต้องใช้การ จำกัดบนXเพื่อรักษาปริมาณX βเป็นแบบไม่สุ่มuXXXβ
ถ้าเราสมมุติว่าเราก็จะได้แบบจำลองเชิงทฤษฎีXβ=b0+b1X1+b2X2
P(y=1∣X)=Φ(b0+b1X1+b2X2)(1)
ให้ตอนนี้เป็นอิสระจากX 1และแยกออกจากสเปคของการถดถอยพื้นฐาน ดังนั้นเราจึงระบุX2X1
สมมติต่อไปว่า X 2ยังเป็นตัวแปรสุ่มปกติ X 2 ~ N ( μ 2 , σ 2 2 ) แต่นี่หมายความว่า
Y* * * *= b0+b1X1+ϵ
X2X2∼N(μ2,σ22)
ϵ=u+b2X2∼N(b2μ2,1+b22σ22)
เนื่องจากการปิดภายใต้นอกเหนือจากการกระจายปกติ (และสมมติฐานที่เป็นอิสระ) ใช้ตรรกะเดียวกันกับที่นี่เรามี
P(y=1∣X1)=P(y∗>0∣X1)=P(b0+b1X1+ϵ>0∣X1)=P(ϵ>−b0−b1X1∣X1)
ϵ
P(y=1∣X1)=1−P⎛⎝⎜ϵ−b2μ21+b22σ22−−−−−−−√≤−(b0+b2μ2)1+b22σ22−−−−−−−√−b11+b22σ22−−−−−−−√X1∣X1⎞⎠⎟
⇒P(y=1∣X1)=Φ⎛⎝⎜(b0+b2μ2)1+b22σ22−−−−−−−√+b11+b22σ22−−−−−−−√X1⎞⎠⎟(2)
and one can compare models (1) and (2).
The above theoretical expression, tells us where our maximum likelihood estimator of b1 is going to converge, since it remains a consistent estimator, in the sense that it will converge to the theoretical quantity that really exists in the model (and of course, not in the sense that it will find the "truth" in any case):
b^1→pb11+b22σ22−−−−−−−√⟹|b^1|<|b1|
which is the "bias towards zero" result.
We used the probit model, and not the logit (logistic regression), because only under normality can we derive the distribution of ϵ. The logistic distribution is not closed under addition. This means that if we omit a relevant variable in logistic regression, we also create distributional misspecification, because the error term (that now includes the omitted variable) no longer follows a logistic distribution. But this does not change the bias result (see footnote 6 in the paper linked to by the OP).