ในกรณีนี้คุณสามารถยุบข้อมูลของคุณเป็น
โดยที่S i jคือจำนวนอินสแตนซ์สำหรับx = iและy = jกับi , j ∈ { 0 , 1 } . สมมติว่ามีnสังเกตโดยรวม
X∖Y010S00S101S01S11
Sijx=iy=ji,j∈{0,1}n
ถ้าเราให้พอดีกับรูปแบบ (ที่กรัมเป็นฟังก์ชั่นการเชื่อมโยงของเรา) เราจะพบว่าβ 0คือ logit ของสัดส่วนของความสำเร็จเมื่อx ฉัน = 0และเบต้า 0 + β 1เป็น logit ของสัดส่วนของความสำเร็จเมื่อนั้นpi=g−1(xTiβ)=g−1(β0+β11xi=1)gβ^0xผม= 0β^0+ β^1 1 ในคำอื่น ๆ
β 0 = กรัม( S 01xผม= 1
และ
β 0+ β 1=กรัม(S11
β^0= g( S01S00+ S01)
β^0+ β^1= g( S11S10+ S11) .
ตรวจสอบสิ่งนี้R
กัน
n <- 54
set.seed(123)
x <- rbinom(n, 1, .4)
y <- rbinom(n, 1, .6)
tbl <- table(x=x,y=y)
mod <- glm(y ~ x, family=binomial())
# all the same at 0.5757576
binomial()$linkinv( mod$coef[1])
mean(y[x == 0])
tbl[1,2] / sum(tbl[1,])
# all the same at 0.5714286
binomial()$linkinv( mod$coef[1] + mod$coef[2])
mean(y[x == 1])
tbl[2,2] / sum(tbl[2,])
ดังนั้นสัมประสิทธิ์การถดถอยแบบโลจิสติกส์คือการแปลงสัดส่วนที่มาจากตาราง
ผลที่สุดคือเราสามารถวิเคราะห์ชุดข้อมูลนี้ได้ด้วยการถดถอยโลจิสติกถ้าเรามีข้อมูลที่มาจากชุดของตัวแปรสุ่มของเบอร์นูลลี แต่ปรากฎว่าไม่แตกต่างจากการวิเคราะห์ตารางฉุกเฉินโดยตรงที่เกิดขึ้น
ฉันต้องการแสดงความคิดเห็นว่าทำไมสิ่งนี้ถึงได้ผลในมุมมองทางทฤษฎี เมื่อเราเหมาะสมกับการถดถอยโลจิสติกเรากำลังใช้โมเดลที่ ) จากนั้นเราตัดสินใจที่จะสร้างแบบจำลองค่าเฉลี่ยเป็นการเปลี่ยนแปลงของเส้นทำนายในx ฉันหรือในสัญลักษณ์P ฉัน = กรัม- 1 ( β 0 + β 1 x ฉัน ) ในกรณีของเราเรามีค่าเฉพาะสองค่าของx iและดังนั้นจึงมีค่าเฉพาะสองค่าของpYผม| xผม~⊥เบิร์น( พีผม)xผมพีผม= g- 1( β0+ β1xผม)xผมพูด P 0และ P 1 เนื่องจากข้อสันนิษฐานอิสระของเราเรามี
, p 1 ) .
สังเกตว่าเราใช้ความจริงที่ว่าพีผมพี0พี1
และ
∑ i : x i = 1 Yi=S 11 ∼Bin ( n 1
Σฉัน: xผม= 0Yผม= S01∼ Bin ( n0, p0)
Σฉัน: xผม= 1Yผม= S11∼ Bin ( n1, p1) .
และในทางกลับ
n 0และ
n 1เป็น nonrandom: ถ้ากรณีนี้ไม่ได้แล้วเหล่านี้จะไม่จำเป็นต้องเป็นทวินาม
xผมn0n1
ซึ่งหมายความว่า
S01/ n0= S01S00+ S01→พีพี0 และ S11/ n1= S11S10+ S11→พีพี1.
Yผม| xผม= j ∼ เบิร์น( pJ)Sj 1∼ Bin ( nJ, pJ)