มันเหมาะสมหรือไม่ที่จะใช้ Logistic regression กับผลลัพธ์ไบนารีและตัวทำนาย


18

ฉันมีตัวแปรผลลัพธ์ไบนารี {0,1} และตัวแปรตัวทำนาย {0,1} ความคิดของฉันคือว่ามันไม่สมเหตุสมผลที่จะทำเรื่องโลจิสติกส์ยกเว้นว่าฉันรวมตัวแปรอื่น ๆ และคำนวณอัตราต่อรอง

ด้วยตัวทำนายไบนารีหนึ่งจะไม่คำนวณอัตราส่วนความน่าจะเป็นที่พอเพียงเทียบกับอัตราต่อรองหรือไม่

คำตอบ:


26

ในกรณีนี้คุณสามารถยุบข้อมูลของคุณเป็น โดยที่S i jคือจำนวนอินสแตนซ์สำหรับx = iและy = jกับi , j { 0 , 1 } . สมมติว่ามีnสังเกตโดยรวม

XY010S00S011S10S11
Sijx=iy=ji,j{0,1}n

ถ้าเราให้พอดีกับรูปแบบ (ที่กรัมเป็นฟังก์ชั่นการเชื่อมโยงของเรา) เราจะพบว่าβ 0คือ logit ของสัดส่วนของความสำเร็จเมื่อx ฉัน = 0และเบต้า 0 + β 1เป็น logit ของสัดส่วนของความสำเร็จเมื่อนั้นpi=g1(xiTβ)=g1(β0+β11xi=1)gβ^0xผม=0β^0+β^1 1 ในคำอื่น β 0 = กรัม( S 01xผม=1 และ β 0+ β 1=กรัม(S11

β^0=ก.(S01S00+S01)
β^0+β^1=ก.(S11S10+S11).

ตรวจสอบสิ่งนี้Rกัน

n <- 54
set.seed(123)
x <- rbinom(n, 1, .4)
y <- rbinom(n, 1, .6)

tbl <- table(x=x,y=y)

mod <- glm(y ~ x, family=binomial())

# all the same at 0.5757576
binomial()$linkinv( mod$coef[1])
mean(y[x == 0])
tbl[1,2] / sum(tbl[1,])

# all the same at 0.5714286
binomial()$linkinv( mod$coef[1] + mod$coef[2])
mean(y[x == 1])
tbl[2,2] / sum(tbl[2,])

ดังนั้นสัมประสิทธิ์การถดถอยแบบโลจิสติกส์คือการแปลงสัดส่วนที่มาจากตาราง

ผลที่สุดคือเราสามารถวิเคราะห์ชุดข้อมูลนี้ได้ด้วยการถดถอยโลจิสติกถ้าเรามีข้อมูลที่มาจากชุดของตัวแปรสุ่มของเบอร์นูลลี แต่ปรากฎว่าไม่แตกต่างจากการวิเคราะห์ตารางฉุกเฉินโดยตรงที่เกิดขึ้น


ฉันต้องการแสดงความคิดเห็นว่าทำไมสิ่งนี้ถึงได้ผลในมุมมองทางทฤษฎี เมื่อเราเหมาะสมกับการถดถอยโลจิสติกเรากำลังใช้โมเดลที่ ) จากนั้นเราตัดสินใจที่จะสร้างแบบจำลองค่าเฉลี่ยเป็นการเปลี่ยนแปลงของเส้นทำนายในx ฉันหรือในสัญลักษณ์P ฉัน = กรัม- 1 ( β 0 + β 1 x ฉัน ) ในกรณีของเราเรามีค่าเฉพาะสองค่าของx iและดังนั้นจึงมีค่าเฉพาะสองค่าของpYผม|xผม~กรุงเบอร์น(พีผม)xผมพีผม=ก.-1(β0+β1xผม)xผมพูด P 0และ P 1 เนื่องจากข้อสันนิษฐานอิสระของเราเรามี , p 1 ) . สังเกตว่าเราใช้ความจริงที่ว่าพีผมพี0พี1 และ i : x i = 1 Yi=S 11Bin ( n 1

Σผม:xผม=0Yผม=S01~ถัง(n0,พี0)
Σผม:xผม=1Yผม=S11~ถัง(n1,พี1).
และในทางกลับ n 0และ n 1เป็น nonrandom: ถ้ากรณีนี้ไม่ได้แล้วเหล่านี้จะไม่จำเป็นต้องเป็นทวินามxผมn0n1

ซึ่งหมายความว่า

S01/n0=S01S00+S01พีพี0 และ S11/n1=S11S10+S11พีพี1.

Yผม|xผม=J~กรุงเบอร์น(พีJ)SJ1~ถัง(nJ,พีJ)


1

เมื่อคุณมีตัวทำนายมากกว่าหนึ่งตัวและตัวทำนายทั้งหมดเป็นตัวแปรไบนารีคุณสามารถใส่แบบจำลองโดยใช้ลอจิกถดถอย [1] (โปรดทราบว่ามันคือ "ลอจิก" ไม่ใช่ "โลจิสติก") มันมีประโยชน์เมื่อคุณเชื่อว่าเอฟเฟกต์การโต้ตอบระหว่างผู้ทำนายของคุณโดดเด่น มีการนำไปใช้ใน R ( LogicRegแพ็คเกจ)

[1] Ruczinski, I. , Kooperberg, C. , & LeBlanc, M. (2003) การถดถอยเชิงตรรกะ สมุดรายวันของสถิติการคำนวณและกราฟิก, 12 (3), 475-511


1
คำถามนี้เกี่ยวกับผู้ลงทะเบียนหนึ่งรายเท่านั้นดังนั้นคำตอบของคุณจะเป็นความคิดเห็นที่ดีขึ้น
Richard Hardy
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.