การถดถอยโลจิสติก: Bernoulli กับตัวแปรตอบสนองแบบทวินาม


32

ฉันต้องการทำการถดถอยโลจิสติกด้วยการตอบสนองทวินามต่อไปนี้และด้วยX1และX2เป็นตัวทำนายของฉัน

ป้อนคำอธิบายรูปภาพที่นี่

ฉันสามารถนำเสนอข้อมูลเดียวกับการตอบสนองของ Bernoulli ในรูปแบบต่อไปนี้

ป้อนคำอธิบายรูปภาพที่นี่

ผลลัพธ์การถดถอยโลจิสติกสำหรับชุดข้อมูล 2 ชุดนี้ส่วนใหญ่จะเหมือนกัน ส่วนเบี่ยงเบนความเบี่ยงเบนและ AIC นั้นแตกต่างกัน (ความแตกต่างระหว่างการเบี่ยงเบนแบบ null และการเบี่ยงเบนที่เหลืออยู่เหมือนกันในทั้งสองกรณี - 0.228)

ต่อไปนี้คือผลลัพธ์การถดถอยจาก R ชุดข้อมูลเรียกว่า binom.data และ bern.data

นี่คือเอาต์พุตทวินาม

Call:
glm(formula = cbind(Successes, Trials - Successes) ~ X1 + X2, 
    family = binomial, data = binom.data)

Deviance Residuals: 
[1]  0  0  0

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept)  -2.9649    21.6072  -0.137    0.891
X1Yes        -0.1897     2.5290  -0.075    0.940
X2            0.3596     1.9094   0.188    0.851

(Dispersion parameter for binomial family taken to be 1)

Null deviance:  2.2846e-01  on 2  degrees of freedom
Residual deviance: -4.9328e-32  on 0  degrees of freedom
AIC: 11.473

Number of Fisher Scoring iterations: 4

นี่คือผลลัพธ์ของ Bernoulli

Call:
glm(formula = Success ~ X1 + X2, family = binomial, data = bern.data)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.6651  -1.3537   0.7585   0.9281   1.0108  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept)  -2.9649    21.6072  -0.137    0.891
X1Yes        -0.1897     2.5290  -0.075    0.940
X2            0.3596     1.9094   0.188    0.851

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 15.276  on 11  degrees of freedom
Residual deviance: 15.048  on  9  degrees of freedom
AIC: 21.048

Number of Fisher Scoring iterations: 4

คำถามของฉัน:

1) ฉันเห็นว่าการประเมินจุดและข้อผิดพลาดมาตรฐานระหว่าง 2 แนวทางมีความเท่าเทียมกันในกรณีนี้ ความเท่าเทียมกันนี้เป็นจริงโดยทั่วไปหรือไม่?

2) คำตอบสำหรับคำถามที่ # 1 สามารถสร้างความชอบธรรมทางคณิตศาสตร์ได้อย่างไร?

3) เหตุใดค่าเบี่ยงเบนเบี่ยงเบนและ AIC จึงแตกต่างกัน

คำตอบ:


24

1) ใช่ คุณสามารถรวบรวม / ยกเลิกการรวมข้อมูลทวินามจากบุคคลที่มี covariates เดียวกัน นี่มาจากข้อเท็จจริงที่ว่าสถิติที่เพียงพอสำหรับแบบจำลองทวินามคือจำนวนเหตุการณ์ทั้งหมดสำหรับเวกเตอร์โควาเรียแต่ละตัว และเบอร์นูลลีเป็นเพียงกรณีพิเศษของทวินาม โดยสังเขปการทดลองใช้ของ Bernoulli แต่ละครั้งที่สร้างผลลัพธ์ทวินามเป็นอิสระดังนั้นจึงไม่ควรมีความแตกต่างระหว่างการนับสิ่งเหล่านี้เป็นผลลัพธ์เดียวหรือเป็นการทดลองแยกต่างหาก

2) บอกว่าเรามีเวกเตอร์ตัวแปรร่วมที่ไม่ซ้ำกันx 1 , x 2 , ... , x n , แต่ละที่มีผลทวินามในN ผมทดลองคือ Y ฉัน ~ B ฉันn ( N ผม , หน้าผม ) คุณได้ระบุไว้ แบบจำลองการถดถอยโลจิสติกดังนั้น l o gnx1,x2,,xnยังไม่มีข้อความผม

Yผม~Bผมn(ยังไม่มีข้อความผม,พีผม)
logit(pi)=k=1Kβkxik
แม้ว่าเราจะเห็นในภายหลังว่านี่ไม่สำคัญ

บันทึกความน่าจะเป็นของรุ่นนี้คือ และเราจะเพิ่มสิ่งนี้ให้มากที่สุดโดยคำนึงถึงβ(ในเงื่อนไขของpi) เพื่อรับค่าประมาณพารามิเตอร์ของเรา

(β;Y)=i=1nlog(NiYi)+Yilog(pi)+(NiYi)log(1pi)
βpi

ทีนี้ลองพิจารณาว่าสำหรับแต่ละเราแบ่งผลลัพธ์ทวินามเป็นN ฉันแต่ละผลลัพธ์ Bernoulli / ไบนารีตามที่คุณทำ สร้าง Z ฉัน1 , , Z ฉันY ฉัน = 1 Z ฉัน( Y ฉัน + 1 ) , , Z ฉันN ฉัน = 0 นั่นคือY ฉันแรกi=1,,nNi

Zi1,,ZiYi=1
Zi(Yi+1),,ZiNi=0
Yiคือ 1 วินาทีและส่วนที่เหลือคือ 0 นี่คือสิ่งที่คุณทำ - แต่คุณสามารถทำสิ่งแรกที่เท่าเทียมกันเป็น 0 และที่เหลือเป็น 1 วินาทีหรือการสั่งซื้ออื่น ๆ ใช่ไหม?(NiYi)

ZผมJ~BอีRnโอยูล.ล.ผม(พีผม)
พีผม และเนื่องจากวิธีที่เรากำหนด Z i j s ของเราสิ่งนี้สามารถทำให้ง่ายขึ้นเป็น (β;Y)= n i = 1 Y ฉันบันทึก( p i )+( N i - Y i )บันทึก(1- p i ) ซึ่งควรจะดูค่อนข้างคุ้นเคย
(β;Z)=Σผม=1nΣJ=1ยังไม่มีข้อความผมZผมJเข้าสู่ระบบ(พีผม)+(1-ZผมJ)เข้าสู่ระบบ(1-พีผม)
ZผมJ
(β;Y)=Σผม=1nYผมเข้าสู่ระบบ(พีผม)+(ยังไม่มีข้อความผม-Yผม)เข้าสู่ระบบ(1-พีผม)

βเข้าสู่ระบบ(ยังไม่มีข้อความผมYผม)β

Dผม=2[Yผมเข้าสู่ระบบ(Yผม/ยังไม่มีข้อความผมพี^ผม)+(ยังไม่มีข้อความผม-Yผม)เข้าสู่ระบบ(1-Yผม/ยังไม่มีข้อความผม1-พี^ผม)]
พี^ผมพี^ผม=Yผม/ยังไม่มีข้อความผมDผม=0ผม

DผมJ=2[ZผมJเข้าสู่ระบบ(ZผมJพี^ผม)+(1-ZผมJ)เข้าสู่ระบบ(1-ZผมJ1-พี^ผม)]
Σผม=1nยังไม่มีข้อความผมn
DผมJ=-2เข้าสู่ระบบ(พี^ผม)
DผมJ=-2เข้าสู่ระบบ(1-พี^ผม)
ZผมJ=10Jผม
Dผม=ΣJ=1ยังไม่มีข้อความผมDผมJ=2[Yผมเข้าสู่ระบบ(1พี^ผม)+(ยังไม่มีข้อความผม-Yผม)เข้าสู่ระบบ(11-พี^ผม)]

AผมC=2K-2

AผมCBอีRnโอยูล.ล.ผม-AผมCBผมnโอม.ผมaล.=2Σผม=1nเข้าสู่ระบบ(ยังไม่มีข้อความผมYผม)=9.575

ขอขอบคุณสำหรับการตอบกลับอย่างละเอียดมาร์ค! ขออภัยสำหรับความล่าช้าในการตอบสนองของฉัน - ฉันอยู่ในช่วงวันหยุด 3) ระบุว่าทั้งสองรุ่นให้ผลลัพธ์ที่แตกต่างกันสำหรับ deviance residual และ AIC แบบใดที่ถูกต้องหรือดีกว่า a) ตามที่ฉันเข้าใจการสังเกตด้วยการเบี่ยงเบนที่เหลือเกินกว่าสองอาจบ่งบอกถึงการขาดความพอดีดังนั้นค่าสัมบูรณ์ของการเบี่ยงเบนที่เหลืออยู่นั้นสำคัญ b) เนื่องจาก AIC ถูกนำมาใช้เพื่อเปรียบเทียบความพอดีระหว่างรุ่นต่าง ๆ อาจจะไม่มี AIC ที่ "ถูกต้อง" ฉันจะเปรียบเทียบ AIC ของ 2 ทวินามแบบหรือ 2 นางแบบเบอร์นูลี
นักวิทยาศาสตร์

DผมJZผมJ=1พี^ผม<อี-1=0.368ZผมJ=0พี^ผม>1-อี-1=0.632ผมYผม/ยังไม่มีข้อความผม=พี^ผม<0.368Yผม ZผมJDผมJ>2


1
AผมC

ขอบคุณทำเครื่องหมาย! คำตอบที่รอบคอบและละเอียดของคุณได้รับการชื่นชมอย่างมาก!
นักวิทยาศาสตร์

0

ฉันแค่ต้องการแสดงความคิดเห็นในย่อหน้าสุดท้าย“ ความจริงที่ว่า AIC นั้นแตกต่างกัน (แต่การเปลี่ยนแปลงในความเบี่ยงเบนไม่ได้) กลับมาเป็นคำที่คงที่ซึ่งเป็นความแตกต่างระหว่างบันทึกความเป็นไปได้ของทั้งสองรุ่น เมื่อคำนวณการเปลี่ยนแปลงของความเบี่ยงเบนนี่จะถูกยกเลิกเพราะมันเหมือนกันในทุกรุ่นที่อยู่บนพื้นฐานของข้อมูลเดียวกัน "โชคไม่ดีที่สิ่งนี้ไม่ถูกต้องสำหรับการเปลี่ยนแปลงในความเบี่ยงเบน Deviance ไม่รวมค่าคงที่ Ex (ค่าคงที่พิเศษ เทอมในบันทึกความน่าจะเป็นสำหรับข้อมูลทวินาม) ดังนั้นการเปลี่ยนแปลงความเบี่ยงเบนจึงไม่เกี่ยวข้องกับเทอมคงที่ EX ความเบี่ยงเบนเปรียบเทียบแบบจำลองที่กำหนดให้กับแบบจำลองเต็มรูปแบบความจริงที่ว่าความเบี่ยงเบนแตกต่างจากเบอร์นูลลี และการสร้างแบบจำลองทวินาม แต่การเปลี่ยนแปลงความเบี่ยงเบนไม่ได้เกิดจากความแตกต่างในค่าบันทึกความน่าจะเป็นแบบเต็ม ค่าเหล่านี้จะถูกยกเลิกในการคำนวณการเปลี่ยนแปลงเบี่ยงเบน ดังนั้นรูปแบบการถดถอยโลจิสติกของ Bernoulli และ binomial ให้การเปลี่ยนแปลงเบี่ยงเบนที่เหมือนกันหากความน่าจะเป็นที่คาดการณ์ pij และ pi เท่ากัน ในความเป็นจริงนั้นเป็นจริงสำหรับ probit และฟังก์ชั่นลิงค์อื่น ๆ

ให้ lBm และ lBf แทนค่าบันทึกความน่าจะเป็นจากโมเดล m ที่เหมาะสมและโมเดลเต็มรูปแบบ f ถึงข้อมูล Bernoulli ความเบี่ยงเบนนั้น

    DB=2(lBf - lBm)=-2(lBm – lBf).

แม้ว่า lBf จะเป็นศูนย์สำหรับข้อมูลไบนารีเรายังไม่ได้ทำให้ DB ง่ายขึ้นและเก็บไว้ตามที่เป็นอยู่ ความเบี่ยงเบนจากแบบจำลองทวินามที่มีค่าความแปรปรวนร่วมเดียวกันคือ

    Db=2(lbf+Ex – (lbm+Ex))=2(lbf – lbm) = -2(lbm – lbf)

โดยที่ lbf + Ex และ lbm + Ex เป็นค่าบันทึกความเป็นไปได้โดยรุ่นเต็มและ m ที่ติดตั้งกับข้อมูลทวินาม เทอมคงที่พิเศษ (Ex) จะหายไปจากด้านขวาของ Db ตอนนี้ดูการเปลี่ยนแปลงความเบี่ยงเบนจากโมเดล 1 เป็นโมเดล 2 จากการสร้างโมเดล Bernoulli เรามีการเปลี่ยนแปลงความเบี่ยงเบนของ

    DBC=DB2-DB1=2(lBf – lBm2)-2(lBf – lBm1) =2(lBm1 – lBm2).

ในทำนองเดียวกันการเปลี่ยนแปลงความเบี่ยงเบนจากอุปกรณ์ทวินามคือ

    DbC=DB2-DB1=2(lbf – lbm2)-2(lbf – lbm1) =2(lbm1 – lbm2).

เป็นไปตามทันทีว่าการเปลี่ยนแปลงความเบี่ยงเบนนั้นเป็นอิสระจากการมีส่วนร่วมของบันทึกความน่าจะเป็นจากโมเดลเต็มรูปแบบ lBf และ lbf ดังนั้นเราจะได้รับการเปลี่ยนแปลงเดียวกันใน deviance, DBC = DbC ถ้า lBm1 = lbm1 และ lBm2 = lbm2 เรารู้ว่าเป็นกรณีที่นี่และทำไมเราถึงได้รับการเปลี่ยนแปลงอันเบี่ยงเบนจาก Bernoulli และแบบจำลองทวินาม ความแตกต่างระหว่าง lbf และ lBf นำไปสู่การเบี่ยงเบนที่แตกต่างกัน


6
TEX

ขอบคุณมากทิม ฉันไม่คุ้นเคยกับการจัดรูปแบบ TEX ฉันพิมพ์ใน Word แต่ฉันไม่สามารถคัดลอกและวางได้ ฉันได้แยกสมการออกจากข้อความ
Saei

ฉันไม่แน่ใจว่าคุณอ่านผิดในย่อหน้านั้นหรือไม่: ฉันพูดว่า "AIC นั้นแตกต่างกัน ( แต่การเปลี่ยนแปลงในความเบี่ยงเบนไม่ได้ )" และส่วนที่เหลือของย่อหน้าอธิบายว่าทำไม AIC จึงแตกต่างกันระหว่างสองรุ่น ฉันไม่ได้อ้างว่าการเปลี่ยนแปลงในความเบี่ยงเบนขึ้นอยู่กับเทอมคงที่ ในความเป็นจริงฉันพูดว่า " เมื่อคำนวณการเปลี่ยนแปลงความเบี่ยงเบนนี้ [คำคงที่] ถูกยกเลิกเพราะมันเหมือนกันในทุกรุ่นตามข้อมูลเดียวกัน "
Mark

ปัญหาคือมีเพียง "คำที่คงที่" ในข้อความและเป็นคำว่า combinatorial (ค่าสัมประสิทธิ์ทวินาม) เมื่อคุณพูดว่า "นี่" ถูกยกเลิกมันก็หมายความว่าคำคงที่รวมอยู่ในการเบี่ยงเบน ความแตกต่างระหว่างความเบี่ยงเบนจากแบบจำลอง Bernoulli และแบบทวินามคือการมีส่วนร่วมจากค่าบันทึกความน่าจะเป็นปอนด์จากแบบจำลองเต็มรูปแบบ lbf ไม่ได้แตกต่างกันไปตามรุ่นทวินามที่แตกต่างกันในข้อมูลเดียวกันและจะถูกยกเลิกเมื่อคำนวณการเบี่ยงเบน
Saei

อาตกลงฉันเห็นสิ่งที่คุณหมายถึง ฉันได้แก้ไขคำตอบของฉันแล้วโดยอ้างอิงจากการเปลี่ยนแปลงในความเบี่ยงเบนเนื่องจากผู้ถามระบุไว้โดยเฉพาะ การเปลี่ยนแปลงในความเบี่ยงเบนเหมือนกันเพราะความเบี่ยงเบนไม่ได้ขึ้นอยู่กับคำที่คงที่
ทำเครื่องหมาย
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.