การถดถอยลอจิสติกส์การถดถอยที่เหลือจากการถดถอยอื่น ๆ


9

ด้วยการถดถอย OLS นำไปใช้กับการตอบสนองอย่างต่อเนื่องเราสามารถสร้างสมการการถดถอยแบบหลายสมการได้ คำถามของฉันคือมีวิธีทำเช่นนี้กับการถดถอยโลจิสติกผ่านเศษเหลือการถดถอยโลจิสติก ?

นั่นคือถ้าฉันต้องการประมาณโดยใช้วิธีการสร้างแบบจำลองเชิงเส้นแบบมาตรฐานทั่วไปมีวิธีเรียกใช้การถดถอยแบบลอจิสติกกับxและรับ pseudo-residuals R_1จากนั้นถดถอยR_1บนzถึง รับตัวประมาณค่าสัมประสิทธิ์การถดถอยโลจิสติก การอ้างอิงถึงตำราหรือวรรณกรรมจะได้รับการชื่นชมPr(Y=1|x,z)xR1R1z


ฉันเดาว่านี่จะไม่ทำงานด้วยเหตุผลเดียวกับที่ REML ไม่ขยายไปถึง GLM เวทย์มนตร์ของกำลังสองน้อยที่หายไป ฉันสงสัยว่ามันจะทำงานในบริบท Bayesian ที่คุณสุ่มตัวอย่างตัวแปรแฝงเป็นส่วนหนึ่งของซิมหรือไม่ เหตุผลที่ฉันต้องการทำสิ่งนี้คือเพื่อให้ฉันสามารถเรียกใช้ glmnet ผ่านคลาสของตัวแปรที่แตกต่างกันและได้รับจำนวนปกติสำหรับคลาส - แน่นอนว่ามีวิธีอื่นในการรับเอฟเฟกต์นี้
Ben Ogorek

สิ่งนี้คล้ายกันมากกับการใช้อัลกอริทึม back-fitting สำหรับการถดถอยโลจิสติกหรือไม่?
usεr11852

ฉันพูดถึงเรื่องนี้ในความคิดเห็นด้านล่าง แต่ในการใช้งานหลายอย่างคุณสามารถผ่านการคาดการณ์ 'ฐาน' (พารามิเตอร์ออฟเซ็ตใน glmnet) ดังนั้นบางทีนี่อาจเป็นไปได้หลังจากการถดถอย vars ที่ขึ้นต่อกัน @BOOgorek คุณต้องการที่จะเพิ่มวัตถุประสงค์ในข้อความหลัก
seanv507

@ seanv507 ฉันกังวลว่าการเพิ่มในส่วนการทำให้เป็นปกติจะเพิ่มขอบเขตมากเกินไปโดยเฉพาะอย่างยิ่งตอนนี้ที่มีคำตอบที่ดีด้านล่าง หลังจากถาม - ตอบจบฉันจะสร้างคำถามแยกต่างหากซึ่งออฟเซ็ตอาจเป็นเพื่อนของเรา
Ben Ogorek

นี่ไม่ใช่คำตอบ แต่ฉันไม่มีชื่อเสียงพอที่จะแสดงความคิดเห็น คำถามคือเกี่ยวกับการถอยการตกค้างบน regressor อื่น ๆ (เช่นการพยากรณ์ ) แทนที่จะถอยตกค้างเหลือ ฉันสับสนกับคำตอบ
T Wu

คำตอบ:


3

ในมาตรฐานการถดถอยเชิงเส้นหลายความสามารถเพื่อให้พอดีกับสามัญอย่างน้อยสี่เหลี่ยม (OLS) ประมาณการในสองขั้นตอนมาจากทฤษฎีบท Frisch-Waugh-โลเวลล์ ทฤษฎีบทนี้แสดงให้เห็นว่าประมาณการของค่าสัมประสิทธิ์การทำนายโดยเฉพาะอย่างยิ่งในรูปแบบเชิงเส้นหลายเท่ากับประมาณการที่ได้จากการถอยเหลือการตอบสนอง (ที่เหลือจากการถดถอยของตัวแปรตอบสนองกับที่อื่น ๆ ที่อธิบายตัวแปร) กับเหลือทำนาย (ที่เหลือ จากการถดถอยของตัวแปรทำนายกับตัวแปรอธิบายอื่น ๆ ) เห็นได้ชัดว่าคุณกำลังมองหาการเปรียบเทียบกับทฤษฎีบทนี้ที่สามารถใช้ในรูปแบบการถดถอยโลจิสติก

สำหรับคำถามนี้จะเป็นประโยชน์ในการจำลักษณะที่แฝง - ตัวแปรของการถดถอยโลจิสติก :

Yi=I(Yi>0)Yi=β0+βXxi+βZzi+εiεiIID Logistic(0,1).

ในลักษณะของแบบจำลองนี้ตัวแปรการตอบสนองที่แฝงนั้นไม่สามารถสังเกตได้และเราสังเกตเห็นตัวบ่งชี้ซึ่งบอกเราว่าการตอบสนองที่แฝงนั้นเป็นค่าบวกหรือไม่ รูปแบบของแบบจำลองนี้มีลักษณะคล้ายกับการถดถอยเชิงเส้นหลายเส้นยกเว้นว่าเราใช้การแจกแจงข้อผิดพลาดที่แตกต่างกันเล็กน้อย (การกระจายโลจิสติกแทนการแจกแจงแบบปกติ) และที่สำคัญกว่านั้นเราสังเกตเฉพาะตัวบ่งชี้ที่แสดงว่า .YiYi

สิ่งนี้จะสร้างปัญหาสำหรับความพยายามในการสร้างแบบจำลองสองขั้นตอน ทฤษฎีบท Frisch-Waugh-Lovell นี้ขึ้นอยู่กับความสามารถในการได้รับสารตกค้างระดับกลางสำหรับการตอบสนองและการทำนายผลประโยชน์ซึ่งนำมาเปรียบเทียบกับตัวแปรอธิบายอื่น ๆ ในกรณีปัจจุบันเราสามารถได้รับส่วนที่เหลือจากตัวแปรตอบสนอง "หมวดหมู่" เท่านั้น การสร้างกระบวนการการปรับสองขั้นตอนสำหรับการถดถอยโลจิสติกจะทำให้คุณต้องใช้การตอบสนองที่เหลือจากตัวแปรตอบสนองที่จัดหมวดหมู่นี้โดยไม่ต้องเข้าถึงการตอบสนองแฝงที่แฝงอยู่ นี่ดูเหมือนว่าฉันจะเป็นอุปสรรค์สำคัญและแม้ว่ามันจะไม่สามารถพิสูจน์ได้ว่าเป็นไปไม่ได้ แต่ก็ไม่น่าเป็นไปได้ที่จะติดตั้งโมเดลในสองขั้นตอน

ด้านล่างฉันจะให้บัญชีของคุณเกี่ยวกับสิ่งที่จะต้องใช้ในการค้นหากระบวนการสองขั้นตอนเพื่อให้เหมาะสมกับการถดถอยโลจิสติก ฉันไม่แน่ใจว่ามีวิธีแก้ไขปัญหานี้หรือไม่หรือมีข้อพิสูจน์ว่าเป็นไปไม่ได้ แต่วัสดุที่นี่ควรช่วยให้คุณเข้าใจสิ่งที่ต้องการ


การถดถอยโลจิสติกสองขั้นตอนจะมีลักษณะอย่างไร สมมติว่าเราต้องการสร้างแบบสองขั้นตอนสำหรับตัวแบบการถดถอยโลจิสติกซึ่งพารามิเตอร์จะถูกประเมินผ่านการประมาณค่าความน่าจะเป็นสูงสุดในแต่ละขั้นตอน เราต้องการให้กระบวนการเกี่ยวข้องกับขั้นตอนกลางที่เหมาะกับสองโมเดลต่อไปนี้:

Yi=I(Yi>0)Yi=α0+αXxi+τiτiIID Logistic(0,1),  Zi=γ0+γXxi+δiδiIID g.

เราประเมินว่าค่าสัมประสิทธิ์ของแบบจำลองเหล่านี้ (ผ่าน MLEs) และอัตราผลตอบแทนนี้ค่าติดตั้งกลาง\ จากนั้นในขั้นตอนที่สองเราพอดีกับรุ่น:α^0,α^X,γ^0,γ^X

Yi=logistic(α^0+α^1xi)+βZ(ziγ^0γ^Xxi)+ϵiϵiIID f.

ตามที่ระบุไว้โพรซีเดอร์มีองค์ประกอบคงที่จำนวนมาก แต่ฟังก์ชันความหนาแน่นและในขั้นตอนเหล่านี้ไม่ได้ระบุไว้ (แม้ว่าพวกเขาควรจะเป็นศูนย์กระจายเฉลี่ยที่ไม่ได้ขึ้นอยู่กับข้อมูล) เพื่อให้ได้วิธีการปรับสองขั้นตอนภายใต้ข้อ จำกัด เหล่านี้เราจำเป็นต้องเลือกและเพื่อให้แน่ใจว่า MLE สำหรับในอัลกอริธึมแบบพอดีสองขั้นตอนนี้เหมือนกับ MLE ที่ได้จากแบบจำลองการถดถอยโลจิสติกแบบหนึ่งขั้นตอน ข้างบน.gfgfβZ

หากต้องการดูว่าเป็นไปได้หรือไม่เราจะเขียนพารามิเตอร์ที่ประมาณไว้ทั้งหมดจากขั้นตอนแรก:

y|x(α^0,α^X)=maxα0,αXi=1nlnBern(yi|logistic(α0+αXxi)),z|x(γ^0,γ^X)=maxγ0,γXi=1nlng(ziγ0γXxi).

ปล่อยดังนั้นฟังก์ชัน log-likelihood สำหรับขั้นตอนที่สองคือ:ϵi=yilogistic(α^0α^1xi)+βZ(ziγ^0γ^Xxi)

y|z|x(βZ)=i=1nlnf(yilogistic(α^0α^1xi)+βZ(ziγ^0γ^Xxi)).

เราต้องการให้ค่าสูงสุดของฟังก์ชั่นนี้คือ MLE ของรูปแบบการถดถอยโลจิสติกหลาย กล่าวอีกนัยหนึ่งเราต้องการ:

arg max βXy|z|x(βZ)=arg max βXmaxβ0,βZi=1nlnBern(yi|logistic(β0+βXxi+βZzi)).

ฉันปล่อยให้คนอื่นตรวจสอบว่ามีวิธีแก้ไขปัญหานี้หรือไม่ไม่มีข้อพิสูจน์ ฉันสงสัยว่า "การจัดหมวดหมู่" ของตัวแปรตอบกลับแฝงในการถดถอยโลจิสติกจะทำให้ไม่สามารถหากระบวนการสองขั้นตอนได้


1
สวัสดี @Ben ขอขอบคุณที่สอนฉันเกี่ยวกับทฤษฎีบท Frisch – Waugh – Lovell ฉันเป่ามันด้วยเงินรางวัล - คิดว่า "หมดอายุ" หมายความว่ามันเพิ่งหยุดการโฆษณา ขอโทษด้วยกับเรื่องนั้น. ฉันชอบความคิดตามโอกาสของคุณ อาจลองหรือสิ่งที่คล้ายกันและโพสต์ด้านล่าง
Ben Ogorek

@Ben Ogorek: ไม่ต้องกังวลกับความโปรดปราน ดีใจที่คำตอบช่วย
เบ็น - Reinstate Monica

@Ben Ogorek: (เพื่อชดเชย 25 คะแนนความสูญเสียซึ่งหายไปในอีเธอร์เพียงแค่ไปรอบ ๆ เว็บไซต์และโหวต 3 คำตอบจากนั้นกรรมของคุณจะได้รับการฟื้นฟู!)
Ben - Reinstate Monica

1
ทำ! (และฉันอ่านมันก่อน)
Ben Ogorek

3

ฉันอาจตีความคำถามผิดไป ฉันสงสัยว่าคุณสามารถสร้างสมการถดถอยเชิงเส้นโดยการถดถอยในสิ่งตกค้างใน OP วิธีที่ระบุไว้ วิธีการของ OP จะใช้ได้ก็ต่อเมื่อตัวทำนายนั้นเป็นอิสระจากกัน

เพื่อให้การทำงานสมมติเป็นเวกเตอร์ผลที่คือเมทริกซ์แบบจำลองสำหรับการพยากรณ์ที่มีอยู่แล้วในรูปแบบและคุณต้องการรวมx_1คุณจำเป็นต้องถอยหลังการตกค้างของการถดถอยของในกับส่วนที่เหลือของการถดถอยของในที่จะได้รับค่าสัมประสิทธิ์ OLS สำหรับx_1yXx1yXx1Xx1

นี่คือตัวอย่างง่ายๆ:

set.seed(12345)
n <- 5000
x1 <- rnorm(n)
x2 <- .5 * x1 + rnorm(n) # Correlated predictors
y <- x1 + x2 + rnorm(n)

พอดีกับรุ่น OLS:

coef(lm(y ~ x1 + x2))
(Intercept)          x1          x2 
0.001653707 1.037426007 0.996259446 

การถดถอยของสารตกค้าง:

coef(lm(residuals(lm(y ~ x1)) ~ x2))
(Intercept)          x2 
0.001219232 0.818774874 

นี่เป็นสิ่งที่ผิดคุณจำเป็นต้องมี

coef(lm(residuals(lm(y ~ x1)) ~ residuals(lm(x2 ~ x1))))
           (Intercept) residuals(lm(x2 ~ x1)) 
         -6.707350e-17           9.962594e-01 

ซึ่งส่งกลับค่าสัมประสิทธิ์ที่ถูกต้องสำหรับ x2 สิ่งนี้สอดคล้องกับความแตกต่างที่คาดหวังใน y ที่ได้รับความแตกต่างใน x2 ถือค่าคงที่ x1 (นำออกมาจากทั้ง y และ x1)

นอกเหนือจากในการถดถอยโลจิสติกมันจะยิ่งมีปัญหาเพราะสัมประสิทธิ์การถดถอยโลจิสติกประสบอคติตัวแปรที่ถูกละเว้นแม้ในกรณีที่ไม่มีความสัมพันธ์ที่สับสนดูที่นี่และที่นี่ดังนั้นเว้นแต่ตัวทำนายทั้งหมดของผลลัพธ์อยู่ในรูปแบบ การประมาณที่ไม่เอนเอียงของพารามิเตอร์ประชากรที่แท้จริง นอกจากนี้ฉันไม่ทราบถึงของเหลือใช้ใด ๆ จากแบบจำลองที่จะคล้อยตามการถดถอยโลจิสติกที่สองโดยมีค่าทั้งหมดอยู่ระหว่าง 0 ถึง 1

อ้างอิงบางอย่างเกี่ยวกับการถดถอยของเหลือ:

  • แมกซ์เวล, SE, Delaney, HD, & Manheimer, JM (1985) Anova of Residuals and Ancova: การแก้ไขภาพลวงตาโดยใช้แบบจำลองเปรียบเทียบและกราฟ วารสารสถิติการศึกษา, 10 (3), 197–209 เรียกดูจากhttp://journals.sagepub.com/doi/pdf/10.3102/10769986010003197
  • Freckleton, RP (2002), ในทางที่ผิดของเหลือในระบบนิเวศ: การถดถอยของเหลือกับการถดถอยหลาย วารสารนิเวศวิทยาสัตว์, 71 , 542-545 ดอย: 10.1046 / j.1365-2656.2002.00618.x

ฉันคิดว่าย่อหน้าสองย่อหน้าแรกของคุณทำให้เข้าใจผิด / ไม่ชัดเจนเล็กน้อย ... มันจะดีกว่าถ้าคุณเริ่มต้นด้วยวิธีที่คุณทำ 'ถดถอยเชิงเส้นตรงกับส่วนที่เหลือ' .. (+ 1) และคุณสามารถค้นหาได้ในองค์ประกอบของการเรียนรู้ทางสถิติ ( การถดถอยหลายครั้งจากส่วนย่อยการถดถอยเดี่ยว?)
seanv507

ในการใช้งานหลายอย่างคุณสามารถผ่านการคาดการณ์ 'ฐาน' (พารามิเตอร์ออฟเซ็ตใน glmnet) ดังนั้นอาจเป็นไปได้หลังจากการถดถอย vars ที่พึ่งพา
seanv507

@ seanv507 ฉันรวมไว้ในคำตอบแล้ว เป็นการสาธิตรหัสล่าสุดที่ฉันมี มันเป็นไปไม่ได้ในวิธีที่ OP อธิบายโดยลดความตกค้างของตัวทำนาย แต่ฉันสามารถเขียนใหม่เพื่อแสดงวิธีการที่เหมาะสมตั้งแต่เริ่มต้นถ้านั่นคือสิ่งที่คุณหมายถึง
จิม Heteroskedastic

ใช่ฉันหมายถึงเขียนใหม่เพื่อแสดงวิธีการที่เหมาะสมตั้งแต่เริ่มต้น
seanv507

@ seanv507 ไม่ทราบว่าคุณหมายถึงอะไรโดยคุณสามารถทำนายผลได้? และการถดถอยตัวแปรตาม
จิม Heteroskedastic

1

ฉันหวังว่าฉันจะไม่ตีความคำถามของคุณผิดเพราะคำตอบของฉันจะเปลี่ยนไปตามถ้อยคำที่คุณใช้ในการพูดเรื่องของคุณ

ฉันคิดว่าสิ่งที่คุณพยายามทำคือสร้างแบบจำลองการถดถอยของคุณโดยเพิ่มตัวแปรอิสระทีละตัว และคุณทำอย่างนั้นโดยการสังเกตว่าตัวแปรที่คาดหวังมีความสัมพันธ์มากที่สุดกับส่วนที่เหลือของการถดถอยครั้งแรกของคุณระหว่าง Y และ X1 ดังนั้นตัวแปรที่มีความสัมพันธ์มากที่สุดกับส่วนที่เหลือแรกนี้จะเป็น X2 ตอนนี้คุณมีโมเดลที่มีตัวแปรอิสระสองตัวคือ X1 & X2 และคุณทำกระบวนการนี้ต่อไปเพื่อเลือก X3, X4 และอื่น ๆ นี่คือกระบวนการส่งต่อแบบขั้นตอน

คุณสามารถทำสิ่งเดียวกันกับ Logistic Regression ด้วยเหตุผลง่ายๆว่า Logistic Regression นั้นค่อนข้าง OLS Regression ซึ่งตัวแปรตามคือบันทึกของเลขคี่ (หรือ logit) แต่ไม่ว่า Y เป็น logit หรือไม่ไม่ส่งผลกระทบต่อกระบวนการส่งต่อแบบขั้นตอนดังกล่าวข้างต้น

OLS ย่อขนาดผลรวมของข้อผิดพลาดให้น้อยที่สุดเพื่อให้พอดีกับข้อมูลจริง การถดถอยของ Logit ใช้กระบวนการโอกาสสูงสุดที่จะสร้างแบบที่ไม่แตกต่างจาก OLS และเช่นกัน (กลไกการฟิตติ้ง) ไม่ควรส่งผลกระทบต่อกระบวนการส่งต่อแบบขั้นตอนที่อนุญาตให้คุณสร้างแบบจำลองการถดถอยหลายแบบไม่ว่าจะเป็น OLS Regression หรือ Logit Regression

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.