สิ่งที่เหลืออยู่ในการถดถอยโลจิสติกหมายถึงอะไร


62

ในการตอบคำถามนี้ John Christie แนะนำว่าแบบจำลองการถดถอยแบบโลจิสติกส์ควรได้รับการประเมินโดยการประเมินส่วนที่เหลือ ฉันคุ้นเคยกับวิธีการตีความส่วนที่เหลือใน OLS พวกเขาอยู่ในระดับเดียวกับ DV และความแตกต่างอย่างชัดเจนระหว่าง y และ y ที่ทำนายโดยโมเดล อย่างไรก็ตามสำหรับการถดถอยโลจิสติกส์ในอดีตที่ผ่านมาฉันมักจะตรวจสอบการประมาณการของแบบจำลองเช่น AIC เพราะฉันไม่แน่ใจว่าสิ่งที่เหลือจะหมายถึงการถดถอยโลจิสติก หลังจากดูไฟล์ช่วยเหลือของ Rแล้วฉันเห็นว่าใน R มี glm เหลืออยู่ห้าประเภท, c("deviance", "pearson", "working","response", "partial"). ไฟล์ช่วยเหลืออ้างถึง:

ฉันไม่มีสำเนาของสิ่งนั้น มีวิธีสั้น ๆ ในการอธิบายวิธีตีความแต่ละประเภทเหล่านี้หรือไม่ ในบริบททางโลจิสติกส์จะรวมผลรวมของกำลังสองที่เหลือให้การวัดแบบจำลองที่มีความหมายเหมาะสมหรือดีกว่าด้วยเกณฑ์ข้อมูลหรือไม่


2
มีองค์ประกอบของคำถามนี้ที่ยังไม่ได้รับคำตอบเช่นลักษณะของ "เพียร์สัน", "ทำงาน", "การตอบสนอง" และ "บางส่วน" ที่เหลือ แต่ตอนนี้ฉันจะยอมรับคำตอบของ Thylacoleo
รัสเซลดุร้าย

ฉันพบว่าbinnedplotฟังก์ชั่นในแขน R package ให้พล็อตที่มีประโยชน์มาก มีคำอธิบายอย่างบน p.97-101 ของGelman และฮิลล์ 2007
conjugateprior

1
วิธีหนึ่งที่ง่ายมากในการตรวจสอบแบบจำลองคือพล็อตของสัดส่วนที่สังเกตกับสัดส่วนที่ทำนายไว้ แต่สิ่งนี้จะไม่ทำงานหากคุณมีการถดถอยเบอโนลลี (เช่นการสังเกตทั้งหมดของคุณมีการรวมกันที่ไม่ซ้ำกันของตัวแปรอิสระดังนั้น ) เพราะคุณจะเห็นเส้นศูนย์และคน ni=1
ความน่าจะเป็นทาง

ใช่ - เศร้าฉันมักจะใช้ Bernoulli DV
russellpierce

1
ดูเพิ่มเติมทำความเข้าใจ GLM $ เหลือและ Resid (GLM)ในกองมากเกิน
gung - Reinstate Monica

คำตอบ:


32

ส่วนที่เหลือที่ง่ายที่สุดที่จะเข้าใจคือส่วนเบี่ยงเบนเช่นเดียวกับเมื่อยกกำลังสองเหล่านี้รวม -2 เท่าของโอกาสในการบันทึก ในแง่ที่ง่ายที่สุดของการถดถอยโลจิสติกส์สามารถเข้าใจได้ในแง่ของการปรับฟังก์ชั่นสำหรับรู้จักในลักษณะที่จะลดความเบี่ยงเบนทั้งหมดซึ่งเป็นผลรวม ของส่วนเบี่ยงเบนเบี่ยงเบนเบี่ยงเบนของจุดข้อมูลทั้งหมดXp=logit1(Xβ)X

ความเบี่ยงเบน (กำลังสอง) ของแต่ละจุดข้อมูลเท่ากับ (-2 ครั้ง) ลอการิทึมของความแตกต่างระหว่างความน่าจะเป็นที่คาดการณ์ และส่วนประกอบของมูลค่าจริง (1) สำหรับการควบคุม 0 สำหรับกรณี) ในแง่ที่แน่นอน แบบที่สมบูรณ์แบบของจุด (ซึ่งไม่เคยเกิดขึ้น) ให้ความเบี่ยงเบนของศูนย์ในขณะที่บันทึก (1) เป็นศูนย์ จุดที่ปรับได้ไม่ดีมีความเบี่ยงเบนเหลืออยู่มากเนื่องจาก -2 เท่าของค่าที่น้อยมากคือจำนวนมากlogit1(Xβ)

การถดถอยโลจิสติกส์นั้นคล้ายกับการหาค่าเบต้าเช่นว่าผลรวมของค่าเบี่ยงเบนส่วนเบี่ยงเบนกำลังสองจะลดลง

สิ่งนี้สามารถอธิบายได้ด้วยพล็อต แต่ฉันไม่รู้วิธีอัปโหลด


1
ภาพ Reg: ใช้หนึ่งในเว็บไซต์โฮสต์รูปภาพฟรี (ค้นหาใน Google) อัปโหลดพล็อตไปยังเว็บไซต์นั้นและเชื่อมโยงที่นี่

ฉันแก้ไขข้อผิดพลาดในคำตอบเดิมแล้ว ฉันเขียน p = logit เป็นครั้งแรก (X เบต้า) ในความเป็นจริงความน่าจะเป็นที่คาดการณ์คือ logit ผกผันของชุดค่าผสมเชิงเส้น p = inv-logit (Xเบต้า) ใน R จะคำนวณเป็น p <-plogit (X beta) ซึ่งคือ p = exp (X beta) / (1 + exp (X * beta))
Thylacoleo

1
แพ็คเกจ R อันไหนplogitมาจากไหน? ไม่ชัดเจนหากคุณกำหนดไว้ที่นี่หรือรับจากที่อื่น
Amyunimus

1
@Amyunimus plogitอยู่ใน R (สถิติ) ไม่ต้องใช้แพคเกจ (อย่างน้อยไม่ได้อีกต่อไป)
russellpierce

7

บน Pearsons เหลือ

ส่วนที่เหลือของเพียร์สันคือความแตกต่างระหว่างความน่าจะเป็นที่สังเกตได้กับการประมาณหารด้วยค่าเบี่ยงเบนมาตรฐานทวินามของความน่าจะเป็นโดยประมาณ ดังนั้นจึงทำให้มาตรฐานส่วนที่เหลือ สำหรับตัวอย่างขนาดใหญ่ค่ามาตรฐานควรมีการแจกแจงแบบปกติ

จาก Menard, Scott (2002) การวิเคราะห์การถดถอยโลจิสติกประยุกต์รุ่นที่ 2 เทาซันด์โอกส์แคลิฟอร์เนีย: Sage Publications ซีรี่ส์: การประยุกต์เชิงปริมาณในสังคมศาสตร์หมายเลข 106. ตอนแรก, 1995. ดูบทที่ 4.4


8
นี่ไม่ถูกต้องทั้งหมดเกี่ยวกับตัวอย่างขนาดใหญ่ มันค่อนข้างที่คุณต้องการเซลล์ทวินามขนาดใหญ่ที่นับหรืออะไรคือสิ่งเดียวกันการจำลองแบบของจำนวนมาก เหลือเพียร์สันอยู่ห่างไกลจากการกระจายตามปกติสำหรับการสังเกตใด ๆ ที่<5 n ฉัน < 5nini<5
ความน่าจะเป็นทางการ

5

เหลือทำงานเป็นสิ่งตกค้างในประโยคสุดท้ายของการถ่วงน้ำหนักซ้ำวิธีกำลังสองน้อยฉันคิดว่านั่นหมายถึงส่วนที่เหลือเมื่อเราคิดว่ามันเป็นการย้ำครั้งสุดท้ายของรูปแบบการทำงานของเรา ที่สามารถก่อให้เกิดการอภิปรายว่ารูปแบบการทำงานเป็นแบบฝึกหัดซ้ำ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.