ส่วนที่เหลือสำหรับการถดถอยโลจิสติกและระยะทางของคุก


10
  1. มีข้อสมมติฐานเฉพาะใด ๆ เกี่ยวกับข้อผิดพลาดของการถดถอยโลจิสติกหรือไม่เช่นความแปรปรวนคงที่ของข้อผิดพลาดและค่าปกติของส่วนที่เหลือ?

  2. นอกจากนี้โดยทั่วไปเมื่อคุณมีคะแนนที่มีระยะทางของ Cook มากกว่า 4 / n คุณจะลบออกไหม หากคุณลบออกคุณจะทราบได้อย่างไรว่ารุ่นที่มีจุดลบนั้นดีกว่า

คำตอบ:


12

ฉันไม่รู้ว่าฉันจะให้คำตอบที่สมบูรณ์ แต่ฉันสามารถให้ความคิดบางอย่างที่อาจเป็นประโยชน์ อันดับแรกแบบจำลอง / การทดสอบทางสถิติทั้งหมดมีสมมติฐาน อย่างไรก็ตามการถดถอยโลจิสติกอย่างมากไม่ถือว่าส่วนที่เหลือมีการกระจายตามปกติหรือว่าความแปรปรวนเป็นค่าคงที่ ค่อนข้างจะสันนิษฐานว่าข้อมูลถูกแจกแจงเป็นทวินาม, , นั่นคือ, ด้วยจำนวนการทดลองของเบอร์นูลลีเท่ากับจำนวนการสังเกตในชุดค่า covariate ที่แน่นอนและด้วย ความน่าจะเป็นที่เกี่ยวข้องกับชุดของค่า covariate โปรดจำไว้ว่าความแปรปรวนของทวินามคือn p 1B(nxผม,พีxผม) ) ดังนั้นหากค่าของ nนั้นแปรผันตามระดับความแปรปรวนร่วมที่ต่างกันความแปรปรวนก็จะดีเช่นกัน นอกจากนี้หากมีตัวแปรใด ๆ ที่เกี่ยวข้องกับตัวแปรตอบสนองความน่าจะเป็นจะแตกต่างกันไปดังนั้นความแปรปรวนจะเป็นเช่นนั้น นี่คือข้อเท็จจริงสำคัญเกี่ยวกับการถดถอยโลจิสติก nพี(1-พี)n

ประการที่สองการเปรียบเทียบแบบจำลองจะดำเนินการระหว่างรุ่นที่มีข้อกำหนดที่แตกต่างกัน (ตัวอย่างเช่นมีชุดของตัวแปรร่วมรวมอยู่ด้วย) ไม่เกินชุดย่อยของข้อมูลที่แตกต่างกัน บอกตามตรงฉันไม่แน่ใจว่าจะทำอย่างไรให้ถูกต้อง ด้วยโมเดลเชิงเส้นคุณสามารถดูที่ 2 s เพื่อดูว่าแบบจำลองนั้นดีกว่ามากเพียงใดโดยไม่รวมข้อมูลความผิดปกติ แต่สิ่งนี้จะอธิบายได้อย่างเดียวและคุณควรรู้ว่าR 2จะต้องขึ้นไป ด้วยการถดถอยโลจิสติกมาตรฐานR 2ไม่สามารถใช้ได้ มีหลายอย่าง 'หลอก - R 2R2R2R2R2R2R2s และการกระจาย jackknifed เพราะคุณเลือกข้อมูลเหล่านั้นเพื่อยกเว้นตามข้อเท็จจริงที่ว่าพวกเขาปรากฏมาก


8

1) มีข้อสมมติฐานเฉพาะใด ๆ เกี่ยวกับข้อผิดพลาดของการถดถอยโลจิสติกหรือไม่เช่นความแปรปรวนคงที่ของข้อผิดพลาดและค่าปกติของส่วนที่เหลือ?

แบบจำลองการถดถอยโลจิสติกไม่มี "ข้อผิดพลาด" ในความหมายดั้งเดิม มันเป็นทั้งที่ใช้งานง่ายและไม่สอดคล้องกับระเบียบวิธี เอาต์พุตโมเดลถูกติดตั้งความน่าจะเป็นหรือความเสี่ยงในขณะที่ผลลัพธ์ที่สังเกตได้คือตัวบ่งชี้เหตุการณ์ 0/1 โดยทั่วไปแล้วคุณจะมีแนวโน้มที่จะเน้นโดเมนที่มีความน่าจะเป็นสูงหรือต่ำมาก (ให้ระยะทางที่เหลือน้อยมาก) ในขณะที่อัลกอริธึมการสร้างแบบจำลองมีความสำคัญมากขึ้นในภูมิภาคดังกล่าว ระยะทางกำลังสองโดยทั่วไปเป็นวิธีที่ไม่ดีในการปรับเทียบโมเดลการถดถอยโลจิสติก

อีกทางเลือกหนึ่งที่ดีของการทดสอบแบบพอดีคือการทดสอบ Hosmer-Lemeshow ซึ่งใช้ค่าติดตั้งเพื่อสร้างพาร์ติชันแบบ binned โดยพิจารณาจากความเสี่ยงที่เหมาะสม คุณสามารถอ่านเกี่ยวกับการทดสอบนี้ในการวิเคราะห์ข้อมูลอย่างละเอียดของ Alan Agresti หรือหนังสือ Logistic Regression โดย Hosmer และ Lemeshow ขั้นตอนหนึ่งคือการใช้ Studentized เหลือใช้ที่ความสัมพันธ์ของความแปรปรวนเฉลี่ยจะใช้ในการเหลือ reweight โดยพวกเขาติดตั้งแปรปรวนผกผัน สำหรับการถดถอยโลจิสติกนี่คือ

Rsเสื้อยูd=Y-μμ(1-μ)

2) โดยทั่วไปเมื่อคุณมีคะแนนที่มีระยะทางของ Cook มากกว่า 4 / n คุณจะลบออกไหม หากคุณลบออกคุณจะทราบได้อย่างไรว่ารุ่นที่มีจุดลบนั้นดีกว่า

ฉันไม่เคยลบคะแนนตามการวิเคราะห์ความไว ถ้าฉันทำตัวอย่างสุ่ม 100 คนและรายได้ของพวกเขาและ 1 คนเป็นมหาเศรษฐีฉันก็จะได้ข้อสันนิษฐานที่ปลอดภัยที่สุดคือ 1 พันล้านคิดเป็น 1 ใน 100 ของประชากร


ทำไมคุณถึงคิดว่าสิ่งที่ 1 พันล้านเป็น 1 ใน 100 ของประชากร? คุณอาจจะสามารถประมาณสัดส่วนนอกของเศรษฐีในประชากรได้!
kjetil b halvorsen

6

ฉันเห็นด้วยกับความคิดเห็นของ AdamO โดยทั่วไป - สมมติว่า 1 พันล้านคนคิดเป็น 1 ใน 100 ของประชากรทั้งหมด อย่างไรก็ตามหากการปรากฏตัวของมหาเศรษฐี 1 ล้านคนทำให้ข้อมูลบิดเบือนมากจนการคาดการณ์ของคนอีก 99 คนได้รับผลกระทบฉันจะลบ 1 พันล้านคนนั้น ฉันอยากจะผิดกับการทำนายค่าของคนอื่นมากกว่าคนอื่น

ต้องบอกว่าถ้าคุณลบจุดข้อมูลโดยใช้ค่า D ของ Cook (เช่นอะไร> 4 / df) จากนั้นคุณสามารถใช้พื้นที่ใต้เส้นโค้ง ROC สำหรับทั้งสองรุ่นเพื่อตรวจสอบการปรับปรุง


1
(+1) การสร้างแบบจำลองความสัมพันธ์ระหว่างอัตราต่อรองของการตอบสนองและรายได้กับเส้นโค้งธรรมชาติอาจจะเปลี่ยนรายได้ล่วงหน้าเป็นอีกวิธีหนึ่งที่จะหลีกเลี่ยงเศรษฐีที่ส่งผลกระทบต่อการคาดการณ์ของผู้อื่นมากเกินไป การนำเขาออกไปแสดงให้เห็นว่าคุณมีความสุขที่จะไม่คาดการณ์มหาเศรษฐีอื่น ๆ (ยุติธรรมเพียงพอ) แทนที่จะมีความสุขที่จะคาดเดาผิดเกี่ยวกับพวกเขา
Scortchi - Reinstate Monica

เมื่อพูดถึงการทำนายเหตุการณ์ไบนารีมันเป็นความจริงที่การยกเว้นการสังเกตที่มีอิทธิพลอาจนำไปสู่การสอบเทียบความเสี่ยงที่ดีขึ้น อย่างไรก็ตามการยกเว้นการสังเกตที่มีอิทธิพลจะลดการเลือกปฏิบัติของการทำนายความเสี่ยง หลังมีความสำคัญมากกว่าเนื้อหา เมื่อมันมาถึงการทำนายความเสี่ยงของเหตุการณ์บางอย่าง (ซึ่งเป็น 0 หรือ 1, ไม่ได้ประเมินค่าอย่างต่อเนื่อง) การทำนายชนิดที่ดีที่สุดจะผลักดันการทำนายของคดีใกล้ถึง 1 และการคาดการณ์ของการควบคุมใกล้กับ 0 ที่ทำสิ่งนี้
AdamO
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.