วิธีการอ่านแปลงระยะทางของ Cook?


40

ไม่มีใครรู้วิธีการทำงานว่าคะแนน 7, 16 และ 29 เป็นคะแนนที่มีอิทธิพลหรือไม่? ฉันอ่านบางที่เพราะระยะทางของ Cook ต่ำกว่า 1 พวกเขาไม่ใช่ ฉันถูกไหม?

ป้อนคำอธิบายรูปภาพที่นี่


1
มีความคิดเห็นต่าง ๆ บางคนเกี่ยวข้องกับจำนวนการสังเกตหรือจำนวนพารามิเตอร์ เหล่านี้มีร่างที่en.wikipedia.org/wiki/...
whuber

@whuber ขอบคุณ นี่เป็นพื้นที่สีเทาเสมอเมื่อทำการสำรวจข้อมูลสำหรับฉัน จุดข้อมูล 16 ด้านบนมีอิทธิพลอย่างมากต่อผลลัพธ์ของโมเดลซึ่งเป็นการเพิ่มความผิดพลาด Type I
Platypezid

2
หนึ่งอาจยืนยันว่ามันเพิ่มข้อผิดพลาด "Type III" เช่นกันซึ่ง (โดยทั่วไปและไม่เป็นทางการ) เป็นข้อผิดพลาดที่เกี่ยวข้องกับความไม่เหมาะสมของโมเดลความน่าจะเป็นพื้นฐาน
whuber

@ เมื่อไรใช่จริงมาก!
Platypezid

คำตอบ:


43

บางตำราบอกคุณว่าจุดที่ระยะทางของ Cook สูงกว่า 1 จะถือว่ามีอิทธิพล ข้อความอื่น ๆ ให้เกณฑ์ของหรือโดยที่คือจำนวนการสังเกตและจำนวนตัวแปรอธิบาย ในกรณีของคุณสูตรหลังควรให้เกณฑ์ประมาณ 0.14/N4/(Nk1)Nk

John Fox (1) ในหนังสือเล่มเล็กของเขาเกี่ยวกับการวินิจฉัยการถดถอยค่อนข้างระมัดระวังเมื่อมันมาถึงการให้เกณฑ์การคำนวณ เขาแนะนำการใช้งานกราฟิกและตรวจสอบรายละเอียดในจุดที่ใกล้เคียงกับ "คุณค่าของ D ที่ยิ่งใหญ่กว่าที่เหลือ" ตามมาตรฐานของ Fox เกณฑ์ควรใช้เพื่อปรับปรุงการแสดงผลกราฟิก

ในกรณีของคุณการสังเกตที่ 7 และ 16 อาจถือได้ว่ามีอิทธิพล อย่างน้อยฉันก็จะได้เห็นพวกเขาอย่างใกล้ชิด การสังเกต 29 ไม่แตกต่างอย่างมีนัยสำคัญจากการสังเกตอื่นสองสามข้อ


(1) Fox, John (1991) การวินิจฉัยการถดถอย: บทนำ สิ่งพิมพ์ Sage


9
+1 ล้างข้อมูลสรุป ฉันจะเพิ่มว่ากรณีที่มีอิทธิพลมักจะไม่เป็นปัญหาเมื่อการลบออกจากชุดข้อมูลจะทำให้พารามิเตอร์ประมาณการไม่เปลี่ยนแปลงเป็นหลัก: กรณีที่เรากังวลเกี่ยวกับผู้ที่มีการแสดงตนจะเปลี่ยนผลลัพธ์
whuber

1
@lejohn ชื่นชมการตอบสนองของคุณมาก คำตอบของคุณถูกต้องชัดเจนมาก นี่เป็นข้อมูลที่มาก ฉันขอแนะนำให้คุณเน้นที่ Fox's และความคิดเห็นของคุณในหน้าวิกิพีเดีย!
Platypezid

29

+1 ทั้ง @lejohn และ @whuber ฉันต้องการขยายความคิดเห็นของ @ whuber ไปเล็กน้อย ระยะทางของ Cook สามารถเทียบกับ dfbeta ระยะทางของคุกหมายถึงค่าเฉลี่ยy ที่คาดการณ์ไว้จะเคลื่อนย้ายไปไกลแค่ไหนหากการสังเกตในคำถามลดลงจากชุดข้อมูล dfbeta หมายถึงจำนวนการประมาณพารามิเตอร์ที่เปลี่ยนแปลงหากการสังเกตที่เป็นปัญหาถูกทิ้งจากชุดข้อมูล โปรดทราบว่าด้วย covariates จะมี dfbetas (การสกัด,และ 1สำหรับแต่ละ covariate) ระยะทางของ Cook น่าจะสำคัญกับคุณถ้าคุณทำแบบจำลองการทำนายในขณะที่ dfbeta สำคัญกว่าในการสร้างแบบจำลองอธิบาย kk+1β0β

มีอีกจุดหนึ่งที่ทำให้คุ้มค่าที่นี่ ในการวิจัยเชิงสังเกตการณ์มักจะยากที่จะสุ่มตัวอย่างอย่างทั่วถึงในพื้นที่ทำนายและคุณอาจมีเพียงไม่กี่จุดในพื้นที่ที่กำหนด คะแนนดังกล่าวสามารถเบี่ยงเบนจากส่วนที่เหลือ มีบางกรณีที่แตกต่างกันสามารถทำให้เสียโฉม แต่ควรได้รับความคิดอย่างมากก่อนที่จะถูกผลักไสไล่ส่ง อาจมีปฏิสัมพันธ์ระหว่างตัวทำนายหรือระบบอาจเปลี่ยนไปทำงานแตกต่างกันเมื่อค่าตัวทำนายมากเกินไป นอกจากนี้พวกเขาอาจสามารถช่วยให้คุณแก้ปัญหาผลกระทบของการพยากรณ์แบบโคลิเนียร์ได้ จุดที่มีอิทธิพลอาจเป็นพรในการอำพราง


6
+1 "ระยะทางของ Cook น่าจะสำคัญกับคุณมากกว่าถ้าคุณทำแบบจำลองการทำนายในขณะที่ dfbeta มีความสำคัญมากกว่าในการสร้างแบบจำลองอธิบาย": นี่เป็นคำแนะนำที่มีประโยชน์มาก
แอนน์ Z.

สวัสดี - การสนทนาที่น่าสนใจ แต่เป็นไปไม่ได้หรือที่จะมีเหตุผลที่จะรวมตัวแปรจำลองเพื่อวัดผลกระทบจากการสังเกตตัวอย่าง 16?
Pantera

@Pantera ฉันลบ 16 และเปรียบเทียบโมเดลก่อนและหลังการโพสต์
Platypezid

สวัสดี - ถ้าคุณลบการสังเกตคุณควรตรวจสอบให้แน่ใจว่าคุณมีข้อโต้แย้งที่ "ดี" ที่จะทำเช่นการสังเกตนั้นผิดพลาด หากเราทิ้งการสังเกตเพราะพวกเขาสร้างปัญหาเชิงสถิติเราก็ใกล้กับการขุดข้อมูล
Pantera
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.