ค่าการตัดระยะทางของ Cook


9

ฉันได้อ่านระยะทางของแม่ครัวเพื่อระบุตัวผิดที่มีอิทธิพลต่อการถดถอยของฉัน ในการศึกษาดั้งเดิมของ Cook เขาบอกว่าอัตราการตัด 1 ควรเทียบเคียงเพื่อระบุผู้มีอิทธิพล อย่างไรก็ตามการศึกษาอื่น ๆ ใช้4n หรือ 4n-k-1 เป็นตัวตัด

ในการศึกษาของฉันไม่มีของเหลือของฉันมีค่า D สูงกว่า 1 อย่างไรก็ตามถ้าฉันใช้ 4n เป็นทางลัด (4149=0.026)แล้วมีจุดข้อมูลต่าง ๆ ซึ่งถือว่าเป็นผู้มีอิทธิพล ฉันตัดสินใจที่จะทดสอบว่าการลบจุดข้อมูลเหล่านี้จะสร้างความแตกต่างให้กับการถดถอยเชิงเส้นทั่วไปของฉันหรือไม่ IV ทั้งหมดของฉันยังคงมีความสำคัญและไม่มีการเปลี่ยนแปลงที่ชัดเจน

ฉันควรรักษาจุดข้อมูลทั้งหมดของฉันไว้และใช้อัตราการตัด 1 หรือลบออก?


ตรวจสอบเศรษฐมิติ Baltagi (2011), 5e ในบทที่ 8 หัวข้อ 8.1 เขาแนะนำมาตรการอื่นที่มาจากระยะทางของ Cook และตรวจสอบการบิดเบือน / อิทธิพลจาก obs ที่มีอิทธิพลในเมทริกซ์ Var-Covar ซึ่งคุณอาจต้องใช้เนื่องจากตัวประมาณของคุณจะไม่เปลี่ยนแปลงมากนัก ...
SirAlex

10
คุณไม่ควรลบข้อมูลใด ๆ บนพื้นฐานของการวินิจฉัยนี้ โดยมีวัตถุประสงค์คือเพื่อช่วยให้คุณคิดเกี่ยวกับพวกเขาและผลกระทบต่อการวิเคราะห์ของคุณ
whuber

คำตอบ:


5

ฉันอาจจะไปกับรุ่นเดิมของคุณด้วยชุดข้อมูลแบบเต็มของคุณ ฉันมักจะคิดว่าสิ่งเหล่านี้เป็นการอำนวยความสะดวกในการวิเคราะห์ความไว นั่นคือพวกเขานำคุณไปสู่สิ่งที่ต้องตรวจสอบเพื่อให้แน่ใจว่าคุณไม่ได้รับผลลัพธ์ที่กำหนดเพียงเพราะบางสิ่งที่โง่ ในกรณีของคุณคุณมีบางจุดที่อาจมีอิทธิพล แต่ถ้าคุณรันโมเดลอีกครั้งโดยไม่มีพวกเขาคุณจะได้คำตอบเดียวกันอย่างมีนัยสำคัญ (อย่างน้อยก็เกี่ยวกับประเด็นที่คุณสนใจ) กล่าวอีกนัยหนึ่งให้ใช้เกณฑ์ใดก็ได้ที่คุณต้องการ - คุณเพียงแค่อ้างอิงโมเดลเป็นเช็คไม่ใช่เวอร์ชัน 'จริง' หากคุณคิดว่าคนอื่นจะกังวลอย่างเพียงพอเกี่ยวกับค่าผิดปกติที่อาจเกิดขึ้นคุณสามารถรายงานทั้งสองแบบได้ สิ่งที่คุณจะพูดคือตามแนวของ

นี่คือผลลัพธ์ของฉัน อาจมีความกังวลว่าภาพนี้จะปรากฏเพียงเนื่องจากการสังเกตที่ผิดปกติ แต่มีอิทธิพลสูง สิ่งเหล่านี้เป็นผลลัพธ์ของแบบจำลองเดียวกัน แต่ไม่มีข้อสังเกตเหล่านั้น ไม่มีความแตกต่างที่สำคัญ

นอกจากนี้ยังเป็นไปได้ที่จะลบออกและใช้รูปแบบที่สองเป็นผลลัพธ์หลักของคุณ ท้ายที่สุดแล้วการคงอยู่กับชุดข้อมูลดั้งเดิมจะเป็นไปตามข้อสมมติฐานเกี่ยวกับว่าข้อมูลใดที่อยู่ในรูปแบบมากพอ ๆ กับชุดย่อย แต่ผู้คนมักจะสงสัยในผลการรายงานของคุณมากเพราะจิตใจมันง่ายเกินไปสำหรับคนที่จะโน้มน้าวใจตัวเองโดยไม่มีเจตนาทุจริตจริง ๆ ไปกับชุดปรับแต่งหลังการโพสต์เฉพาะกิจ (เช่นการทิ้งการสังเกต) ที่ทำให้พวกเขา ผลลัพธ์ที่พวกเขาคาดหวังมากที่สุดที่จะเห็น โดยการใช้ชุดข้อมูลแบบเต็มเสมอคุณจะได้ครอบครองความเป็นไปได้นั้นและรับรองผู้อื่น (พูดผู้ตรวจทาน) ว่านั่นไม่ใช่สิ่งที่เกิดขึ้นในโครงการของคุณ

อีกประเด็นที่นี่คือคนท้าย ' ไล่ฟองสบู่ ' เมื่อคุณวางค่าผิดปกติที่อาจเกิดขึ้นและเรียกใช้โมเดลของคุณอีกครั้งคุณจะพบผลลัพธ์ที่แสดงการสังเกตใหม่และแตกต่างว่าเป็นค่าผิดปกติที่อาจเกิดขึ้น คุณต้องทำซ้ำกี่ครั้ง การตอบสนองมาตรฐานนี้คือคุณควรอยู่กับชุดข้อมูลที่เป็นต้นฉบับเต็มและรันการถดถอยที่มีประสิทธิภาพแทน อีกครั้งนี้สามารถเข้าใจได้ว่าเป็นการวิเคราะห์ความไว

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.