สารตกค้างเกี่ยวข้องกับการรบกวนพื้นฐานอย่างไร


9

ในวิธีกำลังสองน้อยที่สุดเราต้องการประมาณค่าพารามิเตอร์ที่ไม่รู้จักในโมเดล:

Yj=α+βxj+εj(j=1...n)

เมื่อเราทำเช่นนั้น (สำหรับค่าที่สังเกตได้) เราจะได้เส้นการถดถอยที่พอดี:

Yj=α^+β^x+ej(j=1,...n)

ตอนนี้เห็นได้ชัดว่าเราต้องการตรวจสอบบางแปลงเพื่อให้แน่ใจว่าสมมติฐานเป็นจริง สมมติว่าคุณต้องการตรวจสอบ homoscedasticity อย่างไรก็ตามในการทำเช่นนี้เรากำลังตรวจสอบเหลืออยู่ สมมติว่าคุณตรวจสอบพล็อตค่าที่ตกค้างเทียบกับที่คาดการณ์ไว้ถ้านั่นแสดงให้เราเห็นว่า heteroscedasticity นั้นชัดเจนแล้วสิ่งนั้นเกี่ยวข้องกับคำว่ารบกวนอย่างไร heteroscedasticity ในส่วนที่เหลือหมายถึง heteroscedasticity ในแง่ความไม่สงบหรือไม่? ejεj

คำตอบ:


3

วิธีที่ง่ายที่สุดที่จะคิดเกี่ยวกับเรื่องนี้ก็คือส่วนที่เหลือของคุณดิบ ( ) เป็นค่าประมาณของการรบกวนที่สอดคล้องกัน ( ) อย่างไรก็ตามมีความซับซ้อนเป็นพิเศษ ตัวอย่างเช่นแม้ว่าเราจะสมมติในโมเดล OLS มาตรฐานว่าข้อผิดพลาด / การรบกวนเป็นอิสระ แต่ส่วนที่เหลือไม่สามารถเป็นได้ทั้งหมด โดยทั่วไปมีเพียงเศษเหลือของเท่านั้นที่สามารถเป็นอิสระเนื่องจากคุณใช้ดีกรีอิสระในการประมาณค่าเฉลี่ยของแบบจำลองและค่าส่วนที่เหลือจะถูก จำกัด ให้รวมเป็นej=yjy^jε^j=ejNp1p10. นอกจากนี้ค่าเบี่ยงเบนมาตรฐานของวัตถุดิบตกค้างไม่คงที่จริง โดยทั่วไปสายการถดถอยจะติดตั้งเพื่อให้ใกล้เคียงกับคะแนนโดยเฉลี่ยมากขึ้น เป็นผลให้ค่าเบี่ยงเบนมาตรฐานของส่วนที่เหลือสำหรับคะแนนเหล่านั้นมีขนาดเล็กกว่าของคะแนนเลเวอเรจต่ำ (สำหรับข้อมูลเพิ่มเติมเกี่ยวกับเรื่องนี้มันอาจช่วยให้อ่านคำตอบได้ที่นี่: การตีความพล็อต. lm ()และ / หรือที่นี่: จะทำการวิเคราะห์ส่วนที่เหลือสำหรับตัวทำนายอิสระไบนารี / ไดโดโทมีในการถดถอยเชิงเส้นได้อย่างไร? )


3
หากต้องการชี้แจงอย่างชัดเจนว่าส่วนที่เหลือของ Np-1 สามารถเป็นอิสระได้ แต่โดยทั่วไปแล้วจะมีความสัมพันธ์กันทั้งหมด แทนมีการแปลงเชิงเส้นของพวกเขาซึ่งสามารถมีองค์ประกอบอิสระ Np-1
Glen_b -Reinstate Monica

@Glen_b จุดดี
gung - Reinstate Monica

8

ความสัมพันธ์ระหว่างและคือ:ε^ε

ε^=(IH)ε

ที่ , เมทริกซ์หมวกเป็น THX(XTX)1XT

ซึ่งจะบอกว่าเป็นการรวมกันเชิงเส้นของข้อผิดพลาดทั้งหมด แต่โดยทั่วไปแล้วน้ำหนักส่วนใหญ่จะอยู่ที่ thε^ii

นี่คือตัวอย่างการใช้carsชุดข้อมูลในอาร์พิจารณาจุดที่ทำเครื่องหมายเป็นสีม่วง:

ป้อนคำอธิบายรูปภาพที่นี่

โทร Let 's มันชี้ให้ฉันส่วนที่เหลือโดยที่สำหรับข้อผิดพลาดอื่น ๆ อยู่ในพื้นที่ -0.02:iε^i0.98εi+jiwjεjwj

ป้อนคำอธิบายรูปภาพที่นี่

เราสามารถเขียนซ้ำว่า:

ε^i0.98εi+ηi

หรือโดยทั่วไป

ε^i=(1hii)εi+ηi

ที่เป็น -th องค์ประกอบเส้นทแยงมุมของHในทำนองเดียวกัน 's ข้างต้นเป็น{IJ}hiiiHwjhij

หากข้อผิดพลาดคือ iidจากตัวอย่างนี้ผลรวมถ่วงน้ำหนักของข้อผิดพลาดอื่น ๆ เหล่านั้นจะมีค่าเบี่ยงเบนมาตรฐานที่สอดคล้องกับ 1 / 7th ผลกระทบของข้อผิดพลาดของการสังเกต th บนส่วนที่เหลือ .N(0,σ2)i

ในการถดถอยที่ดีนั้นเศษซากส่วนใหญ่สามารถถือว่าเป็นข้อผิดพลาดที่ไม่สามารถสังเกตเห็นได้ในระดับปานกลาง ในขณะที่เราพิจารณาคะแนนเพิ่มเติมจากจุดศูนย์กลางสิ่งต่าง ๆ ทำงานได้ค่อนข้างดี (ส่วนที่เหลือจะกลายเป็นน้ำหนักน้อยกว่าข้อผิดพลาดและน้ำหนักของข้อผิดพลาดอื่น ๆ จะน้อยลงด้วยซ้ำ)

ด้วยพารามิเตอร์จำนวนมากหรือด้วยที่ไม่ได้รับการกระจายอย่างดีเหลืออยู่อาจจะน้อยกว่าเช่นข้อผิดพลาด คุณอาจต้องการลองตัวอย่างX


2
นี่คือแนวทางที่ถูกต้อง สิ่งที่ต้องการนอกจากนี้ยังเป็นข้อโต้แย้งว่าองค์ประกอบเส้นทแยงมุมของมักจะ "เล็ก" ที่ทำโดยการแสดงว่าการติดตามเท่ากับจำนวนของตัวแปรอิสระ (รวมถึงการสกัดกั้นถ้ามี) - ซึ่งทันทีจากความจริงมันเป็นเมทริกซ์ประมาณการ โปรดทราบว่าผลลัพธ์นี้ไม่ขึ้นอยู่กับสมมติฐานการกระจายในแต่ละรายการ: ไม่จำเป็นต้องเป็นปกติ มันยังเป็นอิสระจากสูตรจริงใด ๆสำหรับ ; มันเป็นผลมาจากการนับขนาด HεiH
whuber

จะไม่กรณีอื่นที่เหลืออาจจะมากน้อยเช่นข้อผิดพลาดถ้าจำนวนสังเกตมีขนาดเล็ก? โดยทั่วไปเมื่อ @whuber ระบุว่าข้อเท็จจริงที่ว่าการติดตามของเท่ากับจำนวนของตัวแปรอิสระหมายความว่าองค์ประกอบในแนวทแยงมีขนาดเล็ก แต่สิ่งนี้ไม่จำเป็นต้องเป็นเช่นนั้นหากจำนวนขององค์ประกอบเหล่านั้นมีขนาดเล็ก nHn
Adam Bailey

@ AdamBailey แน่ใจว่ามันเกิดขึ้นเมื่อมีขนาดเล็ก ... แต่นั่นเป็นเพราะค่อนข้างใหญ่แม้ว่าจะมีเพียง 1 หรือ 2np/np
Glen_b
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.