“ เศษตกค้างที่นักเรียนเป็นนักเรียนภายใน” มีข้อดีอะไรบ้างเหนือสิ่งตกค้างที่ประเมินโดยประมาณในแง่ของการวินิจฉัยดาต้าพอยท์ที่มีอิทธิพล


10

เหตุผลที่ฉันถามนี้เพราะดูเหมือนว่าเศษที่เหลือเป็นนักเรียนภายในดูเหมือนจะมีรูปแบบเดียวกับของเหลือใช้โดยประมาณ มันจะดีถ้ามีคนเสนอคำอธิบาย

คำตอบ:


13

สมมติว่ารูปแบบการถดถอยพร้อมเมทริกซ์การออกแบบ ( คอลัมน์ตามด้วยตัวทำนายของคุณ) การคาดเดา (ที่\ BF {H}เป็น "หมวกแมทริกซ์") และที่เหลือ\ BF {E} = \ BF {y} - \ hat {\ BF {y}} ตัวแบบการถดถอยสันนิษฐานว่าข้อผิดพลาดที่แท้จริง\ bf {\ epsilon}มีความแปรปรวนเดียวกัน (homoskedasticity):X 1 Y = X ( X ' X ) - 1 X ' Y = H Y H E = Y - Y εy=Xβ+ϵX1y^=X(XX)1Xy=HyHe=yy^ϵ

homoskedasticity

เมทริกซ์ความแปรปรวนของเหลือคือ{H}) นี่หมายความว่าวัตถุดิบดิบมีความแตกต่าง - เส้นทแยงมุมของเมทริกซ์}) องค์ประกอบเส้นทแยงมุมของเป็นหมวกค่า{}e i σ 2 ( 1 - h ฉันฉัน ) σ 2 ( I - H ) H h ฉันฉันV(e)=σ2(IH)eiσ2(1hii)σ2(IH)Hhii

เหลือมาตรฐานอย่างแท้จริงกับความแปรปรวน 1 ตลอดจึงii) ปัญหาคือไม่ทราบความแปรปรวนของความผิดพลาดและภายใน / ภายนอกเศษเรียนผลจากการเลือกโดยเฉพาะสำหรับการประเมินซิก}σE/( σe/(σ1hii)σ σe/(σ^1hii)σ^

เนื่องจากเหลือดิบที่คาดว่าจะ heteroskedastic แม้ว่ามี homoskedastic ที่เหลือดิบในทางทฤษฎีที่เหมาะสมน้อยดีที่จะวินิจฉัยปัญหาเกี่ยวกับสมมติฐาน homoskedasticity กว่ามาตรฐานหรือเหลือ studentizedϵ


ความแตกต่างที่ชัดเจนระหว่างสองประเภทที่แตกต่างกันของสิ่งที่เหลืออยู่ อย่างไรก็ตามในทางปฏิบัติฉันไม่คิดว่าฉันได้พบกับกรณี (อย่างน้อยกับข้อมูลของตัวเอง) ที่ซึ่งส่วนที่เหลือเป็นนักเรียนภายในมีรูปแบบที่แตกต่างเมื่อเปรียบเทียบกับค่าประมาณที่เหลือ ในทางตรงข้ามเศษที่เหลือจากการศึกษาภายนอกอาจแสดงรูปแบบที่แตกต่างจากค่าประมาณที่เหลืออยู่ * ฉันไม่ได้บอกว่าทั้งสองประเภทนี้เหมือนกัน ฉันหมายถึงรูปแบบทั่วไปของพวกเขา

@AlexH ผมยอมรับว่าข้อได้เปรียบดังกล่าวผม lated เพิ่มเป็นทฤษฎี การสร้างสถานการณ์จำลองเชิงประจักษ์ที่ซึ่งส่วนที่เหลือเป็นของปลอมทำให้เข้าใจผิดและส่วนที่เหลือของนักเรียนให้ภาพที่แม่นยำยิ่งขึ้นของการแจกแจงแบบมีเงื่อนไขจะเป็นการเพิ่มเติมที่ดี
caracal

12

คุณได้ทำการทดสอบข้อมูลประเภทใด เมื่อสมมติฐานทั้งหมดถือ (หรือเข้ามาใกล้) จากนั้นฉันจะไม่คาดหวังความแตกต่างระหว่างส่วนที่เหลือและการเรียนรู้ข้อดีที่สำคัญคือเมื่อมีจุดที่มีอิทธิพลอย่างมาก พิจารณาข้อมูลนี้ (จำลอง) ที่มีแนวโน้มเป็นเส้นตรงในเชิงบวกและค่าที่มีอิทธิพลสูง:

ป้อนคำอธิบายรูปภาพที่นี่

นี่คือพล็อตของค่าติดตั้งกับส่วนที่เหลือดิบ:

ป้อนคำอธิบายรูปภาพที่นี่

ขอให้สังเกตว่ามูลค่าของส่วนที่เหลือของจุดที่มีอิทธิพลของเรานั้นอยู่ใกล้กับ 0 มากกว่าค่าต่ำสุดและค่าตกค้างสูงสุดจากจุดที่เหลือ (มันไม่ได้อยู่ใน 3 ส่วนที่เหลือดิบมากที่สุด)

ตอนนี้ที่นี่คือพล็อตที่มีของตกค้างที่ได้มาตรฐาน (ภายในนักเรียน):

ป้อนคำอธิบายรูปภาพที่นี่

ในโครงเรื่องนี้ส่วนที่เหลือที่เป็นมาตรฐานนั้นมีความโดดเด่นเนื่องจากมีการคำนึงถึงอิทธิพลของมัน

ในตัวอย่างง่ายๆนี้มันง่ายที่จะดูว่าเกิดอะไรขึ้น แต่ถ้าเรามีตัวแปรมากกว่า 1และจุดที่มีอิทธิพลมาก แต่ไม่ผิดปกติในแปลงสองมิติ มันจะไม่ชัดเจนจากแปลงของเศษซากดิบ แต่เศษเหลือของนักเรียนจะแสดงให้เห็นว่าส่วนที่เหลือนั้นสุดขั้วมากขึ้นx

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.