การตีความค่าส่วนที่เหลือเทียบกับค่าพล็อตที่ติดตั้งเพื่อตรวจสอบสมมติฐานของโมเดลเชิงเส้น


34

พิจารณารูปต่อไปนี้จากรุ่นเชิงเส้นของ Faraway ด้วย R (2005, p. 59)

ป้อนคำอธิบายรูปภาพที่นี่

พล็อตแรกนั้นดูเหมือนว่าบ่งบอกว่าส่วนที่เหลือและค่าติดตั้งนั้นไม่ได้มีความสัมพันธ์กันเนื่องจากพวกมันควรอยู่ในโมเดลเชิงเส้น homoscedastic ที่มีข้อผิดพลาดกระจายตามปกติ ดังนั้นพล็อตที่สองและสามซึ่งดูเหมือนจะบ่งบอกถึงการพึ่งพาระหว่างค่าตกค้างและค่าติดตั้งแนะนำรูปแบบที่แตกต่างกัน

แต่ทำไมพล็อตที่สองถึงแนะนำเช่น Faraway บันทึกเป็นโมเดลเชิงเส้นตรงแบบเฮเทอโรเซดีติกในขณะที่พล็อตที่สามแนะนำโมเดลที่ไม่ใช่เชิงเส้น?

พล็อตที่สองดูเหมือนว่าจะแสดงให้เห็นว่าค่าสัมบูรณ์ของส่วนที่เหลือมีความสัมพันธ์เชิงบวกอย่างมากกับค่าติดตั้งในขณะที่ไม่มีแนวโน้มดังกล่าวปรากฏชัดในพล็อตที่สาม ดังนั้นหากเป็นกรณีที่การพูดเชิงทฤษฎีในแบบจำลองเชิงเส้นตรงแบบ heteroscedastic ที่มีข้อผิดพลาดกระจายทั่วไป

Cor(e,y^)=[1111]

(ที่นิพจน์ทางซ้ายคือเมทริกซ์ความแปรปรวนร่วม - ความแปรปรวนร่วมระหว่างค่าตกค้างและค่าติดตั้ง) สิ่งนี้จะอธิบายว่าทำไมแปลงที่สองและสามเห็นด้วยกับการตีความของ Faraway

แต่เป็นกรณีนี้หรือไม่ ถ้าไม่เช่นนั้นการตีความของ Faraway เกี่ยวกับแผนการแปลงที่สองและสามจะเป็นธรรมได้อย่างไร นอกจากนี้ทำไมพล็อตที่สามจำเป็นต้องระบุว่าไม่ใช่เชิงเส้น? เป็นไปได้หรือไม่ว่ามันเป็นแบบเส้นตรง แต่ความผิดพลาดนั้นไม่ได้กระจายตามปกติหรืออย่างอื่นที่พวกมันกระจายแบบปกติ แต่ไม่ได้อยู่กึ่งกลางรอบศูนย์หรือไม่?


3
ไม่มีใครในสามแปลงแสดงความสัมพันธ์ (อย่างน้อยก็ไม่ได้มีความสัมพันธ์เชิงเส้นซึ่งเป็นความหมายที่เกี่ยวข้องของ 'ความสัมพันธ์' ในความรู้สึกที่มันจะถูกนำมาใช้ใน " เหลือและค่าติดตั้งเป็น uncorrelated ")
Glen_b

1
@Glen_b: ขอบคุณ ฉันได้แก้ไขย่อหน้าที่คุณอ้างถึงโดยแทนที่ "การพึ่งพา" สำหรับ "ความสัมพันธ์" แทน
Evan Aad

คำตอบ:


46

x±

พล็อตการวินิจฉัยที่มีค่าเฉลี่ยโดยประมาณและแพร่กระจายในแต่ละค่าของเครื่องหมายที่ติดตั้งไว้

  • xyx

  • yx

เป็นไปได้หรือไม่ว่ามันเป็นแบบเส้นตรง แต่ความผิดพลาดนั้นไม่ได้กระจายตามปกติหรืออย่างอื่นที่พวกมันกระจายแบบปกติ แต่ไม่ได้อยู่กึ่งกลางรอบศูนย์หรือไม่?

ไม่ใช่ * ในสถานการณ์เหล่านั้นพล็อตจะดูแตกต่างจากพล็อตที่สาม

θβ0+θ

(ii) หากข้อผิดพลาดไม่ได้รับการกระจายโดยทั่วไปรูปแบบของจุดอาจหนาแน่นที่สุดที่อื่นนอกเหนือจากเส้นกึ่งกลาง (หากข้อมูลเบ้) ให้พูด แต่ค่าเฉลี่ยในท้องถิ่นจะยังคงอยู่ใกล้ 0

ข้อผิดพลาดที่ไม่ปกติ

ที่นี่เส้นสีม่วงยังคงแสดงช่วงเวลา (มาก) ประมาณ 95% แต่มันไม่สมมาตรอีกต่อไป (ฉันกำลังพูดถึงสองประเด็นเพื่อหลีกเลี่ยงการปิดบังจุดพื้นฐานที่นี่)

xyx


1
y^y^x

2
x1x2x1

1
x

σ2IN(0,V)Vσ2IV
Evan Aad

1
(ctd) ... ตามที่คุณควรจะเห็นจากความคิดเห็นแรกของฉันภายใต้คำตอบของฉันโดยเฉพาะอย่างยิ่งจากการเริ่มต้นประโยค "คุณสามารถจินตนาการ ... " - แต่มันค่อนข้างออกกฎ heteroskedasticity ที่เกี่ยวข้องกับ ความหมาย.
Glen_b

2

คุณเขียน

พล็อตที่สองดูเหมือนว่าบ่งบอกว่าค่าสัมบูรณ์ของส่วนที่เหลือมีความสัมพันธ์เชิงบวกอย่างมากกับค่าติดตั้ง

มันไม่ได้ "ดูเหมือน" เพื่อมัน และนั่นคือสิ่งที่ heteroskedastic หมายถึง

จากนั้นคุณให้เมทริกซ์ของ 1s ทั้งหมดซึ่งไม่เกี่ยวข้อง ความสัมพันธ์สามารถมีอยู่และน้อยกว่า 1

จากนั้นคุณเขียน

นอกจากนี้ทำไมพล็อตที่สามจำเป็นต้องระบุว่าไม่ใช่เชิงเส้น? เป็นไปได้หรือไม่ว่ามันเป็นแบบเส้นตรง แต่ความผิดพลาดนั้นไม่ได้กระจายตามปกติหรืออย่างอื่นที่พวกมันกระจายแบบปกติ แต่ไม่ได้อยู่กึ่งกลางรอบศูนย์หรือไม่?

พวกเขาทำศูนย์ประมาณ 0 ครึ่งหรือมากกว่านั้นต่ำกว่า 0 ครึ่งหนึ่งอยู่เหนือ เป็นการยากที่จะบอกได้ว่าพวกมันกระจายออกจากพล็อตนี้หรือไม่ แต่พล็อตอื่นที่มักจะแนะนำคือพล็อตตามปกติของควอไทล์และนั่นจะแสดงว่ามันเป็นเรื่องปกติหรือไม่


N(0,V)Vσ2I

1
พล็อตปกติที่มีน้ำหนักเบานั้นดูที่ภาวะปกติเท่านั้น หลักฐานการกระเทยในพล็อตแรกนั้นเป็นภาพ
Peter Flom - Reinstate Monica

@ PeterFlom: ขออภัยสำหรับ necropost: ฉันสับสนเล็กน้อยเกี่ยวกับปริมาณโดยที่เราพิจารณาข้อผิดพลาดในแต่ละจุด (xi, yi): เราพิจารณาหลาย ๆ คำตอบ (xi, y1_1), (xi, yi_2), ... , (xi, yi_m) สำหรับอินพุต xi; i = 1,2, ... , n (จำนวนจุดข้อมูล) จากนั้นค้นหาค่าเฉลี่ยและความแปรปรวนสำหรับค่า yi_j? ฉันแค่สับสนว่าทำไมในการถดถอยเชิงเส้น y = ax + b, x, y, a (หรือหลายเส้นหนึ่ง y + a1x1 + a2x2 + ... anxn แล้ว ai, xi) เป็นตัวแปรสุ่มและไม่คงที่ค่า. นอกจากนี้เรายังทำการวิเคราะห์นี้สำหรับตัวทำนายแต่ละคู่และแต่ละคู่ (y, x_i) ด้วยค่าที่เป็นอิสระหรือไม่?
แกรี่

ฉันไม่เข้าใจสิ่งที่คุณกำลังสับสน มีค่าที่คาดการณ์ของ y และค่าจริงของ y สำหรับการสังเกตแต่ละครั้ง ส่วนที่เหลือคือความแตกต่างระหว่างพวกเขา
Peter Flom - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.