รูปร่างของช่วงความมั่นใจสำหรับค่าที่คาดการณ์ไว้ในการถดถอยเชิงเส้น


69

ฉันสังเกตเห็นว่าช่วงความมั่นใจสำหรับค่าที่ทำนายในการถดถอยเชิงเส้นมีแนวโน้มแคบลงรอบค่าเฉลี่ยของตัวทำนายและไขมันรอบค่าต่ำสุดและค่าสูงสุดของตัวทำนาย สิ่งนี้สามารถเห็นได้ในพล็อตของการถดถอยเชิงเส้น 4 แบบนี้:

ป้อนคำอธิบายรูปภาพที่นี่

ตอนแรกฉันคิดว่าเป็นเพราะค่านิยมของผู้ทำนายส่วนใหญ่กระจุกตัวอยู่กับค่าเฉลี่ยของผู้ทำนาย อย่างไรก็ตามฉันสังเกตเห็นว่าช่วงกลางที่แคบของช่วงความมั่นใจจะเกิดขึ้นแม้ว่าค่าจำนวนมากจะกระจุกตัวอยู่รอบสุดขั้วของตัวทำนายเช่นเดียวกับในการถดถอยเชิงเส้นด้านล่างซ้ายซึ่งค่าของตัวทำนายจำนวนมากนั้นมีสมาธิ ผู้ทำนาย

ไม่มีใครสามารถอธิบายได้ว่าทำไมช่วงเวลาความเชื่อมั่นสำหรับค่าที่ทำนายไว้ในการถดถอยเชิงเส้นมีแนวโน้มที่จะแคบลงตรงกลางและไขมันที่สุดขั้ว?

คำตอบ:


86

ฉันจะพูดคุยในแง่ง่าย

ทั้งช่วงความเชื่อมั่นและช่วงการทำนายในการถดถอยคำนึงถึงข้อเท็จจริงที่ว่าการสกัดกั้นและความชันนั้นไม่แน่นอน - คุณประมาณค่าจากข้อมูล แต่ค่าประชากรอาจแตกต่างกัน (ถ้าคุณเอาตัวอย่างใหม่มา ค่า)

(x¯,y¯)y=a+b(xx¯)a^=y¯

(x¯,y¯)

±

ป้อนคำอธิบายรูปภาพที่นี่

x¯,y¯

ป้อนคำอธิบายรูปภาพที่นี่

(x¯,y¯)x

ป้อนคำอธิบายรูปภาพที่นี่

±

x¯

นั่นคือสัญชาตญาณ


ตอนนี้ถ้าคุณชอบเราสามารถพิจารณาพีชคณิตเล็กน้อย (แต่มันไม่จำเป็น):

มันคือสแควร์รูทของผลรวมของกำลังสองของเอฟเฟกต์ทั้งสอง - คุณสามารถดูได้ในสูตรช่วงความมั่นใจ มาสร้างชิ้นกันเถอะ:

abσ/nayxx¯

baσ/i=1n(xix¯)2xxx¯(xx¯)σ/i=1n(xix¯)2

y=a+b(xx¯)ab

(σ/n)2+[(xx¯)σ/i=1n(xix¯)2]2

x

σ1n+(xx¯)2i=1n(xix¯)2

xx¯

[ด้วยการทำนายช่วงเวลานอกจากนี้ยังมีการเปลี่ยนแปลงของตำแหน่งเนื่องจากความแปรปรวนของกระบวนการ สิ่งนี้จะเพิ่มคำอื่นที่เปลี่ยนขอบเขตขึ้นและลงทำให้กว้างขึ้นมากและเนื่องจากคำนั้นมักจะควบคุมผลรวมภายใต้สแควร์รูทความโค้งจึงเด่นชัดน้อยกว่า]


ขอบคุณ Glen_b มันใช้งานง่ายมาก มันไม่ได้ข้ามความคิดของฉันนั่นคือสิ่งที่ช่วงความมั่นใจมีการบัญชี
ลูเซียโน

1

คำตอบที่ได้รับการยอมรับย่อมนำมาซึ่งสัญชาตญาณที่จำเป็น มันพลาดการมองเห็นของการรวมทั้งความไม่แน่นอนเชิงเส้นและเชิงมุมซึ่งหมายถึงกลับไปที่พล็อตในคำถามอย่างมาก ดังนั้นที่นี่มันจะไป ลองเรียกa'และb'ความไม่แน่นอนของaและbตามลำดับปริมาณที่ส่งคืนโดยทั่วไปตามแพคเกจสถิติยอดนิยมใด ๆ จากนั้นเรามีนอกเหนือจากการฟิตที่ดีที่สุดa*x + bสี่เส้นที่เป็นไปได้ในการวาด (ในกรณีนี้คือ 1 covariate x):

  • (a+a')*x + b+b'
  • (a-a')*x + b-b'
  • (a+a')*x + b-b'
  • (a-a')*x + b+b'

นี่คือสี่บรรทัดที่มีการเรียงกันในกราฟด้านล่าง เส้นหนาสีดำที่อยู่ตรงกลางแสดงถึงแบบที่ดีที่สุดโดยไม่มีความไม่แน่นอน ดังนั้นในการวาด "ไฮเพอร์โบลิก" หนึ่งควรใช้ค่าสูงสุดและต่ำสุดของทั้งสี่เส้นรวมกันซึ่งในความเป็นจริงสี่ส่วนของเส้นตรงไม่มีเส้นโค้งที่นั่น (ฉันสงสัยว่าพล็อตเรื่องจินตนาการ ถูกต้องสำหรับฉัน)

ฉันหวังว่าสิ่งนี้จะเพิ่มสิ่งที่คำตอบที่ดีอยู่แล้วจาก @Glen_b

ป้อนคำอธิบายรูปภาพที่นี่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.