เนื่องจากเส้นการถดถอยนั้นพอดีกับกำลังสองน้อยที่สุดโดยทั่วไปจะต้องผ่านค่าเฉลี่ยของข้อมูลของคุณ (เช่น ) - อย่างน้อยที่สุดตราบใดที่คุณไม่ระงับการสกัดกั้น - ความไม่แน่นอนเกี่ยวกับค่าจริง ของความลาดชันไม่มีผลต่อตำแหน่งแนวตั้งของเส้นตรงที่ค่าเฉลี่ยของ (เช่นที่ ) สิ่งนี้แปลเป็นความไม่แน่นอนในแนวดิ่งน้อยกว่าที่มากกว่าที่คุณจะอยู่ห่างจากคุณ หากการสกัดกั้นโดยที่คือดังนั้นสิ่งนี้จะลดความไม่แน่นอนของคุณเกี่ยวกับมูลค่าที่แท้จริงของ(x¯,y¯)xy^x¯x¯x¯x=0x¯β0. ในแง่ทางคณิตศาสตร์นี้แปลเป็นค่าที่เป็นไปได้ที่เล็กที่สุดของข้อผิดพลาดมาตรฐานสำหรับ\ β^0
นี่คือตัวอย่างด่วนในR
:
set.seed(1) # this makes the example exactly reproducible
x0 = rnorm(20, mean=0, sd=1) # the mean of x varies from 0 to 10
x5 = rnorm(20, mean=5, sd=1)
x10 = rnorm(20, mean=10, sd=1)
y0 = 5 + 1*x0 + rnorm(20) # all data come from the same
y5 = 5 + 1*x5 + rnorm(20) # data generating process
y10 = 5 + 1*x10 + rnorm(20)
model0 = lm(y0~x0) # all models are fit the same way
model5 = lm(y5~x5)
model10 = lm(y10~x10)
รูปนี้เป็นบิตยุ่ง แต่คุณสามารถดูข้อมูลจากการศึกษาที่แตกต่างกันที่การกระจายของอยู่ใกล้หรือไกลออกไปจาก0ความลาดชันแตกต่างกันเล็กน้อยจากการศึกษาเพื่อการศึกษา แต่ส่วนใหญ่จะคล้ายกัน (สังเกตว่าพวกเขาทั้งหมดผ่านวงกลม X ที่ฉันใช้เพื่อทำเครื่องหมาย ) อย่างไรก็ตามความไม่แน่นอนเกี่ยวกับมูลค่าที่แท้จริงของความลาดชันเหล่านั้นทำให้เกิดความไม่แน่นอนเกี่ยวกับเพื่อขยายเพิ่มเติมที่คุณได้รับจากความหมายว่ากว้างมากสำหรับข้อมูลที่ถูกเก็บตัวอย่างในเขตของ , และแคบมากสำหรับการศึกษาซึ่งข้อมูลที่ถูกเก็บตัวอย่างใกล้ 0 x0(x¯,y¯)y^x¯SE(β^0)x=10x=0
แก้ไขในการตอบสนองต่อความคิดเห็น: แต่น่าเสียดายที่ศูนย์กลางข้อมูลของคุณหลังจากที่คุณมีพวกเขาจะไม่ช่วยให้คุณถ้าคุณต้องการที่จะรู้ว่าแนวโน้มมูลค่าที่บางค่า{} คุณต้องจัดศูนย์กลางการรวบรวมข้อมูลของคุณให้ตรงจุดที่คุณสนใจเป็นอันดับแรก เพื่อให้เข้าใจถึงปัญหาเหล่านี้มากขึ้นอย่างเต็มที่ก็อาจช่วยให้คุณอ่านคำตอบของฉันที่นี่: ช่วงเชิงเส้นทำนายถดถอย yxxnew