ทำไมข้อผิดพลาดมาตรฐานของการดักจับเพิ่มขึ้นอีกมาจาก 0


13

ข้อผิดพลาดมาตรฐานของคำดักจับ ( ) ในมอบให้โดย ที่คือ ค่าเฉลี่ยของ 'sβ^0y=β1x+β0+ε

SE(β^0)2=σ2[1n+x¯2i=1n(xix¯)2]
x¯xi

จากสิ่งที่ฉันเข้าใจ SE คำนวณปริมาณความไม่แน่นอนของคุณ - ในตัวอย่าง 95%, ช่วงเวลาจะมีจริง . ผมไม่เข้าใจว่าทางทิศตะวันออก, ตัวชี้วัดของความไม่แน่นอนที่เพิ่มขึ้นกับ{x} ถ้าฉันเปลี่ยนข้อมูลของฉันดังนั้นความไม่แน่นอนของฉันลดลง ดูเหมือนว่าไม่มีเหตุผลβ 0 ˉ x ˉ x = 0[β^02SE,β^0+2SE]β0x¯x¯=0

การตีความแบบอะนาล็อกคือ - ในเวอร์ชันที่ไม่มีข้อมูลของฉันสอดคล้องกับการทำนายของฉันที่ในขณะที่อยู่ตรงกลางข้อมูลสอดคล้องกับการทำนายของฉันที่{x} ดังนั้นนี้ไม่แล้วหมายความว่าความไม่แน่นอนของฉันเกี่ยวกับการทำนายของฉันที่มีค่ามากกว่าความไม่แน่นอนของฉันเกี่ยวกับการทำนายของฉันที่ ? ที่ดูเหมือนว่าไม่มีเหตุผลเกินไปข้อผิดพลาดมีความแปรปรวนเหมือนกันสำหรับทุกค่าของดังนั้นความไม่แน่นอนของฉันในค่าคาดการณ์ของฉันควรจะเหมือนกันสำหรับทุกxx=0 β 0x= ˉ x x=0x= ˉ x εxxβ^0x=0β^0x=x¯x=0x=x¯ϵxx

มีช่องว่างในความเข้าใจของฉันฉันแน่ใจ มีใครช่วยให้ฉันเข้าใจว่าเกิดอะไรขึ้น?


3
คุณเคยถดถอยอะไรกับวันที่หรือไม่? ระบบคอมพิวเตอร์จำนวนมากเริ่มต้นวันที่ในอดีตอันไกลโพ้นบ่อยครั้งกว่า 100 ปีหรือมากกว่า 2,000 ปีมาแล้ว การสกัดกั้นประมาณค่าของข้อมูลของคุณคาดการณ์ย้อนหลังไปถึงเวลาเริ่มต้น คุณจะแน่ใจได้อย่างไรกับผลิตภัณฑ์มวลรวมภายในประเทศของอิรักในปี 0 CE จากการถดถอยชุดข้อมูลศตวรรษที่ 21
whuber

ฉันเห็นด้วยมันสมเหตุสมผลถ้าคุณคิดแบบนี้ คำตอบนี้และ gung ทำให้สิ่งต่าง ๆ ชัดเจน
elexhobby

2
คำตอบนี้ให้คำอธิบายที่เข้าใจง่ายพร้อมไดอะแกรม) ว่ามันเกิดขึ้นได้อย่างไรโดยการคัดเลือกสายที่พอดีในแง่ของความพอดีที่ค่าเฉลี่ย (เส้นที่ติดตั้งผ่าน ) และแสดงสาเหตุ ตำแหน่งของที่ที่เส้นสามารถกระจายออกไปในขณะที่คุณย้ายออกจาก (ซึ่งเกิดจากความไม่แน่นอนในความชัน) ( ˉ x , ˉ y ) ˉ xx¯(x¯,y¯)x¯
Glen_b -Reinstate Monica

คำตอบ:


16

เนื่องจากเส้นการถดถอยนั้นพอดีกับกำลังสองน้อยที่สุดโดยทั่วไปจะต้องผ่านค่าเฉลี่ยของข้อมูลของคุณ (เช่น ) - อย่างน้อยที่สุดตราบใดที่คุณไม่ระงับการสกัดกั้น - ความไม่แน่นอนเกี่ยวกับค่าจริง ของความลาดชันไม่มีผลต่อตำแหน่งแนวตั้งของเส้นตรงที่ค่าเฉลี่ยของ (เช่นที่ ) สิ่งนี้แปลเป็นความไม่แน่นอนในแนวดิ่งน้อยกว่าที่มากกว่าที่คุณจะอยู่ห่างจากคุณ หากการสกัดกั้นโดยที่คือดังนั้นสิ่งนี้จะลดความไม่แน่นอนของคุณเกี่ยวกับมูลค่าที่แท้จริงของ(x¯,y¯)xy^x¯x¯x¯x=0x¯β0. ในแง่ทางคณิตศาสตร์นี้แปลเป็นค่าที่เป็นไปได้ที่เล็กที่สุดของข้อผิดพลาดมาตรฐานสำหรับ\ β^0

นี่คือตัวอย่างด่วนในR:

set.seed(1)                           # this makes the example exactly reproducible
x0      = rnorm(20, mean=0, sd=1)     # the mean of x varies from 0 to 10
x5      = rnorm(20, mean=5, sd=1)
x10     = rnorm(20, mean=10, sd=1)
y0      = 5 + 1*x0  + rnorm(20)       # all data come from the same  
y5      = 5 + 1*x5  + rnorm(20)       #  data generating process
y10     = 5 + 1*x10 + rnorm(20)
model0  = lm(y0~x0)                   # all models are fit the same way
model5  = lm(y5~x5)
model10 = lm(y10~x10)

ป้อนคำอธิบายรูปภาพที่นี่

รูปนี้เป็นบิตยุ่ง แต่คุณสามารถดูข้อมูลจากการศึกษาที่แตกต่างกันที่การกระจายของอยู่ใกล้หรือไกลออกไปจาก0ความลาดชันแตกต่างกันเล็กน้อยจากการศึกษาเพื่อการศึกษา แต่ส่วนใหญ่จะคล้ายกัน (สังเกตว่าพวกเขาทั้งหมดผ่านวงกลม X ที่ฉันใช้เพื่อทำเครื่องหมาย ) อย่างไรก็ตามความไม่แน่นอนเกี่ยวกับมูลค่าที่แท้จริงของความลาดชันเหล่านั้นทำให้เกิดความไม่แน่นอนเกี่ยวกับเพื่อขยายเพิ่มเติมที่คุณได้รับจากความหมายว่ากว้างมากสำหรับข้อมูลที่ถูกเก็บตัวอย่างในเขตของ , และแคบมากสำหรับการศึกษาซึ่งข้อมูลที่ถูกเก็บตัวอย่างใกล้ 0 x0(x¯,y¯)y^x¯SE(β^0)x=10x=0


แก้ไขในการตอบสนองต่อความคิดเห็น: แต่น่าเสียดายที่ศูนย์กลางข้อมูลของคุณหลังจากที่คุณมีพวกเขาจะไม่ช่วยให้คุณถ้าคุณต้องการที่จะรู้ว่าแนวโน้มมูลค่าที่บางค่า{} คุณต้องจัดศูนย์กลางการรวบรวมข้อมูลของคุณให้ตรงจุดที่คุณสนใจเป็นอันดับแรก เพื่อให้เข้าใจถึงปัญหาเหล่านี้มากขึ้นอย่างเต็มที่ก็อาจช่วยให้คุณอ่านคำตอบของฉันที่นี่: ช่วงเชิงเส้นทำนายถดถอย yxxnew


ดังนั้นให้พูดด้วยเหตุผลบางอย่างที่ฉันสนใจมากที่สุดในการทำนายที่ค่าx' คำอธิบายข้างต้นแสดงให้เห็นว่าฉันไม่ควรศูนย์ข้อมูลของฉัน (คือกะเพื่อให้ ) แต่แทนที่จะเปลี่ยนมันเพื่อให้x' ถูกต้องหรือไม่ x=xxx¯=0x¯=x
elexhobby

สูตรทั่วไปมีในตัวเศษแทน : ไม่จำเป็นต้องเปลี่ยน (xx¯)2x¯2
whuber

@elexhobby ฉันได้เพิ่มข้อมูลเพื่อตอบความคิดเห็นของคุณคุณอาจต้องการดูเนื้อหาที่เชื่อมโยง แจ้งให้เราทราบหากคุณยังต้องการอีก
gung - Reinstate Monica

นี่คือวิธีที่ผมเข้าใจ - ผมอ่านที่อื่น ๆ ที่2} ตอนนี้ข้อผิดพลาดในมูลค่าที่คาดการณ์ไว้ที่เนื่องจากความไม่แน่นอนในความลาดชันเป็น 2 นอกจากนี้ข้อผิดพลาดเนื่องจากความไม่แน่นอนในตำแหน่งแนวตั้งของเส้นเป็น{n} รวมสิ่งเหล่านี้เข้าด้วยกันและเราจะได้ความไม่แน่นอนในค่าที่คาดการณ์เนื่องจากความไม่แน่นอนในและคือ2} ช่วยแก้ให้ด้วยนะถ้าฉันผิด. SE(β^1)=σ2(xix¯)2xnewSE(β^1)(xnewx¯)2σ2nβ^1β^0σ2n+σ2(xnewx¯)2(xix¯)2
elexhobby

1
นอกจากนี้มันเป็นที่ชัดเจนว่าทำไมข้อผิดพลาดในตำแหน่งแนวตั้งคือ - เรารู้ว่าสายได้ผ่านที่{x} ตอนนี้มีค่าเฉลี่ยของข้อผิดพลาด IID และด้วยเหตุนี้จะมี SE เท่ากับ{n} ว้าว! ขอบคุณมากสำหรับแผนภาพของคุณและคำอธิบายที่ชัดเจนฉันซาบซึ้งจริงๆ σ2ny¯x=x¯y¯nσ2n
elexhobby
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.