ช่วงการทำนายการถดถอยเชิงเส้น


24

หากการประมาณเชิงเส้นที่ดีที่สุด (โดยใช้กำลังสองน้อยที่สุด) ของจุดข้อมูลของฉันคือเส้นฉันจะคำนวณข้อผิดพลาดการประมาณได้อย่างไร ถ้าฉันคำนวณค่าเบี่ยงเบนมาตรฐานของความแตกต่างระหว่างการสังเกตและการคาดการณ์ฉันจะพูดในภายหลังว่าค่าจริง (แต่ไม่ได้สังเกต)เป็นของช่วง ( ) ที่มีความน่าจะเป็น ~ 68% สมมติว่ามีการแจกแจงแบบปกติหรือไม่?e i = r e a l ( x i ) - ( m x i + b ) y r = r e a l ( x 0 ) [ y p - σ , y p + σ ] y p = m x 0 + by=mx+bei=real(xi)(mxi+b)yr=real(x0)[ypσ,yp+σ]yp=mx0+b

เพื่อชี้แจง:

ฉันทำข้อสังเกตเกี่ยวกับฟังก์ชั่นโดยการประเมินว่าจะเป็นบางจุดx_iฉันพอดีกับข้อสังเกตเหล่านี้กับสายข สำหรับว่าผมไม่ได้สังเกตผมอยากจะรู้ว่าวิธีการใหญ่สามารถ เป็น การใช้วิธีการด้านบนมันถูกต้องหรือไม่ที่จะบอกว่าด้วย prob ~ 68%?f(x)xil(x)=mx+bx0f(x0)l(x0)f(x0)[l(x0)σ,l(x0)+σ]


1
ฉันคิดว่าคุณกำลังถามเกี่ยวกับช่วงเวลาการทำนาย อย่างไรก็ตามโปรดทราบว่าคุณใช้ " " แทนที่จะเป็น " " นี่เป็นตัวพิมพ์ผิดหรือเปล่า? เราไม่คาดการณ์ s xiyix
gung - Reinstate Monica

@gung: ผมใช้เพื่อแสดงถึงเวลาเช่นและYค่าของตัวแปรบางอย่างในช่วงเวลานั้นดังนั้นหมายความว่าฉันทำข้อสังเกตในเวลาxฉันต้องการทราบว่าการทำนายฟังก์ชันที่เหมาะสมนั้นมาจากค่าที่แท้จริงของ y ได้ไกลแค่ไหน มันสมเหตุสมผลไหม ฟังก์ชั่นผลตอบแทนที่ "ถูกต้อง" ค่าของที่และจุดที่ข้อมูลของฉันประกอบด้วย(x_i))} xyy x r e a l ( x i ) y x i ( x i , r e a l ( x i ) )y=f(x)yxreal(xi)yxi(xi,real(xi))
bmx

1
ดูเหมือนว่าสมเหตุสมผลอย่างสมบูรณ์ ชิ้นส่วนที่ฉันมุ่งเน้นคือ " " โดยปกติแล้วเราจะคิดถึงข้อผิดพลาด / ส่วนที่เหลือในรูปแบบ reg เป็น " e i = y i - ( m x i + b ) " SD ของส่วนที่เหลือจะมีบทบาทในการคำนวณช่วงเวลาการทำนาย มันคือ " x iei=real(xi)(mxi+b)ei=yi(mxi+b)xi"มันแปลกสำหรับฉัน; ฉันสงสัยว่ามันเป็นตัวพิมพ์ผิดหรือคุณกำลังถามเกี่ยวกับบางสิ่งที่ฉันจำไม่ได้
gung - Reinstate Monica

ฉันคิดว่าฉันเห็น; ฉันพลาดการแก้ไขของคุณ นี้แสดงให้เห็นว่าระบบที่ดีที่สุดที่กำหนดและถ้าคุณมีการเข้าถึงจริงฟังก์ชั่นพื้นฐานที่คุณก็สามารถคาดการณ์อย่างสมบูรณ์ w / o ข้อผิดพลาด นั่นไม่ใช่วิธีที่เราคิดเกี่ยวกับแบบจำลอง reg yi
gung - Reinstate Monica

4
bmx ดูเหมือนว่าฉันมีความคิดที่ชัดเจนเกี่ยวกับคำถามของคุณและการรับรู้ที่ดีเกี่ยวกับปัญหาบางอย่าง คุณอาจสนใจตรวจสอบสามหัวข้อที่เกี่ยวข้องอย่างใกล้ชิด stats.stackexchange.com/questions/17773อธิบายช่วงการทำนายในศัพท์ที่ไม่ใช่เทคนิค stats.stackexchange.com/questions/26702ให้คำอธิบายทางคณิตศาสตร์เพิ่มเติม และในstats.stackexchange.com/questions/9131 , Rob Hyndman ให้สูตรที่คุณต้องการ หากสิ่งเหล่านี้ไม่ตอบคำถามของคุณอย่างเต็มที่อย่างน้อยพวกเขาอาจให้สัญกรณ์และคำศัพท์มาตรฐานแก่คุณเพื่อชี้แจงให้ชัดเจน
whuber

คำตอบ:


30

@whuber ได้ชี้ให้คุณเห็นคำตอบที่ดีสามข้อ แต่บางทีฉันยังสามารถเขียนคุณค่าบางอย่างได้ คำถามที่ชัดเจนของคุณตามที่ฉันเข้าใจคือ:

Yฉัน = เมตร x ฉัน + By^i=m^xi+b^ (แจ้งให้ทราบล่วงหน้าฉันเพิ่ม 'หมวก') , และสมมติว่าเหลือของฉันจะกระจายตามปกติ, ผมสามารถคาดการณ์ได้ว่าเป็นยัง การตอบสนองที่ไม่มีใครสังเกต, Y n E Wมีมูลค่าทำนายรู้จักx n E Wจะตกอยู่ในช่วงเวลา( Y - σ E , Y + σN(0,σ^e2)ynewxnewความน่าจะเป็น 68%?(y^σe,y^+σe)

สังหรณ์ใจคำตอบดูเหมือนว่ามันควรจะเป็น 'ใช่' แต่คำตอบที่แท้จริงคือบางที นี่จะเป็นกรณีที่ทราบพารามิเตอร์ (เช่น & σ ) และไม่มีข้อผิดพลาด เนื่องจากคุณประเมินพารามิเตอร์เหล่านี้เราจำเป็นต้องพิจารณาความไม่แน่นอนของพารามิเตอร์เหล่านั้น m,b,σ

ก่อนอื่นลองคิดถึงความเบี่ยงเบนมาตรฐานของส่วนที่เหลือของคุณก่อน เนื่องจากข้อมูลนี้ประมาณจากข้อมูลของคุณจึงอาจมีข้อผิดพลาดบางอย่างในการประมาณการ ดังนั้นการกระจายที่คุณควรใช้ในการสร้างช่วงเวลาการทำนายของคุณควรเป็นข้อผิดพลาดไม่ใช่แบบปกติ อย่างไรก็ตามเนื่องจากtมาบรรจบกันอย่างรวดเร็วเป็นปกติจึงมีโอกาสน้อยที่จะมีปัญหาในทางปฏิบัติ tdf errort

ดังนั้นเราสามารถใช้เพียงปีใหม่ ± T ( 1 - α / 2 , ข้อผิดพลาด DF ) sแทนปีใหม่ ± Z ( 1 - α / 2 ) sและไปเกี่ยวกับทางม้าของเราหรือไม่ น่าเสียดายที่ไม่มี ปัญหาที่ใหญ่กว่าคือว่ามีความไม่แน่นอนเกี่ยวกับการประมาณการของคุณหมายถึงเงื่อนไขของการตอบสนองที่ตำแหน่งนั้นเนื่องจากความไม่แน่นอนในการประมาณการของคุณm & B ดังนั้น,y^new±t(1α/2, df error)sy^new±z(1α/2)sm^b^ค่าเบี่ยงเบนมาตรฐานของการคาดการณ์ของคุณต้องการที่จะรวมมากกว่าเพียงแค่serrorข้อผิดพลาด เพราะความแปรปรวนเพิ่ม , ความแปรปรวนโดยประมาณของการคาดการณ์จะเป็น: สังเกตว่า " x " คือ subscripted จะแสดงค่าที่เฉพาะเจาะจงสำหรับการใหม่ การสังเกตและ " s 2 " นั้นห้อยตามลำดับ นั่นคือช่วงเวลาการทำนายของคุณจะขึ้นอยู่กับตำแหน่งของการสังเกตใหม่ตามแนวx

spredictions(new)2=serror2+Var(m^xnew+b^)
xs2xแกน. ค่าเบี่ยงเบนมาตรฐานของการคาดคะเนของคุณสามารถประเมินได้สะดวกกว่าด้วยสูตรต่อไปนี้: การคาดการณ์ ในฐานะที่เป็นบันทึกด้านที่น่าสนใจเราสามารถสรุปข้อเท็จจริงบางอย่างเกี่ยวกับการทำนายช่วงจากสมการนี้ ครั้งแรกช่วงเวลาที่ทำนายจะแคบข้อมูลเพิ่มเติมที่เราได้เมื่อเราสร้างแบบจำลองการคาดคะเน (นี้เป็นเพราะมีความไม่แน่นอนน้อยลงในม.และ) ประการที่สองการคาดการณ์จะมีความแม่นยำมากที่สุดถ้าพวกเขาจะทำที่ค่าเฉลี่ยของxค่าคุณใช้ในการพัฒนารูปแบบของคุณเป็นเศษสำหรับระยะที่สามจะเป็น0 เหตุผลก็คือภายใต้สถานการณ์ปกติไม่มีความไม่แน่นอนเกี่ยวกับความชันโดยประมาณที่ค่าเฉลี่ยของx
spredictions(new)=serror2(1+1N+(xnewx¯)2(xix¯)2)
m^b^x0xมีความไม่แน่นอนเพียงเล็กน้อยเกี่ยวกับตำแหน่งแนวตั้งที่แท้จริงของเส้นการถดถอย ดังนั้นบทเรียนบางอย่างที่ต้องเรียนรู้สำหรับการสร้างแบบจำลองการทำนายคือ: ข้อมูลเพิ่มเติมมีประโยชน์ไม่ใช่กับการค้นหา 'นัยสำคัญ' แต่ด้วยการปรับปรุงความแม่นยำของการทำนายอนาคต และคุณควรจัดให้มีศูนย์รวบรวมข้อมูลของคุณในช่วงเวลาที่คุณจะต้องทำการคาดการณ์ในอนาคต (เพื่อลดตัวเศษที่) แต่กระจายการสังเกตอย่างกว้างขวางจากศูนย์นั้นเท่าที่จะทำได้ (เพื่อขยายตัวส่วนนั้น)

เมื่อคำนวณค่าที่ถูกต้องในลักษณะนี้แล้วเราสามารถใช้กับการแจกแจงที่เหมาะสมดังที่ระบุไว้ข้างต้น t

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.