ความแตกต่างระหว่างการประมาณและการทำนายคืออะไร?


46

ตัวอย่างเช่นฉันมีข้อมูลการสูญเสียในอดีตและฉันกำลังคำนวณปริมาณมาก (มูลค่าที่เสี่ยงหรือการสูญเสียสูงสุดที่น่าจะเป็น) ผลลัพธ์ที่ได้มีไว้สำหรับการประเมินการสูญเสียหรือทำนายพวกเขา? หนึ่งสามารถวาดเส้นที่ไหน ฉันสับสน.


4
ที่เกี่ยวข้องอย่างใกล้ชิดคือการสนทนาเกี่ยวกับความแตกต่างระหว่างช่วงความเชื่อมั่นและการคาดการณ์ช่วงเวลาที่stats.stackexchange.com/questions/16493
whuber

คำตอบ:


64

"การคาดการณ์" และ "การประเมิน" แน่นอนบางครั้งใช้แทนกันในการเขียนที่ไม่ใช่ด้านเทคนิคและดูเหมือนว่าพวกเขาจะทำงานคล้ายกัน แต่มีความแตกต่างที่ชัดเจนระหว่างพวกเขาในรูปแบบมาตรฐานของปัญหาทางสถิติ ประมาณการการใช้ข้อมูลที่จะคาดเดาที่พารามิเตอร์ในขณะที่ทำนายใช้ข้อมูลที่จะคาดเดาค่าสุ่มบางอย่างที่ไม่ได้เป็นส่วนหนึ่งของชุดข้อมูล สำหรับผู้ที่ไม่คุ้นเคยกับสิ่งที่ "พารามิเตอร์" และ "ค่าสุ่ม" หมายถึงในสถิติต่อไปนี้ให้คำอธิบายโดยละเอียด

ในรูปแบบมาตรฐานนี้ข้อมูลจะถือว่าเป็นการ (อาจจะหลายตัวแปร) สังเกตของตัวแปรสุ่มที่มีการกระจายเป็นที่รู้จักกันเท่านั้นที่จะอยู่ภายในชุดที่ชัดเจนของการกระจายความเป็นไปได้ที่ "รัฐของธรรมชาติ" ประมาณการเป็นขั้นตอนทางคณิตศาสตร์ที่กำหนดให้แต่ละค่าเป็นไปได้ของบางคุณสมบัติของรัฐของธรรมชาติเช่นค่าเฉลี่ยtheta) ดังนั้นการประมาณการจึงเป็นการคาดเดาเกี่ยวกับสภาพที่แท้จริงของธรรมชาติ เราสามารถบอกได้ว่าดีประมาณการโดยการเปรียบเทียบเพื่อtheta) X T x T ( x ) θ μ ( θ ) T ( x ) μ ( θ )xX txt(x)θμ(θ)t(x)μ(θ)

ทำนาย ที่เกี่ยวข้องกับการสังเกตอิสระอีกตัวแปรสุ่มที่มีการกระจายที่เกี่ยวข้องกับสภาพที่แท้จริงของธรรมชาติ การทำนายเป็นการเดาเกี่ยวกับค่าสุ่มอื่น เราสามารถบอกได้ว่าวิธีการที่ดีโดยเฉพาะอย่างยิ่งการทำนายเป็นเพียงโดยการเปรียบเทียบค่าตระหนักโดยZเราหวังว่าโดยเฉลี่ยข้อตกลงจะดี (ในแง่ของค่าเฉลี่ยเหนือผลลัพธ์ที่เป็นไปได้ทั้งหมดและพร้อมกันมากกว่าค่าที่เป็นไปได้ทั้งหมดของ )Z p ( x ) Z x Zp(x)Zp(x)Zx Z

สี่เหลี่ยมจัตุรัสขั้นต่ำสุดปกติเป็นตัวอย่างมาตรฐาน ข้อมูลประกอบด้วยคู่เชื่อมโยงค่าของตัวแปรตามกับค่าของตัวแปรอิสระ สถานะของธรรมชาติจะถูกระบุโดยสามพารามิเตอร์ ,และ : มันบอกว่าแต่ละเป็นเหมือนวาดอิสระจากการแจกแจงแบบปกติที่มีค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐาน\ ,และเป็นพารามิเตอร์ (ตัวเลข) ที่เชื่อว่าได้รับการแก้ไขและไม่เปลี่ยนแปลง ความสนใจมุ่งเน้นไปที่Y ฉันx ฉัน α β σ Y ฉัน α + β x ฉัน σ α β σ α β ( α , β ) α α β β α β(xi,yi)yixiαβσyiα+βxiσαβσα (การสกัดกั้น) และ (ความชัน) ประมาณการ OLS เขียนเป็นสิ่งที่ดีในแง่ที่มีแนวโน้มที่จะใกล้เคียงกับและมีแนวโน้มที่จะเป็น ใกล้กับ , ไม่ว่าสิ่งที่จริง ( แต่ไม่ทราบ) ค่าและอาจจะβ(α^,β^)α^αβ^βαβ

การทำนาย OLS ประกอบด้วยการสังเกตค่าใหม่ของตัวแปรตามที่สัมพันธ์กับค่าของตัวแปรอิสระ อาจหรืออาจจะไม่อยู่ในหมู่ในชุดข้อมูล; นั่นคือสาระสำคัญ หนึ่งในการทำนายที่ดีสังหรณ์ใจก็คือว่าค่าใหม่นี้น่าจะใกล้เคียงกับ x การคาดการณ์ที่ดีขึ้นจะบอกได้ว่ามูลค่าใหม่นั้นใกล้เคียงกันมากแค่ไหน (เรียกว่าช่วงการทำนาย ) พวกเขาอธิบายถึงข้อเท็จจริงที่ว่าและมีความไม่แน่นอน (เพราะพวกเขาขึ้นอยู่กับคณิตศาสตร์ในการสุ่มค่าx x x ฉันα + β x α β ( Y ฉัน ) σ Y ( x ) σ α + β xZ=Y(x)xxxiα^+β^xα^β^(yi) ),ไม่เป็นที่รู้จักสำหรับบางคน (และดังนั้นจึงต้องมีการประมาณ) เช่นเดียวกับสมมติฐานที่ว่ามีการแจกแจงแบบปกติที่มีค่าเบี่ยงเบนมาตรฐานและค่าเฉลี่ย ( สังเกตว่าไม่มีหมวก!)σY(x)σα+βx

โปรดทราบว่าการคาดการณ์นี้มีสองแหล่งที่มาของความไม่แน่นอนที่แยกจากกัน: ความไม่แน่นอนในข้อมูลนำไปสู่ความไม่แน่นอนในความลาดชันโดยประมาณการสกัดกั้นและส่วนเบี่ยงเบนมาตรฐานที่เหลือ ( ); นอกจากนี้ยังมีความไม่แน่นอนในสิ่งที่มูลค่าของจะเกิดขึ้น ความไม่แน่นอนเพิ่มเติมนี้ - เนื่องจากเป็นแบบสุ่ม - อธิบายลักษณะการทำนาย การคาดคะเนอาจดูเหมือนการประมาณการ (หลังจากทั้งหมดประมาณการ :-) และอาจมีสูตรทางคณิตศาสตร์ที่เหมือนกันมาก (บางครั้งอาจเหมือนกับσ Y ( x ) Y ( x ) α + β x α + β x P ( x ) T ( x )(xi,yi)σY(x)Y(x)α^+β^x α+βxp(x)t(x)) แต่จะมาพร้อมกับความไม่แน่นอนจำนวนมากกว่าที่คาดไว้

จากนั้นในตัวอย่างของ OLS เราจะเห็นความแตกต่างอย่างชัดเจน: การคาดคะเนที่พารามิเตอร์ (ซึ่งได้รับการแก้ไข แต่ไม่ทราบจำนวน) ในขณะที่การคาดเดาจะคาดเดาที่ค่าของปริมาณแบบสุ่ม แหล่งที่มาของความสับสนที่อาจเกิดขึ้นคือการคาดการณ์มักจะสร้างตามพารามิเตอร์ที่ประมาณไว้และอาจมีสูตรเดียวกันกับตัวประมาณ

ในทางปฏิบัติคุณสามารถแยกความแตกต่างของตัวประมาณจากตัวทำนายได้สองวิธี:

  1. จุดประสงค์ : ตัวประมาณพยายามที่จะรู้คุณสมบัติของสภาพที่แท้จริงของธรรมชาติในขณะที่การทำนายพยายามที่จะคาดเดาผลลัพธ์ของตัวแปรสุ่ม และ

  2. ความไม่แน่นอน : ตัวทำนายมักจะมีความไม่แน่นอนสูงกว่าตัวประมาณที่เกี่ยวข้องเนื่องจากความไม่แน่นอนที่เพิ่มขึ้นในผลลัพธ์ของตัวแปรสุ่มนั้น เครื่องทำนายที่ได้รับการบันทึกไว้อย่างดีและมักจะมาพร้อมกับแถบความไม่แน่นอน - ช่วงการทำนาย - ซึ่งกว้างกว่าช่วงความไม่แน่นอนของตัวประมาณที่รู้จักกันในชื่อช่วงความเชื่อมั่น คุณลักษณะเฉพาะของการทำนายช่วงเวลาคือพวกเขาสามารถ (สมมุติ) หดตัวเมื่อชุดข้อมูลเติบโตขึ้น แต่พวกเขาจะไม่ลดลงเหลือความกว้างเป็นศูนย์ - ความไม่แน่นอนในผลลัพธ์แบบสุ่มคือ "ไม่สามารถลดได้" - ในขณะที่ความกว้าง ลดลงเป็นศูนย์ซึ่งสอดคล้องกับสัญชาตญาณของเราว่าความแม่นยำของการประมาณการสามารถกลายเป็นสิ่งดีตามอำเภอใจโดยมีข้อมูลเพียงพอ

ในการใช้สิ่งนี้กับการประเมินการสูญเสียการลงทุนที่อาจเกิดขึ้นอันดับแรกให้พิจารณาวัตถุประสงค์: คุณต้องการที่จะรู้ว่าคุณอาจสูญเสียการลงทุนนี้ (หรือตระกร้าการลงทุนนี้โดยเฉพาะ) ในช่วงเวลาที่กำหนดหรือคุณแค่คาดเดาว่าการสูญเสียที่คาดหวัง (เหนือการลงทุนขนาดใหญ่บางที)? อดีตคือการทำนายหลังประเมิน จากนั้นพิจารณาความไม่แน่นอน คำตอบของคุณจะเปลี่ยนไปอย่างไรถ้าคุณมีทรัพยากรเกือบจะไม่มีที่สิ้นสุดเพื่อรวบรวมข้อมูลและทำการวิเคราะห์ ถ้ามันจะแม่นยำมากคุณอาจประมาณผลตอบแทนที่คาดหวังจากการลงทุนในขณะที่ถ้าคุณยังไม่แน่ใจอย่างสูงเกี่ยวกับคำตอบคุณกำลังทำนาย

ดังนั้นหากคุณยังไม่แน่ใจว่าสัตว์ชนิดใดที่คุณกำลังติดต่อด้วยถามตัวประมาณ / ผู้ทำนายของคุณว่ามันมีความผิดและทำไม โดยใช้เกณฑ์ทั้งสอง (1) และ (2) คุณจะรู้ว่าคุณมีอะไร


คำตอบที่น่าสนใจมาก! คุณสามารถให้ข้อมูลอ้างอิงเกี่ยวกับมันให้เราได้ไหม
user1420303

2
F

y=α+βx+ui+ϵuiN(0,σu2) α,β,σ,σu yuinui

2
ui

2
@whuber จุดที่สำคัญที่สุดที่คุณชี้ให้เห็นก็คือตัวประมาณค่ามักจะประมาณปริมาณด้วยธรรมชาติที่ไม่สุ่ม / ไม่สุ่มเหมือนพารามิเตอร์ในโมเดล SLR ตัวคาดการณ์มักมุ่งเป้าไปที่การประมาณปริมาณด้วยธรรมชาติสุ่ม / สุ่มเช่นตัวแปรตอบสนอง (รวมถึงคำผิดพลาด) ในแบบจำลอง SLR ประเด็นนี้ได้รับความนิยมในงานยุคแรก ๆ ของ Rao
Henry.L

8

การประมาณค่าสำหรับพารามิเตอร์ที่ไม่รู้จักเสมอในขณะที่การคาดการณ์สำหรับตัวแปรสุ่ม


5
คุณคาดการณ์การรับรู้ของตัวแปรสุ่มในขณะที่คุณประเมินพารามิเตอร์ของตัวแปรสุ่ม (เช่นค่าที่คาดไว้)
Richard Hardy

@CowboyTrader ฉันไม่ทราบเกี่ยวกับการประมาณความหนาแน่นของเคอร์เนลมากพอที่จะแสดงความคิดเห็นในการเรียกร้องของคุณ
Richard Hardy

2

ไม่มีความแตกต่างในรุ่น มีความแตกต่างเล็กน้อย (เล็กน้อย) ในการดำเนินการ การประมาณคือการสอบเทียบโมเดลความน่าจะเป็นของคุณโดยใช้ข้อมูล ("การเรียนรู้" ในคำศัพท์ AI) การทำนายคือ "การคาดเดา" ของการสังเกตในอนาคต สมมติว่า "การคาดเดา" นี้ขึ้นอยู่กับข้อมูลในอดีต - นี่อาจเป็นกรณีของการประมาณ เช่นการคาดคะเนความสูงของบุคคลถัดไปที่คุณกำลังจะพบโดยใช้การประมาณความสูงเฉลี่ยในประชากร ให้สังเกตว่าการคาดการณ์นั้นไม่ได้เป็นตัวอย่างของการประมาณค่าเสมอไป เพศของบุคคลถัดไปที่คุณกำลังจะพบไม่ใช่พารามิเตอร์ของประชากรในแง่ของความคลาสสิค การคาดคะเนเพศ, อาจต้องมีการประมาณบางอย่าง, แต่มันจะต้องมีบางอย่างเพิ่มเติม ...

ในกรณีที่มีความเสี่ยงการคาดการณ์และการประมาณค่าเหมือนกันตั้งแต่การสูญเสียที่คาดการณ์ของคุณคือการคาดการณ์ของการสูญเสีย


2
คุณเริ่มต้นได้ดีด้วยความแตกต่างที่ถูกต้องระหว่างการประมาณค่าและการทำนาย แต่จากนั้นสองในสามของการตอบกลับล่าสุดดูเหมือนจะสับสนการทำนายด้วยการประมาณอีกครั้ง แนะนำตัวอย่างของเพศยังคงสับสนมากขึ้นเพราะมันไม่เกี่ยวข้องกับความแตกต่างเริ่มต้น (ในความเป็นจริงมันไร้สาระเพราะพื้นฐานมันเป็นการเปลี่ยนแปลงของแบบจำลองทางสถิติระหว่างขั้นตอนการประมาณค่าและการทำนาย)
whuber

0

การทำนายคือการใช้ฟังก์ชั่นการถดถอยตัวอย่างเพื่อประเมินค่าสำหรับตัวแปรตามที่กำหนดไว้ในค่าที่ไม่ได้ตรวจสอบของตัวแปรอิสระ

การประมาณค่าเป็นกระบวนการหรือเทคนิคในการคำนวณพารามิเตอร์ที่ไม่รู้จักหรือปริมาณของประชากร


3
12

0

โดยปกติแล้ว "การประมาณค่า" จะถูกสงวนไว้สำหรับพารามิเตอร์และ "predicition" ใช้สำหรับค่าต่างๆ อย่างไรก็ตามบางครั้งความแตกต่างจะเบลอเช่นคุณอาจเห็นบางสิ่งเช่น "ประมาณค่าในวันพรุ่งนี้" แทน "ทำนายค่าในวันพรุ่งนี้"

ค่าความเสี่ยง (VaR) เป็นกรณีที่น่าสนใจ VaR ไม่ใช่พารามิเตอร์ แต่เราไม่พูดว่า "คาดการณ์ VaR" เราพูดว่า "ประมาณ VaR" ทำไม?

เหตุผลในการที่ VaR ไม่ได้เป็นปริมาณสุ่มถ้าคุณรู้ว่าการกระจายและคุณจำเป็นต้องรู้การกระจายเพื่อคำนวณ VaR ดังนั้นถ้าคุณใช้วิธี VaR แบบพารามิเตอร์เราจะประมาณค่าพารามิเตอร์ของการแจกแจงก่อนแล้วจึงคำนวณ VaR หากคุณใช้ VaR ที่ไม่ใช่พารามิเตอร์คุณจะประมาณ VaR โดยตรงเช่นเดียวกับที่คุณจะประมาณพารามิเตอร์ ในเรื่องนี้มันคล้ายกับ quantile

ในทางกลับกันจำนวนการสูญเสียเป็นค่าสุ่ม ดังนั้นหากคุณถูกขอให้คาดการณ์การสูญเสียคุณจะทำนายว่าไม่ได้ประเมิน อีกครั้งบางครั้งเราพูดว่า "ประมาณการ" การสูญเสีย ดังนั้นเส้นจะเบลออย่างที่ฉันเขียนไว้ก่อนหน้านี้


คุณบอกว่า VaR ไม่ใช่พารามิเตอร์ แต่ฉันสงสัยว่าเป็นอย่างนั้นหรือเปล่า VaR คือ quantile (แบบมีเงื่อนไขหรือไม่มีเงื่อนไข) ของการแจกแจงของตัวแปรตาม เช่นนี้ดูเหมือนว่าพารามิเตอร์ของการแจกแจงให้ฉันหรืออย่างน้อยก็ฟังก์ชั่นของพารามิเตอร์พื้นฐานอื่น ๆ บางอย่างที่มากกว่าซึ่งดูเหมือนจะไม่เปลี่ยนสาระสำคัญ มันดูเหมือนว่าการรับรู้ของตัวแปรสุ่ม
Richard Hardy

นอกจากนี้เมื่อคุณบอกว่าการทำนายนั้นใช้สำหรับค่ามันจะใช้กับค่าของพารามิเตอร์เช่นเดียวกับการรับรู้ของตัวแปรสุ่ม (ซึ่งก็คือค่า) ดังนั้นฉันขอแนะนำให้แทนที่ค่าด้วยการรับรู้ของตัวแปรสุ่ม จากนั้นคุณจะมีขั้วสองขั้วที่คุณตั้งเป้าไว้
Richard Hardy

-3

ฉันพบคำจำกัดความด้านล่างอธิบายเพิ่มเติม:

การประมาณคือการประมาณผลการคำนวณ ผลลัพธ์นี้อาจเป็นการคาดการณ์ แต่ไม่จำเป็น ตัวอย่างเช่นฉันสามารถประเมินได้ว่าจำนวนรถยนต์บนสะพานโกลเดนเกตเวลา 17.00 น. เมื่อวานนี้คือ 900 โดยสมมติว่าสามเลนไปสู่มารินมีความจุรถยนต์แต่ละคันใช้พื้นที่ 30 ฟุตและสะพานยาว 9000 ฟุต ( 9000/30 x 3 = 900)

การประมาณค่ากำลังประมาณค่าของตัวแปรที่อยู่นอกช่วงของค่าที่ทราบโดยสมมติว่าค่าที่ประเมินตามรูปแบบบางอย่างจากค่าที่รู้จัก รูปแบบการประมาณค่าที่ง่ายและเป็นที่นิยมที่สุดคือการประมาณแนวโน้มเชิงเส้นตามข้อมูลที่ทราบ ทางเลือกในการอนุมานเชิงเส้นรวมถึงการประมาณค่าพหุนามและรูปกรวย เช่นเดียวกับการประมาณค่าการประมาณค่าสามารถใช้สำหรับการคาดการณ์ แต่ไม่ จำกัด เฉพาะการคาดการณ์

การทำนายเป็นการพูดอะไรบางอย่างเกี่ยวกับอนาคต การคาดคะเนมักจะมุ่งเน้นไปที่ผลลัพธ์ไม่ใช่เส้นทางสู่ผลลัพธ์เหล่านั้น ตัวอย่างเช่นฉันสามารถทำนายได้ว่าภายในปี 2050 ยานพาหนะทุกคันจะถูกขับเคลื่อนด้วยมอเตอร์ไฟฟ้าโดยไม่ต้องอธิบายว่าเราได้รับการยอมรับในระดับต่ำในปี 2011 จนถึงการรับบุตรบุญธรรมอย่างเต็มรูปแบบภายในปี 2050 ดังที่คุณเห็นจากตัวอย่างก่อนหน้านี้

การพยากรณ์เป็นกระบวนการของการพยากรณ์หรือทำนาย คำที่ใช้ในการพยากรณ์และการทำนายมักจะใช้แทนกันได้ แต่บางครั้งการคาดการณ์นั้นแตกต่างจากการคาดการณ์ในการคาดการณ์นั้นมักจะให้คำอธิบายของเส้นทางสู่ผลลัพธ์ ตัวอย่างเช่นการคาดการณ์การรับเลี้ยงบุตรบุญธรรมรถยนต์ไฟฟ้าอาจรวมถึงเส้นทางสู่การใช้รถยนต์ไฟฟ้าเต็มรูปแบบตามรูปแบบการรับเลี้ยงบุตรบุญธรรม S- รูปแบบที่มีรถยนต์ไม่กี่คันก่อนปีพ. ศ. 2568 จุดโรคติดเชื้อเกิดขึ้นที่ 2030 2040

การประมาณการคาดการณ์การคาดการณ์และการพยากรณ์ไม่ได้เป็นคำที่ละเอียดถี่ถ้วน การคาดการณ์ระยะยาวที่ดีสำหรับปัญหาที่ซับซ้อนมักต้องใช้เทคนิคอื่นนอกเหนือจากการประมาณค่าเพื่อให้ได้ผลลัพธ์ที่น่าเชื่อถือ การคาดการณ์และการคาดการณ์ยังสามารถเกิดขึ้นได้โดยไม่ต้องมีการคำนวณใด ๆ

ดูลิงค์ คำ จำกัดความ 1 คำจำกัดความ 2


2
การทำนายไม่จำเป็นต้องเกี่ยวกับอนาคต
miura

อ่านให้จบ: การคาดคะเนกำลังบอกอะไรบางอย่างเกี่ยวกับอนาคต การคาดคะเนมักจะมุ่งเน้นไปที่ผลลัพธ์ไม่ใช่เส้นทางสู่ผลลัพธ์เหล่านั้น
sso

ใช่ แต่ผลลัพธ์ไม่จำเป็นต้องมีในอนาคต ตัวอย่างเช่นคุณสามารถทำนายผลลัพธ์ที่ไม่ทราบที่ผ่านมา
miura

1
นี่เป็นบัญชีที่สมเหตุสมผลว่าคำว่า "การประมาณค่า" และ "การคาดการณ์" ถูกนำมาใช้ในแง่ที่ไม่ใช่ด้านเทคนิคและไม่ใช่เชิงสถิติ ตามที่ @miura กำลังแนะนำอยู่มันก็เห็นได้ชัดจากคำตอบอื่น ๆ ที่นี่ว่าความรู้สึกเหล่านั้นแตกต่างจากความรู้สึกทางสถิติทั่วไป ฉันเห็นการโต้แย้งที่ถูกต้องเพื่อสนับสนุนการตีความคำถามต้นฉบับด้วยวิธีที่ไม่ใช่เชิงสถิติ อย่างไรก็ตามการตีความดังกล่าวทำให้เกิดข้อ จำกัด ที่ไม่สะดวกสบายและไม่จำเป็นโดยไม่อนุญาตให้ "การทำนาย" นำไปใช้กับเหตุการณ์ที่ผ่านมา (เสร็จสมบูรณ์) ที่มีผลลัพธ์ที่ไม่รู้จัก
whuber

ถ้าคุณใช้กับตัวกรองคาลมานตัวแปรปรวนขั้นต่ำที่ผ่านมาและอาจใช้ค่าความแปรปรวนต่ำสุดเพื่อการกู้คืนข้อมูลที่น่าสนใจจากการวัดที่มีเสียงดัง เทคนิคที่กล่าวถึงข้างต้นนั้นใช้ตัวทำนายล่วงหน้าหนึ่งขั้น ... ดังนั้นยังคงคาดการณ์ล่วงหน้าหนึ่งก้าว (อนาคต) :)
sso
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.