การประมาณค่าโวลต์การประมาณค่า


28

อะไรคือความแตกต่างระหว่างการประมาณและการประมาณและวิธีที่แม่นยำที่สุดในการใช้คำเหล่านี้คืออะไร?

ตัวอย่างเช่นฉันได้เห็นคำสั่งในกระดาษโดยใช้การแก้ไขเป็น:

"ขั้นตอน interpolates รูปร่างของฟังก์ชั่นโดยประมาณระหว่างจุดถังขยะ"

ประโยคที่ใช้ทั้งการคาดการณ์และการแก้ไขคือตัวอย่างเช่น:

ขั้นตอนก่อนหน้านี้ที่เราประมาณค่าฟังก์ชันสอดแทรกโดยใช้วิธีเคอร์เนลไปทางด้านซ้ายและด้านขวาของอุณหภูมิ

ใครสามารถให้วิธีที่ชัดเจนและง่ายต่อการแยกแยะพวกเขาและแนะนำวิธีการใช้คำเหล่านี้อย่างถูกต้องด้วยตัวอย่าง?




@ usεr11852ฉันคิดว่าคำถามสองข้อนั้นมีพื้นฐานที่คล้ายกัน
mkt - Reinstate Monica

ความแตกต่างระหว่างการประมาณค่าและการประมาณค่านี้ถูกทำให้เป็นระเบียบอย่างเคร่งครัดในวิธีที่ตกลงกันโดยทั่วไป (เช่นผ่านตัวถังนูน) หรือข้อกำหนดเหล่านี้ยังขึ้นอยู่กับการตัดสินและตีความของมนุษย์?
Nick Alger

คำตอบ:


51

หากต้องการเพิ่มคำอธิบายแบบภาพให้กับสิ่งนี้: ลองพิจารณาประเด็นสองสามข้อที่คุณวางแผนจะทำโมเดล

ป้อนคำอธิบายรูปภาพที่นี่

ดูเหมือนว่าพวกเขาสามารถอธิบายได้ดีด้วยเส้นตรงดังนั้นคุณพอดีกับการถดถอยเชิงเส้น:

ป้อนคำอธิบายรูปภาพที่นี่

บรรทัดการถดถอยนี้ช่วยให้คุณสามารถสอดแทรก (สร้างค่าที่คาดหวังระหว่างจุดข้อมูลของคุณ) และคาดการณ์ (สร้างค่าที่คาดหวังนอกช่วงจุดข้อมูลของคุณ) ฉันได้เน้นการคาดการณ์ด้วยสีแดงและภูมิภาคที่ใหญ่ที่สุดของการแก้ไขในสีน้ำเงิน เพื่อความชัดเจนแม้กระทั่งพื้นที่เล็ก ๆ ระหว่างจุดต่าง ๆ จะถูกสอดแทรก แต่ฉันก็แค่ไฮไลต์พื้นที่ขนาดใหญ่ที่นี่เท่านั้น

ป้อนคำอธิบายรูปภาพที่นี่

เหตุใดการคาดการณ์โดยทั่วไปจึงกังวลมากกว่า? เพราะโดยปกติคุณจะไม่ค่อยแน่ใจเกี่ยวกับรูปร่างของความสัมพันธ์นอกช่วงข้อมูลของคุณมากนัก พิจารณาสิ่งที่อาจเกิดขึ้นเมื่อคุณรวบรวมจุดข้อมูลเพิ่มเติมอีกสองสามวง (วงกลมกลวง):

ป้อนคำอธิบายรูปภาพที่นี่

ปรากฎว่าความสัมพันธ์นั้นไม่ได้เกิดขึ้นอย่างดีกับความสัมพันธ์ที่คุณตั้งสมมติฐานเอาไว้ การคาดการณ์ในภูมิภาคที่คาดการณ์หมดไป แม้ว่าคุณจะคาดเดาฟังก์ชันที่แม่นยำซึ่งอธิบายความสัมพันธ์แบบไม่เชิงเส้นนี้ได้อย่างถูกต้อง แต่ข้อมูลของคุณยังไม่ขยายครอบคลุมช่วงที่คุณสามารถจับภาพความไม่เชิงเส้นได้ดีพอดังนั้นคุณอาจยังอยู่ห่างไกล โปรดทราบว่านี่เป็นปัญหาไม่เพียง แต่สำหรับการถดถอยเชิงเส้น แต่สำหรับความสัมพันธ์ใด ๆ เลย - นี่คือเหตุผลที่การคาดการณ์มีความเสี่ยง

การคาดการณ์ในภูมิภาคที่ถูกสอดแทรกก็ไม่ถูกต้องเช่นกันเนื่องจากการขาดความไม่เชิงเส้นในแบบที่พอดี แต่ข้อผิดพลาดในการทำนายนั้นต่ำกว่ามาก ไม่มีการรับประกันว่าคุณจะไม่มีความสัมพันธ์ที่ไม่คาดคิดระหว่างคะแนนของคุณ (เช่นภูมิภาคของการแก้ไข) แต่โดยทั่วไปมีโอกาสน้อยกว่า


ฉันจะเพิ่มการคาดการณ์นั้นไม่ได้เป็นความคิดที่น่ากลัวเสมอไปถ้าคุณคาดการณ์นอกช่วงข้อมูลของคุณเล็กน้อยคุณอาจจะไม่ผิดมาก (แม้ว่าจะเป็นไปได้!) คนโบราณที่ไม่มีแบบจำลองทางวิทยาศาสตร์ที่ดีของโลกคงไม่ผิดถ้าพวกเขาคาดการณ์ว่าดวงอาทิตย์จะขึ้นอีกครั้งในวันถัดไปและวันหลังจากนั้น

2

แก้ไขตามความคิดเห็น: ไม่ว่าจะเป็นการสอดแทรกหรืออนุมานมันเป็นการดีที่สุดเสมอที่จะมีทฤษฎีบางอย่างที่จะคาดหวัง หากการสร้างแบบจำลองทฤษฎีฟรีต้องทำได้ความเสี่ยงจากการแก้ไขคือมักจะน้อยกว่าที่คาดการณ์จาก ที่กล่าวว่าเมื่อช่องว่างระหว่างจุดข้อมูลเพิ่มขึ้นขนาดการแก้ไขก็ยิ่งมีความเสี่ยงมากขึ้น


5
ฉันชอบคำตอบของคุณและคิดว่ามันเป็นส่วนเสริมของฉันและไม่มีความหมายใด ๆ ในการแข่งขัน แต่จุดเล็ก ๆ ที่สำคัญสำหรับผู้อ่านบางคนก็คือสีแดงและสีเขียวนั้นยากสำหรับคนไม่กี่คนที่จะแยกแยะด้วยสายตา
Nick Cox

1
@NickCox จุดที่ดีขอบคุณสำหรับการยกที่ - ตอนนี้ฉันได้เปลี่ยนรูปแบบสี
mkt - Reinstate Monica

1
@leftaroundabout ประเด็นของฉันคือรูปแบบเส้นโค้งของ Keeling นั้นแข็งแกร่งมากจนการคาดการณ์โดยไม่สนใจเศรษฐศาสตร์และฟิสิกส์ก็ยังคงมีความแม่นยำพอสมควรในระดับปีจนถึงสองสามทศวรรษ ฉันสังเกตเห็นว่า 'ไม่กี่ทศวรรษที่ผ่านมา' อย่างแม่นยำเพราะนั่นคือมาตราส่วนเวลาที่เรามีการวัดความละเอียดสูง นี่คือตัวอย่างที่การคาดการณ์จะไม่ทำให้คุณผิดอย่างรุนแรงและฉันคิดว่ามันน่าสังเกต ฉันคิดว่าการอ่านผิดโดยเจตนาจะอ้างว่าคำตอบนี้เป็นการสนับสนุนการอนุมานที่ไม่มีทฤษฎี
mkt - Reinstate Monica

1
ที่เกี่ยวข้องฉันให้ "ตัวอย่างไก่งวง" ของ Taleb ในคำตอบนี้เป็นคำเตือนสำหรับผู้ที่ใช้การคาดการณ์
JM ไม่ใช่นักสถิติ

1
การคาดการณ์เป็นปัญหาโดยเฉพาะอย่างยิ่งเมื่อคุณมีน้ำหนักเกิน ด้วยโมเดลพหุนามยกตัวอย่างเช่นการออกไปข้างนอกชุดข้อมูลอย่างมีนัยสำคัญจะส่งผลให้เกิดคำสั่งซื้อสูงสุด
สะสม

21

ในการแก้ไขสาระสำคัญคือการดำเนินการภายในการสนับสนุนข้อมูลหรือระหว่างจุดข้อมูลที่มีอยู่ที่รู้จักกัน; การคาดการณ์คือเกินกว่าการสนับสนุนข้อมูล มิฉะนั้นจะใส่เกณฑ์คือ: ค่าที่หายไปอยู่ที่ไหน

เหตุผลหนึ่งที่ทำให้ความแตกต่างคือการคาดการณ์มักจะทำได้ยากกว่าและอันตรายแม้ในทางสถิติหากไม่ได้ปฏิบัติจริง นั่นไม่เป็นความจริงเสมอไปตัวอย่างเช่นน้ำท่วมแม่น้ำอาจท่วมท้นการวัดการปล่อยหรือแม้แต่เวที (ระดับแนวตั้ง) ฉีกหลุมในบันทึกที่วัดได้ ในสถานการณ์เหล่านั้นการแก้ไขการปลดประจำการหรือขั้นตอนก็ยากเช่นกันและการสนับสนุนข้อมูลไม่ได้ช่วยอะไรมากนัก

ในระยะยาวการเปลี่ยนแปลงเชิงคุณภาพมักจะแทนที่การเปลี่ยนแปลงเชิงปริมาณ ประมาณปี 1900 มีความกังวลอย่างมากว่าการเติบโตของการจราจรที่ดึงดูดม้าจะทำให้เมืองใหญ่ขึ้น กำลังทวีคูณในการขับถ่ายถูกแทนที่โดยเครื่องยนต์สันดาปภายในและเลขยกกำลังที่แตกต่างกัน

เทรนด์คือเทรนด์เป็นเทรนด์
แต่คำถามคือมันจะงอหรือไม่
มันจะเปลี่ยนเส้นทางของมัน
ผ่านทางกองกำลังที่คาดไม่ถึง
และมาถึงจุดสิ้นสุดก่อนกำหนดหรือไม่?

- Alexander Cairncross

Cairncross, A. 1969. การพยากรณ์ทางเศรษฐกิจ วารสารเศรษฐกิจ , 79: 797-812 ดอย: 10.2307 / 2229792 (ใบเสนอราคาสำหรับ p.797)


1
คำตอบที่ดี. การตีความมีอยู่ในชื่อ - การแก้ไข = เพื่อความราบรื่นภายในการคาดการณ์ = เพื่อความราบรื่น
นิวเคลียร์วัง

1
IMO นี่คือคำตอบที่ถูกต้อง “ การสนับสนุนข้อมูล” เป็นบิตที่สำคัญ แม้ว่าจุดที่คุณต้องการจะอยู่ระหว่างจุดที่วัดได้ทั้งสองจุดก็อาจยังอยู่นอกการสนับสนุนข้อมูล ตัวอย่างเช่นหากคุณมีข้อมูลความเจริญรุ่งเรืองสำหรับผู้คนในสมัยโรมันและจากยุคปัจจุบัน แต่ไม่ใช่ในระหว่างนั้นการสอดแทรกเข้าไปในยุคกลางจะเป็นปัญหามาก ฉันจะเรียกการคาดการณ์นี้ OTOH หากคุณมีข้อมูลกระจัดกระจาย แต่สม่ำเสมอตลอดช่วงเวลาการแก้ไขไปยังปีใด ๆ นั้นน่าเชื่อถือมากขึ้น
leftaroundabout

1
@leftaroundabout เพียงเพราะการแก้ไขอาจกระทำผ่านช่องว่างขนาดใหญ่ของข้อมูลไม่ได้ทำให้การคาดการณ์ คุณเข้าใจผิดว่าขั้นตอนต่าง ๆ สำหรับขั้นตอนนั้นไม่ถูกต้อง บางครั้งการแก้ไขก็เป็นความคิดที่ไม่ดีเช่นกัน
mkt - Reinstate Monica

1
@mkt: ฉันจะไปกับด้านซ้ายโดยรอบที่ตัวอย่างแรกของเขาอาจถูกมองว่าเป็นการอนุมานเนื่องจากการประมาณค่าเทียบกับการคาดการณ์นั้นไม่ได้นิยามอย่างที่เราคิด การแปลงตัวแปรอย่างง่ายสามารถเปลี่ยนการประมาณค่าเป็นการประมาณค่าได้ ในตัวอย่างของเขาการใช้บางสิ่งบางอย่างเช่นฟังก์ชั่นระยะทางแทนที่จะใช้เวลาดิบหมายความว่าในขณะที่เวลาดิบเรากำลังแก้ไขในระยะทางที่เราคาดการณ์ ... และการใช้เวลาดิบอาจเป็นความคิดที่ไม่ดี
หน้าผา AB

1
นี่คือคำตอบของฉัน ฉันไม่รู้สึกว่าจำเป็นต้องมีคุณสมบัติดังกล่าว ความแตกต่างในวงกว้างระหว่างการประมาณค่าและการประมาณค่านั้นไม่ได้เป็นการยากที่จะตัดสินใจว่าจะใช้มาตรการใด หากคุณมีช่องว่างขนาดใหญ่อยู่ตรงกลางของพื้นที่ข้อมูลการติดป้ายอาจไปทางใดทางหนึ่ง ขณะที่บางคนชี้ให้เห็นความจริงที่ว่าจุดจบของวันและจุดเริ่มต้นของคืนที่พร่ามัวกันไม่ได้ทำให้ความแตกต่างระหว่างกลางวันและกลางคืนไม่มีจุดหมายหรือไร้ประโยชน์
Nick Cox

12

TL; DR เวอร์ชัน:

  • การดำเนินการระหว่างเกิดขึ้นระหว่างจุดข้อมูลที่มีอยู่
  • การเสริมกำลังจะเกิดขึ้นมากกว่าพวกเขา

Mnemonic: ใน terpolation => ในด้าน

FWIW: คำนำหน้าระหว่างวิธีการระหว่างและวิธี extra- เกิน ลองนึกถึงทางหลวงระหว่างรัฐที่ไประหว่างรัฐหรือผืนดินพิเศษจากนอกโลกของเรา


1

ตัวอย่าง:

การศึกษา: ต้องการให้พอดีกับการถดถอยเชิงเส้นอย่างง่ายกับความสูงตามอายุสำหรับเด็กผู้หญิงอายุ 6-15 ปี ขนาดตัวอย่างคือ 100 อายุคำนวณโดย (วันที่วัด - วันเดือนปีเกิด) /365.25

หลังจากการรวบรวมข้อมูลแบบจำลองจะพอดีและรับค่าประมาณของ interceptor b0 และ slope b1 หมายความว่าเรามี E (ส่วนสูง | อายุ) = b0 + b1 * อายุ

เมื่อคุณต้องการความสูงเฉลี่ยสำหรับอายุ 13 คุณจะพบว่าไม่มีเด็กผู้หญิงอายุ 13 ปีในตัวอย่าง 100 สาวหนึ่งในนั้นคือ 12.83 ปีและอีก 13.24

ตอนนี้คุณเสียบอายุ = 13 ลงในสูตร E (สูง | อายุ) = b0 + b1 * อายุ มันถูกเรียกว่าการแก้ไขเพราะอายุ 13 ปีถูกครอบคลุมโดยช่วงของข้อมูลของคุณที่ใช้เพื่อให้พอดีกับแบบจำลอง

หากคุณต้องการให้ค่าเฉลี่ยความสูงสำหรับอายุ 30 และใช้สูตรนั้นเรียกว่าการอนุมานเนื่องจากอายุ 30 อยู่นอกช่วงอายุที่ครอบคลุมข้อมูลของคุณ

หากโมเดลมีตัวแปรร่วมหลายตัวคุณต้องระวังเพราะยากที่จะวาดเส้นขอบที่ข้อมูลครอบคลุม

ในสถิติเราไม่สนับสนุนการคาดการณ์


"ในสถิติเราไม่สนับสนุนการคาดการณ์" ส่วนสำคัญของการวิเคราะห์อนุกรมเวลาทำอย่างแม่นยำว่า ....
Nick Cox
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.