หากต้องการเพิ่มคำอธิบายแบบภาพให้กับสิ่งนี้: ลองพิจารณาประเด็นสองสามข้อที่คุณวางแผนจะทำโมเดล
ดูเหมือนว่าพวกเขาสามารถอธิบายได้ดีด้วยเส้นตรงดังนั้นคุณพอดีกับการถดถอยเชิงเส้น:
บรรทัดการถดถอยนี้ช่วยให้คุณสามารถสอดแทรก (สร้างค่าที่คาดหวังระหว่างจุดข้อมูลของคุณ) และคาดการณ์ (สร้างค่าที่คาดหวังนอกช่วงจุดข้อมูลของคุณ) ฉันได้เน้นการคาดการณ์ด้วยสีแดงและภูมิภาคที่ใหญ่ที่สุดของการแก้ไขในสีน้ำเงิน เพื่อความชัดเจนแม้กระทั่งพื้นที่เล็ก ๆ ระหว่างจุดต่าง ๆ จะถูกสอดแทรก แต่ฉันก็แค่ไฮไลต์พื้นที่ขนาดใหญ่ที่นี่เท่านั้น
เหตุใดการคาดการณ์โดยทั่วไปจึงกังวลมากกว่า? เพราะโดยปกติคุณจะไม่ค่อยแน่ใจเกี่ยวกับรูปร่างของความสัมพันธ์นอกช่วงข้อมูลของคุณมากนัก พิจารณาสิ่งที่อาจเกิดขึ้นเมื่อคุณรวบรวมจุดข้อมูลเพิ่มเติมอีกสองสามวง (วงกลมกลวง):
ปรากฎว่าความสัมพันธ์นั้นไม่ได้เกิดขึ้นอย่างดีกับความสัมพันธ์ที่คุณตั้งสมมติฐานเอาไว้ การคาดการณ์ในภูมิภาคที่คาดการณ์หมดไป แม้ว่าคุณจะคาดเดาฟังก์ชันที่แม่นยำซึ่งอธิบายความสัมพันธ์แบบไม่เชิงเส้นนี้ได้อย่างถูกต้อง แต่ข้อมูลของคุณยังไม่ขยายครอบคลุมช่วงที่คุณสามารถจับภาพความไม่เชิงเส้นได้ดีพอดังนั้นคุณอาจยังอยู่ห่างไกล โปรดทราบว่านี่เป็นปัญหาไม่เพียง แต่สำหรับการถดถอยเชิงเส้น แต่สำหรับความสัมพันธ์ใด ๆ เลย - นี่คือเหตุผลที่การคาดการณ์มีความเสี่ยง
การคาดการณ์ในภูมิภาคที่ถูกสอดแทรกก็ไม่ถูกต้องเช่นกันเนื่องจากการขาดความไม่เชิงเส้นในแบบที่พอดี แต่ข้อผิดพลาดในการทำนายนั้นต่ำกว่ามาก ไม่มีการรับประกันว่าคุณจะไม่มีความสัมพันธ์ที่ไม่คาดคิดระหว่างคะแนนของคุณ (เช่นภูมิภาคของการแก้ไข) แต่โดยทั่วไปมีโอกาสน้อยกว่า
ฉันจะเพิ่มการคาดการณ์นั้นไม่ได้เป็นความคิดที่น่ากลัวเสมอไปถ้าคุณคาดการณ์นอกช่วงข้อมูลของคุณเล็กน้อยคุณอาจจะไม่ผิดมาก (แม้ว่าจะเป็นไปได้!) คนโบราณที่ไม่มีแบบจำลองทางวิทยาศาสตร์ที่ดีของโลกคงไม่ผิดถ้าพวกเขาคาดการณ์ว่าดวงอาทิตย์จะขึ้นอีกครั้งในวันถัดไปและวันหลังจากนั้น
2
แก้ไขตามความคิดเห็น: ไม่ว่าจะเป็นการสอดแทรกหรืออนุมานมันเป็นการดีที่สุดเสมอที่จะมีทฤษฎีบางอย่างที่จะคาดหวัง หากการสร้างแบบจำลองทฤษฎีฟรีต้องทำได้ความเสี่ยงจากการแก้ไขคือมักจะน้อยกว่าที่คาดการณ์จาก ที่กล่าวว่าเมื่อช่องว่างระหว่างจุดข้อมูลเพิ่มขึ้นขนาดการแก้ไขก็ยิ่งมีความเสี่ยงมากขึ้น