คำถามนั้นง่ายมาก: ทำไมเมื่อเราพยายามปรับตัวแบบให้เข้ากับข้อมูลเชิงเส้นหรือไม่เชิงเส้นเรามักจะพยายามลดผลรวมของกำลังสองของข้อผิดพลาดเพื่อให้ได้ตัวประมาณแบบพารามิเตอร์? ทำไมไม่เลือกฟังก์ชั่นวัตถุประสงค์อื่นเพื่อลดขนาด ฉันเข้าใจว่าด้วยเหตุผลทางเทคนิคฟังก์ชั่นสมการกำลังสองนั้นดีกว่าฟังก์ชั่นอื่น ๆ เช่นผลรวมของส่วนเบี่ยงเบนสัมบูรณ์ แต่นี่ยังไม่เป็นคำตอบที่น่าเชื่อมาก นอกจากเหตุผลทางเทคนิคแล้วทำไมผู้คนถึงชอบฟังก์ชั่น 'Euclidean' ระยะทางนี้ มีความหมายเฉพาะหรือการตีความสำหรับสิ่งนั้นหรือไม่?
ตรรกะที่อยู่เบื้องหลังความคิดของฉันคือ:
เมื่อคุณมีชุดข้อมูลคุณต้องตั้งค่าแบบจำลองของคุณเป็นอันดับแรกโดยสร้างชุดของสมมติฐานการทำงานหรือการแจกแจง ในแบบจำลองของคุณมีพารามิเตอร์บางตัว (สมมติว่าเป็นแบบจำลองพารามิเตอร์) จากนั้นคุณต้องหาวิธีประมาณค่าพารามิเตอร์เหล่านี้อย่างสม่ำเสมอและหวังว่าตัวประมาณของคุณจะมีความแปรปรวนต่ำและคุณสมบัติที่ดีอื่น ๆ ไม่ว่าคุณจะลด SSE หรือ LAD หรือฟังก์ชั่นวัตถุประสงค์อื่น ๆ ฉันคิดว่ามันเป็นเพียงวิธีการที่แตกต่างกันในการรับตัวประมาณค่า ตามตรรกะนี้ฉันคิดว่าคนใช้กำลังสองน้อยที่สุดต้องเป็น 1) มันสร้างตัวประมาณที่สอดคล้องกันของตัวแบบ 2) อย่างอื่นที่ฉันไม่รู้
ในเศรษฐมิติเรารู้ว่าในตัวแบบการถดถอยเชิงเส้นถ้าคุณคิดว่าข้อผิดพลาดมี 0 หมายถึงการปรับสภาพของตัวทำนายและความเหมือนกันและข้อผิดพลาดจะไม่เกี่ยวข้องกันจากนั้นการลดผลรวมของความคลาดเคลื่อนกำลังสอง พารามิเตอร์และตามทฤษฎีบทเกาส์ - มาร์คอฟตัวประมาณนี้คือสีน้ำเงิน ดังนั้นสิ่งนี้จะแนะนำว่าถ้าคุณเลือกที่จะลดฟังก์ชั่นวัตถุประสงค์อื่น ๆ ที่ไม่ใช่ SSE ดังนั้นจึงไม่มีการรับประกันว่าคุณจะได้รับการประมาณค่าพารามิเตอร์โมเดล ความเข้าใจของฉันถูกต้องหรือไม่ ถ้ามันถูกต้องการลด SSE ให้น้อยกว่าฟังก์ชั่นวัตถุประสงค์อื่น ๆ สามารถพิสูจน์ได้ด้วยความมั่นคงซึ่งเป็นที่ยอมรับในความเป็นจริงดีกว่าการพูดว่าฟังก์ชั่นสมการกำลังสองนั้นดีกว่า
ในบทสนทนาฉันเห็นหลายกรณีที่ผู้คนลดจำนวนผลรวมของความผิดพลาดแบบสแควร์โดยตรงโดยไม่ได้ระบุรูปแบบที่สมบูรณ์ก่อนเช่นการตั้งสมมติฐานแบบกระจาย จากนั้นสิ่งนี้ดูเหมือนว่าผู้ใช้วิธีการนี้ต้องการดูว่าข้อมูลใกล้เคียงกับ 'รุ่น' มากแค่ไหน (ฉันใช้เครื่องหมายอัญประกาศเนื่องจากสมมติฐานของแบบจำลองอาจไม่สมบูรณ์) ในแง่ของฟังก์ชันระยะทางสี่เหลี่ยมจัตุรัส
คำถามที่เกี่ยวข้อง (เกี่ยวข้องกับเว็บไซต์นี้) คือ: ทำไมเมื่อเราลองเปรียบเทียบแบบจำลองต่าง ๆ โดยใช้การตรวจสอบความถูกต้องเราจะใช้ SSE อีกครั้งเป็นเกณฑ์การตัดสินหรือไม่? คือเลือกรุ่นที่มี SSE น้อยที่สุด ทำไมจึงไม่เป็นเกณฑ์อื่น