ทำไมเราถึงเลือกที่จะลดผลรวมของข้อผิดพลาดแบบสี่เหลี่ยม (SSE) ให้น้อยที่สุดเมื่อทำการประกอบโมเดล?


23

คำถามนั้นง่ายมาก: ทำไมเมื่อเราพยายามปรับตัวแบบให้เข้ากับข้อมูลเชิงเส้นหรือไม่เชิงเส้นเรามักจะพยายามลดผลรวมของกำลังสองของข้อผิดพลาดเพื่อให้ได้ตัวประมาณแบบพารามิเตอร์? ทำไมไม่เลือกฟังก์ชั่นวัตถุประสงค์อื่นเพื่อลดขนาด ฉันเข้าใจว่าด้วยเหตุผลทางเทคนิคฟังก์ชั่นสมการกำลังสองนั้นดีกว่าฟังก์ชั่นอื่น ๆ เช่นผลรวมของส่วนเบี่ยงเบนสัมบูรณ์ แต่นี่ยังไม่เป็นคำตอบที่น่าเชื่อมาก นอกจากเหตุผลทางเทคนิคแล้วทำไมผู้คนถึงชอบฟังก์ชั่น 'Euclidean' ระยะทางนี้ มีความหมายเฉพาะหรือการตีความสำหรับสิ่งนั้นหรือไม่?

ตรรกะที่อยู่เบื้องหลังความคิดของฉันคือ:

เมื่อคุณมีชุดข้อมูลคุณต้องตั้งค่าแบบจำลองของคุณเป็นอันดับแรกโดยสร้างชุดของสมมติฐานการทำงานหรือการแจกแจง ในแบบจำลองของคุณมีพารามิเตอร์บางตัว (สมมติว่าเป็นแบบจำลองพารามิเตอร์) จากนั้นคุณต้องหาวิธีประมาณค่าพารามิเตอร์เหล่านี้อย่างสม่ำเสมอและหวังว่าตัวประมาณของคุณจะมีความแปรปรวนต่ำและคุณสมบัติที่ดีอื่น ๆ ไม่ว่าคุณจะลด SSE หรือ LAD หรือฟังก์ชั่นวัตถุประสงค์อื่น ๆ ฉันคิดว่ามันเป็นเพียงวิธีการที่แตกต่างกันในการรับตัวประมาณค่า ตามตรรกะนี้ฉันคิดว่าคนใช้กำลังสองน้อยที่สุดต้องเป็น 1) มันสร้างตัวประมาณที่สอดคล้องกันของตัวแบบ 2) อย่างอื่นที่ฉันไม่รู้

ในเศรษฐมิติเรารู้ว่าในตัวแบบการถดถอยเชิงเส้นถ้าคุณคิดว่าข้อผิดพลาดมี 0 หมายถึงการปรับสภาพของตัวทำนายและความเหมือนกันและข้อผิดพลาดจะไม่เกี่ยวข้องกันจากนั้นการลดผลรวมของความคลาดเคลื่อนกำลังสอง พารามิเตอร์และตามทฤษฎีบทเกาส์ - มาร์คอฟตัวประมาณนี้คือสีน้ำเงิน ดังนั้นสิ่งนี้จะแนะนำว่าถ้าคุณเลือกที่จะลดฟังก์ชั่นวัตถุประสงค์อื่น ๆ ที่ไม่ใช่ SSE ดังนั้นจึงไม่มีการรับประกันว่าคุณจะได้รับการประมาณค่าพารามิเตอร์โมเดล ความเข้าใจของฉันถูกต้องหรือไม่ ถ้ามันถูกต้องการลด SSE ให้น้อยกว่าฟังก์ชั่นวัตถุประสงค์อื่น ๆ สามารถพิสูจน์ได้ด้วยความมั่นคงซึ่งเป็นที่ยอมรับในความเป็นจริงดีกว่าการพูดว่าฟังก์ชั่นสมการกำลังสองนั้นดีกว่า

ในบทสนทนาฉันเห็นหลายกรณีที่ผู้คนลดจำนวนผลรวมของความผิดพลาดแบบสแควร์โดยตรงโดยไม่ได้ระบุรูปแบบที่สมบูรณ์ก่อนเช่นการตั้งสมมติฐานแบบกระจาย จากนั้นสิ่งนี้ดูเหมือนว่าผู้ใช้วิธีการนี้ต้องการดูว่าข้อมูลใกล้เคียงกับ 'รุ่น' มากแค่ไหน (ฉันใช้เครื่องหมายอัญประกาศเนื่องจากสมมติฐานของแบบจำลองอาจไม่สมบูรณ์) ในแง่ของฟังก์ชันระยะทางสี่เหลี่ยมจัตุรัส

คำถามที่เกี่ยวข้อง (เกี่ยวข้องกับเว็บไซต์นี้) คือ: ทำไมเมื่อเราลองเปรียบเทียบแบบจำลองต่าง ๆ โดยใช้การตรวจสอบความถูกต้องเราจะใช้ SSE อีกครั้งเป็นเกณฑ์การตัดสินหรือไม่? คือเลือกรุ่นที่มี SSE น้อยที่สุด ทำไมจึงไม่เป็นเกณฑ์อื่น


คำตอบ:


14

ในขณะที่คำถามของคุณคล้ายกับคำถามอื่น ๆ อีกจำนวนหนึ่งในไซต์ลักษณะของคำถามนี้ (เช่นการเน้นความมั่นคง) ทำให้ฉันคิดว่าพวกเขาไม่ได้อยู่ใกล้เคียงกับการซ้ำซ้อนมากพอ

ทำไมไม่เลือกฟังก์ชั่นวัตถุประสงค์อื่นเพื่อลดขนาด

ทำไมไม่จริงเหรอ? หากวัตถุประสงค์ของคุณแตกต่างจากสี่เหลี่ยมจัตุรัสน้อยที่สุดคุณควรระบุวัตถุประสงค์ของคุณแทน!

อย่างไรก็ตามอย่างน้อยกำลังสองมีคุณสมบัติที่ดีจำนวนมาก (ไม่น้อยไปกว่านี้คือการเชื่อมต่ออย่างใกล้ชิดกับวิธีการประมาณค่าซึ่งหลาย ๆ คนต้องการและความเรียบง่ายที่ทำให้เป็นตัวเลือกแรกที่ชัดเจนเมื่อสอนหรือพยายามนำแนวคิดใหม่ ๆ )

นอกจากนี้ในหลายกรณีผู้คนไม่มีฟังก์ชั่นวัตถุประสงค์ที่ชัดเจนดังนั้นจึงมีข้อได้เปรียบในการเลือกสิ่งที่พร้อมใช้งานและเข้าใจอย่างกว้างขวาง

ที่กล่าวว่าสี่เหลี่ยมน้อยที่สุดก็มีคุณสมบัติที่ไม่ค่อยดีเช่นความไวต่อค่าผิดปกติดังนั้นบางครั้งผู้คนก็ต้องการเกณฑ์ที่แข็งแกร่งกว่า

ลดผลรวมของความคลาดเคลื่อนกำลังสองจะให้ค่าประมาณที่สอดคล้องกันของพารามิเตอร์โมเดลของคุณ

กำลังสองน้อยที่สุดไม่ใช่ข้อกำหนดสำหรับความสอดคล้อง ความสอดคล้องไม่ได้เป็นเครื่องกีดขวางที่สูงมากนักประมาณจำนวนมากจะต้องสอดคล้องกัน ผู้ประมาณค่าเกือบทุกคนใช้ในทางปฏิบัติมีความสอดคล้องกัน

และโดยทฤษฎีของเกาส์ - มาร์คอฟตัวประมาณนี้คือสีน้ำเงิน

แต่ในสถานการณ์ที่ตัวประมาณเชิงเส้นทั้งหมดไม่ดี (อย่างเช่นในกรณีของหางที่มีน้ำหนักมากจัดว่าไม่มีประโยชน์อย่างมากในตัวที่ดีที่สุด

หากคุณเลือกที่จะลดฟังก์ชั่นวัตถุประสงค์อื่น ๆ ที่ไม่ใช่ SSE ดังนั้นไม่รับประกันว่าคุณจะได้รับการประมาณค่าพารามิเตอร์โมเดลของคุณอย่างสม่ำเสมอ ความเข้าใจของฉันถูกต้องหรือไม่

ไม่ยากที่จะหาตัวประมาณที่สอดคล้องกันดังนั้นจึงไม่ใช่เหตุผลที่ดีโดยเฉพาะอย่างยิ่งของกำลังสองน้อยที่สุด

ทำไมเมื่อเราลองเปรียบเทียบแบบจำลองต่าง ๆ โดยใช้การตรวจสอบความถูกต้องแบบไขว้เราใช้ SSE เป็นเกณฑ์ตัดสิน [... ] ทำไมจึงไม่เป็นเกณฑ์อื่น

หากวัตถุประสงค์ของคุณสะท้อนให้เห็นอย่างดีจากสิ่งอื่นทำไมไม่ทำเช่นนั้น

ไม่มีการขาดคนที่ใช้ฟังก์ชั่นวัตถุประสงค์อื่นนอกเหนือจากกำลังสองน้อยที่สุด มันเกิดขึ้นในการประมาณ M ในการประมาณค่าต่ำสุดที่ถูกลดทอนในการถดถอยเชิงปริมาณและเมื่อผู้คนใช้ฟังก์ชั่นการสูญเสีย LINEX เพียงเพื่อบอกชื่อไม่กี่

กำลังคิดว่าเมื่อคุณมีชุดข้อมูลคุณต้องตั้งค่าโมเดลของคุณก่อนเช่นสร้างชุดของสมมติฐานหรือหน้าที่การทำงานแบบกระจาย ในแบบจำลองของคุณมีพารามิเตอร์บางอย่าง (สมมติว่าเป็นแบบจำลองพารามิเตอร์)

สันนิษฐานได้ว่าพารามิเตอร์ของสมมติฐานการทำงานคือสิ่งที่คุณพยายามประเมิน - ในกรณีนี้สมมติฐานการทำงานคือสิ่งที่คุณทำอย่างน้อยกำลังสอง (หรืออะไรก็ตาม) รอบ ๆ ; พวกเขาไม่ได้กำหนดเกณฑ์พวกเขาเป็นสิ่งที่เกณฑ์กำลังประเมิน

ในทางกลับกันถ้าคุณมีสมมติฐานการกระจายคุณก็มีข้อมูลมากมายเกี่ยวกับฟังก์ชันวัตถุประสงค์ที่เหมาะสมกว่าตัวอย่างเช่นคุณจะต้องได้รับการประมาณค่าพารามิเตอร์ที่มีประสิทธิภาพซึ่งในกลุ่มตัวอย่างขนาดใหญ่จะ มีแนวโน้มที่จะนำคุณไปสู่ ​​MLE (แม้ว่าในบางกรณีอาจฝังอยู่ในกรอบที่ทำให้สมบูรณ์)

จากนั้นคุณต้องหาวิธีประมาณค่าพารามิเตอร์เหล่านี้อย่างสม่ำเสมอ ไม่ว่าคุณจะลด SSE หรือ LAD หรือฟังก์ชันวัตถุประสงค์อื่น ๆ

หนุ่มเป็นตัวประมาณควอนตัม มันเป็นตัวประมาณที่สอดคล้องกันของพารามิเตอร์ที่ควรประเมินในเงื่อนไขที่ควรคาดว่าจะเป็นเช่นเดียวกับที่กำลังสองน้อยที่สุด (ถ้าคุณมองสิ่งที่คุณแสดงความสอดคล้องกับสี่เหลี่ยมน้อยมีผลที่สอดคล้องกันสำหรับประมาณค่าทั่วไปอื่น ๆ อีกมากมาย. คนไม่ค่อยใช้ประมาณไม่สอดคล้องกันดังนั้นหากคุณเห็นประมาณการถูกกล่าวถึงอย่างกว้างขวางเว้นแต่พวกเขากำลังพูดคุยเกี่ยวกับความไม่สอดคล้องกันของมันก็เกือบ สอดคล้องกันอย่างแน่นอน *)

* ที่กล่าวว่าความสอดคล้องไม่จำเป็นต้องเป็นคุณสมบัติที่สำคัญ ท้ายที่สุดสำหรับตัวอย่างของฉันฉันมีขนาดตัวอย่างบางอย่างไม่ใช่ลำดับของขนาดตัวอย่างที่มีแนวโน้มว่าจะไม่มีที่สิ้นสุด เรื่องอะไรคือคุณสมบัติที่ฉันมีไม่บางเพียบขนาดใหญ่ที่ฉันไม่ได้และจะไม่เคยเห็น แต่เราจำเป็นต้องมีการดูแลมากขึ้นเมื่อเรามีความไม่สอดคล้องกัน - เราอาจมีตัวประมาณที่ดีที่ = 20 แต่มันอาจแย่มากที่ = 2000 มีความพยายามมากกว่านี้ในบางแง่มุมหากเราต้องการใช้ตัวประมาณค่าที่สอดคล้องกันnnnn

หากคุณใช้ LAD เพื่อประมาณค่าเฉลี่ยของเลขชี้กำลังมันจะไม่สอดคล้องกันสำหรับสิ่งนั้น (แม้ว่าการประมาณเล็กน้อยของการประมาณจะเป็นแบบนั้น) - แต่ใช้โทเค็นเดียวกันถ้าคุณใช้กำลังสองน้อยที่สุดในการประมาณค่ามัธยฐานของเลขชี้กำลัง มันจะไม่สอดคล้องกันสำหรับเรื่องนั้น (และอีกครั้งเป็นการช่วยแก้ไขปัญหาเล็กน้อย)


ฉันเดาว่าฉันไม่ได้แสดงความกังวลอย่างชัดเจน ฉันคิดว่าเมื่อคุณมีชุดข้อมูลคุณต้องตั้งค่าแบบจำลองของคุณก่อนเช่นสร้างชุดของสมมติฐานการทำงานหรือการแจกแจง ในแบบจำลองของคุณมีพารามิเตอร์บางตัว (สมมติว่าเป็นแบบจำลองพารามิเตอร์) จากนั้นคุณต้องหาวิธีประมาณค่าพารามิเตอร์เหล่านี้อย่างสม่ำเสมอ ไม่ว่าคุณจะลด SSE หรือ LAD หรือฟังก์ชั่นวัตถุประสงค์อื่น ๆ ฉันคิดว่ามันเป็นเพียงวิธีการต่าง ๆ ในการรับตัวประมาณ ต่อไปนี้ตรรกะนี้ผมคิดว่าคนใช้น้อยตารางจะต้อง 1) จะผลิตประมาณการที่สอดคล้องกันของรูปแบบที่ 2) อย่างอื่น
KevinKim

สันนิษฐานได้ว่าพารามิเตอร์ของสมมติฐานการทำงานคือสิ่งที่คุณพยายามประเมิน - ในกรณีนี้สมมติฐานการทำงานคือสิ่งที่คุณทำอย่างน้อยกำลังสอง (หรืออะไรก็ตาม) รอบ ๆ ; พวกเขาไม่ได้กำหนดเกณฑ์ ในทางกลับกันถ้าคุณมีสมมติฐานการกระจายคุณก็มีข้อมูลมากมายเกี่ยวกับฟังก์ชันวัตถุประสงค์ที่เหมาะสมกว่าตัวอย่างเช่นคุณจะต้องได้รับการประมาณค่าพารามิเตอร์ที่มีประสิทธิภาพซึ่งในกลุ่มตัวอย่างขนาดใหญ่จะ มีแนวโน้มที่จะนำคุณไปสู่ ​​MLE (แม้ว่าในบางกรณีอาจมีการฝังตัวในกรอบที่แข็งแกร่ง)
Glen_b -Reinstate Monica

คำตอบนี้เหมาะกับความคิดของฉัน แต่ฉันยังคงมีคำถามคุณหมายถึงอะไรโดย 'พวกเขาไม่ได้กำหนดเกณฑ์' นี่หมายความว่าเช่นในเศรษฐมิติ 101 ในการถดถอยเชิงเส้นภายใต้สมมติฐานการทำงาน (ไม่มีการกระจาย) เพื่อให้ได้ตัวประมาณที่สอดคล้องกันคุณต้องใช้ ols คุณไม่สามารถใช้ฟังก์ชันวัตถุประสงค์ทางวัตถุเพื่อลดขนาดได้เนื่องจากไม่มี รับประกันการได้รับตัวประมาณที่สอดคล้องกันจากที่นั่นหรือไม่
KevinKim

เมื่อ "ไม่พิจารณา" - ให้ฉันขยายคำตอบของฉัน ความสอดคล้อง: ฉันระบุสิ่งที่ตรงกันข้ามในคำตอบของฉัน ขอผมพูดอีกครั้ง: กำลังสองน้อยที่สุดไม่ใช่ข้อกำหนดสำหรับความสอดคล้อง รวมถึงสถานการณ์ที่คุณเพิ่งพูดถึง; มีอินฟินิตี้ของตัวประมาณทางเลือกที่จะสอดคล้องกัน ผู้ประมาณค่าเกือบทุกคนใช้ในทางปฏิบัติมีความสอดคล้องกัน ฉันจะแก้ไขคำตอบของฉันให้ชัดเจนยิ่งขึ้น
Glen_b -Reinstate Monica

สำหรับคำตอบที่อัปเดตของคุณย่อหน้าสุดท้ายดังนั้นสำหรับบางรุ่นมีวิธีการบางอย่างที่จะไม่สร้างพารามิเตอร์ที่สอดคล้องกันสำหรับพารามิเตอร์โมเดลของคุณแม้ว่าคุณสามารถใช้วิธีเหล่านั้นได้แต่ทว่า compter จะให้ตัวเลขใช่ไหม ดังนั้นฉันสามารถพูดได้ว่าสำหรับคนที่สร้างแบบจำลองเพื่อที่จะได้มาประมาณค่าพารามิเตอร์ในรูปแบบที่คนไม่สามารถเลือกฟังก์ชั่นวัตถุประสงค์เพื่อเพิ่มประสิทธิภาพเพียงแค่ขึ้นอยู่กับคุณสมบัติทางเทคนิคที่ดีของมัน?
KevinKim

5

คุณถามคำถามสถิติและฉันหวังว่าคำตอบจากวิศวกรระบบควบคุมของฉันคือการแทงจากทิศทางที่แตกต่างกันมากพอที่จะให้ความกระจ่าง

นี่คือรูปแบบการไหลของข้อมูล "canonical" สำหรับวิศวกรรมระบบควบคุม: ป้อนคำอธิบายรูปภาพที่นี่

"r" ใช้สำหรับค่าอ้างอิง มันรวมกับการแปลง "F" ของเอาต์พุต "y" เพื่อสร้างข้อผิดพลาด "e" ข้อผิดพลาดนี้เป็นอินพุตสำหรับคอนโทรลเลอร์ที่ถูกเปลี่ยนโดยฟังก์ชั่นการถ่ายโอนการควบคุม "C" เป็นอินพุตควบคุมสำหรับโรงงาน "P" มันมีความหมายทั่วไปพอที่จะนำไปใช้กับพืชโดยพลการ "โรงงาน" อาจเป็นเครื่องยนต์รถสำหรับควบคุมความเร็วหรือมุมของอินพุตของลูกตุ้มผกผัน

สมมติว่าคุณมีโรงงานที่มีฟังก์ชั่นการถ่ายโอนที่เป็นที่รู้จักพร้อมกับปรากฏการณ์วิทยาที่เหมาะสมกับการอภิปรายต่อไปนี้สถานะปัจจุบันและสถานะสิ้นสุดที่ต้องการ ( ตาราง 2.1 pp68 ) มีจำนวนเส้นทางที่ไม่ซ้ำกันซึ่งระบบที่มีอินพุตแตกต่างกันสามารถข้ามผ่านเพื่อรับจากสถานะเริ่มต้นไปจนถึงสถานะสุดท้ายได้ การควบคุมตำราวิศวกร "ที่ดีที่สุดวิธีการ" รวมถึงการที่ดีที่สุดเวลา ( เวลาที่สั้น / ปังปัง ) ที่ดีที่สุดระยะทาง (เส้นทางที่สั้นที่สุด) แรงที่เหมาะสม (ต่ำสุดอินพุตขนาดสูงสุด) และที่ดีที่สุดพลังงาน (ขั้นต่ำเข้าพลังงานทั้งหมด)

เช่นเดียวกับที่มีจำนวนเส้นทางที่ไม่มีที่สิ้นสุดมีจำนวน "การเพิ่มประสิทธิภาพ" ที่ไม่มีที่สิ้นสุด - แต่ละเส้นทางเลือกเส้นทางเหล่านั้นอย่างใดอย่างหนึ่ง หากคุณเลือกเส้นทางเดียวและบอกว่าดีที่สุดคุณก็จะเลือก "การวัดความดี" หรือ "การวัดความเหมาะสม" โดยปริยาย

ในความเห็นส่วนตัวของฉันฉันคิดว่าคนอย่าง L-2 norm (รู้จักพลังงานดีที่สุดหรือข้อผิดพลาดกำลังสองน้อยที่สุด) เพราะมันง่ายอธิบายง่ายใช้งานง่ายมีคุณสมบัติในการทำงานกับข้อผิดพลาดที่ใหญ่กว่าอันที่เล็กกว่า และออกจากศูนย์ด้วยอคติ พิจารณาบรรทัดฐาน h-infinity ที่ทำให้ค่าความแปรปรวนลดลงและมีอคติ แต่ไม่เป็นศูนย์ มันมีประโยชน์มาก แต่ก็มีความซับซ้อนในการอธิบายและซับซ้อนกว่าในการเขียนโค้ด

ฉันคิดว่า L2-norm ซึ่งเป็นเส้นทางที่ดีที่สุดในการลดพลังงานหรือข้อผิดพลาดกำลังสองน้อยที่สุดนั้นเป็นเรื่องง่ายและในแง่ที่ขี้เกียจก็เหมาะกับการแก้ปัญหาที่ "การแก้ไขข้อผิดพลาดที่ใหญ่กว่านั้นแย่กว่า มีวิธีอัลกอริทึมจำนวนมากที่แท้จริงในการกำหนดสิ่งนี้ แต่ข้อผิดพลาดกำลังสองเป็นวิธีที่สะดวกที่สุด มันต้องใช้พีชคณิตเท่านั้นเพื่อให้ผู้คนสามารถเข้าใจได้มากขึ้น มันทำงานในพื้นที่พหุนาม (เป็นที่นิยม) พลังงานที่เหมาะสมนั้นสอดคล้องกับฟิสิกส์ส่วนใหญ่ที่ประกอบไปด้วยโลกที่รับรู้ของเราดังนั้น "รู้สึกคุ้นเคย" มันเร็วพอสมควรในการคำนวณและไม่น่ากลัวเกินไปในหน่วยความจำ

หากฉันมีเวลามากขึ้นฉันต้องการใส่รูปภาพรหัสหรือการอ้างอิงบรรณานุกรม


1

ฉันคิดว่าเมื่อรูปแบบที่เหมาะสมเรามักจะเลือกที่จะลดผลรวมของข้อผิดพลาดกำลังสอง ( ) เนื่องจากข้อเท็จจริงที่ว่ามีความสัมพันธ์โดยตรง (ลบ) กับซึ่งเป็นสถิติที่ดีของความพอดี (GoF)สำหรับโมเดลดังต่อไปนี้ (คือผลรวมของผลรวมกำลังสอง ):SSESSER2SST

R2=1SSESST

หากไม่พิจารณาว่าทำไมการปรับจึงเป็นสถิติของ GoF ที่ดีขึ้น ( ไม่เอนเอียง ) เนื่องจากการแก้ไขขนาดตัวอย่างและจำนวนสัมประสิทธิ์ (ดูที่นี่หรือสิ่งนี้ ) ดูเหมือนว่าการเชื่อมต่อนี้สำคัญสำหรับตระกูลของ สถิติเป็นสิ่งที่แสดงถึงการวัดความสัมพันธ์ของการพอดีกับการวัดแบบสัมบูรณ์เช่นรูทค่าเฉลี่ยความผิดพลาดกำลังสอง ( )R2R2RMSE

ยิ่งไปกว่านั้นความจริงที่ว่ามีค่าเท่ากับเปอร์เซ็นต์ของความแปรปรวนในตัวแปรอิสระที่สามารถอธิบายได้โดยตัวแปรอิสระทั้งหมดที่นำมารวมกันทำให้และโดยทางอ้อมวัดพลังงานอธิบาย ( หรือกำลังทำนาย ) ของแบบจำลอง ในความเป็นจริงสำหรับแบบจำลองการคาดการณ์บางคนแนะนำให้ใช้สถิติคล้ายกัน- ผลรวมที่เหลือของสี่เหลี่ยม ( ) สำหรับรายละเอียดโปรดดูโพสต์นี้และโพสต์นี้ซึ่งเกี่ยวข้องกับคำถามของคุณในตอนท้ายของโพสต์R2R2SSESSEPRESS

การสรุปและตอบคำถามหลักของคุณฉันคิดว่าเรามักจะลดน้อยที่สุด เพราะมันเทียบเท่ากับการเพิ่มพลังการอธิบายหรือการทำนายของแบบจำลองทางสถิติให้ได้มากที่สุดSSE


2
ค่าที่ปรับนั้นไม่เอนเอียงเมื่อประชากรเป็นศูนย์แต่มันไม่เอนเอียงโดยทั่วไปคือเมื่อความลาดชันบางค่าไม่เป็นศูนย์ในประชากร? R2R2
Silverfish

@Silverfish: ขอบคุณสำหรับความคิดเห็น ฉันเพิ่งอ่านโพสต์ที่คุณได้เรียกและดูเหมือนว่าคุณขวา: ปรับคือสิ่งที่ฉันจะเรียกเป็นกลางเงื่อนไข อีกวิธีหนึ่งก็สามารถติดป้ายว่า "การประมาณค่าที่ไม่เอนเอียงของประชากร " (เน้นที่เหมือง; ดูสไลด์ 13 ในเอกสารนี้ ) R2R2
Aleksandr Blekh

ใน : การแปรปรวนอธิบายว่า "R ^ 2 ให้ 'ร้อยละของความแปรปรวนอธิบาย' โดยการถดถอยการแสดงออกที่สำหรับนักวิทยาศาสตร์สังคมส่วนใหญ่มีความสงสัยที่สงสัย แต่ค่าโวหารที่ดี" ในทางตรงกันข้าม Glen_b กล่าวอย่างถูกต้องว่า "มีข้อได้เปรียบในการเลือกสิ่งที่พร้อมใช้งานและเข้าใจอย่างกว้างขวาง" R2
เดนิส

@denis: ฉันไม่เห็นด้วยกับสิ่งที่ Glen_b พูดไว้ข้างต้น สำหรับรูปแบบที่อธิบายแล้วฉันไม่แน่ใจว่าทำไมคุณถึงนำมาใช้ - คำนี้ดูเหมือนจะคล้ายกับดังนั้นจึงแบ่งปันทั้งข้อดีและข้อเสียของมัน R2
Aleksandr Blekh

0

คุณอาจดูที่การลดข้อผิดพลาดสูงสุดให้น้อยที่สุดแทนที่จะปรับให้เหมาะสมกำลังสองน้อยที่สุด มีวรรณกรรมกว้างขวางในเรื่องนี้ สำหรับคำค้นหาให้ลองใช้คำหลายคำด้วย "Tchebechev" ที่สะกดคำหลายคำด้วยกัน


1
ค่าสูงสุดคือค่า L-infinity หากคุณดูที่ Nutonian / Formulize / Eureqa พวกเขามีสวนสัตว์ที่ดีของฟังก์ชั่นค่าใช้จ่าย (แบบฟอร์มข้อผิดพลาด) รวมถึงข้อผิดพลาดสัมบูรณ์ interquartile ข้อผิดพลาดการสูญเสียบานพับ, ROC-AUC และความแตกต่างที่ลงนาม formulize.nutonian.com/documentation/eureqa/general-reference/ ......
EngrStudent - Reinstate Monica

0

ดูเหมือนว่าคนใช้กำลังสองเพราะมันอยู่ใน Linear Algebra realm และไม่ได้สัมผัสสิ่งที่ซับซ้อนกว่าเช่นการเพิ่มประสิทธิภาพของนูนซึ่งมีประสิทธิภาพมากขึ้น แต่มันนำไปสู่การแก้ปัญหาแบบยูเอสโดยไม่มีโซลูชั่นแบบปิดที่ดี

นอกจากนี้แนวคิดจากขอบเขตคณิตศาสตร์นี้ซึ่งมีการเพิ่มประสิทธิภาพชื่อนูนยังไม่แพร่กระจายมากนัก

"... ทำไมเราถึงสนใจเรื่องของสแควร์ด้วยความซื่อสัตย์เพราะเราสามารถวิเคราะห์มันได้ ... ถ้าคุณบอกว่ามันสอดคล้องกับพลังงานและพวกเขาซื้อมันแล้วรีบดำเนินการต่อไปอย่างรวดเร็ว .... " - https: / /youtu.be/l1X4tOoIHYo?t=1416 , EE263, L8, 23:36

นอกจากนี้ที่นี่สตีเฟ่นพี. บอยด์อธิบายในปี 2008 ว่าผู้คนใช้ค้อนและ adhoc: L20, 01:05:15 - https://youtu.be/qoCa7kMLXNg?t=3916


0

ในหมายเหตุด้าน:

เมื่อทำการแยกความไม่แน่นอนกับค่าของตัวแปรเป้าหมาย t เราสามารถแสดงการแจกแจงความน่าจะเป็นของ t เป็น สมมติว่า t ตามด้วย Gaussian conitioned บน polyomial y การใช้ข้อมูลการฝึกอบรมความเป็นไปได้ของพารามิเตอร์แบบจำลองจะได้รับจาก การเพิ่มความน่าจะเป็นบันทึกของแบบฟอร์ม

p(t|x,w,β)=N(t|y(x,w),β1)
{x,t}w- β
p(t|x,w,β)=n=1NN(tn|y(xn,w),β1).
wβ-1
β2n=1N{y(xn,w)tn}2+N2lnβN2ln(2π)
เหมือนกับการลดโอกาสในการลบเชิงลบให้เหลือน้อยที่สุด เรา CAB วางสองและระยะที่สามตั้งแต่พวกเขาคงอยู่กับเรื่องที่เกี่ยวกับ{w} นอกจากนี้ยังสามารถลดขนาดตัวคูณในเทอมแรกเนื่องจากปัจจัยคงที่ไม่เปลี่ยนตำแหน่งสูงสุด / ต่ำสุดทำให้เรามี ดังนั้น SSE จึงเกิดขึ้นเนื่องจากความเป็นไปได้สูงสุดภายใต้สมมติฐานของการกระจายเสียงแบบเกาส์เซียนwβ
12n=1N{y(xn,w)tn}2.
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.