การลดข้อผิดพลาดกำลังสองเท่ากับการย่อข้อผิดพลาดแบบสัมบูรณ์หรือไม่ ทำไมข้อผิดพลาดยกกำลังสองจึงเป็นที่นิยมมากกว่าข้อหลัง


38

เมื่อเราทำการถดถอยเชิงเส้นเพื่อให้พอดีกับจุดข้อมูลจำนวนมากวิธีแบบคลาสสิกช่วยลดข้อผิดพลาดกำลังสอง ฉันงงงวยกับคำถามที่จะลดข้อผิดพลาดกำลังสองให้ได้ผลลัพธ์เช่นเดียวกับการลดข้อผิดพลาดสัมบูรณ์ให้น้อยที่สุดหรือไม่ ถ้าไม่ทำไมข้อผิดพลาดกำลังสองลดลงจึงดีกว่า มีเหตุผลอื่นนอกเหนือจาก "ฟังก์ชั่นวัตถุประสงค์คือ differentiable"?y=ax+b(x1,y1),(x2,y2),...,(xn,yn)

ข้อผิดพลาดกำลังสองยังใช้กันอย่างแพร่หลายในการประเมินประสิทธิภาพของแบบจำลอง แต่ข้อผิดพลาดแบบสัมบูรณ์เป็นที่นิยมน้อยกว่า ทำไมข้อผิดพลาดยกกำลังสองที่ใช้บ่อยกว่าข้อผิดพลาดที่แน่นอน? หากการซื้อขายสัญญาซื้อขายล่วงหน้าไม่เกี่ยวข้องกับการคำนวณผิดพลาดแน่นอนเป็นเรื่องง่ายเหมือนการคำนวณผิดพลาดยกกำลังสองแล้วทำไมข้อผิดพลาดยกกำลังสองเป็นที่แพร่หลายดังนั้น ? มีข้อได้เปรียบที่ไม่เหมือนใครที่สามารถอธิบายความชุกของมันได้หรือไม่?

ขอขอบคุณ.


มีปัญหาการปรับให้เหมาะสมอยู่เสมอและคุณต้องการคำนวณการไล่ระดับสีเพื่อค้นหาค่าต่ำสุด / สูงสุด
Vladislavs Dovgalecs

11
x2<|x|สำหรับและถ้า . ดังนั้นข้อผิดพลาดกำลังสองจะลงโทษข้อผิดพลาดขนาดใหญ่มากกว่าข้อผิดพลาดสัมบูรณ์และเป็นการให้อภัยข้อผิดพลาดเล็กน้อยมากกว่าข้อผิดพลาดสัมบูรณ์คือ สิ่งนี้สอดคล้องกับสิ่งที่หลายคนคิดว่าเป็นวิธีที่เหมาะสมในการทำสิ่งต่าง ๆ x(1,1)x2>|x||x|>1
Dilip Sarwate

คำตอบ:


46

การลดข้อผิดพลาดแบบสี่เหลี่ยม (MSE) นั้นไม่เหมือนกับการลดความผิดพลาดแบบสัมบูรณ์ (MAD) MSE ให้หมายถึงการตอบสนองของปรับอากาศในขณะ MAD ให้แบ่งการตอบสนองของปรับอากาศในxyxyx

ในอดีต Laplace พิจารณาข้อผิดพลาดสูงสุดที่สังเกตได้ว่าเป็นการวัดความถูกต้องของแบบจำลอง ในไม่ช้าเขาก็ย้ายไปพิจารณาMADแทน เนื่องจากเขาไม่สามารถแก้ไขสถานการณ์ทั้งสองได้อย่างแม่นยำในไม่ช้าเขาจึงพิจารณา MSE ที่แตกต่าง ตัวเองและเกาส์ (ดูเหมือนพร้อมกัน) ได้รับสมการปกติซึ่งเป็นวิธีแก้ปัญหาแบบปิดสำหรับปัญหานี้ ทุกวันนี้การแก้ปัญหา MAD นั้นค่อนข้างง่ายด้วยโปรแกรมเชิงเส้น เนื่องจากเป็นที่รู้จักกันดีอย่างไรก็ตามการเขียนโปรแกรมเชิงเส้นจึงไม่มีโซลูชันแบบปิด

จากมุมมองการเพิ่มประสิทธิภาพทั้งสองสอดคล้องกับฟังก์ชั่นนูน อย่างไรก็ตาม MSE นั้นมีความแตกต่างกันดังนั้นจึงช่วยให้สามารถใช้วิธีการไล่ระดับสีที่มีประสิทธิภาพมากกว่าวิธีที่ต่างกัน MAD ไม่อนุพันธ์ได้ที่ 0x=0

อีกเหตุผลทางทฤษฎีคือในการตั้งค่าแบบเบย์เมื่อสมมติว่ามีค่าคงที่ของพารามิเตอร์แบบจำลอง MSE จะให้ข้อผิดพลาดการแจกแจงแบบปกติซึ่งได้รับการพิสูจน์ว่าเป็นความถูกต้องของวิธีการ นักทฤษฎีชอบการแจกแจงแบบปกติเพราะพวกเขาเชื่อว่ามันเป็นข้อเท็จจริงเชิงประจักษ์ในขณะที่การทดลองชอบมันเพราะพวกเขาเชื่อว่ามันเป็นผลลัพธ์ทางทฤษฎี

เหตุผลสุดท้ายที่ว่าทำไม MSE อาจได้รับการยอมรับอย่างกว้างขวางก็คือมันขึ้นอยู่กับระยะทางแบบยุคลิด (ในความเป็นจริงมันเป็นวิธีการแก้ปัญหาการฉายภาพในพื้นที่แบบยุคลิดแบบยูคาลิเดียน) ซึ่งเป็นธรรมชาติอย่างแท้จริง


1
(+1) สำหรับการอ้างอิงถึง Laplace!
ซีอาน

2
นักทฤษฎีชอบการแจกแจงแบบปกติเพราะพวกเขาเชื่อว่ามันเป็นความจริงเชิงประจักษ์ในขณะที่การทดลองเช่นนั้นเพราะพวกเขาเชื่อว่ามันเป็นผลลัพธ์ทางทฤษฎี -- ฉันรักมัน. แต่ยังไม่มีแอปพลิเคชันฟิสิกส์โดยตรงสำหรับการกระจายแบบเกาส์ และยังมีเนื้อหาเกี่ยวกับการกระจายเอนโทรปีสูงสุด
shadowtalker

8
@ssdecontrol ฉันคิดว่ารูปเล็ก ๆ เกิดจากอองรีPoincaréน้อยกว่าหนึ่งร้อยปีที่ผ่านมา สิ่งนี้ทำให้ฉันเป็นคนดี, ฉันไม่ได้เป็นคนที่ชอบเอ็ม. ลิปมันน์, นักบวชที่มีประสบการณ์และเป็นผู้ที่มีความสามารถพิเศษและเป็นนักคณิตศาสตร์ที่เก่งกาจมาก "ทุกคนมีความมั่นใจในเรื่องนี้ [ข้อผิดพลาดที่มักจะกระจาย] นาย Lippman เล่าให้ฉันฟังสักวันหนึ่งตั้งแต่นักทดลองเชื่อว่ามันเป็นทฤษฎีบททางคณิตศาสตร์และนักคณิตศาสตร์ว่ามันเป็นการทดลองจริง" จากCalcul des probabilités (2nd ed., 1912), p. 171
Dilip Sarwate

1
นี่คือคำตอบทางคณิตศาสตร์ ถ้าเรามีเมทริกซ์ข้อมูลของตัวแปรอิสระ X และเมทริกซ์คอลัมน์ Y ถ้ามีเมทริกซ์ b ที่มีคุณสมบัติ Xb = Y เราก็จะมีโซลอน โดยปกติแล้วเราไม่สามารถทำได้และเราต้องการให้ b ที่ 'ใกล้เคียงที่สุด' กับโซลูชันที่แน่นอน ในฐานะที่เป็นคณิตศาสตร์นี่คือ 'ง่าย' ที่จะแก้ปัญหา มันคือโปรเจคชั่นของ Y บนพื้นที่คอลัมน์ของ X แนวคิดของโปรเจคชันและตั้งฉาก ฯลฯ ขึ้นอยู่กับเมทริก ตัวชี้วัดแบบยุคลิด L2 ปกติคือสิ่งที่เราคุ้นเคยและมันให้กำลังสองน้อยที่สุด การลดคุณสมบัติของ mse เป็นการปรับปรุงข้อเท็จจริงที่ว่าเรามีการฉายภาพ
aginensky

1
ฉันคิดว่าความขัดแย้งที่มีลำดับความสำคัญอยู่ระหว่าง Gauss และ Legendre โดย Legendre นำหน้า Gauss ในการเผยแพร่ แต่ Gauss นำหน้า Legendre ในการติดต่อแบบไม่เป็นทางการ ฉันยัง (ราง) ทราบว่าหลักฐานของ Laplace ถือว่าดีกว่า การอ้างอิงใด ๆ เกี่ยวกับสิ่งเหล่านี้?
PatrickT

31

ในฐานะที่เป็นคำอธิบายทางเลือกให้พิจารณาปรีชาดังต่อไปนี้:

เมื่อลดข้อผิดพลาดให้น้อยที่สุดเราต้องตัดสินใจว่าจะลงโทษข้อผิดพลาดเหล่านี้อย่างไร อันที่จริงวิธีที่ตรงไปตรงมาที่สุดในการลงโทษข้อผิดพลาดคือการใช้linearly proportionalฟังก์ชันการลงโทษ ด้วยฟังก์ชันเช่นนี้การเบี่ยงเบนจากค่าเฉลี่ยแต่ละครั้งจะได้รับข้อผิดพลาดที่สอดคล้องตามสัดส่วน สองเท่าจากค่าเฉลี่ยจะส่งผลให้เกิดการลงโทษสองครั้ง

วิธีที่ใช้กันทั่วไปคือการพิจารณาsquared proportionalความสัมพันธ์ระหว่างการเบี่ยงเบนจากค่าเฉลี่ยและการลงโทษที่สอดคล้องกัน สิ่งนี้จะทำให้แน่ใจได้ว่ายิ่งคุณอยู่ห่างจากค่าเฉลี่ยมากเท่าไรคุณก็ยิ่งถูกลงโทษมากขึ้นเท่านั้น การใช้ฟังก์ชันการลงโทษนี้ค่าผิดปกติ (ห่างจากค่าเฉลี่ย) ถือว่าเป็นข้อมูลที่มีสัดส่วนมากกว่าการสังเกตใกล้ค่าเฉลี่ย

เพื่อให้เห็นภาพของสิ่งนี้คุณสามารถพล็อตฟังก์ชันการลงโทษได้:

การเปรียบเทียบฟังก์ชันการลงโทษ MAD และ MSE

ตอนนี้โดยเฉพาะอย่างยิ่งเมื่อพิจารณาการประมาณการถดถอย (เช่น OLS) ฟังก์ชันการลงโทษที่แตกต่างกันจะให้ผลลัพธ์ที่แตกต่างกัน การใช้linearly proportionalฟังก์ชั่นการลงโทษการถดถอยจะกำหนดน้ำหนักให้กับค่าผิดปกติน้อยกว่าเมื่อใช้squared proportionalฟังก์ชันการลงโทษ ค่ามัธยฐานเบี่ยงเบนสัมบูรณ์ (MAD) จึงเป็นที่รู้จักกันว่าเป็นตัวประมาณที่แข็งแกร่งกว่า โดยทั่วไปจึงเป็นกรณีที่ตัวประมาณที่มีประสิทธิภาพเหมาะสมกับจุดข้อมูลส่วนใหญ่ได้ดี แต่ไม่สนใจ 'ค่าผิดปกติ' ในการเปรียบเทียบกำลังสองน้อยที่สุดจะถูกดึงเข้าหาค่าผิดปกติมากขึ้น นี่คือการสร้างภาพข้อมูลเพื่อการเปรียบเทียบ:

การเปรียบเทียบ OLS กับเครื่องมือประมาณการที่มีประสิทธิภาพ

ถึงแม้ว่า OLS จะเป็นมาตรฐาน แต่ฟังก์ชั่นการลงโทษที่แตกต่างกันก็มีการใช้งานอย่างแน่นอนเช่นกัน ตัวอย่างเช่นคุณสามารถดูฟังก์ชั่นที่สมบูรณ์แบบของ Matlabซึ่งจะช่วยให้คุณเลือกฟังก์ชั่นการลงโทษที่แตกต่าง (เรียกว่า 'น้ำหนัก') สำหรับการถดถอยของคุณ ฟังก์ชั่นการลงโทษรวมถึงแอนดรู, bisquare, cauchy, ยุติธรรม, ฮิว, โลจิสติก, ols, talwar และเวลส์ การแสดงออกที่สอดคล้องกันของพวกเขาสามารถพบได้บนเว็บไซต์เช่นกัน

ฉันหวังว่าจะช่วยคุณในการรับฟังก์ชั่นการลงโทษเพิ่มเติมอีกเล็กน้อย :)

ปรับปรุง

หากคุณมี Matlab ฉันสามารถแนะนำให้เล่นกับrobustdemoของ Matlab ซึ่งสร้างขึ้นโดยเฉพาะสำหรับการเปรียบเทียบกำลังสองน้อยที่สุดธรรมดากับการถดถอยที่แข็งแกร่ง:

robustdemo

การสาธิตช่วยให้คุณสามารถลากจุดแต่ละจุดและเห็นผลกระทบทันทีทั้งสี่เหลี่ยมน้อยที่สุดธรรมดาและการถดถอยที่แข็งแกร่ง (ซึ่งเหมาะสำหรับวัตถุประสงค์ในการสอน!)


3

ตามที่คำตอบอื่นได้อธิบายแล้วการลดข้อผิดพลาดกำลังสองไม่เหมือนกับการลดข้อผิดพลาดสัมบูรณ์

เหตุผลที่ต้องการลดข้อผิดพลาดกำลังสองน้อยที่สุดเนื่องจากป้องกันข้อผิดพลาดขนาดใหญ่ได้ดีกว่า

สมมติว่าแผนกบัญชีเงินเดือนของคุณโดยไม่ได้ตั้งใจจ่ายเงินให้พนักงานแต่ละคนรวมกันสิบคนน้อยกว่าที่กำหนด$ 50 นั่นเป็นข้อผิดพลาดที่แน่นอนของ$ 500 นอกจากนี้ยังเป็นข้อผิดพลาดที่แน่นอนของ$ 500 หากแผนกจ่ายพนักงานเพียงหนึ่ง$น้อยกว่า$ 500 แต่มันเป็นข้อผิดพลาดกำลังสอง, มันคือ 25000 เทียบกับ 250000

มันไม่ได้ดีกว่าเสมอในการใช้ข้อผิดพลาดกำลังสอง หากคุณมีชุดข้อมูลที่มีค่าผิดพลาดรุนแรงเนื่องจากข้อผิดพลาดในการเก็บข้อมูลการลดข้อผิดพลาดกำลังสองน้อยที่สุดจะดึงให้พอดีกับค่าผิดปกติที่มากเกินกว่าการลดข้อผิดพลาดสัมบูรณ์ ที่ถูกกล่าวว่ามัน - ปกติ - ดีกว่าที่จะใช้ข้อผิดพลาดกำลังสอง


4
เหตุผลที่ต้องการลดข้อผิดพลาดกำลังสองน้อยที่สุดเนื่องจากป้องกันข้อผิดพลาดขนาดใหญ่ได้ดีกว่า - แล้วทำไมไม่คิดลูกบาศก์?
Daniel Earwicker

@DanielEarwicker Cubed สร้างข้อผิดพลาดในทิศทางที่ไม่ถูกต้องในการลบ ดังนั้นมันจะต้องมีข้อผิดพลาดคีบแน่นอนหรือยึดติดอยู่กับพลัง ไม่มีเหตุผล "ดี" จริง ๆ ที่ใช้กำลังสองแทนที่จะใช้กำลังที่สูงกว่า (หรือจริง ๆ แล้วไม่ใช่ฟังก์ชันการลงโทษพหุนาม มันง่ายในการคำนวณง่ายต่อการย่อและทำงาน
Atsby

1
แน่นอนฉันควรจะพูดถึงพลังที่ยิ่งใหญ่กว่านี้! :)
Daniel Earwicker

สิ่งนี้ไม่มี upvotes (ในขณะนี้) แต่สิ่งนี้ไม่ได้พูดเหมือนกับคำตอบที่ (ปัจจุบัน) มี 15 คะแนน (เช่น outliers มีผลมากกว่า)? นี่ไม่ได้รับคะแนนเพราะมันผิดหรือเพราะมันพลาดข้อมูลสำคัญบางอย่าง? หรือเพราะมันไม่มีกราฟสวย ๆ ? ;-)
Darren Cook

@DarrenCook ฉันสงสัยว่าวิธีการ "ทันสมัย" เพื่อสถิติชอบ MAD มากกว่า OLS และแนะนำว่าข้อผิดพลาดกำลังสองคือ "มักจะ" ดีกว่าทำให้ฉันได้รับ downvotes บ้าง
Atsby

2

ในทางทฤษฎีคุณสามารถใช้ฟังก์ชันการสูญเสียชนิดใดก็ได้ ฟังก์ชั่นการสูญเสียแบบสัมบูรณ์และกำลังสองได้รับความนิยมสูงสุดและฟังก์ชั่นการสูญเสียที่ใช้ง่ายที่สุด ตามรายการ วิกิพีเดียนี้

ตัวอย่างทั่วไปเกี่ยวข้องกับการประมาณ "ตำแหน่ง" ภายใต้สมมติฐานทางสถิติทั่วไปค่าเฉลี่ยหรือค่าเฉลี่ยคือสถิติสำหรับการประมาณตำแหน่งที่ลดการสูญเสียที่คาดหวังจากฟังก์ชันการสูญเสียความคลาดเคลื่อนกำลังสองในขณะที่ค่ามัธยฐานเป็นตัวประมาณการลดการสูญเสียที่คาดหวัง ตัวประมาณที่แตกต่างกันจะเหมาะสมที่สุดภายใต้สถานการณ์อื่น ๆ ที่พบได้น้อยกว่าทั่วไป

ตามที่อธิบายไว้ในรายการวิกิพีเดียตัวเลือกของฟังก์ชั่นการสูญเสียขึ้นอยู่กับว่าคุณให้คุณค่ากับการเบี่ยงเบนจากวัตถุเป้าหมายของคุณอย่างไร หากการเบี่ยงเบนทั้งหมดไม่ดีเท่ากันสำหรับคุณไม่ว่าจะเป็นสัญญาณอะไรก็ตามคุณสามารถใช้ฟังก์ชันการสูญเสียแบบสัมบูรณ์ได้ ถ้าการเบี่ยงเบนนั้นแย่กว่าสำหรับคุณมากขึ้นเรื่อย ๆ คุณอยู่ห่างจากจุดที่เหมาะสมที่สุดและคุณไม่สนใจว่าค่าเบี่ยงเบนนั้นเป็นค่าบวกหรือค่าลบฟังก์ชันการสูญเสียกำลังสองเป็นทางเลือกที่ง่ายที่สุดของคุณ แต่ถ้าไม่มีคำจำกัดความของการสูญเสียข้างต้นที่เหมาะกับปัญหาของคุณในมือเพราะเช่นการเบี่ยงเบนเล็ก ๆ นั้นแย่กว่าสำหรับคุณมากกว่าการเบี่ยงเบนใหญ่คุณสามารถเลือกฟังก์ชั่นการสูญเสียที่แตกต่างกันและพยายามแก้ปัญหา อย่างไรก็ตามคุณสมบัติทางสถิติของโซลูชันของคุณอาจประเมินได้ยาก


รายละเอียดเล็กน้อย: "หากการเบี่ยงเบนทั้งหมดไม่ดีเท่ากันสำหรับคุณไม่ว่าจะเป็นสัญญาณของพวกเขา .. ": ฟังก์ชั่น MAD จะลงโทษข้อผิดพลาดเชิงเส้นตามสัดส่วน ดังนั้นข้อผิดพลาดจะไม่ 'เท่าเทียมกัน' แต่ 'ไม่ดีตามสัดส่วน' เป็นสองเท่าของข้อผิดพลาดที่ได้รับโทษสองเท่า
Jean-Paul

@ Jean-Paul: ถูกต้อง ฉันหมายถึงอย่างนั้น สิ่งที่ฉันต้องการจะพูดด้วย "ไม่ดีเท่ากัน" ก็คือการไล่ระดับสีของ MAD นั้นคงที่ในขณะที่การไล่ระดับสีสำหรับ MSE จะเพิ่มขึ้นแบบเส้นตรงพร้อมกับข้อผิดพลาด ดังนั้นหากความแตกต่างระหว่างข้อผิดพลาดสองค่าคงที่ไม่ว่าคุณจะอยู่ห่างจากจุดที่เหมาะสมที่สุดในขณะที่สิ่งเดียวกันนั้นไม่เป็นความจริงสำหรับ MSE ฉันหวังว่าจะทำให้เข้าใจได้ง่ายขึ้นในสิ่งที่ฉันต้องการจะพูด
kristjan

-1

คำตอบสั้น ๆ

  1. Nope
  2. ค่าเฉลี่ยมีคุณสมบัติทางสถิติที่น่าสนใจมากกว่าค่ามัธยฐาน

10
มันจะดีถ้าคุณมีคุณสมบัติ "คุณสมบัติทางสถิติที่น่าสนใจยิ่งขึ้น"
Momo
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.