ทำไมเราพยายามที่จะลดการx^2
แทนของการลดหรือ|x|^1.95
|x|^2.05
มีเหตุผลว่าทำไมจำนวนควรเป็นสองเท่าหรือเป็นเพียงการประชุมที่มีประโยชน์ในการทำให้คณิตศาสตร์ง่ายขึ้น?
ทำไมเราพยายามที่จะลดการx^2
แทนของการลดหรือ|x|^1.95
|x|^2.05
มีเหตุผลว่าทำไมจำนวนควรเป็นสองเท่าหรือเป็นเพียงการประชุมที่มีประโยชน์ในการทำให้คณิตศาสตร์ง่ายขึ้น?
คำตอบ:
คำถามนี้ค่อนข้างเก่า แต่จริง ๆ แล้วฉันมีคำตอบที่ไม่ปรากฏที่นี่และคำถามหนึ่งที่ให้เหตุผลที่น่าสนใจว่าทำไม (ภายใต้สมมติฐานที่สมเหตุสมผล) ข้อผิดพลาดกำลังสองนั้นถูกต้องในขณะที่พลังงานอื่นไม่ถูกต้อง
สมมติว่าเรามีข้อมูลบางอย่างและต้องการ หาฟังก์ชันเชิงเส้น (หรืออะไรก็ตาม)ที่ดีที่สุดทำนายข้อมูลในแง่ที่ความหนาแน่นของความน่าจะเป็นสำหรับการสังเกตข้อมูลนี้ควรจะสูงสุดโดยคำนึงถึง (นี่เรียกว่าการประเมินความเป็นไปได้สูงสุด ) หากเราสมมติว่าข้อมูลได้รับจากบวกกับข้อผิดพลาดที่กระจายตามปกติด้วยค่าเบี่ยงเบนมาตรฐานดังนั้น สิ่งนี้เทียบเท่า f p f ( D ) f f σ p f ( D ) = n ∏ i = 1 1
ไม่มีเหตุผลที่คุณไม่สามารถพยายามลดบรรทัดฐานอื่น ๆ นอกเหนือจาก x ^ 2 ได้มีหนังสือทั้งหมดที่เขียนเกี่ยวกับการถดถอยแบบควอไทล์เช่นซึ่งมีการลดขนาดน้อยลง | x | หากคุณทำงานกับค่ามัธยฐาน เป็นเรื่องยากที่จะทำและขึ้นอยู่กับโมเดลข้อผิดพลาดอาจไม่ให้การประมาณที่ดี (ขึ้นอยู่กับว่าหมายถึงความแปรปรวนต่ำหรือการประมาณ MSE ต่ำหรือไม่เป็นกลางในบริบท)
สำหรับเหตุผลที่เราต้องการช่วงเวลาจำนวนเต็มมากกว่าช่วงเวลาที่มีค่าจำนวนจริงเหตุผลหลักมีแนวโน้มว่าในขณะที่พลังจำนวนเต็มของจำนวนจริงมักส่งผลให้จำนวนจริงเสมออำนาจที่ไม่ใช่จำนวนเต็มของตัวเลขจริงเชิงลบสร้างตัวเลขที่ซับซ้อน ค่าสัมบูรณ์ กล่าวอีกนัยหนึ่งในขณะที่ช่วงเวลาที่ 3 ของตัวแปรสุ่มมูลค่าจริงเป็นจริงช่วงเวลา 3.2 ไม่จำเป็นต้องเป็นจริงและทำให้เกิดปัญหาการตีความ
นอกเหนือจากที่...
เราพยายามลดความแปรปรวนที่เหลืออยู่ภายใน descriptors ให้น้อยที่สุด ทำไมความแปรปรวน? อ่านคำถามนี้ ; สิ่งนี้ยังมาพร้อมกับการสันนิษฐาน (ส่วนใหญ่เงียบ) ว่ามีการกระจายข้อผิดพลาดตามปกติ
ส่วนขยาย:
สองข้อโต้แย้งเพิ่มเติม:
สำหรับความแปรปรวนเรามี "กฎ" ที่ดีนี้ที่ผลรวมของผลต่างนั้นเท่ากับความแปรปรวนของผลรวมสำหรับตัวอย่างที่ไม่เกี่ยวข้อง หากเราสมมติว่าข้อผิดพลาดนั้นไม่มีความสัมพันธ์กับกรณีการย่อส่วนที่เหลือของกำลังสองจะทำงานตรงไปตรงมาเพื่อเพิ่มความแปรปรวนที่อธิบายให้ได้มากที่สุดสิ่งที่อาจเป็นการวัดคุณภาพที่ไม่ดี แต่ก็ยังได้รับความนิยม
หากเราถือว่าความเป็นปกติของข้อผิดพลาดตัวประมาณความผิดพลาดกำลังสองน้อยที่สุดนั้นเป็นโอกาสสูงสุด
โดยทั่วไปแล้วกำลังสองน้อยที่สุดวิธีแก้ปัญหา (A'A) ^ (- 1) x = A'b ลดการสูญเสียข้อผิดพลาดกำลังสองน้อยที่สุดและเป็นวิธีแก้ปัญหาความน่าจะเป็นสูงสุด
ดังนั้นส่วนใหญ่เป็นเพราะคณิตศาสตร์เป็นเรื่องง่ายในกรณีประวัติศาสตร์นี้
แต่คนทั่วไปลดฟังก์ชั่นการสูญเสียที่แตกต่างกันจำนวนมากเช่นเลขชี้กำลัง, โลจิสติก, โคชี, Laplace, ฮับ ฯลฯ ฟังก์ชั่นการสูญเสียที่แปลกใหม่เหล่านี้โดยทั่วไปต้องใช้ทรัพยากรการคำนวณจำนวนมากและไม่มีโซลูชั่นแบบปิด ตอนนี้พวกเขาเริ่มได้รับความนิยมมากขึ้นเท่านั้น
ความเข้าใจของฉันคือว่าเนื่องจากเราพยายามลดข้อผิดพลาดให้น้อยที่สุดเราต้องหาวิธีที่จะไม่ทำให้ตัวเองอยู่ในสถานการณ์ที่ผลรวมของความแตกต่างเชิงลบในข้อผิดพลาดเท่ากับผลรวมของความแตกต่างเชิงบวกในข้อผิดพลาด พบแบบที่ดี เราทำสิ่งนี้โดยการหาผลรวมของความแตกต่างในข้อผิดพลาดซึ่งหมายถึงความแตกต่างเชิงลบและบวกในข้อผิดพลาดทั้งคู่กลายเป็นค่าบวก ( ) ถ้าเรายกกำลังไปหาพลังของสิ่งอื่นที่ไม่ใช่จำนวนเต็มบวกเราจะไม่แก้ปัญหานี้เพราะข้อผิดพลาดจะไม่มีเครื่องหมายเหมือนกันหรือถ้าเรายกกำลังของบางสิ่งที่ไม่ใช่จำนวนเต็มเราจะต้องป้อน ขอบเขตของจำนวนเชิงซ้อนx