มีอคติต่อจำนวนธรรมชาติในกรณีที่กำลังสองน้อยที่สุด


14

ทำไมเราพยายามที่จะลดการx^2แทนของการลดหรือ|x|^1.95 |x|^2.05มีเหตุผลว่าทำไมจำนวนควรเป็นสองเท่าหรือเป็นเพียงการประชุมที่มีประโยชน์ในการทำให้คณิตศาสตร์ง่ายขึ้น?

คำตอบ:


5

คำถามนี้ค่อนข้างเก่า แต่จริง ๆ แล้วฉันมีคำตอบที่ไม่ปรากฏที่นี่และคำถามหนึ่งที่ให้เหตุผลที่น่าสนใจว่าทำไม (ภายใต้สมมติฐานที่สมเหตุสมผล) ข้อผิดพลาดกำลังสองนั้นถูกต้องในขณะที่พลังงานอื่นไม่ถูกต้อง

สมมติว่าเรามีข้อมูลบางอย่างและต้องการ หาฟังก์ชันเชิงเส้น (หรืออะไรก็ตาม)ที่ดีที่สุดทำนายข้อมูลในแง่ที่ความหนาแน่นของความน่าจะเป็นสำหรับการสังเกตข้อมูลนี้ควรจะสูงสุดโดยคำนึงถึง (นี่เรียกว่าการประเมินความเป็นไปได้สูงสุด ) หากเราสมมติว่าข้อมูลได้รับจากบวกกับข้อผิดพลาดที่กระจายตามปกติด้วยค่าเบี่ยงเบนมาตรฐานดังนั้น สิ่งนี้เทียบเท่า f p f ( D ) f f σ p f ( D ) = n i = 1 1D=(x1,y1),(x2,y2),...,(xn,yn)fpf(D)ffσ

pf(D)=i=1n1σ2πe(yif(xi))22σ2.
1σn(2π)n/2e12σ2i=1n(yif(xi))2.
ดังนั้นการทำให้นั้นสามารถทำได้โดยการลดขนาดนั่นคือผลรวมของเงื่อนไขข้อผิดพลาดกำลังสองn i = 1 ( y i - f ( x i ) ) 2pf(D)i=1n(yif(xi))2

ดูเหมือนเป็นวงกลมทำไมคุณควรสมมติว่ามีข้อผิดพลาดกระจายตามปกติ
Joe

@ Joe คุณไม่ควรเสมอไป แต่ถ้าสิ่งเดียวที่คุณรู้เกี่ยวกับคำว่า error คือมันมีค่าเฉลี่ยเป็น 0 และค่าสัมบูรณ์ที่คาดไว้แน่นอนแล้วนั่นคือข้อสันนิษฐานสูงสุดของเอนโทรปี ฟังก์ชั่นข้อผิดพลาดที่คุณมีจริง หากคุณมีข้อมูลเพิ่มเติมเกี่ยวกับการแจกแจงข้อผิดพลาดฉันคิดว่าคุณสามารถใช้มันและค้นหาตัวประมาณความน่าจะเป็นที่แม่นยำที่สุด

"ถ้าสิ่งเดียวที่คุณรู้เกี่ยวกับเทอมผิดพลาดคือมันมีค่าเฉลี่ยเป็น 0 และค่าสัมบูรณ์แน่นอนที่คาดไว้นั่นคือข้อสันนิษฐานสูงสุดของเอนโทรปี" - ทุกครั้งที่การกระจายของเอนโทรปีสูงสุดที่ฉันได้เห็น กระจาย Maxent สำหรับ (ที่รู้จักกัน) จำกัด คาดว่าค่าสัมบูรณ์ขณะที่เกาส์เป็น Maxent สำหรับ (ที่รู้จักกัน) จำกัด คาดว่าจะยืดค่าสัมบูรณ์ให้ดูเป็นตัวอย่างหนึ่งstats.stackexchange.com/questions/82410/...คุณมีการอ้างอิงที่ไม่เห็นด้วย ?
Joe

คุณก็รู้ฉันไม่ ฉันจะถือว่าคุณพูดถูก (แม้ว่าฉันจะไม่สามารถหาวิธีแก้ไขความคิดเห็นของฉันด้วยเหตุผลบางอย่าง)

14

ไม่มีเหตุผลที่คุณไม่สามารถพยายามลดบรรทัดฐานอื่น ๆ นอกเหนือจาก x ^ 2 ได้มีหนังสือทั้งหมดที่เขียนเกี่ยวกับการถดถอยแบบควอไทล์เช่นซึ่งมีการลดขนาดน้อยลง | x | หากคุณทำงานกับค่ามัธยฐาน เป็นเรื่องยากที่จะทำและขึ้นอยู่กับโมเดลข้อผิดพลาดอาจไม่ให้การประมาณที่ดี (ขึ้นอยู่กับว่าหมายถึงความแปรปรวนต่ำหรือการประมาณ MSE ต่ำหรือไม่เป็นกลางในบริบท)

สำหรับเหตุผลที่เราต้องการช่วงเวลาจำนวนเต็มมากกว่าช่วงเวลาที่มีค่าจำนวนจริงเหตุผลหลักมีแนวโน้มว่าในขณะที่พลังจำนวนเต็มของจำนวนจริงมักส่งผลให้จำนวนจริงเสมออำนาจที่ไม่ใช่จำนวนเต็มของตัวเลขจริงเชิงลบสร้างตัวเลขที่ซับซ้อน ค่าสัมบูรณ์ กล่าวอีกนัยหนึ่งในขณะที่ช่วงเวลาที่ 3 ของตัวแปรสุ่มมูลค่าจริงเป็นจริงช่วงเวลา 3.2 ไม่จำเป็นต้องเป็นจริงและทำให้เกิดปัญหาการตีความ

นอกเหนือจากที่...

  1. นิพจน์การวิเคราะห์สำหรับช่วงเวลาที่เป็นจำนวนเต็มของตัวแปรสุ่มมักจะพบได้ง่ายกว่าช่วงเวลาที่มีค่าจริงไม่ว่าจะโดยการสร้างฟังก์ชันหรือวิธีอื่น วิธีการย่อให้เล็กสุดนั้นง่ายต่อการเขียน
  2. การใช้ช่วงเวลาจำนวนเต็มนำไปสู่การแสดงออกที่มีความง่ายกว่าช่วงเวลาที่มีคุณค่าจริง
  3. ฉันไม่สามารถนึกถึงเหตุผลที่น่าสนใจที่ (เช่น) ช่วงเวลาที่ 1.95 ของค่าสัมบูรณ์ของ X จะให้คุณสมบัติการปรับที่ดีกว่า (เช่น) วินาทีที่สองของ X แม้ว่าจะน่าสนใจที่จะตรวจสอบ
  4. เฉพาะมาตรฐาน L2 (หรือข้อผิดพลาดกำลังสอง) สามารถเขียนผ่านจุดผลิตภัณฑ์ซึ่งสามารถนำไปสู่การปรับปรุงความเร็วในการคำนวณอย่างมากมาย นอกจากนี้ยังเป็นพื้นที่ Lp เดียวที่เป็นพื้นที่ Hilbert ซึ่งเป็นคุณสมบัติที่ดีที่มี

8

เราพยายามลดความแปรปรวนที่เหลืออยู่ภายใน descriptors ให้น้อยที่สุด ทำไมความแปรปรวน? อ่านคำถามนี้ ; สิ่งนี้ยังมาพร้อมกับการสันนิษฐาน (ส่วนใหญ่เงียบ) ว่ามีการกระจายข้อผิดพลาดตามปกติ

ส่วนขยาย:
สองข้อโต้แย้งเพิ่มเติม:

  1. สำหรับความแปรปรวนเรามี "กฎ" ที่ดีนี้ที่ผลรวมของผลต่างนั้นเท่ากับความแปรปรวนของผลรวมสำหรับตัวอย่างที่ไม่เกี่ยวข้อง หากเราสมมติว่าข้อผิดพลาดนั้นไม่มีความสัมพันธ์กับกรณีการย่อส่วนที่เหลือของกำลังสองจะทำงานตรงไปตรงมาเพื่อเพิ่มความแปรปรวนที่อธิบายให้ได้มากที่สุดสิ่งที่อาจเป็นการวัดคุณภาพที่ไม่ดี แต่ก็ยังได้รับความนิยม

  2. หากเราถือว่าความเป็นปกติของข้อผิดพลาดตัวประมาณความผิดพลาดกำลังสองน้อยที่สุดนั้นเป็นโอกาสสูงสุด


1
คำตอบในเธรดอื่นนั้นไม่ได้อธิบายอย่างแท้จริงว่าทำไม 2 จึงมีค่าที่ดีกว่าค่าอื่น ๆ ที่ใกล้เคียงกับ 2 มาก แต่ไม่มีตัวเลขที่เป็นธรรมชาติ
Christian

ฉันคิดว่ามันทำ; ยังฉันจะพยายามที่จะขยายคำตอบ

ดังนั้นหากข้อผิดพลาดไม่ได้กระจายตามปกติ แต่ยกตัวอย่างตามการกระจายตัวแบบLévyที่เสถียรอื่น ๆ มันอาจจ่ายเงินเพื่อใช้เลขชี้กำลังต่างจาก 2?
Raskolnikov

โปรดจำไว้ว่าการแจกแจงแบบปกติคือสิ่งที่ "ระมัดระวัง" ที่สุดสำหรับความแปรปรวนที่ทราบ (เนื่องจากมีค่าความเอนโทรปีสูงสุดในทุกความหนาแน่นที่มีความแปรปรวนคงที่) มันทิ้งข้อมูลมากที่สุดที่จะพูดด้วยข้อมูล หรือใส่อีกวิธีหนึ่งสำหรับชุดข้อมูล "ใหญ่" ที่มีความแปรปรวนเดียวกัน "คุณ" ต้อง "ลอง" ยากที่จะได้รับการแจกแจงซึ่งแตกต่างจากปกติอย่างไม่น่าเชื่อ
ความน่าจะเป็นทาง

8

โดยทั่วไปแล้วกำลังสองน้อยที่สุดวิธีแก้ปัญหา (A'A) ^ (- 1) x = A'b ลดการสูญเสียข้อผิดพลาดกำลังสองน้อยที่สุดและเป็นวิธีแก้ปัญหาความน่าจะเป็นสูงสุด

ดังนั้นส่วนใหญ่เป็นเพราะคณิตศาสตร์เป็นเรื่องง่ายในกรณีประวัติศาสตร์นี้

แต่คนทั่วไปลดฟังก์ชั่นการสูญเสียที่แตกต่างกันจำนวนมากเช่นเลขชี้กำลัง, โลจิสติก, โคชี, Laplace, ฮับ ฯลฯ ฟังก์ชั่นการสูญเสียที่แปลกใหม่เหล่านี้โดยทั่วไปต้องใช้ทรัพยากรการคำนวณจำนวนมากและไม่มีโซลูชั่นแบบปิด ตอนนี้พวกเขาเริ่มได้รับความนิยมมากขึ้นเท่านั้น


1
+1 สำหรับการแนะนำแนวคิดเรื่องการสูญเสีย (แต่ไม่ใช่ "เอ็กซ์โปเนนเชียล" ฯลฯการแจกแจงไม่ใช่ฟังก์ชั่นการสูญเสีย?) การสูญเสียเชิงเส้นในอดีตเป็นวิธีแรกที่พัฒนาขึ้นอย่างเป็นทางการในปี 1750 และมีวิธีแก้ปัญหาทางเรขาคณิตที่ตรงไปตรงมา ฉันเชื่อว่า Laplace ได้สร้างความสัมพันธ์ระหว่างสิ่งนี้กับการแจกแจงเลขชี้กำลังสองเท่าในสิ่งพิมพ์ 1809 (ซึ่ง MLE จะลดความผิดพลาดแบบสัมบูรณ์ไม่ให้เกิดข้อผิดพลาดกำลังสอง) ดังนั้นการสูญเสียกำลังสองจึงไม่แตกต่างกันอย่างมีเอกลักษณ์โดยเกณฑ์ของการมี MLE และง่ายทางคณิตศาสตร์
whuber

ทั้งฟังก์ชันการแจกแจงและการสูญเสียในบริบทที่แตกต่าง
Joe

ฉันกดป้อนเร็วเกินไปในการตอบกลับก่อนหน้า - การสูญเสียเอกซ์โพเนนเชียลมีความสัมพันธ์อย่างกว้างขวางกับการส่งเสริม (ดู Friedman Hastie และ Tibshirani's ดูสถิติของการส่งเสริม) ซึ่งเป็นความสูญเสียมากกว่าการกระจาย สอดคล้องกับการสูญเสียค่าสัมบูรณ์ - ดังนั้นส่วนใหญ่ฉันเป็นเลอะเทอะมากขอบคุณที่ชี้ให้เห็น แต่ในขณะที่การสูญเสีย L1 มีวิธีแก้ปัญหาทางเรขาคณิตมันไม่ได้ปิดแบบวิเคราะห์ดังนั้นฉันแทบจะเรียกวิธีแก้ปัญหาของมันไม่ยาก
Joe

1

ความเข้าใจของฉันคือว่าเนื่องจากเราพยายามลดข้อผิดพลาดให้น้อยที่สุดเราต้องหาวิธีที่จะไม่ทำให้ตัวเองอยู่ในสถานการณ์ที่ผลรวมของความแตกต่างเชิงลบในข้อผิดพลาดเท่ากับผลรวมของความแตกต่างเชิงบวกในข้อผิดพลาด พบแบบที่ดี เราทำสิ่งนี้โดยการหาผลรวมของความแตกต่างในข้อผิดพลาดซึ่งหมายถึงความแตกต่างเชิงลบและบวกในข้อผิดพลาดทั้งคู่กลายเป็นค่าบวก ( ) ถ้าเรายกกำลังไปหาพลังของสิ่งอื่นที่ไม่ใช่จำนวนเต็มบวกเราจะไม่แก้ปัญหานี้เพราะข้อผิดพลาดจะไม่มีเครื่องหมายเหมือนกันหรือถ้าเรายกกำลังของบางสิ่งที่ไม่ใช่จำนวนเต็มเราจะต้องป้อน ขอบเขตของจำนวนเชิงซ้อนx1×1=1x

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.