เหตุใดเราจึงคิดว่าข้อผิดพลาดนั้นกระจายตามปกติ


17

ฉันสงสัยว่าทำไมเราจึงใช้สมมติฐาน Gaussian เมื่อทำแบบจำลองข้อผิดพลาด ในหลักสูตร ML ของสแตนฟอร์ดศาสตราจารย์อึ้งได้อธิบายถึงมารยาทสองประการ:

  1. มันสะดวกในเชิงคณิตศาสตร์ (มันเกี่ยวข้องกับ Least Squares ที่เหมาะสมและง่ายต่อการแก้ไขด้วย pseudoinverse)
  2. เนื่องจากทฤษฎีบทขีด จำกัด กลางเราอาจสันนิษฐานว่ามีข้อเท็จจริงพื้นฐานมากมายที่ส่งผลกระทบต่อกระบวนการและผลรวมของข้อผิดพลาดส่วนบุคคลเหล่านี้จะมีแนวโน้มที่จะทำงานเหมือนในการแจกแจงปกติแบบศูนย์ ในทางปฏิบัติดูเหมือนว่าจะเป็นเช่นนั้น

ฉันสนใจส่วนที่สองจริง ๆ ทฤษฎีบทขีด จำกัด กลางใช้ได้กับตัวอย่าง iid เท่าที่ฉันรู้ แต่เราไม่สามารถรับประกันได้ว่าตัวอย่างต้นแบบจะเป็น iid

คุณมีความคิดเห็นเกี่ยวกับข้อผิดพลาดของเกาส์เซียนหรือไม่?


คุณกำลังพูดถึงเรื่องอะไร การจำแนกประเภทการถดถอยหรืออะไรที่มากกว่าทั่วไป?
tdc

ฉันถามคำถามเกี่ยวกับกรณีทั่วไป เรื่องราวส่วนใหญ่เริ่มต้นด้วยข้อผิดพลาดแบบเกาส์ แต่โดยส่วนตัวแล้วความสนใจของฉันคือเมทริกซ์ factorizations และการแก้ปัญหาแบบจำลองเชิงเส้น (เช่นบอกว่าการถดถอย)
petrichor

คำตอบ:


9

ฉันคิดว่าคุณโดนตอกตะปูบนหัวในคำถาม แต่ฉันจะดูว่าฉันสามารถเพิ่มอะไรได้หรือไม่ ฉันจะตอบคำถามนี้ในลักษณะวงเวียนเล็กน้อย ...

สาขาสถิติที่แข็งแกร่งจะตรวจสอบคำถามว่าจะต้องทำอย่างไรเมื่อการสมมติแบบเกาส์ล้มเหลว (ในแง่ที่ว่ามีค่าผิดปกติ):

มันมักจะสันนิษฐานว่าข้อผิดพลาดของข้อมูลถูกกระจายตามปกติอย่างน้อยประมาณหรือว่าทฤษฎีบทขีด จำกัด กลางสามารถพึ่งพาเพื่อสร้างการประมาณแบบกระจายตามปกติ น่าเสียดายที่เมื่อมีข้อมูลผิดปกติวิธีแบบดั้งเดิมมักมีประสิทธิภาพต่ำ

สิ่งเหล่านี้ถูกนำไปใช้ใน ML ด้วยเช่นในMika el al (2001) วิธีการเขียนโปรแกรมเชิงคณิตศาสตร์สำหรับอัลกอริทึมเคอร์เนลชาวประมงพวกเขาอธิบายว่าHuber Robust Lossสามารถใช้กับ KDFA ได้อย่างไร (พร้อมกับฟังก์ชั่นการสูญเสียอื่น ๆ ) แน่นอนว่านี่เป็นการสูญเสียการจำแนกประเภท แต่ KFDA เกี่ยวข้องอย่างใกล้ชิดกับเครื่อง Vector ที่เกี่ยวข้อง (ดูหัวข้อ 4 ของบทความ Mika)

ตามที่ระบุในคำถามมีการเชื่อมต่ออย่างใกล้ชิดระหว่างฟังก์ชั่นการสูญเสียและแบบจำลองข้อผิดพลาดแบบเบย์ (ดูที่นี่สำหรับการสนทนา)

อย่างไรก็ตามมีแนวโน้มที่จะเป็นกรณีที่ทันทีที่คุณเริ่มรวมฟังก์ชั่นการสูญเสีย "ขี้ขลาด" การเพิ่มประสิทธิภาพกลายเป็นเรื่องยาก (โปรดทราบว่าสิ่งนี้เกิดขึ้นในโลกเบย์ด้วย) ดังนั้นในหลายกรณีผู้คนหันไปใช้ฟังก์ชั่นการสูญเสียมาตรฐานซึ่งง่ายต่อการปรับแต่งและทำการประมวลผลล่วงหน้าเป็นพิเศษเพื่อให้แน่ใจว่าข้อมูลสอดคล้องกับแบบจำลอง

อีกจุดที่คุณพูดถึงคือ CLT จะใช้กับตัวอย่างที่เป็น IID เท่านั้น สิ่งนี้เป็นจริง แต่จากนั้นสมมติฐาน (และการวิเคราะห์ประกอบ) ของอัลกอริทึมส่วนใหญ่จะเหมือนกัน เมื่อคุณเริ่มดูข้อมูลที่ไม่ใช่ IID สิ่งต่าง ๆ มีความยุ่งยากมากขึ้น ตัวอย่างหนึ่งคือหากมีการพึ่งพาอาศัยชั่วคราวซึ่งในกรณีนี้โดยทั่วไปวิธีการคือการคิดว่าการพึ่งพาอาศัยกันเพียงครอบคลุมหน้าต่างบางอย่างและตัวอย่างดังนั้นจึงถือได้ว่านอก IID ประมาณหน้าต่างนี้ (ดูตัวอย่างนี้ที่ยอดเยี่ยม แต่ยากกระดาษสี PAC -Bayes ขอบเขตสำหรับข้อมูลที่ไม่ใช่ IID: แอปพลิเคชันสำหรับการจัดอันดับและกระบวนการผสม Station แบบคงที่ ) หลังจากนั้นการวิเคราะห์ปกติสามารถนำไปใช้ได้

ดังนั้นใช่มันลงมาในส่วนของความสะดวกสบายและส่วนหนึ่งเป็นเพราะในโลกแห่งความจริงข้อผิดพลาดส่วนใหญ่จะดู Gaussian (ประมาณ) แน่นอนหนึ่งควรระวังเมื่อดูปัญหาใหม่เพื่อให้แน่ใจว่าสมมติฐานไม่ละเมิด


1
+1 ขอบคุณมากโดยเฉพาะอย่างยิ่งที่กล่าวถึงสถิติที่แข็งแกร่งและไม่มั่นคง ฉันสังเกตว่าค่าเฉลี่ยมัธยฐานและอัลฟาที่ถูกตัดทอนมักจะดีกว่าค่าเฉลี่ยในทางปฏิบัติ แต่ฉันไม่ทราบทฤษฎีเบื้องหลังพวกเขา
petrichor

3
รายการอำนวยความสะดวกอื่นที่เกี่ยวข้องกับข้อมูลที่แจกจ่ายตามปกติคือ 0 สหสัมพันธ์หมายถึงความเป็นอิสระ
AdamO

3
ความคิดเห็นเกี่ยวกับ IID-ness ไม่ถูกต้องนัก มีทฤษฎีการ จำกัด ศูนย์กลางทั่วไป (หลายรายการ) ที่มีผลบังคับใช้เมื่อผลลัพธ์มีความเป็นอิสระ แต่ไม่ได้กระจายแบบเหมือนกัน ดูเช่น Lindeberg CLT นอกจากนี้ยังมีผลลัพธ์ของ CLT ที่ไม่ต้องการความเป็นอิสระ พวกเขาสามารถเกิดขึ้นได้จากการสังเกตการณ์ที่แลกเปลี่ยนได้เช่น
แขกที่เข้าพัก
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.