ฉันคิดว่าคุณโดนตอกตะปูบนหัวในคำถาม แต่ฉันจะดูว่าฉันสามารถเพิ่มอะไรได้หรือไม่ ฉันจะตอบคำถามนี้ในลักษณะวงเวียนเล็กน้อย ...
สาขาสถิติที่แข็งแกร่งจะตรวจสอบคำถามว่าจะต้องทำอย่างไรเมื่อการสมมติแบบเกาส์ล้มเหลว (ในแง่ที่ว่ามีค่าผิดปกติ):
มันมักจะสันนิษฐานว่าข้อผิดพลาดของข้อมูลถูกกระจายตามปกติอย่างน้อยประมาณหรือว่าทฤษฎีบทขีด จำกัด กลางสามารถพึ่งพาเพื่อสร้างการประมาณแบบกระจายตามปกติ น่าเสียดายที่เมื่อมีข้อมูลผิดปกติวิธีแบบดั้งเดิมมักมีประสิทธิภาพต่ำ
สิ่งเหล่านี้ถูกนำไปใช้ใน ML ด้วยเช่นในMika el al (2001) วิธีการเขียนโปรแกรมเชิงคณิตศาสตร์สำหรับอัลกอริทึมเคอร์เนลชาวประมงพวกเขาอธิบายว่าHuber Robust Lossสามารถใช้กับ KDFA ได้อย่างไร (พร้อมกับฟังก์ชั่นการสูญเสียอื่น ๆ ) แน่นอนว่านี่เป็นการสูญเสียการจำแนกประเภท แต่ KFDA เกี่ยวข้องอย่างใกล้ชิดกับเครื่อง Vector ที่เกี่ยวข้อง (ดูหัวข้อ 4 ของบทความ Mika)
ตามที่ระบุในคำถามมีการเชื่อมต่ออย่างใกล้ชิดระหว่างฟังก์ชั่นการสูญเสียและแบบจำลองข้อผิดพลาดแบบเบย์ (ดูที่นี่สำหรับการสนทนา)
อย่างไรก็ตามมีแนวโน้มที่จะเป็นกรณีที่ทันทีที่คุณเริ่มรวมฟังก์ชั่นการสูญเสีย "ขี้ขลาด" การเพิ่มประสิทธิภาพกลายเป็นเรื่องยาก (โปรดทราบว่าสิ่งนี้เกิดขึ้นในโลกเบย์ด้วย) ดังนั้นในหลายกรณีผู้คนหันไปใช้ฟังก์ชั่นการสูญเสียมาตรฐานซึ่งง่ายต่อการปรับแต่งและทำการประมวลผลล่วงหน้าเป็นพิเศษเพื่อให้แน่ใจว่าข้อมูลสอดคล้องกับแบบจำลอง
อีกจุดที่คุณพูดถึงคือ CLT จะใช้กับตัวอย่างที่เป็น IID เท่านั้น สิ่งนี้เป็นจริง แต่จากนั้นสมมติฐาน (และการวิเคราะห์ประกอบ) ของอัลกอริทึมส่วนใหญ่จะเหมือนกัน เมื่อคุณเริ่มดูข้อมูลที่ไม่ใช่ IID สิ่งต่าง ๆ มีความยุ่งยากมากขึ้น ตัวอย่างหนึ่งคือหากมีการพึ่งพาอาศัยชั่วคราวซึ่งในกรณีนี้โดยทั่วไปวิธีการคือการคิดว่าการพึ่งพาอาศัยกันเพียงครอบคลุมหน้าต่างบางอย่างและตัวอย่างดังนั้นจึงถือได้ว่านอก IID ประมาณหน้าต่างนี้ (ดูตัวอย่างนี้ที่ยอดเยี่ยม แต่ยากกระดาษสี PAC -Bayes ขอบเขตสำหรับข้อมูลที่ไม่ใช่ IID: แอปพลิเคชันสำหรับการจัดอันดับและกระบวนการผสม Station แบบคงที่ ) หลังจากนั้นการวิเคราะห์ปกติสามารถนำไปใช้ได้
ดังนั้นใช่มันลงมาในส่วนของความสะดวกสบายและส่วนหนึ่งเป็นเพราะในโลกแห่งความจริงข้อผิดพลาดส่วนใหญ่จะดู Gaussian (ประมาณ) แน่นอนหนึ่งควรระวังเมื่อดูปัญหาใหม่เพื่อให้แน่ใจว่าสมมติฐานไม่ละเมิด