MLE เทียบกับกำลังสองน้อยที่สุดในการแจกแจงความน่าจะเป็นที่เหมาะสม

ความประทับใจที่ฉันได้รับจากบทความหนังสือและบทความต่าง ๆ ที่ฉันอ่านคือวิธีที่แนะนำในการกระจายความน่าจะเป็นในชุดของข้อมูลที่แนะนำโดยใช้การประมาณความน่าจะเป็นสูงสุด (MLE) อย่างไรก็ตามในฐานะนักฟิสิกส์วิธีที่ง่ายกว่าคือการใส่ pdf ของโมเดลให้ตรงกับ pdf เชิงประจักษ์ของข้อมูลโดยใช้กำลังสองน้อยที่สุด ทำไม MLE จึงดีกว่ากำลังสองน้อยที่สุดในการแจกแจงความน่าจะเป็นที่เหมาะสม? ใครช่วยกรุณาชี้ให้ฉันไปที่กระดาษ / หนังสือวิทยาศาสตร์ที่ตอบคำถามนี้

ลางสังหรณ์ของฉันเป็นเพราะ MLE ไม่คิดว่ารูปแบบเสียงและ "เสียง" ในรูปแบบไฟล์ PDF ประจักษ์เป็น heteroscedastic และไม่ปกติ

— คริสเตียนอลิส
แหล่งที่มา

วิธีหนึ่งที่มีประโยชน์ในการคิดเกี่ยวกับสิ่งนี้คือการสังเกตว่ามีบางกรณีที่กำลังสองน้อยที่สุดและ MLE เหมือนกันเช่นการประมาณค่าพารามิเตอร์ที่องค์ประกอบสุ่มมีการแจกแจงแบบปกติ ดังนั้นในความเป็นจริงแทนที่จะเป็น (ตามที่คุณคาดการณ์) ว่า MLE ไม่คิดแบบจำลองเสียงสิ่งที่เกิดขึ้นคือมันจะถือว่ามีสัญญาณรบกวนแบบสุ่ม แต่ใช้มุมมองที่ซับซ้อนมากขึ้นว่ารูปร่างนั้นเป็นอย่างไรมากกว่าสมมติว่ามัน มีการแจกแจงแบบปกติ

หนังสือตำราใด ๆ เกี่ยวกับการอนุมานเชิงสถิติจะจัดการกับคุณสมบัติที่ดีของ MLEs เกี่ยวกับประสิทธิภาพและความสม่ำเสมอ (แต่ไม่จำเป็นต้องมีอคติ) MLEs ยังมีคุณสมบัติที่ดีในการเป็น asymptotically ปกติด้วยตนเองภายใต้เงื่อนไขที่เหมาะสม

— ปีเตอร์เอลลิส
แหล่งที่มา

สิ่งที่ฉันหมายถึงโดย "ไม่ถือว่าแบบสุ่มเสียง" คือมันไม่ได้คิดว่าเสียงมีการกระจายแน่นอนบางอย่างเช่นปกติ คุณช่วยชี้ให้เห็นหนังสือที่อธิบายการประมาณค่าพารามิเตอร์ด้วยการปรับ PDF โดยใช้กำลังสองน้อยที่สุดได้หรือไม่? หนังสือที่ฉันพบหารือเกี่ยวกับ MLE (และบางครั้งวิธีช่วงเวลา) เท่านั้น

— Christian Alis

เพื่อให้เหมาะสมกับ MLE คุณยังคงต้องใช้การแจกแจงแน่นอน แต่คุณมีทางเลือกที่กว้างกว่าปกติ เพียงเพื่อเลือกหนังสือเล่มแรกที่พูดถึงสองเรื่องนี้ฉันมี Garthwaite, Jolliffe และ Jones Statistics Inference (หนังสือข้อความ uni มาตรฐานปีที่สองที่สวย) ซึ่งกล่าวถึงกำลังสองน้อยที่สุดรวมถึงวิธีการช่วงเวลาและวิธีของ Chi Square ขั้นต่ำเป็นทางเลือก ถึง MLE

— ปีเตอร์เอลลิส