เหตุใด MLE จึงสมเหตุสมผลเนื่องจากความน่าจะเป็นของตัวอย่างแต่ละรายการคือ 0


13

นี่เป็นความคิดแปลก ๆ ที่ฉันมีในขณะที่ตรวจสอบสถิติเก่า ๆ และด้วยเหตุผลบางอย่างที่ฉันไม่สามารถนึกถึงคำตอบได้

PDF แบบต่อเนื่องบอกความหนาแน่นของการสังเกตค่าในช่วงที่กำหนด กล่าวคือถ้ายกตัวอย่างเช่นความน่าจะเป็นที่เกิดขึ้นระหว่างและคือโดยที่คือ ความหนาแน่นของมาตรฐานปกติXN(μ,σ2)ababϕ(x)dxϕ

เมื่อเราคิดถึงการประมาณค่าพารามิเตอร์ของ MLE ให้พูดถึงเราเขียนความหนาแน่นร่วมของ, พูดว่า , ตัวแปรสุ่มและแยกความแตกต่างของ log-likelihood wrt เป็น , ตั้งค่าเท่ากับ 0 และแก้ สำหรับ\การตีความมักจะได้รับคือ "ให้ข้อมูลซึ่งพารามิเตอร์ที่ทำให้ฟังก์ชั่นความหนาแน่นนี้เป็นไปได้มากที่สุด"μNX1..XNμμ

ส่วนที่กำลังดักฟังฉันคือ: เรามีความหนาแน่นของ rv และความน่าจะเป็นที่เราได้รับการกล่าวโดยเฉพาะตัวอย่างของเราคือ 0 อย่างแน่นอนทำไมมันถึงสมเหตุสมผลที่จะเพิ่มความหนาแน่นของข้อต่อให้สูงสุด ตั้งแต่นั้นมาความน่าจะเป็นที่จะสังเกตตัวอย่างจริงของเราคือ 0)?N

การหาเหตุผลเข้าข้างตนเองเดียวที่ฉันสามารถทำได้คือเราต้องการทำให้ PDF เป็นจุดสูงสุดเท่าที่เป็นไปได้รอบตัวอย่างที่เราสังเกตเพื่อให้อินทิกรัลในภูมิภาค (และความน่าจะเป็นของการสังเกตสิ่งในภูมิภาคนี้) สูงสุด


1
ด้วยเหตุผลเดียวกันกับที่เราใช้ความน่าจะเป็นความหนาแน่นstats.stackexchange.com/q/4220/35989
ทิม

ฉันเข้าใจ (ฉันคิดว่า) ทำไมมันสมเหตุสมผลที่จะใช้ความหนาแน่น สิ่งที่ฉันไม่เข้าใจคือเหตุผลว่าทำไมจึงเหมาะสมที่จะเพิ่มความหนาแน่นตามเงื่อนไขในการสังเกตตัวอย่างที่มีความน่าจะเป็น 0 เกิดขึ้น
Alex

2
เนื่องจากความหนาแน่นของความน่าจะเป็นเป็นสิ่งที่บอกเราว่าค่าใดมีแนวโน้มที่จะเป็นไปได้มากกว่าคนอื่น
ทิม

หากคุณมีเวลาที่จะตอบคำถามอย่างเต็มที่ฉันคิดว่ามันจะเป็นประโยชน์สำหรับฉันและคนต่อไป
Alex

เพราะโชคดีที่โอกาสไม่น่าจะเป็น!
AdamO

คำตอบ:


18

ความน่าจะเป็นของตัวอย่างใด ๆมีค่าเท่ากับศูนย์และยังมีตัวอย่างหนึ่งตัวอย่างที่รับรู้โดยการวาดจากการแจกแจงความน่าจะเป็น ความน่าจะเป็นจึงเป็นเครื่องมือที่ไม่ถูกต้องในการประเมินตัวอย่างและโอกาสที่จะเกิดขึ้น สถิติความน่าจะเป็นตามที่นิยามโดยฟิชเชอร์ (1912) ขึ้นอยู่กับข้อ จำกัด ของความน่าจะเป็นของการสังเกตตัวอย่างภายในช่วงเวลาของความยาวเมื่อไปที่ศูนย์ (อ้างจากAldrich, 1997) :Pθ(X=x)xδδ

Aldrich, J. (1997) สถิติวิทยาศาสตร์ 12, 162-176

เมื่อ renormalising น่าจะเป็นนี้โดย\ฟังก์ชันความน่าจะเป็นศัพท์เฉพาะของ Fisher (1921) และโอกาสสูงสุดใน Fisher (1922)δ

แม้ว่าเขาจะอยู่ภายใต้ชื่อของ "ค่าที่สุดน่าจะเป็น" และใช้หลักการของความน่าจะเป็นแบบผกผัน (การอนุมานแบบเบย์) กับแบนก่อน, คาร์ลฟรีดริชGaußได้มาแล้วใน 1,809 ประมาณการโอกาสสูงสุดสำหรับ Hald (1999)กล่าวถึงการเกิดขึ้นของการประมาณค่าความน่าจะเป็นสูงสุดอีกครั้งก่อนที่กระดาษของฟิชเชอร์ในปี 1912 จะเป็นตัวกำหนดหลักการทั่วไป

เหตุผลในภายหลังของความเป็นไปได้สูงสุดคือวิธีการตั้งแต่ renormalised บันทึกความเป็นไปได้ของตัวอย่างลู่เข้าสู่ [กฎของจำนวนมาก] (ที่หมายถึงความหนาแน่นที่แท้จริงของตัวอย่าง iid) การเพิ่มความน่าจะเป็น [ฟังก์ชั่นของ ] นั้นเทียบเท่ากับการลด asymptotically asymptotically [ใน ] Kullback - Leibler divergence (x1,,xn)

1ni=1nlogfθ(xi)
E[logfθ(X)]=logfθ(x)f0(x)dx
f0θθ
logf0(x)fθ(x)f0(x)dx=logf0(x)f0(x)dxconstantin θlogfθ(x)f0(x)dx
ระหว่างการจัดจำหน่ายที่แท้จริงของกลุ่มตัวอย่าง IID และครอบครัวของดิตัวแทนจาก 'sfθ


ขอบคุณสำหรับคำตอบ. คุณช่วยขยายอาร์กิวเมนต์ KL ออกไปหน่อยได้ไหม? ฉันไม่เห็นว่าเป็นกรณีนี้ในทันที
Alex
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.