การประมาณความน่าจะเป็นสูงสุดมีการกระจายตัวแบบประมาณโดยประมาณอย่างไร


9

ฉันได้อ่านเกี่ยวกับ MLE เป็นวิธีการสร้างการกระจายที่เหมาะสม

ฉันเจอข้อความที่บอกว่าการประมาณการความเป็นไปได้สูงสุด "มีการแจกแจงแบบปกติโดยประมาณ"

นี่หมายความว่าถ้าฉันใช้ MLE ซ้ำหลายครั้งกับข้อมูลของฉันและตระกูลการแจกแจงที่ฉันพยายามจะพอดีโมเดลที่ฉันได้รับจะกระจายตามปกติหรือไม่ ลำดับการแจกแจงมีการกระจายอย่างไร


3
เมื่อคุณใช้ MLE ซ้ำ ๆ กับข้อมูลของคุณแล้ว - ยกเว้นข้อผิดพลาดในการคำนวณใด ๆ - คุณจะได้รับว่าผลลัพธ์ที่เหมือนกันในแต่ละครั้ง วิธีคิดเกี่ยวกับสิ่งนี้แทนคือพิจารณาวิธีการที่ข้อมูลของคุณอาจแตกต่างออกไป เมื่อข้อมูลแตกต่างกันดังนั้นการประมาณ ML จะขึ้นอยู่กับพวกเขาและนี่คือการเปลี่ยนแปลงที่เกิดขึ้นในการประมาณการที่เป็นที่สนใจอย่างมาก
whuber

อ่าใช่ ... ฉันไม่ได้พิจารณาขนาดตัวอย่าง ...
Matt O'Brien

ดูที่การสนทนาที่นี่: andrewgelman.com/2012/07/05/…
kjetil b halvorsen

คำตอบ:


17

เครื่องมือประมาณการคือสถิติและสถิติมีการแจกแจงการสุ่มตัวอย่าง (นั่นคือเรากำลังพูดถึงสถานการณ์ที่คุณสุ่มตัวอย่างขนาดเท่ากันและดูการกระจายตัวของค่าประมาณที่คุณได้รับหนึ่งตัวสำหรับแต่ละตัวอย่าง)

เครื่องหมายคำพูดอ้างอิงถึงการกระจายตัวของ MLEs เมื่อขนาดตัวอย่างเข้าใกล้อนันต์

ลองพิจารณาตัวอย่างที่ชัดเจนพารามิเตอร์ของการแจกแจงเอ็กซ์โปเนนเชียล (โดยใช้การกำหนดพารามิเตอร์ของสเกลไม่ใช่การกำหนดพารามิเตอร์ของอัตรา)

f(x;μ)=1μexμ;x>0,μ>0

ในกรณีนี้x ทฤษฎีบททำให้เรารู้ว่าเมื่อขนาดตัวอย่างใหญ่ขึ้นเรื่อย ๆการกระจายของ (มาตรฐานที่เหมาะสม) (บนข้อมูลชี้แจง) จะกลายเป็นเรื่องปกติมากขึ้นμ^=x¯nX¯

ป้อนคำอธิบายรูปภาพที่นี่

หากเราสุ่มตัวอย่างตัวอย่างแต่ละขนาด 1 ความหนาแน่นของผลลัพธ์ของค่าเฉลี่ยตัวอย่างจะได้รับในพล็อตซ้ายบน ถ้าเราสุ่มตัวอย่างซ้ำแต่ละขนาด 2 ความหนาแน่นของผลลัพธ์ของค่าเฉลี่ยตัวอย่างจะได้รับในพล็อตขวาบน เมื่อถึงเวลา n = 25 ที่ด้านล่างขวาการกระจายตัวของค่าเฉลี่ยตัวอย่างได้เริ่มขึ้นแล้วเพื่อให้ดูปกติมากขึ้น

(ในกรณีนี้เราจะคาดการณ์ไว้แล้วว่าเป็นเพราะ CLT แต่การกระจายของจะต้องเข้าสู่ภาวะปกติเนื่องจากเป็น ML สำหรับพารามิเตอร์ rate ... และ คุณไม่สามารถรับสิ่งนั้นจาก CLT - อย่างน้อยก็ไม่ได้โดยตรง * - เนื่องจากเราไม่ได้พูดถึงวิธีการที่ได้มาตรฐานอีกต่อไปซึ่งเป็นสิ่งที่ CLT เกี่ยวข้อง)1/X¯λ=1/μ

ตอนนี้ให้พิจารณาพารามิเตอร์รูปร่างของการแจกแจงแกมม่าที่มีค่าเฉลี่ยสเกลที่รู้จัก(ที่นี่ใช้การกำหนดพารามิเตอร์ค่าเฉลี่ย & รูปร่างแทนขนาดและรูปร่าง)

ตัวประมาณไม่ได้ถูกปิดในกรณีนี้และ CLT ไม่ได้ใช้กับมัน (อย่างน้อยก็ไม่ใช่โดยตรง *) แต่อย่างไรก็ตาม argmax ของฟังก์ชันความน่าจะเป็นคือ MLE เมื่อคุณนำตัวอย่างขนาดใหญ่ขึ้นมาการกระจายตัวตัวอย่างของการประมาณค่าพารามิเตอร์รูปร่างจะกลายเป็นปกติมากขึ้น

ป้อนคำอธิบายรูปภาพที่นี่

สิ่งเหล่านี้เป็นการประมาณความหนาแน่นของเคอร์เนลจากการประมาณ ML ชุด 10,000 ชุดของพารามิเตอร์รูปร่างของแกมม่า (2,2) สำหรับขนาดตัวอย่างที่ระบุ (ผลลัพธ์สองชุดแรกนั้นหนักมากและพวกมันถูกตัดทอนค่อนข้างมากดังนั้นคุณ สามารถดูรูปร่างใกล้กับโหมด) ในกรณีนี้รูปร่างที่อยู่ใกล้กับโหมดจะเปลี่ยนไปอย่างช้าๆจนถึงตอนนี้เท่านั้น มันอาจจะใช้เวลาหลายร้อยที่จะเริ่มมองปกติn

-

* ดังกล่าว CLT ใช้ไม่ได้โดยตรง (ชัดเจนเนื่องจากเราไม่ได้เกี่ยวข้องกับวิธีการทั่วไป) อย่างไรก็ตามคุณสามารถสร้างอาร์กิวเมนต์แบบซีมโทติคที่คุณขยายบางสิ่งในในซีรีส์สร้างอาร์กิวเมนต์ที่เหมาะสมเกี่ยวกับคำสั่งซื้อที่สูงขึ้นและเรียกใช้รูปแบบของ CLT เพื่อให้ได้รุ่นมาตรฐานเข้าสู่ภาวะปกติ (ภายใต้เงื่อนไขที่เหมาะสม ... )θ^θ^

โปรดทราบว่าผลกระทบที่เราเห็นเมื่อเราดูตัวอย่างขนาดเล็ก (ขนาดเล็กเมื่อเทียบกับอนันต์อย่างน้อย) - ความก้าวหน้าปกติไปสู่ภาวะปกติในหลาย ๆ สถานการณ์ดังที่เราเห็นแรงบันดาลใจจากแผนการข้างต้น - จะแนะนำว่าถ้า เราพิจารณา cdf ของสถิติที่เป็นมาตรฐานอาจมีบางสิ่งบางอย่างเช่นความไม่เท่าเทียม Berry Esseen บนพื้นฐานของวิธีที่คล้ายกันกับวิธีการใช้อาร์กิวเมนต์ CLT กับ MLE ที่จะให้ขอบเขตว่าการกระจายตัวอย่างสามารถเข้าสู่ภาวะปกติได้ช้าเพียงใด ฉันไม่ได้เห็นอะไรแบบนั้น แต่ก็ไม่แปลกใจที่ฉันพบว่ามันทำไปแล้ว

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.