ทำไมความน่าจะเป็นสูงสุดและไม่น่าจะเป็นไปได้?


22

เหตุใดจึงเป็นเรื่องธรรมดาที่จะได้รับการประมาณการความน่าจะเป็นสูงสุดของพารามิเตอร์ แต่คุณแทบไม่เคยได้ยินเกี่ยวกับการประมาณค่าพารามิเตอร์ความน่าจะเป็นที่คาดหวัง (กล่าวคืออิงจากค่าที่คาดหวังมากกว่าโหมดของฟังก์ชันโอกาส) นี่เป็นเหตุผลหลักในเชิงประวัติศาสตร์หรือมีเหตุผลทางเทคนิคหรือเชิงทฤษฎีมากกว่านี้หรือไม่?

จะมีข้อได้เปรียบที่สำคัญและ / หรือข้อเสียในการใช้การประมาณความน่าจะเป็นที่คาดหวังมากกว่าการประมาณการความเป็นไปได้สูงสุดหรือไม่?

มีบางพื้นที่ที่คาดการณ์ความน่าจะเป็นใช้เป็นประจำหรือไม่?


9
มูลค่าที่คาดหวังจากการแจกแจงความน่าจะเป็นคือเท่าไหร่? ML มักใช้ในการวิเคราะห์ที่ไม่ใช่แบบเบย์โดยที่ (a) ข้อมูลได้รับ (และคงที่) และ (b) พารามิเตอร์จะถือว่าเป็นค่าคงที่ (ไม่ทราบ): ไม่มีตัวแปรสุ่มเลย
whuber

คำตอบ:


15

วิธีการที่นำเสนอ (หลังจากปรับความน่าจะเป็นความหนาแน่นให้เป็นมาตรฐาน) จะเท่ากับการประมาณค่าพารามิเตอร์โดยใช้แบบแฟลตก่อนสำหรับพารามิเตอร์ทั้งหมดในแบบจำลองและใช้ค่าเฉลี่ยของการแจกแจงด้านหลังเป็นตัวประมาณของคุณ มีหลายกรณีที่การใช้แฟลตก่อนจะทำให้คุณเดือดร้อนเพราะคุณไม่ได้ลงเอยด้วยการกระจายหลังที่เหมาะสมดังนั้นฉันไม่รู้ว่าคุณจะแก้ไขสถานการณ์นี้ได้อย่างไรที่นี่

แม้ว่าจะอยู่ในบริบทที่ใช้บ่อย แต่วิธีนี้ไม่ค่อยสมเหตุสมผลนักเนื่องจากความน่าจะเป็นไม่ได้มีความหนาแน่นของความน่าจะเป็นในบริบทส่วนใหญ่และไม่มีอะไรเหลือแบบสุ่มดังนั้นการคาดหวังจึงไม่สมเหตุสมผลนัก ตอนนี้เราสามารถทำเป็นทางการเป็นการดำเนินการที่เรานำไปใช้กับความน่าจะเป็นหลังจากได้รับการประมาณค่า แต่ฉันไม่แน่ใจว่าคุณสมบัติของผู้ใช้บ่อยของตัวประมาณนี้จะมีลักษณะเป็นอย่างไร (ในกรณีที่มีการประมาณจริง)

ข้อดี:

  • สิ่งนี้สามารถให้การประมาณค่าในบางกรณีที่ไม่มี MLE อยู่จริง
  • หากคุณไม่ดื้อคุณสามารถย้ายคุณเข้าสู่การตั้งค่าแบบเบย์ (และนั่นอาจเป็นวิธีที่เป็นธรรมชาติในการอนุมานด้วยการประมาณค่าประเภทนี้) ตกลงดังนั้นขึ้นอยู่กับมุมมองของคุณนี้อาจไม่ได้ประโยชน์ - แต่สำหรับฉัน

ข้อเสีย:

  • สิ่งนี้ไม่ได้รับประกันว่าจะมีอยู่จริงเช่นกัน
  • หากเราไม่มีพื้นที่พารามิเตอร์นูนการประมาณอาจไม่ใช่ค่าที่ถูกต้องสำหรับพารามิเตอร์
  • กระบวนการไม่คงที่เพื่อแก้ไขพารามิเตอร์ใหม่ เนื่องจากกระบวนการนั้นเทียบเท่ากับการวาง flat ไว้ก่อนหน้าพารามิเตอร์ของคุณมันสร้างความแตกต่างว่าพารามิเตอร์เหล่านั้นคืออะไร (เรากำลังพูดถึงการใช้เป็นพารามิเตอร์หรือเรากำลังใช้σ 2 )σσ2

7
+1 ปัญหาใหญ่อย่างหนึ่งที่สมมติว่ามีการแจกแจงแบบสม่ำเสมอของพารามิเตอร์คือปัญหา ML มักจะถูกจัดรูปแบบใหม่โดยการใช้ประโยชน์จากความไม่แปรเปลี่ยนของการแก้ปัญหาของพวกเขาเพื่อทำการแก้ไขพารามิเตอร์ใหม่ ดังนั้นการ "คาดหวัง" ราวกับว่าพารามิเตอร์มีการแจกแจงแบบเดียวกันเป็นสิ่งประดิษฐ์โดยพลการและสามารถนำไปสู่ผลลัพธ์ที่ผิดพลาดและไม่มีความหมาย
whuber

1
จุดดี! ฉันจะพูดถึงเช่นกัน แต่ลืมที่จะนำมันขึ้นมาในขณะที่พิมพ์ส่วนที่เหลือ
Dason

สำหรับบันทึกความเป็นไปได้สูงสุดนั้นไม่คงที่ที่จะแก้ไข
Neil G

1
@NeilG ใช่มันคืออะไร? บางทีเราอาจอ้างถึงแนวคิดที่แตกต่าง คุณหมายถึงอะไรเมื่อคุณพูดอย่างนั้น?
Dason

p[0,1]α=β=2o[0,)α=β=2121314

12

เหตุผลหนึ่งคือการประมาณค่าความน่าจะเป็นสูงสุดนั้นง่ายกว่า: คุณตั้งค่าอนุพันธ์ของความน่าจะเป็นที่จะให้พารามิเตอร์เป็นศูนย์และแก้หาพารามิเตอร์ การคาดหวังหมายถึงการรวมความน่าจะเป็นครั้งที่แต่ละพารามิเตอร์

{xi}μ=E(x)χ=E(x2)

ในบางกรณีพารามิเตอร์ความน่าจะเป็นสูงสุดจะเหมือนกับพารามิเตอร์โอกาสที่คาดหวัง ตัวอย่างเช่นค่าเฉลี่ยความน่าจะเป็นที่คาดหวังของการแจกแจงแบบปกติด้านบนจะเหมือนกับค่าความเป็นไปได้สูงสุดเนื่องจากค่าเฉลี่ยก่อนหน้านี้เป็นปกติและโหมดและค่าเฉลี่ยของการแจกแจงปกติตรงกัน แน่นอนว่าจะไม่เป็นจริงสำหรับพารามิเตอร์อื่น ๆ (แต่คุณ parametrize มัน)

ฉันคิดว่าเหตุผลที่สำคัญที่สุดอาจเป็นเพราะคุณต้องการความคาดหวังของพารามิเตอร์หรือไม่ โดยปกติแล้วคุณกำลังเรียนรู้รูปแบบและค่าพารามิเตอร์เป็นสิ่งที่คุณต้องการ หากคุณจะส่งคืนค่าเดียวโอกาสที่ดีที่สุดที่คุณจะได้รับคืนไม่ใช่หรือไม่


6
ด้วยความเคารพในบรรทัดสุดท้ายของคุณ: บางที - อาจจะไม่ มันขึ้นอยู่กับฟังก์ชั่นการสูญเสียของคุณ ฉันเพิ่งเล่นกับความคิดของ Jake และดูเหมือนว่าในกรณีของ X ~ Unif (0, theta) ที่ max (X) * (n-1) / (n-2) ซึ่งเป็นสิ่งที่วิธีการของ Jake ให้นั้นดีกว่า MSE มากกว่า max (X) ซึ่งเป็น MLE (อย่างน้อยการจำลองสถานการณ์บ่งบอกถึงสิ่งนี้เมื่อ n> = 5) เห็นได้ชัดว่าตัวอย่าง Unif (0, theta) นั้นไม่ใช่เรื่องปกติ แต่ก็แสดงให้เห็นว่ามีวิธีการที่เป็นไปได้อื่น ๆ ในการขอรับตัวประมาณ
Dason

4
@Dason หนึ่งมาตรฐาน (และทรงพลัง) เทคนิคการบ่อยสำหรับการค้นหาตัวประมาณที่ดี ( เช่นที่ยอมรับได้) คือการคำนวณตัวประมาณค่า Bayes สำหรับนักบวชต่างๆ (ดูเช่นหนังสือของ Lehmann เรื่องการประมาณค่า) คุณเพิ่งค้นพบตัวประมาณหนึ่งตัว
whuber

ขอบคุณสำหรับคำตอบของคุณนีล! คุณบอกว่าการได้รับการประมาณค่าพารามิเตอร์ด้วยการแยกความแตกต่างนั้นง่ายกว่าการรวมเข้าด้วยกันและแน่นอนฉันจะเห็นว่าสิ่งนี้จะเป็นจริงสำหรับปัญหาที่เรียบง่าย (เช่นระดับปากกาและกระดาษหรือไม่ไกลเกินกว่า) แต่สำหรับปัญหาที่ซับซ้อนมากขึ้นที่เราต้องพึ่งพาวิธีการเชิงตัวเลขจริง ๆ แล้วมันอาจจะไม่ง่ายกว่าที่จะใช้การรวม? ในทางปฏิบัติการค้นหา MLE สามารถทำให้เกิดปัญหาการปรับให้เหมาะสมได้ค่อนข้างยาก ไม่สามารถประมาณค่าอินทิกรัลที่เป็นตัวเลขได้ง่ายขึ้นจริงหรือ หรือที่ไม่น่าจะเป็นจริงในกรณีส่วนใหญ่?
Jake Westfall

@ JakeWestfall: คุณจะคาดหวังมากกว่าพื้นที่พารามิเตอร์โดยใช้วิธีการตัวเลขได้อย่างไร ในพื้นที่แบบจำลองที่ซับซ้อนด้วยพื้นที่พารามิเตอร์ขนาดใหญ่คุณไม่สามารถรวมทุกสิ่งที่ประเมินความน่าจะเป็นของแต่ละรุ่น (การตั้งค่าพารามิเตอร์) โดยทั่วไปคุณจะเรียกใช้ EM ซึ่งการประมาณค่าพารามิเตอร์เกิดขึ้นในขั้นตอน M เพื่อให้แต่ละพารามิเตอร์เป็นหนึ่งใน "ปัญหาง่าย" ตามที่คุณพูดและพารามิเตอร์ความน่าจะเป็นสูงสุดที่ตรงไปตรงมาของสถิติที่เพียงพอ
Neil G

@ NeilG เอาละ Dason ชี้ให้เห็นว่าวิธีการที่ฉันพูดคุยคือ (หลังการทำให้เป็นมาตรฐาน) เทียบเท่ากับการประมาณแบบเบย์โดยใช้ค่าแบนก่อนแล้วจึงใช้ค่าเฉลี่ยหลังเป็นค่าประมาณ ดังนั้นในการตอบสนองต่อ "คุณจะคาดหวังมากกว่าพื้นที่พารามิเตอร์โดยใช้วิธีการเชิงตัวเลขได้อย่างไร" ฉันคิดว่าฉันคิดว่าเราสามารถใช้วิธีใดวิธีหนึ่งต่อไปนี้: bayesian-inference.com/numericalapproximationความคิดใด ๆ เกี่ยวกับเรื่องนี้?
Jake Westfall

2

วิธีการนี้มีอยู่และเรียกว่าการประมาณความคมชัดขั้นต่ำ ตัวอย่างเอกสารที่เกี่ยวข้อง (และดูข้อมูลอ้างอิงอื่น ๆ จากภายใน) https://arxiv.org/abs/0901.0655

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.