การประมาณค่า MLE เทียบกับ MAP จะใช้เมื่อใด


14

MLE = การประมาณความน่าจะเป็นสูงสุด

MAP = หลังที่ใหญ่ที่สุด

MLE ใช้งานง่าย / ไร้เดียงสาโดยเริ่มจากความน่าจะเป็นของการสังเกตที่กำหนดพารามิเตอร์ (เช่นฟังก์ชันความน่าจะเป็น)และพยายามค้นหาพารามิเตอร์ที่สอดคล้องกับการสังเกตการณ์ที่สุด แต่มันไม่ได้คำนึงถึงความรู้เดิม

MAP ดูเหมือนจะสมเหตุสมผลมากกว่าเนื่องจากคำนึงถึงความรู้เดิมผ่านกฎของเบย์

นี่คือคำถามที่เกี่ยวข้อง แต่คำตอบนั้นไม่ละเอียด /signals/13174/differences-using-maximum-likelihood-or-maximum-a-posteriori-for-deconvolution-d

ดังนั้นฉันคิดว่า MAP ดีกว่ามาก นั่นถูกต้องใช่ไหม? และฉันควรใช้อันไหนดี?

คำตอบ:


18

หากความน่าจะเป็นก่อนหน้านี้เป็นส่วนหนึ่งของการตั้งค่าปัญหาให้ใช้ข้อมูลนั้น (เช่นใช้ MAP) หากไม่มีการให้หรือสันนิษฐานข้อมูลก่อนหน้านี้จะไม่สามารถทำ MAP ได้และ MLE เป็นวิธีการที่เหมาะสม


9
มันมีค่าเพิ่มที่ MAP กับแบน priors เทียบเท่ากับการใช้ ML
ทิม

สิ่งที่ควรสังเกตก็คือถ้าคุณต้องการให้ "สะดวก" ทางคณิตศาสตร์มาก่อนคุณสามารถใช้คอนจูเกตก่อนถ้ามีอยู่ในสถานการณ์ของคุณ
ถั่ว

8

Bayesian จะเห็นด้วยกับคุณเป็นประจำจะไม่ นี่เป็นเรื่องของความเห็นมุมมองและปรัชญา ฉันคิดว่ามันเป็นอันตรายอย่างมากต่อชุมชนสถิติในการพยายามยืนยันว่าวิธีหนึ่งดีกว่าวิธีอื่นเสมอ ปัญหาหลายอย่างจะมีวิธีแก้ปัญหาแบบเบย์และแบบประจำซึ่งคล้ายกันตราบใดที่แบบเบย์ไม่ได้มีความแข็งแกร่งมาก่อน


7
มันไม่ได้เป็นเพียงเรื่องของความเห็น มีสถานการณ์ที่แน่นอนที่ตัวประมาณค่าหนึ่งดีกว่าอีกตัวหนึ่ง
Tom Minka

2
@ Tomominka ฉันไม่เคยบอกว่าไม่มีสถานการณ์ที่วิธีการหนึ่งดีกว่าวิธีอื่น! ฉันเพียงตอบสนองต่อคำสั่งทั่วไปของ OP เช่น "MAP ดูเหมือนจะสมเหตุสมผลมากกว่า" คำแถลงดังกล่าวเทียบเท่ากับการอ้างว่าวิธีการแบบเบย์นั้นดีกว่าเสมอซึ่งเป็นคำแถลงที่คุณและฉันเห็นว่าทั้งคู่ไม่เห็นด้วย
jsk

jok พูดถูก วิธีการแบบเบย์และแบบประจำมีความแตกต่างทางปรัชญา ดังนั้นผู้ที่พบบ่อยอย่างเคร่งครัดจะพบว่าวิธีการแบบเบย์ไม่เป็นที่ยอมรับ
Michael R. Chernick

2

สมมติว่าคุณมีข้อมูลก่อนหน้านี้ที่ถูกต้อง MAP จะดีกว่าหากปัญหามีฟังก์ชันสูญเสียค่าศูนย์โดยประมาณ หากการสูญเสียไม่ใช่ศูนย์หนึ่ง (และในปัญหาที่เกิดขึ้นจริงในโลกหลายแห่งไม่ได้เป็นเช่นนั้น) ก็สามารถเกิดขึ้นได้ที่ MLE ได้รับความสูญเสียที่คาดหวังต่ำกว่า ในกรณีเหล่านี้จะเป็นการดีกว่าที่จะไม่ จำกัด ตัวคุณเองไว้ที่ MAP และ MLE เป็นตัวเลือกเพียงสองตัวเลือกเนื่องจากตัวเลือกเหล่านี้มีทั้งที่ไม่ดี


ตัวประมาณค่า MAP หากพารามิเตอร์ขึ้นอยู่กับพารามิเตอร์ในขณะที่การสูญเสีย "0-1" ไม่ได้ 0-1 ในเครื่องหมายคำพูดเพราะโดยการคำนวณของฉันมักจะประมาณการสูญเสีย 1 กับความน่าจะเป็น 1 และความพยายามใด ๆ ที่จะสร้างการประมาณอีกครั้งแนะนำปัญหา parametrization
คนที่แต่งตัวประหลาด

1
ในมุมมองของฉันการสูญเสียศูนย์หนึ่งขึ้นอยู่กับการกำหนดพารามิเตอร์ดังนั้นจึงไม่มีความไม่สอดคล้องกัน
Tom Minka

0

คำตอบสั้น ๆ โดย @bean อธิบายได้ดีมาก อย่างไรก็ตามฉันอยากจะชี้ไปที่หัวข้อ 1.1 ของการเก็บตัวอย่าง Gibbs สำหรับมือใหม่โดย Resnik และ Hardistyซึ่งให้ความสำคัญกับเรื่องนี้มากขึ้น ฉันกำลังเขียนสองสามบรรทัดจากบทความนี้โดยมีการดัดแปลงเล็กน้อย (คำตอบนี้ซ้ำสิ่งที่ OP รู้ซ้ำเพื่อความสมบูรณ์)

MLE

MLE อย่างเป็นทางการสร้างทางเลือก (ของพารามิเตอร์รุ่น) ส่วนใหญ่มีแนวโน้มที่จะสร้างข้อมูลที่สังเกตได้

แผนที่

MAP ที่ประมาณไว้คือตัวเลือกที่น่าจะได้รับข้อมูลที่สังเกตได้มากที่สุด ตรงกันข้ามกับ MLE การประมาณค่า MAP ใช้กฎของเบย์เพื่อให้การประมาณการของเราสามารถนำมาพิจารณาความรู้ก่อนหน้าเกี่ยวกับสิ่งที่เราคาดหวังว่าพารามิเตอร์ของเราจะอยู่ในรูปแบบของการกระจายความน่าจะเป็นก่อนหน้านี้

จับ

การประมาณ MLE และ MAP นั้นทำให้เราประมาณการได้ดีที่สุดตามการพิจารณาของ "ดีที่สุด" แต่โปรดสังเกตว่าการใช้การประมาณค่าเดียวไม่ว่าจะเป็น MLE หรือ MAP จะเป็นการโยนข้อมูลออกไป โดยหลักการแล้วพารามิเตอร์สามารถมีค่าใด ๆ (จากโดเมน) เราจะไม่ได้ประมาณที่ดีกว่านี้หรือไม่ถ้าเรานำการกระจายทั้งหมดมาพิจารณาแทนที่จะเป็นเพียงค่าประมาณเดียวสำหรับพารามิเตอร์ ถ้าเราทำอย่างนั้นเรากำลังใช้ข้อมูลทั้งหมดเกี่ยวกับพารามิเตอร์ที่เราสามารถบีบจากข้อมูลที่สังเกตได้ X

ดังนั้นด้วยการจับนี้เราอาจไม่ต้องการใช้มันเลย นอกจากนี้ตามที่ระบุไว้โดย bean และ Tim หากคุณต้องใช้หนึ่งในนั้นให้ใช้ MAP หากคุณได้รับมาก่อน หากคุณไม่มี Priors MAP จะลดเป็น MLE นักบวชชั้นสูงจะช่วยแก้ปัญหาที่เกิดจากการวิเคราะห์ไม่เช่นนั้นจะใช้การสุ่มตัวอย่างจากกิ๊บส์


0

ในขณะที่เรารู้ว่า

θ^MAP=argmaxθlogP(θ|D)=argmaxθlogP(D|θ)P(θ)P(D)=argmaxθlogP(D|θ)P(θ)=argmaxθlogP(D|θ)log-likelihood+logP(θ)regularizer

ก่อนหน้าจะถือว่าเป็น regularizer และถ้าคุณรู้ว่าการกระจายก่อนหน้านี้เช่น Gaussin ( ) ในการถดถอยเชิงเส้นและมันจะดีกว่าที่จะเพิ่มที่ การทำให้เป็นมาตรฐานเพื่อประสิทธิภาพที่ดีขึ้นexp(λ2θTθ)


-2

หากข้อมูลมีน้อยและคุณมี priors อยู่ - "ไปเพื่อดูแผนที่" หากคุณมีข้อมูลจำนวนมาก MAP จะเข้าสู่ MLE ดังนั้นในกรณีที่มีสถานการณ์ข้อมูลจำนวนมากการทำ MLE จะดีกว่าเสมอ


1
มันไม่ง่ายอย่างนั้น
Michael R. Chernick

@MichaelChernick ฉันอาจจะผิด ฉันอ่านเรื่องนี้ในโรงเรียนแกร็ด ฉันขอให้คุณแก้ไขฉันในที่ที่ฉันทำผิด
Heisenbug

วิธีการแบบประจำและแบบเบย์มีความแตกต่างทางปรัชญา วิธีความถี่จะประมาณมูลค่าของพารามิเตอร์แบบจำลองตามการสุ่มตัวอย่างซ้ำ ๆ วิธีการแบบเบย์ใช้พารามิเตอร์เป็นตัวแปรสุ่ม ดังนั้นในวิธีการแบบเบย์คุณจะได้รับการแจกแจงหลังของพารามิเตอร์ที่รวมการแจกแจงก่อนหน้ากับข้อมูล MAP ค้นหาจุดสูงสุดที่สูงสุดของการกระจายด้านหลังขณะที่ MLE ประมาณค่าพารามิเตอร์โดยดูเฉพาะฟังก์ชันความน่าจะเป็นของข้อมูล
Michael R. Chernick

@MichaelChernick - ขอบคุณสำหรับข้อมูลของคุณ แต่ MAP จะไม่ทำงานเหมือน MLE เมื่อเรามีข้อมูลที่พอเพียง ถ้าเราแบ่งนิพจน์ MAP เราจะได้คำ MLE ด้วย ด้วยข้อมูลจำนวนมากคำ MLE ใน MAP จะเข้ามาแทนที่ก่อนหน้านี้
Heisenbug

ขึ้นอยู่กับปริมาณของข้อมูลก่อนหน้าและ พวกเขาสามารถให้ผลลัพธ์ที่คล้ายกันในกลุ่มตัวอย่างขนาดใหญ่ ความแตกต่างอยู่ในการตีความ ความคิดเห็นของฉันมีไว้เพื่อแสดงว่ามันไม่ง่ายอย่างที่คุณทำ ด้วยข้อมูลจำนวนเล็กน้อยไม่ได้เป็นเรื่องของการเลือก MAP หากคุณมีข้อมูลก่อนหน้า ก่อนหน้านี้เลือกที่ไม่ดีสามารถนำไปสู่การกระจายหลังที่ไม่ดีและทำให้แผนที่ไม่ดี
Michael R. Chernick
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.