MLE หมายถึงเรารู้ PDF ของข้อมูลของเราเสมอหรือไม่และ EM หมายถึงเราไม่?


12

ฉันมีคำถามเชิงแนวคิดง่ายๆที่ฉันต้องการชี้แจงเกี่ยวกับ MLE (การประเมินความน่าจะเป็นสูงสุด) และสิ่งที่เชื่อมโยงกับ EM (การคาดหวังสูงสุด)

ตามที่ฉันเข้าใจแล้วถ้ามีคนบอกว่า "เราใช้ MLE" หมายความว่าพวกเขามีรูปแบบที่ชัดเจนของ PDF ในข้อมูลของพวกเขาหรือไม่ สำหรับฉันดูเหมือนว่าคำตอบสำหรับเรื่องนี้คือใช่ อีกวิธีหนึ่งถ้ามีคนบอกว่า "MLE" เมื่อใดก็ตามก็มีความเป็นธรรมที่จะถามพวกเขาว่าพวกเขากำลังสมมติว่าเป็น PDF สิ่งนี้จะถูกต้องหรือไม่

สุดท้ายบน EM ความเข้าใจของฉันก็คือใน EM เราไม่รู้จริงหรือจำเป็นต้องรู้ PDF พื้นฐานของข้อมูลของเรา นี่คือความเข้าใจของฉัน

ขอบคุณ.


1
"M" ใน EM ย่อมาจาก Maximization ... น่าจะเป็น หากต้องการเขียนความเป็นไปได้เราจำเป็นต้องมีไฟล์ PDF EM เป็นวิธีในการค้นหา MLEs ต่อหน้า 'ที่ไม่สามารถกู้คืนได้' ในบางแง่มุม (ซึ่งเต็มไปด้วย E-step) นั่นคือในการใช้ EM คุณต้องมีโมเดลที่ชัดเจน
Glen_b -Reinstate Monica

@Glen_b ขอบคุณ Gleb_b ดังนั้น 1) มันจะถูกต้องหรือไม่ที่จะบอกว่าใน EM เช่นเดียวกับใน MLE เรามักจะสมมติรูปแบบ PDF ของข้อมูลบางส่วน "หมายความว่าถ้ามีคนพูดว่า" เราใช้ MLE / EM "เราสามารถถามได้ว่า PDF คุณถือว่า "นี่เป็นการประเมินที่ถูกต้องหรือไม่ 2) สุดท้ายเกี่ยวกับ EM ฉันเชื่อว่าสิ่งที่คุณไม่สามารถมองเห็นได้คือความน่าจะเป็นของ PDF เฉพาะที่ประกอบขึ้นถูกต้องหรือไม่ขอบคุณล่วงหน้า
Creatron

โปรดทราบว่ามีวิธีการโอกาสสูงสุดที่ไม่ใช่พารามิเตอร์ ค้นหา Kaplan-Meier
soakley

Creatron-on (1) โปรดทราบว่า EM เป็นอัลกอริทึมสำหรับการคำนวณ MLEsซึ่งอาจเป็นเรื่องยากที่จะจัดการ ไม่ว่าในกรณีใดฉันจะถามคำถามที่กว้างกว่านี้เล็กน้อย 'แบบจำลองของคุณคืออะไร' เนื่องจากเป็นไปได้ว่าแบบจำลองอาจมีความซับซ้อนมากกว่าไฟล์ PDF แบบเดียว เปิด (2) อัลกอริทึม EM ไม่ได้ใช้กับการผสมเท่านั้น มันเป็นเรื่องทั่วไปมากกว่านั้น
Glen_b -Reinstate Monica

คำตอบ:


13

วิธีการ MLE สามารถนำไปใช้ในกรณีที่มีคนรู้ว่ารูปแบบการทำงานขั้นพื้นฐานของ pdf (เช่น Gaussian หรือ log-normal หรือ exponential หรืออะไรก็ตาม) แต่ไม่ใช่พารามิเตอร์พื้นฐาน เช่นพวกเขาไม่รู้ค่าของและใน pdf: หรือรูปแบบไฟล์ PDF อื่น ๆ งานของวิธีการ MLE คือการเลือกค่าที่ดีที่สุด (เช่นที่เป็นไปได้มากที่สุด) สำหรับพารามิเตอร์ที่ไม่รู้จักเนื่องจากการวัดข้อมูลเฉพาะซึ่งถูกสังเกตเห็นจริง . ดังนั้นเพื่อตอบคำถามแรกของคุณใช่คุณอยู่ในสิทธิ์ที่จะถามใครสักคนเสมอσ F ( x | μ , σ ) = 1μσ

f(x|μ,σ)=12πσ2exp[(xμ)22σ2]
x1,x2,x3,...รูปแบบของ pdf พวกเขาอยู่ภายใต้การประมาณการความเป็นไปได้สูงสุด จริง ๆ แล้วค่าพารามิเตอร์โดยประมาณที่พวกเขาบอกคุณไม่ได้มีความหมายเว้นเสียแต่ว่าพวกเขาจะสื่อสารบริบทนั้นเป็นครั้งแรก

อัลกอริทึม EM ดังที่ฉันเคยเห็นมาก่อนหน้านี้เป็นเมตาอัลอัลกอริธึมที่มีเมตาดาต้าบางส่วนหายไปและคุณต้องประเมินด้วยเช่นกัน ตัวอย่างเช่นบางทีฉันอาจมี pdf ซึ่งเป็นส่วนผสมของ Gaussians หลายตัวอย่างเช่น: ผิวเผินยกเว้น การเพิ่มพารามิเตอร์แอมพลิจูดมันดูคล้ายกับปัญหาก่อนหน้านี้ แต่ถ้าฉันบอกคุณว่าเรายังไม่รู้ค่าของ (เช่นจำนวนโหมดในส่วนผสมแบบเกาส์) และ เราต้องการประมาณว่าจากการวัดข้อมูล

f(x|A1,...,AN,μ1,...,μN,σ1,...σN)=k=1NAk2πσk2exp[(xμk)22σk2]
AkNx1,x2,x3,... เกินไป?

ในกรณีนี้คุณมีปัญหาเพราะแต่ละค่าที่เป็นไปได้ของ (นี่คือส่วน "เมตา" ที่ฉันยิ่งทำให้เหนือ) สร้างแบบจำลองที่แตกต่างกันจริง ๆ ในบางแง่มุม ถ้าว่าคุณมีโมเดลที่มีสามพารามิเตอร์ ( , , ) ในขณะที่ถ้าว่าคุณมีโมเดลที่มีหกพารามิเตอร์ ( , , , , , ) ค่าความพอดีที่ดีที่สุดที่คุณได้รับ ( , , ) ในNN=1A1μ1σ1N=2A1A2μ1μ2σ1σ2A1μ1σ1N=1รุ่นไม่สามารถนำมาเปรียบเทียบกับค่าที่ดีที่สุดพอดีที่คุณได้รับสำหรับพารามิเตอร์เดียวกันผู้ที่อยู่ในรุ่นเพราะพวกเขามีรูปแบบที่แตกต่างกันมีจำนวนแตกต่างกันขององศาอิสระN=2

บทบาทของอัลกอริทึม EM คือการให้กลไกสำหรับการทำชนิดที่ของการเปรียบเทียบ (โดยปกติการจัดเก็บภาษี"โทษซับซ้อน"ที่ชอบค่าขนาดเล็กของ ) เพื่อที่เราสามารถเลือกมูลค่าโดยรวมที่ดีที่สุดสำหรับNNN

ดังนั้นเพื่อตอบคำถามเดิมของคุณอัลกอริทึม EM ต้องการข้อมูลจำเพาะที่แม่นยำน้อยกว่าในรูปแบบของ pdf บางคนอาจบอกว่ามันพิจารณาช่วงของตัวเลือกทางเลือก (เช่นตัวเลือกที่ , , , ฯลฯ ) แต่มันก็ยังต้องการให้คุณระบุบางอย่างเกี่ยวกับรูปแบบทางคณิตศาสตร์พื้นฐานของตัวเลือกเหล่านั้น - คุณยังคงต้องระบุ "ครอบครัว" ของไฟล์ PDF ที่เป็นไปได้ในบางกรณีแม้ว่าคุณจะปล่อยให้อัลกอริทึมเป็นตัวตัดสินว่าคุณ "สมาชิก" ของครอบครัวคนใดให้ข้อมูลที่เหมาะสมที่สุดN=1N=2N=3


ติดตามผลตอบคำถามยอดเยี่ยมของคุณ@stachyra: (1): สมการที่สอง (พร้อมกับการสรุป) - นี่คือ PDF ของการผสมของคุณหรือไม่? (หมายความว่า ?) (2): เกี่ยวกับอัลกอริทึม EM ที่กล่าวถึงที่นี่ - สับสนเล็กน้อย - คือค่าให้เป็นอินพุตของ EM ในตอนเริ่มต้นหรือนี่คือสิ่งที่ EM จะพ่นออกมา เป็นผลผลิตในที่สุด? Ak=1N
Creatron

(3) อีกครั้งสำหรับ EM เมื่อคุณพูดว่า "ระบุตระกูลของไฟล์ PDF ที่เป็นไปได้" สำหรับ EM หมายความว่าเราให้ "ความเป็นไปได้" ในการทำงานกับตัวอย่างเช่น "ข้อมูลนี้ทำจากเกาส์สองและหนึ่งปัวซอง "หรือ" ข้อมูลนี้สร้างจาก PDF แบบ chi-squared 3 รูปแบบและ 1 gaussian "เป็นต้นซึ่งมันสับสนเพราะหมายความว่าเราระบุซึ่งฉันนำมาจากโพสต์ของคุณเป็นสิ่งที่ EM ให้เรา ...N
Creatron

1) ใช่นี้เป็นรูปแบบ pdf ส่วนผสมของฉันและใช่1 2) ในทางปฏิบัติคุณมักจะให้ค่าต่ำสุด / สูงสุดของสำหรับอัลกอริทึมที่ต้องพิจารณาและจะวนซ้ำผ่านค่าที่อนุญาตทั้งหมดเพื่อหาค่าที่ดีที่สุด 3) ในกรณีส่วนใหญ่เป็นไปได้ต่าง ๆ ที่คุณกำลังพยายามที่จะเลือกระหว่างเป็นเพียงค่าที่เป็นไปแตกต่างกันของ ; เช่น "ให้พอดี แต่ดีกว่า" หากคุณต้องการพิจารณาทางเลือกที่มีการรวบรวมรูปแบบการทำงานที่แตกต่างกันมากขึ้นในหลักการที่เป็นไปได้เช่นกัน แต่มีความยากที่จะนำไปใช้ในทางปฏิบัติ Ak=1NNN = 5N=4N=5
stachyra

ขอบคุณ stachyra คำถามสุดท้าย PDF ออกจากการผสมผสานข้อมูล (ในสมการที่สองของคุณประกอบด้วยผลรวมถ่วงน้ำหนักของ PDF) ไม่เหมือนกับPDF ร่วมของตัวอย่างทั้งหมดของข้อมูลของเราซึ่งเป็นผลิตภัณฑ์ของ PDF ที่ถูกต้อง ? (สมมติว่าตัวอย่างข้อมูลคือ IID)
Creatron

ไม่ไม่เลย - มันเป็นสองสิ่งที่แตกต่างอย่างสิ้นเชิง ไฟล์ PDF ร่วมที่คุณกำลังอธิบายฟังดูคล้ายกับรูปแบบของฟังก์ชันความน่าจะเป็นที่ใช้ใน MLE ตำราเรียนอาจเป็นประโยชน์กับคุณที่นี่ สำหรับ MLE ฉันชอบบทที่ 10 ของ "การลดข้อมูลและการวิเคราะห์ข้อผิดพลาดสำหรับวิทยาศาสตร์กายภาพ" โดย Philip R. Bevington และ D. Keith Robinson หรือส่วน 6.1 ของ "การวิเคราะห์ข้อมูลเชิงสถิติ" โดย Glen Cowan สำหรับตัวอย่างที่เฉพาะเจาะจงของวิธีการใช้งาน EM ประเภทใดประเภทหนึ่งฉันชอบคำอธิบายนี้ส่วนที่ 2 ถึง 5
stachyra

2

MLE ต้องการความรู้เกี่ยวกับการแจกแจงอย่างน้อยที่สุด เมื่อใช้ MLE เรามักจะประมาณค่าพารามิเตอร์ของการแจกแจงร่วมโดยทำการสันนิษฐาน iid จากนั้นทำการแยกการแจกแจงร่วมเป็นผลิตภัณฑ์ของระยะขอบซึ่งเรารู้ มีหลากหลายรูปแบบ แต่นี่เป็นแนวคิดส่วนใหญ่ ดังนั้น MLE จึงเป็นวิธีการเชิงพารามิเตอร์

อัลกอริทึม EM เป็นวิธีการเพิ่มฟังก์ชั่นโอกาสที่เกิดขึ้นให้เป็นส่วนหนึ่งของอัลกอริทึม MLE บ่อยครั้งที่ใช้สำหรับการแก้ปัญหาเชิงตัวเลข

เมื่อใดก็ตามที่เราใช้ MLE เราจำเป็นต้องมีการแจกแจงมาร์จิ้นอย่างน้อยและข้อสันนิษฐานบางอย่างเกี่ยวกับการร่วมทุนนั้นเกี่ยวข้องกับมาร์จิ้น (ความเป็นอิสระ ฯลฯ ) ดังนั้นทั้งสองวิธีจึงต้องอาศัยความรู้เรื่องการแจกแจง


ขอบคุณ @Charles ที่เหมาะสม เมื่อผู้คนพูดถึง "non-parametric MLE" หมายความว่าอย่างไร วลีนั้นไม่สมเหตุสมผลเมื่อมองอย่างแรก MLE ประมาณค่าพารามิเตอร์ของการแจกแจงเสมอใช่มั้ย
Creatron

พวกเขาอาจพูดถึง ELE (การประเมินความน่าจะเป็นเชิงประจักษ์) ฉันไม่เคยใช้มัน ฉันจะพยายามอธิบายหากจำเป็น มิฉะนั้นฉันไม่แน่ใจ
Charles Pehlivanian
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.