ความแตกต่างในการประมาณแบบเบย์และการประเมินความเป็นไปได้สูงสุดคืออะไร?


50

โปรดอธิบายให้ฉันทราบถึงความแตกต่างในการประมาณแบบเบย์และการประมาณโอกาสสูงสุด?


7
ขึ้นอยู่กับชนิดของการประมาณแบบเบย์ แผนที่? หลังหมายความว่าอย่างไร ผลของการลดความเสี่ยง Bayes สำหรับฟังก์ชั่นการสูญเสียบางอย่าง? แต่ละข้อ อื่น ๆ อีก?
Glen_b

2
ฉันตอบคำถามนี้หรืออะนาล็อกที่นี่ stats.stackexchange.com/questions/73439/…คุณมีปัญหาอะไรในการทำความเข้าใจประเด็นทั้งสองนี้? รายละเอียดเพิ่มเติมจะช่วยให้เราได้คำตอบที่ดีขึ้น
Reinstate Monica

1
จากคู่มืออ้างอิง STAN: "หากก่อนหน้านี้มีรูปแบบเหมือนกันโหมดหลังจะสอดคล้องกับการประเมินความน่าจะเป็นสูงสุด (MLE) ของพารามิเตอร์หากก่อนหน้านี้ไม่เหมือนกันบางครั้งโหมดหลังถูกเรียกว่าค่าสูงสุดหลัง "
Neerav

@Neerav นั่นคือคำตอบที่ฉันต้องการ ขอบคุณ
javadba

คำตอบที่มีประโยชน์อาจจะเป็นกรณีเฉพาะสูงสุดคชกรรมประมาณการ posteriori จะได้รับที่นี่
pglpm

คำตอบ:


68

มันเป็นคำถามที่กว้างมากและคำตอบของฉันที่นี่เพียงเริ่มเกาพื้นผิวเล็กน้อย ฉันจะใช้กฎของ Bayes เพื่ออธิบายแนวคิด

สมมติว่าชุดพารามิเตอร์การกระจายความน่าจะเป็น อธิบายชุดข้อมูลD ได้ดีที่สุด เราอาจต้องการประเมินพารามิเตอร์θด้วยความช่วยเหลือของกฎของ Bayes:θDθ

p(θ|D)=p(D|θ)p(θ)p(D)

posterior=likelihoodpriorevidence

คำอธิบายดังต่อไปนี้:

การประมาณความน่าจะเป็นสูงสุด

θp(D|θ)θ^θ^

p(θ)p(D)p(θ)θ

การประมาณแบบเบย์

p(θ|D)θ

θp(θ|D)θθθ

evidence

p(D)=θp(D|θ)p(θ)dθ

สิ่งนี้นำไปสู่แนวคิดเรื่อง 'conjugate priors' ในการประมาณแบบเบย์ สำหรับฟังก์ชันความเป็นไปได้ที่กำหนดถ้าเรามีตัวเลือกเกี่ยวกับวิธีที่เราแสดงความเชื่อก่อนหน้านี้เราจะต้องใช้แบบฟอร์มนั้นซึ่งช่วยให้เราสามารถทำการรวมที่แสดงไว้ด้านบน แนวคิดเกี่ยวกับการรวมกันของนักบวชและวิธีการที่พวกเขานำไปใช้งานจริงได้รับการอธิบายได้ค่อนข้างดีในบทความนี้โดย COOlSerdash


1
คุณจะอธิบายเพิ่มเติมเกี่ยวกับเรื่องนี้หรือไม่? : "ตัวหารในกฎของ Bayes คือหลักฐาน"
แดเนียล

1
ฉันขยายคำตอบของฉัน
Zhubarb

@Berkan ในสมการที่นี่ P (D | theta) เป็นไปได้ อย่างไรก็ตามฟังก์ชันความน่าจะเป็นถูกกำหนดเป็น P (theta | D) นั่นคือฟังก์ชันของพารามิเตอร์ที่ได้รับข้อมูล ฉันมักจะสับสนเกี่ยวกับเรื่องนี้ ความน่าจะเป็นศัพท์หมายถึงสิ่งต่าง ๆ ที่นี่? คุณช่วยอธิบายเรื่องนี้ให้ละเอียดหน่อยได้ไหม? ขอบคุณมาก!
zesla

1
@zesla หากความเข้าใจของฉันถูกต้อง P (theta | D) ไม่ใช่โอกาส - เป็นหลัง นั่นคือการกระจายของ theta เงื่อนไขบนแหล่งข้อมูลที่คุณมีตัวอย่าง ความเป็นไปได้คืออย่างที่คุณพูดว่า: P (D | theta) - การกระจายข้อมูลของคุณตามพารามิเตอร์ที่กำหนดโดย theta หรืออาจทำให้สัญชาตญาณมากขึ้น“ โอกาสที่จะเห็นสิ่งที่คุณเห็น” เป็นหน้าที่ของ theta มันสมเหตุสมผลไหม ทุกคนอื่น: โปรดแก้ไขฉันในที่ที่ฉันผิด
grisaitis

@zesla คำอธิบายของ grisaitis นั้นถูกต้อง
Zhubarb

13

ฉันคิดว่าคุณกำลังพูดถึงการประมาณค่าจุดในการอนุมานแบบพารามิเตอร์เพื่อให้เราสามารถสมมติตัวแบบความน่าจะเป็นแบบพาราเมตริกสำหรับกลไกการสร้างข้อมูล แต่ไม่ทราบค่าที่แท้จริงของพารามิเตอร์

การประมาณความน่าจะเป็นสูงสุดหมายถึงการใช้แบบจำลองความน่าจะเป็นสำหรับข้อมูลและการปรับฟังก์ชั่นความน่าจะเป็นร่วมของข้อมูลที่สังเกตได้ผ่านพารามิเตอร์หนึ่งตัวหรือมากกว่า ดังนั้นจึงเห็นว่าพารามิเตอร์โดยประมาณมีความสอดคล้องมากที่สุดกับข้อมูลที่สังเกตได้ซึ่งสัมพันธ์กับพารามิเตอร์อื่น ๆ ในพื้นที่พารามิเตอร์ โปรดทราบว่าฟังก์ชั่นโอกาสดังกล่าวไม่จำเป็นต้องมองว่าเป็น "เงื่อนไข" ตามพารามิเตอร์เนื่องจากพารามิเตอร์ไม่ใช่ตัวแปรสุ่มดังนั้นจึงค่อนข้างซับซ้อนกว่าที่จะเข้าใจความเป็นไปได้ของผลลัพธ์ต่าง ๆ เมื่อเปรียบเทียบการกำหนดพารามิเตอร์สองแบบที่แตกต่างกัน มันกลับกลายเป็นว่านี่เป็นแนวทางเชิงปรัชญา

การประมาณแบบเบย์นั้นค่อนข้างกว้างกว่าทั่วไปเพราะเราไม่จำเป็นต้องเพิ่มความน่าจะเป็นแบบอะนาล็อกของ Bayesian (ความหนาแน่นหลัง) อย่างไรก็ตามประเภทการประมาณแบบอะนาล็อก (หรือการประมาณโหมดหลัง) ถูกมองว่าเป็นการเพิ่มความน่าจะเป็นของพารามิเตอร์หลังที่มีเงื่อนไขตามข้อมูลให้สูงสุด โดยปกติการประมาณของ Bayes ที่ได้รับในลักษณะนี้จะมีลักษณะคล้ายกับ ML ความแตกต่างที่สำคัญคือการอนุมาน Bayes อนุญาตให้มีวิธีการที่ชัดเจนในการรวมข้อมูลก่อนหน้านี้

นอกจากนี้ 'ประวัติมหากาพย์ของความน่าจะเป็นสูงสุดทำให้อ่านสว่าง

http://arxiv.org/pdf/0804.2996.pdf


คุณจะอธิบายเพิ่มเติมเกี่ยวกับเรื่องนี้หรือไม่? "อย่างไรก็ตามชนิดการประมาณแบบอะนาล็อก (หรือการประมาณโหมดหลัง) ถูกมองว่าเป็นการเพิ่มความน่าจะเป็นของพารามิเตอร์หลังตามเงื่อนไขให้กับข้อมูล"
แดเนียล

โหมดหลังเป็นบิตของการเรียกชื่อผิดเนื่องจากมี DF อย่างต่อเนื่องค่าจะถูกกำหนดไว้อย่างดี ความหนาแน่นหลังนั้นสัมพันธ์กับโอกาสในกรณีที่เกิดขึ้นบ่อยยกเว้นว่ามันจะช่วยให้คุณจำลองพารามิเตอร์จากความหนาแน่นหลัง ที่น่าสนใจที่สุดคนหนึ่งคิดว่า "ค่าเฉลี่ยหลัง" อย่างสังหรณ์ใจว่าเป็นการประเมินจุดที่ดีที่สุดของพารามิเตอร์ วิธีการนี้มักจะทำและสำหรับความหนาแน่นแบบสมมาตรแบบ unimodal สิ่งนี้จะสร้างช่วงเวลาที่น่าเชื่อถือที่สอดคล้องกับ ML โหมดหลังเป็นเพียงค่าพารามิเตอร์ที่ปลายสุดของความหนาแน่นหลัง
AdamO

เกี่ยวกับ "สิ่งนี้สร้างช่วงเวลาที่น่าเชื่อถือที่ถูกต้องซึ่งสอดคล้องกับ ML": มันขึ้นอยู่กับรุ่นใช่ไหม? พวกเขาอาจจะสอดคล้องกันหรือไม่ ...
Daniel

1
ปัญหาของข้อสมมติฐานพื้นฐานกระตุ้นให้มีการอภิปรายเกี่ยวกับการอนุมานพารามิเตอร์แบบกึ่งเทียบกับแบบกึ่งพารามิเตอร์หรือแบบไม่อิงพารามิเตอร์ นั่นไม่ใช่ปัญหา ML กับ Bayesian และคุณไม่ใช่คนแรกที่ทำผิดพลาด ML เป็นวิธีการเชิงพารามิเตอร์อย่างสมบูรณ์ทำให้คุณสามารถประเมินบางสิ่งที่ SP หรือ NP ไม่สามารถทำได้ (และมักจะมีประสิทธิภาพมากกว่าเมื่อทำได้) การระบุรูปแบบความน่าจะเป็นใน ML นั้นถูกต้องเหมือนกับการเลือกที่ถูกต้องมาก่อนและคุณสมบัติความทนทานทั้งหมด (และปัญหาความไว) ที่เกี่ยวข้อง
AdamO

BTW ความคิดเห็นของคุณจุดประกายคำถามนี้ในใจของฉัน ความคิดเห็นใด ๆ เกี่ยวกับเรื่องนี้? stats.stackexchange.com/questions/74164/…
Daniel

2

การประมาณแบบเบย์เป็นการอนุมานแบบเบส์ในขณะที่ MLE เป็นวิธีการอนุมานแบบบ่อยครั้ง

f(x1,...,xn;θ)=f(θ;x1,...,xn)f(x1,...,xn)f(θ)likelihood=posteriorevidencepriorp(θ)=1/6

ทางเลือกของ MLE ในการอนุมานแบบเบย์เรียกว่าการประมาณค่าสูงสุดหลัง (MAP สำหรับช่วงสั้น ๆ ) และที่จริง MLE เป็นกรณีพิเศษของ MAP ที่ซึ่งก่อนหน้านี้มีรูปแบบเหมือนกันดังที่เราเห็นด้านบนและตามที่ระบุไว้ในWikipedia :

จากมุมมองของการอนุมานแบบเบย์ MLE เป็นกรณีพิเศษของการประมาณค่าด้านหลัง (MAP) สูงสุดซึ่งสันนิษฐานว่ามีการแจกแจงพารามิเตอร์ก่อนหน้าอย่างสม่ำเสมอ

สำหรับรายละเอียดโปรดดูที่บทความนี้น่ากลัว: MLE VS แผนที่: การเชื่อมต่อระหว่างภาวะน่าจะเป็นสูงสุดและสูงสุด posteriori ประมาณการ

และอีกหนึ่งความแตกต่างคือความเป็นไปได้สูงสุดคือการคว่ำได้ง่าย แต่ถ้าคุณปรับใช้แนวทางแบบเบย์ก็จะสามารถหลีกเลี่ยงปัญหาที่เกินความเหมาะสมได้


1
หนึ่งในสิ่งดีๆเกี่ยวกับเบย์คือคุณไม่จำเป็นต้องคำนวณจุดใด ๆ เลย ความหนาแน่นหลังทั้งหมดอาจเป็น "การประเมิน" ของคุณ
Frank Harrell

@ FrankHarrell ถึง Prof. Harrell คุณช่วยกรุณาแก้ไขคำตอบได้ไหมถ้าฉันทำผิดพลาดอยู่ที่ไหนสักแห่ง? ขอบคุณมาก ๆ!
Lerner Zhang

1
ฉันไม่ได้ตั้งใจจะบอกว่าคุณทำผิดไป
Frank Harrell

@ เลิร์นเนอร์: ฉันต้องการเตือนให้ระบุการประมาณการความน่าจะเป็นสูงสุดเป็นกรณีเฉพาะของการประมาณค่าสูงสุด -a-posteriori (เมื่อก่อนเป็นค่าคงที่): ดูว่าทำไมในคำตอบนี้
pglpm
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.