การเปรียบเทียบการประมาณความเป็นไปได้สูงสุด (MLE) และทฤษฎีบทของเบย์


12

ในทฤษฎีบทแบบเบย์และจากหนังสือที่ฉันอ่านเรียกว่าความน่าจะเป็นแต่ฉันคิดว่ามันเป็นเพียงความน่าจะเป็นตามเงื่อนไขของให้จริงไหม?

p(y|x)=p(x|y)p(y)p(x)
p(x|y)xy

การประมาณความน่าจะเป็นสูงสุดพยายามที่จะเพิ่มใช่ไหม? ถ้าเป็นเช่นนั้นฉันสับสนไม่ดีเพราะเป็นทั้งตัวแปรสุ่มใช่ไหม เพื่อเพิ่มให้ได้มากที่สุดคือ ? ปัญหาอีกข้อหนึ่งถ้าตัวแปรสุ่ม 2 ตัวนี้เป็นอิสระแล้วเป็นเพียงแค่ใช่ไหม? จากนั้นการเพิ่มคือการเพิ่ม(x)p(x|y)x,yp(x|y) y^p(x|y)p(x)p(x|y)p(x)

หรือบางทีเป็นฟังก์ชั่นของพารามิเตอร์บางตัวนั่นคือและ MLE พยายามค้นหาซึ่งสามารถเพิ่มหรือไม่ หรือแม้กระทั่งว่าเป็นพารามิเตอร์ของแบบจำลองไม่ใช่ตัวแปรสุ่มการเพิ่มความน่าจะเป็นในการหา ?θ P ( x | Y ; θ ) θ P ( x | Y ) Y Yp(x|y)θp(x|y;θ)θp(x|y)yy^

UPDATE

ฉันเป็นสามเณรในการเรียนรู้ของเครื่องและปัญหานี้เป็นความสับสนจากสิ่งที่ฉันอ่านจากบทเรียนการเรียนรู้ของเครื่อง นี่คือชุดข้อมูลที่ได้รับการสังเกต , ค่าเป้าหมายคือและฉันพยายามใส่แบบจำลองให้ตรงกับชุดข้อมูลนี้ ดังนั้นฉันสมมติว่าเมื่อx , yมีรูปแบบของการแจกแจงชื่อW ที่กำหนดโดย\ thetaนั่นคือp (y | x; \ theta)และฉันคิดว่านี่เป็นความน่าจะเป็นหลังใช่ไหม?{ Y 1 , ปี2 , . . , y n } x y W θ p ( y | x ; θ ){x1,x2,...,xn}{y1,y2,...,yn}xyWθp(y|x;θ)

ตอนนี้เพื่อประมาณค่าของθฉันใช้ MLE ตกลงมาที่นี่ปัญหาของฉันฉันคิดว่าโอกาสที่จะp(x|y;θ)ใช่ไหม? การเพิ่มโอกาสสูงสุดให้ได้ฉันควรจะเลือกสิ่งที่ถูกต้องθและy ?

หากความเข้าใจในความน่าจะเป็นของฉันผิดโปรดแสดงให้ฉันเห็นวิธีที่ถูกต้อง


ฉันคิดว่าความสับสนคือทฤษฎีบทของเบย์เป็นเพียงการจัดการกับความน่าจะเป็นแบบมีเงื่อนไขตามที่คุณให้ไว้ในตอนต้นของคำถาม การประมาณแบบเบย์ใช้ทฤษฎีบทแบบเบย์เพื่อทำการประมาณค่าพารามิเตอร์ มันเป็นเพียงในหลังทำประเมินความน่าจะเป็นสูงสุด (MLE) และพารามิเตอร์ทีต้า ฯลฯ เข้ามาเล่น
Zhubarb

@Berkan ดีจริงผมพยายามที่จะคิดออกว่าเป็นโอกาสให้x,x,y,θ
อะโวคาโด

1
ฉันเห็นฉันอยากจะแนะนำให้คุณดูที่สไลด์บรรยายชุดใหญ่ในการประมาณค่าพารามิเตอร์
Zhubarb

1
อีกหัวข้อที่น่าสนใจที่ควรอ่านคือ Empirical Bayes 'Estimators เราเพิ่งเรียนรู้เกี่ยวกับคนเหล่านี้ในชั้นเรียนของฉัน :) biostat.jhsph.edu/~fdominic/teaching/bio656/labs/labs09/…
bdeonovic

คำตอบ:


16

ฉันคิดว่าความเข้าใจผิดหลักเกิดจากคำถามที่คุณถามในครึ่งแรกของคำถาม ฉันเข้าหาคำตอบนี้เมื่อเปรียบเทียบ MLE กับกระบวนทัศน์เชิงอนุมานแบบเบย์ การอภิปรายที่เข้าถึงได้ง่ายของ MLE สามารถพบได้ในบทที่ 1 ของ Gary King, Unifying Political Methodology การวิเคราะห์ข้อมูลแบบเบย์ของ Gelman สามารถให้รายละเอียดทางด้าน Bayesian ได้

ในทฤษฎีบทของเบย์ และจากหนังสือที่ฉันกำลังอ่านเรียกว่า ความน่าจะเป็น แต่ฉันคิดว่ามันเป็นเพียงความน่าจะเป็นตามเงื่อนไขของให้จริงไหม? p(x|y)xy

p(y|x)=p(x|y)p(y)p(x)
p(x|y)xy

ความน่าจะเป็นคือความน่าจะเป็นแบบมีเงื่อนไข ไปคชกรรมสูตรนี้จะอธิบายถึงการกระจายของพารามิเตอร์ได้รับข้อมูลที่และก่อนที่(y) แต่เนื่องจากสัญกรณ์นี้ไม่ได้สะท้อนความตั้งใจของคุณต่อจากนี้ไปฉันจะใช้ ( , ) สำหรับพารามิเตอร์และสำหรับข้อมูลของคุณx p ( y ) θ y xyxp(y)θyx

แต่การปรับปรุงของคุณแสดงให้เห็นว่าจะสังเกตเห็นจากบางส่วนกระจายy) หากเราวางข้อมูลและพารามิเตอร์ของเราในสถานที่ที่เหมาะสมในกฎของ Bayes เราพบว่าพารามิเตอร์เพิ่มเติมเหล่านี้ไม่มีปัญหาสำหรับ Bayesians: p ( x | θ , y ) p ( θ | x , y ) = p ( x , y | θ ) p ( θ )xp(x|θ,y)

p(θ|x,y)=p(x,y|θ)p(θ)p(x,y)

ฉันเชื่อว่านิพจน์นี้เป็นสิ่งที่คุณเป็นหลังจากอัปเดต

การประมาณความเป็นไปได้สูงสุดพยายามที่จะเพิ่มให้สูงสุดใช่ไหมp(x,y|θ)

ใช่. MLE posits ว่า นั่นคือมันถือว่าระยะเป็นที่ไม่รู้จัก ค่าคงที่ (และไม่สามารถอธิบายได้) ในทางตรงกันข้ามการอนุมานแบบเบย์ถือว่าเป็นค่าคงที่ normalizing (เพื่อให้ความน่าจะเป็นรวม / รวมเข้ากับความสามัคคี) และเป็นข้อมูลชิ้นสำคัญ: สิ่งก่อนหน้า เราสามารถคิดว่าเป็นวิธีการลงโทษที่เกิดขึ้นในขั้นตอนการปรับให้เหมาะสมสำหรับ "การเดินไกลเกินไป" จากภูมิภาคที่เราคิดว่าเป็นไปได้มากที่สุดp ( θ , y )

p(x,y|θ)p(θ|x,y)
p(x)p(θ,y)p(θ,y)p(x)p(x)p(θ,y)p(θ,y)

ถ้าเป็นเช่นนั้นฉันสับสนไม่ดีเพราะเป็นตัวแปรสุ่มใช่ไหม เพื่อเพิ่มให้ได้มากที่สุดเพื่อหา ?P ( x , y ที่| θ ) θx,y,θp(x,y|θ)θ^

ใน MLE จะถือว่าเป็นปริมาณคงที่ซึ่งไม่ทราบ แต่สามารถอนุมานได้ไม่ใช่ตัวแปรสุ่ม การอนุมานแบบเบย์ถือว่าเป็นตัวแปรสุ่ม การอนุมานแบบเบย์ทำให้ฟังก์ชันความหนาแน่นของความน่าจะเป็นเข้าและออกฟังก์ชันความหนาแน่นของความน่าจะเป็นออกมาแทนที่จะเป็นจุดสรุปของแบบจำลองเช่นเดียวกับใน MLE นั่นคือการอนุมานแบบเบย์ดูที่ช่วงเต็มของค่าพารามิเตอร์และความน่าจะเป็นของแต่ละค่า MLE วางตัวว่าเป็นข้อมูลสรุปที่เพียงพอของข้อมูลที่ได้รับจากแบบจำลอง θ θθ^θθ^


1
ขอบคุณสำหรับคำตอบของคุณฉันอัปเดตโพสต์โปรดดูอัปเดตของฉัน
อะโวคาโด

การอัปเดตนี้เปลี่ยนแปลงความเข้าใจของฉันไปอย่างมาก ตอนแรกฉันคิดว่าคุณเกี่ยวกับเป็นพารามิเตอร์และเป็นข้อมูลของคุณ ตอนนี้ก็ปรากฏว่ามีข้อมูลและคุณมีความสนใจในการสร้างรูปแบบที่อธิบายความสัมพันธ์ระหว่างที่และy ที่ฉันจะแก้ไขคำตอบของฉันเมื่อฉันมีเวลา x ( x , y ) x yyx(x,y)xy
Sycorax พูดว่า Reinstate Monica

+1 นี่ยังเป็นคำตอบที่ดี: ฉันหวังว่าคุณจะเก็บไว้เป็นอย่างดีแม้ว่าคุณจะแก้ไขเพื่อให้ตรงกับการเปลี่ยนแปลงในคำถาม
whuber

ฉันได้อัปเดตการตอบสนองของฉันเพื่อสะท้อนคำถามที่อัพเดทแล้ว ฉันหวังว่ารายละเอียดเหล่านี้จะช่วยได้ ฉันแนะนำให้อ้างอิงถึงข้อมูลอ้างอิงที่ฉันพูดถึง และฉันหวังว่า @whuber ยังคงอนุมัติ ;-)
Sycorax พูดว่า Reinstate Monica

ขอบคุณมากสำหรับการอัปเดตดังนั้นคุณหมายถึงแม้ว่าฉันจะรับรูปแบบการแจกแจงสำหรับฉันควรปฏิบัติต่อทั้งคู่เป็นข้อมูลที่สังเกตได้เมื่อฉันพยายามประมาณการ ? x , y θp(y|x)x,yθ
อะโวคาโด

3

ปกติเป็นหน้าที่ของพารามิเตอร์Yพิจารณาการปรับเปลี่ยนทฤษฎีบทของเบย์ต่อไปนี้:yp(x|y)y

p(θ|x)=p(x|θ)p(θ)p(x)

หรือมากกว่านั้นอย่างชัดเจน (โดยคำนึงถึงความน่าจะเป็น):

p(θ|x)=L(θ;x)p(θ)p(x)

สำหรับตัวอย่างที่เป็นรูปธรรมพิจารณาโมเดล

X|θBinomial(θ)θBeta(α,β)

ดังนั้นโดยทั่วไปแล้วไม่ใช่ตัวแปรสุ่ม แต่เป็น , จริงไหม? xyx
อะโวคาโด

Y มักจะเป็นพารามิเตอร์ในรูปแบบ pdf ของ X ในการตั้งค่าบ่อยครั้ง y เป็นค่าคงที่ ในการตั้งค่าแบบเบย์ Y เป็นตัวแปรสุ่ม (ตามตัวอย่างที่ฉันให้) X | Y อาจเป็นเงื่อนไขที่น่าจะเป็นในแง่ที่คุณหมายถึงฉันพยายามให้แรงจูงใจแก่คุณว่าทำไมปริมาณที่เรียกว่าโอกาส
David Marx

สำหรับตัวอย่างที่เป็นรูปธรรมที่ให้ไว้ในคำตอบของคุณคุณหมายถึงเป็นตัวแปรสุ่ม แต่ในการแจกแจงของมันเป็นพารามิเตอร์หรือไม่? XθX
อะโวคาโด

เพียงเพราะบางสิ่งเป็นตัวแปรสุ่มไม่ได้หมายความว่ามันไม่สามารถเป็นพารามิเตอร์ได้ ยินดีต้อนรับสู่โลกมหัศจรรย์ของความน่าจะเป็นแบบเบย์ :)
David Marx

0
  • "...เรียกว่าความน่าจะเป็น ... "p(x|y)

x yp(x|y)เป็นโอกาสของปีได้รับเครื่องหมาย x การพูดในสิ่งที่เป็นไปได้มีความสำคัญ และใช่มันเป็นเพียงน่าจะเป็นเงื่อนไขของรับYxy

  • "... ถ้าตัวแปรสุ่ม 2 ตัวเหล่านี้เป็นอิสระจากนั้นคือใช่มั้ยจากนั้นการเพิ่มคือการเพิ่ม ... "p ( x ) p ( x | y ) p ( x )p(x|y)p(x)p(x|y)p(x)

หากพวกเขามีความเป็นอิสระคือที่เป็นค่าคงที่เกี่ยวกับYโปรดใช้ความระมัดระวังที่นี่เป็นคุณไม่ได้ระบุสิ่งที่คุณกำลังเพิ่มการด้วยความเคารพ - จากสิ่งที่คุณเขียนก่อนหน้านี้ผมจะถือว่าคุณกำลังการเพิ่มส่วนที่เกี่ยวกับYp ( x ) y yp(x|y)=p(x)p(x)yy

  • ... หรือบางทีเป็นฟังก์ชั่นของพารามิเตอร์บางตัวนั่นคือและ MLE พยายามค้นหาซึ่งสามารถเพิ่ม ? หรือแม้กระทั่งว่า y เป็นพารามิเตอร์ของแบบจำลองไม่ใช่ตัวแปรสุ่มการเพิ่มความน่าจะเป็นในการหา ?θ P ( x | Y ; θ ) θ P ( x | Y ) Yp(x|y)θp(x|y;θ)θp(x|y)y^

การแนะนำทำให้สิ่งนี้เป็นปัญหาใหม่ทั้งหมด โดยทั่วไปแล้วคำตอบของคำถามนี้ส่วนใหญ่ดูเหมือนจะเป็น 'มันขึ้นอยู่กับ' เราสามารถแทนค่าพารามิเตอร์ได้เช่นหากต้องการและเพิ่มค่าสูงสุดด้วยความเคารพ เราสามารถมีสถานการณ์ที่เราเพิ่มค่าด้วยพารามิเตอร์ที่เกี่ยวกับพารามิเตอร์ถ้านั่นเป็นวิธีที่สมเหตุสมผลในการเข้าถึงปัญหาที่อยู่ใกล้มือy p ( x | y ; θ ) θθyp(x|y;θ)θ


เหตุผลที่ฉันแนะนำคือสิ่งนี้ในหนังสือการเรียนรู้ของเครื่องที่ฉันกำลังอ่านให้ชุดข้อมูลและเป็นค่าเป้าหมายที่สอดคล้องกันดังนั้นเพื่อให้พอดีกับแบบจำลองกับชุดข้อมูลนี้ฉันสามารถใช้ MLE เพื่อประเมินพารามิเตอร์ใดของโมเดลใช่ไหม x y θθxyθ
อะโวคาโด

0

จากคู่มืออ้างอิง STAN:

หากก่อนหน้านี้มีรูปแบบเหมือนกันโหมดหลังจะสอดคล้องกับค่าประมาณโอกาสสูงสุด (MLE) ของพารามิเตอร์ หากก่อนหน้านี้ไม่เหมือนกันบางครั้งโหมดหลังบางครั้งเรียกว่าการประมาณการหลัง (MAP) สูงสุด

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.