ฉันพยายามทำความเข้าใจความคิดของนักบวชในสถิติ Bayesian มาระยะหนึ่งแล้ว แต่ฉันก็ไม่เข้าใจ ทุกคนสามารถอธิบายแนวคิดดังกล่าวด้วยคำศัพท์ที่ง่ายที่สุดที่เป็นไปได้หรืออาจใช้ตัวอย่าง "เสียนมาก่อน" เป็นตัวอย่าง?
ฉันพยายามทำความเข้าใจความคิดของนักบวชในสถิติ Bayesian มาระยะหนึ่งแล้ว แต่ฉันก็ไม่เข้าใจ ทุกคนสามารถอธิบายแนวคิดดังกล่าวด้วยคำศัพท์ที่ง่ายที่สุดที่เป็นไปได้หรืออาจใช้ตัวอย่าง "เสียนมาก่อน" เป็นตัวอย่าง?
คำตอบ:
ก่อนหน้าสำหรับพารามิเตอร์มักจะมีรูปแบบการทำงานเฉพาะบางอย่าง (เขียนในแง่ของความหนาแน่นโดยทั่วไป) สมมติว่าเรา จำกัด ตัวเองไว้เฉพาะครอบครัวหนึ่งแห่งการแจกแจงซึ่งในกรณีนี้การเลือกของเราก่อนลดการเลือกพารามิเตอร์ของตระกูลนั้น
ตัวอย่างเช่นพิจารณารูปแบบปกติ ) เพื่อความง่ายเราลองใช้σ 2ตามที่รู้จักกัน ส่วนนี้ของโมเดล - โมเดลสำหรับข้อมูล - กำหนดฟังก์ชันความน่าจะเป็น
เพื่อให้แบบจำลอง Bayesian ของเราสมบูรณ์เราจำเป็นต้องมีμก่อน μ
ตามที่กล่าวไว้ข้างต้นโดยทั่วไปเราอาจระบุตระกูลการแจกจ่ายบางอย่างสำหรับμก่อนหน้าของเราแล้วเราจะต้องเลือกพารามิเตอร์ของการแจกแจงนั้น (ตัวอย่างเช่นบ่อยครั้งที่ข้อมูลก่อนหน้านี้อาจจะค่อนข้างคลุมเครือ - เหมือนกับที่เราต้องการ มากกว่ารูปแบบการใช้งานที่เฉพาะเจาะจงมากและเราอาจมีอิสระมากพอที่จะสร้างแบบจำลองสิ่งที่เราต้องการโดยการเลือกพารามิเตอร์ - พูดเพื่อให้ตรงกับค่าเฉลี่ยและความแปรปรวนก่อนหน้า)
หากปรากฎว่าหลังสำหรับนั้นมาจากที่เดียวกันตระกูลกับก่อนหน้านั้นก็จะถูกเรียกว่า "conjugate"
(สิ่งที่ทำให้กลายเป็นคอนจูเกตคือวิธีที่ผสมผสานกับความเป็นไปได้)
ดังนั้นในกรณีนี้เราจะเอา Gaussian มาก่อนสำหรับ (พูดμ ∼ N ( θ , τ 2 ) ) ถ้าเราทำอย่างนั้นเราจะเห็นว่าด้านหลังของμนั้นก็คือเกาส์ด้วย ดังนั้นแบบเกาส์เซียนก่อนเป็นคอนจูเกตก่อนหน้าสำหรับโมเดลของเราด้านบน
นั่นคือทั้งหมดที่มีให้มันจริงๆ - ถ้าหลังมาจากครอบครัวเดียวกันกับก่อนหน้านี้มันเป็นคอนจูเกตก่อน
ในกรณีง่าย ๆ คุณสามารถระบุคอนจูเกตก่อนโดยตรวจสอบความน่าจะเป็น ตัวอย่างเช่นพิจารณาความเป็นไปได้ของทวินาม ปล่อยค่าคงที่, มันดูเหมือนความหนาแน่นเบต้าใน ; และเนื่องจากวิธีการที่อำนาจของpและ( 1 - p )รวมกันมันจะคูณด้วยเบต้าก่อนที่จะให้ผลคูณของพลังของpและ( 1 - p ) ... เพื่อให้เราเห็นได้ทันทีจากโอกาสที่ เบต้าจะเป็นคอนจูเกตก่อนสำหรับpในโอกาสที่เป็นทวินาม
ในกรณีเกาส์เซียนมันง่ายที่สุดที่จะเห็นว่ามันจะเกิดขึ้นโดยพิจารณาจากความหนาแน่นของล็อกและความน่าจะเป็นของล็อก บันทึกความน่าจะเป็นกำลังสองในและผลรวมของสองกำลังสองคือสมการกำลังสองดังนั้นการบันทึกกำลังสอง - ก่อน + กำลังสองบันทึก - โอกาส - ให้กำลังสองด้านหลัง
หากแบบจำลองของคุณเป็นของตระกูลเอกซ์โพเนนเชียลนั่นคือถ้าความหนาแน่นของการแจกแจงอยู่ในรูปแบบ
ตัวเลือกของมาตรการที่มีอิทธิพลเหนือนั้นเป็นตัวกำหนดสำหรับครอบครัวของนักบวช หากตัวอย่างหนึ่งเผชิญกับค่าเฉลี่ยปกติบนตามคำตอบของ Glen_b การเลือกวัด Lebesgue เป็นมาตรการที่มีอำนาจเหนือกว่า ถ้ามีคนเลือกในฐานะที่เป็นวัดที่มีอำนาจเหนือกว่านักบวชที่อยู่ในตระกูลของการแจกแจงที่มีความหนาแน่น
นอกการตั้งค่าครอบครัวแบบเอ็กซ์โพเนนเชียลไม่มีตระกูลการแจกแจงที่ไม่ใช่เรื่องไร้สาระที่มีการสนับสนุนคงที่ที่ช่วยให้นักบวชร่วมกันได้ นี้เป็นผลมาจากการDarmois-Pitman-คูปแมนแทรก
I like using the notion of a "kernel" of a distribution. This is where you only leave in the parts that depend on the parameter. A few simple examples.
Normal kernel
Beta kernel
When we look at the likelihood function, we can do the same thing, and express it in "kernel form". For example with iid data
For some constant and some function . If we can recognise this function as a kernel, then we can create a conjugate prior for that likelihood.
If we take the normal likelihood with unit variance, the above looks like
where and and
This likelihood function has the same kernel as the normal distribution for , so a conjugate prior for this likelihood is also the normal distribution.
In some sense a conjugate prior acts similarly to adding "pseudo data" to the data observed, and then estimating the parameters.
For a given distribution family of the likelihood (e.g. Bernoulli),
if the prior is of the same distribution family as the posterior (e.g. Beta),
then and are conjugate distribution families and the prior is called a conjugate prior for the likelihood function.
Note: