ใบเสนอราคาเป็น "ตรรกะของมือ" (การแสดงออกที่ยอดเยี่ยม!) ตามที่ระบุไว้โดย @whuber ในความคิดเห็นต่อ OP สิ่งเดียวที่เราสามารถพูดได้จริงๆหลังจากเห็นว่าเหรียญมีหัวและหางก็คือทั้งเหตุการณ์ "หัว" และ "หาง" นั้นเป็นไปไม่ได้ ดังนั้นเราสามารถทิ้ง discrete ก่อนซึ่งจะทำให้มวลความน่าจะเป็นทั้งหมดบน "หัว" หรือ "หาง" แต่สิ่งนี้ไม่ได้นำไปสู่เครื่องแบบก่อนหน้า: คำถามนั้นลึกซึ้งกว่านี้มาก ก่อนอื่นขอสรุปพื้นหลังเล็กน้อย เรากำลังพิจารณารูปแบบคอนจูเกต Beta-สองชื่อสำหรับคชกรรมอนุมานของความน่าจะเป็นของหัวของเหรียญให้nเป็นอิสระและการกระจาย (ตามเงื่อนไขในเหมือนθ ) เหรียญกลมๆθnθเมื่อเราสังเกตหัว xในการทอย n :p ( θ | x )xn
p ( θ | x ) = B e t a ( x + α , n - x + β)
เราสามารถพูดได้ว่าและβเล่นบทบาทของ "จำนวนหัวก่อน" และ "จำนวนหางก่อนหน้า" (pseudotrials) และα + βสามารถตีความได้ว่าเป็นขนาดตัวอย่างที่มีประสิทธิภาพ เราสามารถตีความการตีความนี้โดยใช้นิพจน์ที่รู้จักกันดีสำหรับค่าเฉลี่ยหลังซึ่งเป็นค่าเฉลี่ยถ่วงน้ำหนักของค่าเฉลี่ยก่อนหน้าααβα + βและค่าเฉลี่ยตัวอย่างxαα + β .xn
เมื่อดูที่เราสามารถทำการพิจารณาสองแบบ:p ( θ | x )
- เนื่องจากเราไม่มีความรู้มาก่อนเกี่ยวกับ (ความไม่รู้สูงสุด) เราคาดว่าขนาดตัวอย่างที่มีประสิทธิภาพα + βจะเป็น "เล็ก" อย่างสังหรณ์ใจ ถ้ามันมีขนาดใหญ่ความรู้ก่อนหน้านี้จะรวมความรู้ค่อนข้างมาก วิธีการที่เห็นนี้ก็คือการสังเกตว่าถ้าαและβเป็น "เล็ก" ด้วยความเคารพxและn - x , ความน่าจะเป็นหลังจะไม่ได้ขึ้นอยู่มากในของเราก่อนเพราะ
x + α ≈ xและn - x + β ≈ n - xθα + βαβxn - xx + อัลฟ่า≈ xn - x + β≈ n - x. เราคาดว่าก่อนหน้านี้ที่ไม่รวมความรู้จำนวนมากจะต้องไม่เกี่ยวข้องกับข้อมูลบางอย่างอย่างรวดเร็ว
นอกจากนี้ตั้งแต่เป็นค่าเฉลี่ยก่อนและเรามีความรู้ก่อนเกี่ยวกับการกระจายของ
θเราจะคาดหวังμPRฉันoR=0.5 นี่คือข้อโต้แย้งของสมมาตร - ถ้าเราไม่ทราบที่ดีกว่าที่เราจะไม่คาดหวังเบื้องต้นว่าการกระจายเป็นเบ้ต่อ 0 หรือต่อ 1. การกระจายเบต้าμp r i o r= αα + βθμp r i o r= 0.5
ฉ( θ | α , β) = Γ ( α + β)Γ ( α ) + Γ ( β))θα - 1( 1 - θ )β- 1
สำนวนนี้เป็นเพียงรอบสมมาตรถ้า
α = βθ = 0.5α = β
ด้วยเหตุผลสองประการนี้ไม่ว่าก่อนหน้านี้ (อยู่ในตระกูลเบต้า - จำไว้ว่าเป็นรูปแบบคอนจูเกต!) เราเลือกที่จะใช้เราคาดหวังอย่างสังหรณ์ใจว่าและcคือ "เล็ก" เราจะเห็นได้ว่านักบวชที่ไม่ใช้ข้อมูลทั้งสามคนที่ใช้กันทั่วไปสำหรับรุ่นเบต้า - ทวินามนั้นมีคุณสมบัติเหล่านี้ แต่นอกเหนือไปจากนั้นพวกเขาก็แตกต่างกันมาก และสิ่งนี้ชัดเจน: ไม่มีความรู้มาก่อนหรือ "ความไม่รู้สูงสุด" ไม่ใช่คำจำกัดความทางวิทยาศาสตร์ดังนั้นสิ่งที่ชนิดก่อนหน้านี้แสดงถึง "ความไม่รู้สูงสุด" คือสิ่งที่ไม่ได้ให้ข้อมูลมาก่อนขึ้นอยู่กับสิ่งที่คุณหมายถึง "สูงสุด" ความโง่เขลา"α = β= cค
เราสามารถเลือกก่อนซึ่งบอกว่าค่าทั้งหมดสำหรับนั้นเป็นสิ่งที่สามารถใส่ได้เพราะเราไม่รู้อะไรดีกว่านี้ อาร์กิวเมนต์ที่สมมาตรอีกครั้ง สิ่งนี้สอดคล้องกับα = β = 1 :θα = β= 1
ฉ( θ | 1 , 1 ) = Γ ( 2 )2 Γ ( 1 )θ0( 1 - θ )0= 1
สำหรับคือชุดที่ใช้ก่อนโดย Kruschke อีกอย่างเป็นทางการโดยการเขียนออกมาแสดงออกสำหรับเอนโทรปีของการกระจายค่าเบต้าคุณจะเห็นว่ามันมีค่ามากที่สุดเมื่อ
α = β = 1 ตอนนี้เอนโทรปีมักถูกตีความว่าเป็นการวัด "ปริมาณข้อมูล" ที่ดำเนินการโดยการกระจาย: เอนโทรปีที่สูงขึ้นสอดคล้องกับข้อมูลน้อยลง ดังนั้นคุณสามารถใช้หลักการเอนโทรปีสูงสุดนี้ในการบอกว่าภายในรุ่นเบต้าสิ่งที่มีข้อมูลน้อยกว่า (ความไม่รู้สูงสุด) เป็นชุดนี้มาก่อนθ ∈ [ 0 , 1 ]α = β= 1
คุณสามารถเลือกมุมมองอีกมุมมองหนึ่งที่ OP ใช้และบอกว่าไม่มีข้อมูลใดที่สอดคล้องกับการไม่เห็นหัวและหางไม่มีเช่น
α = β= 0 ⇒ เธ( θ ) ∝ θ- 1( 1 - θ )- 1
ก่อนที่เราได้รับวิธีการนี้เรียกว่าHaldane ก่อน ฟังก์ชั่นมีปัญหาเล็กน้อย - อินทิกรัลเหนือI = [ 0 , 1 ]ไม่มีที่สิ้นสุดคือไม่ว่าค่าคงที่ normalizing จะไม่สามารถแปลงเป็นไฟล์ PDF ที่เหมาะสมได้ ที่จริงแล้ว Haldane ก่อนคือpmfที่เหมาะสมซึ่งทำให้ความน่าจะเป็น 0.5 ในθ = 0 , 0.5 ในθ = 1และ 0 น่าจะเป็นสำหรับค่าอื่น ๆ ทั้งหมดสำหรับθθ- 1( 1 - θ )- 1ผม= [ 0 , 1 ]θ = 0θ = 1θ. แต่ขอไม่ได้ดำเนินการไป - สำหรับพารามิเตอร์ต่อเนื่อง , ไพรเออร์ซึ่งไม่ตรงกับไฟล์ PDF ที่เหมาะสมจะเรียกว่าไพรเออร์ที่ไม่เหมาะสม ตั้งแต่ดังที่ได้กล่าวไว้ก่อนหน้านี้สิ่งที่สำคัญสำหรับการอนุมานแบบเบย์คือการแจกแจงด้านหลังนักบวชที่ไม่เหมาะสมสามารถยอมรับได้ตราบใดที่การกระจายหลังนั้นเหมาะสม ในกรณีของ Haldane มาก่อนเราสามารถพิสูจน์ได้ว่าไฟล์ pdf หลังนั้นเหมาะสมหากตัวอย่างของเรามีความสำเร็จอย่างน้อยหนึ่งครั้งและล้มเหลวหนึ่งครั้ง ดังนั้นเราสามารถใช้ Haldane ได้ก่อนเมื่อเราสังเกตเห็นอย่างน้อยหนึ่งหัวและหนึ่งหาง θ
มีความรู้สึกอื่นที่ Haldane ก่อนถือได้ว่าไม่มีข้อมูล: ค่าเฉลี่ยของการกระจายด้านหลังตอนนี้คือ
คือตัวอย่างความถี่ของหัวซึ่งเป็นความถี่ MLE บ่อยครั้งที่
θสำหรับแบบจำลองทวินามของปัญหาการพลิกเหรียญ นอกจากนี้ช่วงเวลาที่เชื่อถือได้สำหรับθสอดคล้องกับช่วงความเชื่อมั่นของ Wald ตั้งแต่วิธีการประจำไม่ได้ระบุไว้ก่อนใครสามารถบอกได้ว่า Haldane ก่อนไม่ใช่ noninformative หรือสอดคล้องกับความรู้ก่อนหน้าเป็นศูนย์เพราะมันจะนำไปสู่การอนุมาน "เดียวกัน" เป็นประจำจะทำให้α + xα + β+ n= xnθθ
ในที่สุดคุณสามารถใช้ก่อนหน้านี้ซึ่งไม่ได้ขึ้นอยู่กับการแก้ไขปัญหาของปัญหานั่นคือ Jeffreys ก่อนซึ่งสำหรับรุ่นเบต้า - ทวินามสอดคล้องกับ
α = β= 12⇒ เธ( θ ) ∝ θ- 12( 1 - θ )- 12
θλ = l o g( θ1 - θ)θ
เพื่อสรุปไม่มีทางเลือกเพียงหนึ่งเดียวที่ชัดเจนสำหรับผู้ที่ไม่เป็นทางการมาก่อนในรุ่นเบต้า - ทวินาม สิ่งที่คุณเลือกขึ้นอยู่กับสิ่งที่คุณหมายถึงเป็นความรู้ก่อนเป็นศูนย์และขึ้นอยู่กับเป้าหมายของการวิเคราะห์ของคุณ