การกระจายเบต้าเมื่อพลิกเหรียญ


12

หนังสือ Bayesian ของ Kruschke กล่าวว่าเกี่ยวกับการใช้การแจกแจงเบต้าสำหรับการพลิกเหรียญ

ตัวอย่างเช่นหากเราไม่มีความรู้มาก่อนนอกจากความรู้ที่ว่าเหรียญมีด้านหัวและด้านท้ายนั่นเท่ากับการสังเกตก่อนหน้านี้หนึ่งหัวและหนึ่งหางซึ่งสอดคล้องกับ a = 1 และ b = 1

ทำไมไม่มีข้อมูลใดเท่ากับการได้เห็นหัวหนึ่งและหนึ่งหาง - 0 หัวและ 0 หางดูเหมือนเป็นธรรมชาติสำหรับฉัน


9
(+1) คำพูดที่ทำให้เข้าใจผิดเพราะมันเป็นการเชื้อเชิญให้ผู้อ่านให้ความรู้สึกที่แตกต่างกันสองอย่างของ "สังเกต" ความรู้สึกที่ใช้ในที่นี้คือการตรวจสอบเหรียญเอง - ซึ่งหมายความว่าคุณเข้าใจการตั้งค่าการทดลอง แต่ข้อสรุปว่าสิ่งนี้หมายถึงขึ้นอยู่กับการตีความ "สังเกต" อีกครั้งในแง่ที่แตกต่างกันในการใช้การทดลองสองครั้งในระหว่างที่ผลลัพธ์หนึ่งคือหัวและหางอื่น ๆ ความเฉียบแหลมทางตรรกะแบบนี้เป็นวิธีแก้ปัญหาทางปัญญา มันเพียงทำให้วิธีเบย์ปรากฏตามอำเภอใจและลื่นอย่างมีเหตุผลซึ่งน่าเสียดาย a==1
whuber

ใบเสนอราคาผิด: ไม่มีเหตุผลสำหรับเบต้าก่อนหน้า (1, 1)
Neil G

เราสามารถโต้แย้งได้อย่างง่ายดายว่ามันเป็นข้อมูลที่มีค่าจากการสังเกตเพียงครั้งเดียว - ครึ่งหัว / ครึ่งหาง
Glen_b -Reinstate Monica

4
โปรดทราบวัตถุประสงค์ที่ตั้งใจไว้ของเนื้อเรื่องนั้นในหนังสือ มันควรจะเป็นเหตุผลง่ายๆที่เข้าใจง่ายสำหรับผู้ใช้ที่เริ่มต้นเห็นได้ชัดว่าไม่ใช่ข้อโต้แย้งทางคณิตศาสตร์และแน่นอนว่าไม่ใช่การอ้างว่าเบต้า (1,1) นั้นดีที่สุดหรือคลุมเครือมาก่อน ที่อื่นในหนังสือเล่มนี้ฉันใช้ความเจ็บปวดในการแสดงให้เห็นว่าการเปลี่ยนแปลงเล็กน้อยในบรรดานักบวชที่คลุมเครือนั้นไม่ได้สร้างความแตกต่างอย่างมีนัยสำคัญในหลังเมื่อมีข้อมูลจำนวนมากพอสมควร (ยกเว้นสำหรับปัจจัย Bayes แน่นอนซึ่งมีความไวสูงก่อน!) ในงานเขียนอื่น ๆ ที่ฉันได้กล่าวถึง Haldane ก่อน
John K. Kruschke

คำตอบ:


17

ใบเสนอราคาเป็น "ตรรกะของมือ" (การแสดงออกที่ยอดเยี่ยม!) ตามที่ระบุไว้โดย @whuber ในความคิดเห็นต่อ OP สิ่งเดียวที่เราสามารถพูดได้จริงๆหลังจากเห็นว่าเหรียญมีหัวและหางก็คือทั้งเหตุการณ์ "หัว" และ "หาง" นั้นเป็นไปไม่ได้ ดังนั้นเราสามารถทิ้ง discrete ก่อนซึ่งจะทำให้มวลความน่าจะเป็นทั้งหมดบน "หัว" หรือ "หาง" แต่สิ่งนี้ไม่ได้นำไปสู่เครื่องแบบก่อนหน้า: คำถามนั้นลึกซึ้งกว่านี้มาก ก่อนอื่นขอสรุปพื้นหลังเล็กน้อย เรากำลังพิจารณารูปแบบคอนจูเกต Beta-สองชื่อสำหรับคชกรรมอนุมานของความน่าจะเป็นของหัวของเหรียญให้nเป็นอิสระและการกระจาย (ตามเงื่อนไขในเหมือนθ ) เหรียญกลมๆθnθเมื่อเราสังเกตหัว xในการทอย n :พี(θ|x)xn

พี(θ|x)=Bอีเสื้อa(x+α,n-x+β)

เราสามารถพูดได้ว่าและβเล่นบทบาทของ "จำนวนหัวก่อน" และ "จำนวนหางก่อนหน้า" (pseudotrials) และα + βสามารถตีความได้ว่าเป็นขนาดตัวอย่างที่มีประสิทธิภาพ เราสามารถตีความการตีความนี้โดยใช้นิพจน์ที่รู้จักกันดีสำหรับค่าเฉลี่ยหลังซึ่งเป็นค่าเฉลี่ยถ่วงน้ำหนักของค่าเฉลี่ยก่อนหน้าααβα+βและค่าเฉลี่ยตัวอย่างxαα+β .xn

เมื่อดูที่เราสามารถทำการพิจารณาสองแบบ:พี(θ|x)

  1. เนื่องจากเราไม่มีความรู้มาก่อนเกี่ยวกับ (ความไม่รู้สูงสุด) เราคาดว่าขนาดตัวอย่างที่มีประสิทธิภาพα + βจะเป็น "เล็ก" อย่างสังหรณ์ใจ ถ้ามันมีขนาดใหญ่ความรู้ก่อนหน้านี้จะรวมความรู้ค่อนข้างมาก วิธีการที่เห็นนี้ก็คือการสังเกตว่าถ้าαและβเป็น "เล็ก" ด้วยความเคารพxและn - x , ความน่าจะเป็นหลังจะไม่ได้ขึ้นอยู่มากในของเราก่อนเพราะ x + α xและn - x + β n - xθα+βαβxn-xx+αxn-x+βn-x. เราคาดว่าก่อนหน้านี้ที่ไม่รวมความรู้จำนวนมากจะต้องไม่เกี่ยวข้องกับข้อมูลบางอย่างอย่างรวดเร็ว
  2. นอกจากนี้ตั้งแต่เป็นค่าเฉลี่ยก่อนและเรามีความรู้ก่อนเกี่ยวกับการกระจายของ θเราจะคาดหวังμPRฉันoR=0.5 นี่คือข้อโต้แย้งของสมมาตร - ถ้าเราไม่ทราบที่ดีกว่าที่เราจะไม่คาดหวังเบื้องต้นว่าการกระจายเป็นเบ้ต่อ 0 หรือต่อ 1. การกระจายเบต้าμพีRผมโอR=αα+βθμพีRผมโอR=0.5

    (θ|α,β)=Γ(α+β)Γ(α)+Γ(β)θα-1(1-θ)β-1

    สำนวนนี้เป็นเพียงรอบสมมาตรถ้า α = βθ=0.5α=β

ด้วยเหตุผลสองประการนี้ไม่ว่าก่อนหน้านี้ (อยู่ในตระกูลเบต้า - จำไว้ว่าเป็นรูปแบบคอนจูเกต!) เราเลือกที่จะใช้เราคาดหวังอย่างสังหรณ์ใจว่าและcคือ "เล็ก" เราจะเห็นได้ว่านักบวชที่ไม่ใช้ข้อมูลทั้งสามคนที่ใช้กันทั่วไปสำหรับรุ่นเบต้า - ทวินามนั้นมีคุณสมบัติเหล่านี้ แต่นอกเหนือไปจากนั้นพวกเขาก็แตกต่างกันมาก และสิ่งนี้ชัดเจน: ไม่มีความรู้มาก่อนหรือ "ความไม่รู้สูงสุด" ไม่ใช่คำจำกัดความทางวิทยาศาสตร์ดังนั้นสิ่งที่ชนิดก่อนหน้านี้แสดงถึง "ความไม่รู้สูงสุด" คือสิ่งที่ไม่ได้ให้ข้อมูลมาก่อนขึ้นอยู่กับสิ่งที่คุณหมายถึง "สูงสุด" ความโง่เขลา"α=β=

  1. เราสามารถเลือกก่อนซึ่งบอกว่าค่าทั้งหมดสำหรับนั้นเป็นสิ่งที่สามารถใส่ได้เพราะเราไม่รู้อะไรดีกว่านี้ อาร์กิวเมนต์ที่สมมาตรอีกครั้ง สิ่งนี้สอดคล้องกับα = β = 1 :θα=β=1

    (θ|1,1)=Γ(2)2Γ(1)θ0(1-θ)0=1

    สำหรับคือชุดที่ใช้ก่อนโดย Kruschke อีกอย่างเป็นทางการโดยการเขียนออกมาแสดงออกสำหรับเอนโทรปีของการกระจายค่าเบต้าคุณจะเห็นว่ามันมีค่ามากที่สุดเมื่อ α = β = 1 ตอนนี้เอนโทรปีมักถูกตีความว่าเป็นการวัด "ปริมาณข้อมูล" ที่ดำเนินการโดยการกระจาย: เอนโทรปีที่สูงขึ้นสอดคล้องกับข้อมูลน้อยลง ดังนั้นคุณสามารถใช้หลักการเอนโทรปีสูงสุดนี้ในการบอกว่าภายในรุ่นเบต้าสิ่งที่มีข้อมูลน้อยกว่า (ความไม่รู้สูงสุด) เป็นชุดนี้มาก่อนθ[0,1]α=β=1

  2. คุณสามารถเลือกมุมมองอีกมุมมองหนึ่งที่ OP ใช้และบอกว่าไม่มีข้อมูลใดที่สอดคล้องกับการไม่เห็นหัวและหางไม่มีเช่น

    α=β=0π(θ)αθ-1(1-θ)-1

    ก่อนที่เราได้รับวิธีการนี้เรียกว่าHaldane ก่อน ฟังก์ชั่นมีปัญหาเล็กน้อย - อินทิกรัลเหนือI = [ 0 , 1 ]ไม่มีที่สิ้นสุดคือไม่ว่าค่าคงที่ normalizing จะไม่สามารถแปลงเป็นไฟล์ PDF ที่เหมาะสมได้ ที่จริงแล้ว Haldane ก่อนคือpmfที่เหมาะสมซึ่งทำให้ความน่าจะเป็น 0.5 ในθ = 0 , 0.5 ในθ = 1และ 0 น่าจะเป็นสำหรับค่าอื่น ๆ ทั้งหมดสำหรับθθ-1(1-θ)-1ผม=[0,1]θ=0θ=1θ. แต่ขอไม่ได้ดำเนินการไป - สำหรับพารามิเตอร์ต่อเนื่อง , ไพรเออร์ซึ่งไม่ตรงกับไฟล์ PDF ที่เหมาะสมจะเรียกว่าไพรเออร์ที่ไม่เหมาะสม ตั้งแต่ดังที่ได้กล่าวไว้ก่อนหน้านี้สิ่งที่สำคัญสำหรับการอนุมานแบบเบย์คือการแจกแจงด้านหลังนักบวชที่ไม่เหมาะสมสามารถยอมรับได้ตราบใดที่การกระจายหลังนั้นเหมาะสม ในกรณีของ Haldane มาก่อนเราสามารถพิสูจน์ได้ว่าไฟล์ pdf หลังนั้นเหมาะสมหากตัวอย่างของเรามีความสำเร็จอย่างน้อยหนึ่งครั้งและล้มเหลวหนึ่งครั้ง ดังนั้นเราสามารถใช้ Haldane ได้ก่อนเมื่อเราสังเกตเห็นอย่างน้อยหนึ่งหัวและหนึ่งหาง θ

    มีความรู้สึกอื่นที่ Haldane ก่อนถือได้ว่าไม่มีข้อมูล: ค่าเฉลี่ยของการกระจายด้านหลังตอนนี้คือ คือตัวอย่างความถี่ของหัวซึ่งเป็นความถี่ MLE บ่อยครั้งที่ θสำหรับแบบจำลองทวินามของปัญหาการพลิกเหรียญ นอกจากนี้ช่วงเวลาที่เชื่อถือได้สำหรับθสอดคล้องกับช่วงความเชื่อมั่นของ Wald ตั้งแต่วิธีการประจำไม่ได้ระบุไว้ก่อนใครสามารถบอกได้ว่า Haldane ก่อนไม่ใช่ noninformative หรือสอดคล้องกับความรู้ก่อนหน้าเป็นศูนย์เพราะมันจะนำไปสู่การอนุมาน "เดียวกัน" เป็นประจำจะทำให้α+xα+β+n=xnθθ

  3. ในที่สุดคุณสามารถใช้ก่อนหน้านี้ซึ่งไม่ได้ขึ้นอยู่กับการแก้ไขปัญหาของปัญหานั่นคือ Jeffreys ก่อนซึ่งสำหรับรุ่นเบต้า - ทวินามสอดคล้องกับ

    α=β=12π(θ)αθ-12(1-θ)-12

    θλ=ล.โอก.(θ1-θ)θ

เพื่อสรุปไม่มีทางเลือกเพียงหนึ่งเดียวที่ชัดเจนสำหรับผู้ที่ไม่เป็นทางการมาก่อนในรุ่นเบต้า - ทวินาม สิ่งที่คุณเลือกขึ้นอยู่กับสิ่งที่คุณหมายถึงเป็นความรู้ก่อนเป็นศูนย์และขึ้นอยู่กับเป้าหมายของการวิเคราะห์ของคุณ


0

พี(θ=0)=0พี(θ=1)=0θพี(θ)=Bอีเสื้อa(ชั่วโมง+1,(ยังไม่มีข้อความ-ชั่วโมง)+1)


ฉันมีเวลายากที่จะเข้าใจคำตอบของคุณ
Michael R. Chernick

พีθ=0θ=1
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.