วิธีอ่อนโยนของสถิติเบย์


20

ฉันเพิ่งเริ่มอ่าน "รู้เบื้องต้นเกี่ยวกับสถิติแบบเบย์" รุ่นที่ 2 โดย Bolstad ฉันมีชั้นเรียนสถิติเบื้องต้นที่ครอบคลุมการทดสอบทางสถิติเป็นหลักและเกือบจะผ่านชั้นเรียนในการวิเคราะห์การถดถอย ฉันสามารถใช้หนังสืออื่นเล่มใดเพื่อเสริมความเข้าใจในหนังสือเล่มนี้

ฉันทำผ่าน 100-125 หน้าแรกได้ดี หลังจากนั้นหนังสือเริ่มพูดถึงการทดสอบสมมติฐานซึ่งเป็นสิ่งที่ฉันตื่นเต้นมากที่จะครอบคลุม แต่มีบางสิ่งที่ทำให้ฉัน:

  • การใช้ฟังก์ชันความหนาแน่นของความน่าจะเป็นในการคำนวณ ในคำอื่น ๆ วิธีการประเมินสมการดังกล่าว
  • ประโยคทั้งหมดนี้: "สมมติว่าเราใช้เบต้า (1,1) ก่อนหน้าสำหรับ pi จากนั้นเมื่อให้ y = 8 ความหนาแน่นหลังคือเบต้า (9,3) ความน่าจะเป็นด้านหลังของสมมติฐานว่างคือ ... " ฉันเชื่อเบต้า (1,1) หมายถึง PDF โดยที่ค่าเฉลี่ยคือ 1 และ stdev คือ 1? ฉันไม่เข้าใจว่ามันจะเปลี่ยนเป็นเบต้า (9,3) เป็นฟังก์ชั่นความหนาแน่นด้านหลัง

ฉันได้รับแนวคิดของนักบวชและผู้โพสต์และเข้าใจวิธีการใช้พวกเขาโดยใช้ตารางด้วยตนเอง ฉันได้รับ (ฉันคิดว่า!) pi นั้นแสดงถึงสัดส่วนหรือความน่าจะเป็นของประชากร

ฉันไม่ได้รับวิธีการเชื่อมต่อนี้พร้อมกับข้อมูลที่ฉันจะได้รับในแต่ละวันและได้รับผลลัพธ์


พารามิเตอร์πปรากฏจากบริบทเพื่อเป็นความน่าจะเป็นของประชากรของโมเดลทวินาม ในกรณีนี้การกระจายเบต้าผันก่อนสำหรับความน่าจะเป็นที่รู้จักกันในทวินามกับnและไม่รู้จักππอย่างไรก็ตามพารามิเตอร์ของการแจกแจงแบบเบต้าไม่ใช่ค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานเช่นเดียวกับการแจกแจงแบบปกติ ดูที่หน้า Wikipedia เพื่อดูสูตรของค่าเฉลี่ยและความแปรปรวนของตัวแปรสุ่มเบต้าในแง่ของพารามิเตอร์ของการแจกแจงเบต้า
caburke

ขอขอบคุณ! การผันคำก่อนหน้าเป็นอีกคำหนึ่งที่ฉันไม่คุ้นเคย ฉันจะเรียนรู้เพิ่มเติมเกี่ยวกับเรื่องนั้นในระดับเบื้องต้นได้อย่างไร
Justin Bozonier

8
คุณอาจสนใจข้อความที่เป็นประโยชน์มากขึ้นคุณเคยเห็นวิธีการแบบเบย์สำหรับแฮกเกอร์ไหม? (การเปิดเผย - ฉันเป็นผู้เขียนที่มีส่วนร่วม) ลองค้นหา (เป็นโอเพนซอร์สและฟรี)
Cam.Davidson.Pilon

@JustinBozonier ลิงก์นี้stats.stackexchange.com/questions/66018/…ให้คำอธิบายเกี่ยวกับเงื่อนไขต่างๆที่ผู้คนใช้เพื่ออธิบายถึงนักบวชรวมถึงนักบวช conjugate
Sycorax พูดว่า Reinstate Monica

1
@ Cam.Davidson.Pilon ขอบคุณสำหรับสิ่งนั้น! การอัปเดตความเชื่อในแผนภูมิในหน้านี้เพียงอย่างเดียวกำลังช่วยให้ฉันได้รับมากกว่าสิ่งที่คนอื่น ๆ กำลังพูดว่า: nbviewer.ipython.org/urls/raw.github.com/CamDavidsonPilon/
จัสติน Bozonier

คำตอบ:


26

การใช้ฟังก์ชันความหนาแน่นของความน่าจะเป็นในการคำนวณ ในคำอื่น ๆ วิธีการประเมินสมการดังกล่าว

ฉันคิดว่าคุณยังคงคิดถึงสิ่งนี้จากมุมมองของผู้ใช้เป็นประจำ: หากคุณกำลังมองหาการประมาณค่าจุดหลังจะไม่ให้คุณ คุณใส่ PDF เข้าไปคุณจะได้รับ PDF คุณสามารถประเมินจุดโดยการคำนวณสถิติจากการกระจายหลังของคุณ แต่ฉันจะไปที่นั้นเล็กน้อย

ฉันได้รับแนวคิดของนักบวชและผู้โพสต์และเข้าใจวิธีการใช้พวกเขาโดยใช้ตารางด้วยตนเอง ฉันได้รับ (ฉันคิดว่า!) pi นั้นแสดงถึงสัดส่วนหรือความน่าจะเป็นของประชากร

เหมือนกันกับ p ( x ) : เป็นทั้ง PDF πเป็นเพียงอัตภาพใช้เพื่อแสดงว่าโดยเฉพาะอย่างยิ่งในรูปแบบ PDF เป็นความหนาแน่นก่อนπ(x)พี(x)π

ฉันสงสัยว่าคุณไม่ได้รับไพรเออร์และ posteriors เช่นเดียวกับที่คุณคิดว่าคุณทำเพื่อให้กลับขึ้นไปหนุนพื้นฐานของสถิติแบบเบย์: ความน่าจะเป็นอัตนัย

การทดลองทางความคิดเกี่ยวกับความน่าจะเป็นแบบอัตนัย

สมมติว่าฉันนำเสนอคุณด้วยเหรียญและถามคุณว่าคุณคิดว่าเหรียญนี้เป็นเหรียญที่ยุติธรรมหรือไม่ คุณเคยได้ยินผู้คนมากมายพูดถึงเหรียญที่ไม่เป็นธรรมในคลาสความน่าจะเป็น แต่คุณไม่เคยเห็นเหรียญจริงในชีวิตจริงคุณจึงตอบว่า "ใช่แน่นอนฉันคิดว่ามันเป็นเหรียญที่ยุติธรรม" แต่ความจริงที่ว่าฉันยังถามคุณด้วยคำถามนี้ทำให้คุณดูเล็กน้อยดังนั้นแม้ว่าการประเมินของคุณจะยุติธรรมคุณจะไม่แปลกใจจริง ๆ ถ้าไม่ใช่ แปลกใจมากน้อยกว่าถ้าคุณพบว่าเหรียญนี้เปลี่ยนกระเป๋าของคุณ (เพราะคุณคิดว่านั่นคือสกุลเงินจริงทั้งหมดและคุณไม่เชื่อใจฉันจริงๆตอนนี้เพราะฉันกำลังสงสัย)

ตอนนี้เราทำการทดลองสองสามครั้ง หลังจากผ่านไป 100 ครั้งเหรียญจะให้ 53 หัว คุณมีความมั่นใจมากขึ้นว่าเป็นเหรียญที่ยุติธรรม แต่คุณยังคงเปิดรับความเป็นไปได้ที่ไม่ใช่ ความแตกต่างคือตอนนี้คุณคงแปลกใจถ้าเหรียญนี้กลายเป็นอคติบางอย่าง

เราจะแสดงความเชื่อก่อนหน้าและหลังของคุณที่นี่ได้อย่างไรโดยเฉพาะเกี่ยวกับความน่าจะเป็นที่เหรียญจะแสดงหัว (ซึ่งเราจะแสดง ) ในการตั้งค่า frequentist ความเชื่อก่อนที่คุณ - สมมติฐานของคุณ - คือθ = 0.5 หลังจากดำเนินการทดสอบคุณจะไม่สามารถปฏิเสธโมฆะได้ดังนั้นคุณจึงดำเนินการต่อโดยมีข้อสันนิษฐานว่าใช่เหรียญนั้นน่าจะยุติธรรม แต่เราจะสรุปการเปลี่ยนแปลงในความมั่นใจของคุณได้อย่างไรว่าเหรียญนั้นยุติธรรม หลังจากการทดสอบคุณอยู่ในตำแหน่งที่คุณจะเดิมพันว่าเหรียญมีความยุติธรรม แต่ก่อนการทดสอบคุณจะต้องกังวลใจθθ=0.5

ในการตั้งค่าแบบเบย์คุณสรุปความเชื่อมั่นของคุณในข้อเสนอโดยไม่ถือว่าความน่าจะเป็นค่าสเกลาร์ แต่เป็นตัวแปรสุ่มเช่นฟังก์ชั่น แทนที่จะพูดว่าเราพูดว่าθ N ( 0.5 , σ 2 )และทำให้เรามีความมั่นใจในความแปรปรวนของ PDF ถ้าเราตั้งค่าความแปรปรวนสูงเราจะพูดว่า "ฉันคิดว่าความน่าจะเป็นคือ 0.5 แต่ฉันจะไม่แปลกใจถ้าความน่าจะเป็นที่ฉันสังเกตในโลกนี้อยู่ไกลจากค่านี้ฉันคิดว่าθ = 0.5θ=0.5θ~ยังไม่มีข้อความ(0.5,σ2)θ=0.5แต่ตรงไปตรงมาฉันไม่แน่ใจจริง ๆ "ด้วยการตั้งค่าความแปรปรวนต่ำเรากำลังพูดว่า" ไม่เพียง แต่ฉันเชื่อว่าความน่าจะเป็นคือ 0.5 แต่ฉันจะแปลกใจมากถ้าการทดลองให้ค่าที่ไม่ใกล้เคียงกับ . "ดังนั้นในตัวอย่างนี้เมื่อคุณเริ่มการทดสอบคุณมีความแปรปรวนสูงก่อนหลังจากได้รับข้อมูลที่ยืนยันก่อนหน้าของคุณค่าเฉลี่ยของค่าเดิมนั้นคงเดิม แต่ความแปรปรวนก็แคบลงมากθ = 0.5สูงกว่ามากหลังจากทำการทดสอบมากกว่าเดิมθ=0.5θ=0.5

แล้วเราจะทำการคำนวณอย่างไร

เราเริ่มต้นด้วย PDF และท้ายด้วย PDF เมื่อคุณต้องการรายงานการประมาณค่าคุณสามารถคำนวณสถิติเช่นค่าเฉลี่ยมัธยฐานหรือโหมดการแจกแจงหลังของคุณ (ขึ้นอยู่กับฟังก์ชันการสูญเสียของคุณซึ่งฉันจะไม่เข้าตอนนี้ลองทำตามค่าเฉลี่ย) หากคุณมีโซลูชันแบบปิดสำหรับ PDF ของคุณอาจเป็นเรื่องเล็กน้อยที่จะกำหนดค่าเหล่านี้ หากด้านหลังซับซ้อนคุณสามารถใช้ขั้นตอนเช่น MCMC เพื่อสุ่มตัวอย่างจากสถิติหลังและสถิติที่ได้จากตัวอย่างที่คุณวาด

ในตัวอย่างที่คุณมีเบต้ามาก่อนและโอกาสแบบทวินามการคำนวณหลังลดการคำนวณที่สะอาดมาก ได้รับ:

  • ก่อนหน้า: θ~Bอีเสื้อa(α,β)
  • โอกาส: X|θ~Bผมnโอม.ผมaล.(θ)

จากนั้นด้านหลังจะลดลงเป็น:

  • หลัง: θ|X~Bอีเสื้อa(α+Σผม=1nxผม,β+n-Σผม=1nxผม)

นี้จะเกิดขึ้นทุกครั้งที่คุณมีเบต้าก่อนและความน่าจะเป็นทวินามและเหตุผลที่ควรจะเห็นได้ชัดในการคำนวณให้โดยDJE เมื่อรุ่นก่อนน่าจะเป็นโดยเฉพาะอย่างยิ่งเสมอให้หลังที่มีชนิดเดียวกันของการกระจายก่อนที่ความสัมพันธ์ระหว่างประเภทของการกระจายใช้สำหรับโอกาสก่อนและจะเรียกว่าผัน มีการแจกแจงหลายคู่ที่มีความสัมพันธ์แบบคอนจูเกตและคอนจูเกตนั้นถูกใช้งานบ่อยมากโดยเบย์เซียนเพื่อให้การคำนวณง่ายขึ้น เมื่อพิจารณาถึงโอกาสพิเศษคุณสามารถทำให้ชีวิตของคุณง่ายขึ้นโดยการเลือกคอนจูเกตก่อน (ถ้ามีอยู่และคุณสามารถพิสูจน์ความเป็นตัวเลือกของคุณได้ก่อน)

ฉันเชื่อว่าเบต้า (1,1) หมายถึง PDF โดยที่ค่าเฉลี่ยคือ 1 และ stdev คือ 1

ในการตั้งค่าพารามิเตอร์ทั่วไปของการแจกแจงปกติพารามิเตอร์ทั้งสองมีความหมายถึงค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานของการแจกแจง แต่นั่นคือวิธีที่เราตั้งค่าพารามิเตอร์การแจกแจงแบบปกติ การแจกแจงความน่าจะเป็นอื่น ๆ นั้นแปรตามอย่างมาก

Bอีเสื้อa(α,β)αβ

X~Bอีเสื้อa(α,β)E[X]=αα+βvar[X]=αβ(α+β)2(α+β+1)

อย่างที่คุณสามารถเห็นได้อย่างชัดเจนค่าเฉลี่ยและความแปรปรวนไม่ได้เป็นส่วนหนึ่งของการกำหนดพารามิเตอร์ของการแจกแจงนี้ แต่พวกเขามีวิธีแก้ปัญหาแบบปิดซึ่งเป็นฟังก์ชั่นง่าย ๆ ของพารามิเตอร์อินพุต

Bอีเสื้อa(1,1)ยูnผมโอRม.(0,1)


4
สิ่งสำคัญที่คำตอบของคุณมอบให้ฉันคือการตระหนักว่าการมองหาสิ่งที่มีคุณค่าเพียงอย่างเดียวคือสิ่งที่ฉันได้วางสาย เมื่อฉันเริ่มคิดในแง่ของการแจกแจงข้อความ Kruschke และทุกอย่างอื่นเริ่มมีความหมายมากขึ้น ขอขอบคุณ!
Justin Bozonier

8

พี(θ)=Γ(α)Γ(β)Γ(α+β)θα-1(1-θ)β-1(α,β)=(1,1)

เบต้าก่อนหน้านี้มีความน่าจะเป็นทวินาม (จำนวนคงที่ของการทดลองกับผลลัพธ์ไบนารีและความน่าจะเป็นคงที่ของความสำเร็จ / ล้มเหลว) มีคุณสมบัติของการผันคำกริยาซึ่งช่วยให้หลัง (ผลิตภัณฑ์ของก่อนและโอกาส)

พี(θ|Y)=พี(Y|θ)พี(θ)พี(Y)  αΓ(α)Γ(β)Γ(α+β)θα-1(1-θ)β-1* * * *(nY)θY(1-θ)n-Y  αθα-1(1-θ)β-1* * * *θY(1-θ)n-Y αθα+Y-1(1-θ)β+n-Y-1 =Γ(α+Y-1)Γ(β+n-Y-1)Γ(α+β+n-1)θα+Y-1(1-θ)β+n-Y-1

θ

การแสดงออกในรูปแบบปิดนี้สะดวก แต่ไม่จำเป็นเลย ความหนาแน่นของความน่าจะเป็นทวีคูณนั้นสามารถทำได้เช่นเดียวกับการคูณการแสดงออกทางคณิตศาสตร์อื่น ๆ ความยากลำบากมาถึงเนื่องจากผลิตภัณฑ์ที่มีความหนาแน่นจำนวนมากไม่ได้เขียนใหม่อย่างง่ายดายเหมือนกับรุ่นเบต้าก่อนหน้า / โอกาสทวินาม โชคดีที่นี่เป็นจุดที่คอมพิวเตอร์หยิบเครื่องหย่อน


7

หากคุณกำลังมองหาวิธีที่อ่อนโยนฉันสามารถแนะนำหนังสือโดยKruschkeที่ใช้ R เพื่ออธิบายแนวคิดหลัก มันเป็นวิธีปฏิบัติที่เป็นประโยชน์และลงมือปฏิบัติจริงในการเรียนรู้สถิติแบบเบย์และในเว็บไซต์ของเขาคุณสามารถค้นหารหัสทั้งหมดที่ใช้

บางคนยังแนะนำข้อความโดย Cam.Davidson.Pilon กับผมไม่ได้มองไปที่มันยัง แต่ก็สามารถพบได้ที่นี่


1
ขอบคุณ! จริง ๆ แล้วฉันเป็นเจ้าของหนังสือ Kruschke และเพิ่งกลับไปทบทวนและตระหนักว่าเป็นสิ่งที่ฉันต้องการในตอนนี้ ขอบคุณสำหรับตัวชี้!
Justin Bozonier

@JustinBozonier ฉันขอแนะนำอย่างยิ่งให้รู้จักทฤษฎีสถิติ (Mood)ด้วย มันให้ความแม่นยำในระดับสูง แต่เพียงสมมติว่าคุณรู้แคลคูลัสพื้นฐานมาก
Steve P.
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.