Bayesians เปรียบเทียบการแจกแจงอย่างไร


25

ดังนั้นฉันคิดว่าฉันมีความเข้าใจที่ดีเกี่ยวกับพื้นฐานของความน่าจะเป็นที่พบบ่อยและการวิเคราะห์ทางสถิติ (และสามารถใช้งานได้ไม่ดี) ในโลกที่พบบ่อยมันสมเหตุสมผลที่จะถามคำถามเช่น "คือการกระจายนี้แตกต่างจากการแจกแจงนั้น" เนื่องจากการแจกแจงจะถือว่าเป็นจริงวัตถุประสงค์และไม่เปลี่ยนแปลง (สำหรับสถานการณ์ที่กำหนดอย่างน้อย) และเพื่อให้เราสามารถคิด ดูว่ามีโอกาสมากน้อยเพียงใดที่ตัวอย่างหนึ่งจะถูกดึงมาจากการแจกแจงที่มีรูปร่างเหมือนตัวอย่างอื่น

ในมุมมองโลก Bayesian เราสนใจเฉพาะสิ่งที่เราคาดหวังที่จะเห็นได้รับประสบการณ์ที่ผ่านมาของฉัน (ฉันยังคงคลุมเครือเล็กน้อยในส่วนนี้ แต่ฉันเข้าใจแนวคิดของการปรับปรุง Bayesian) หากเป็นเช่นนั้น Bayesian จะพูดว่า "ชุดข้อมูลนี้แตกต่างจากชุดข้อมูลนั้นได้อย่างไร"

สำหรับจุดประสงค์ของคำถามนี้ฉันไม่สนใจนัยสำคัญทางสถิติหรือวิธีการหาปริมาณที่แตกต่างกัน ฉันสนใจเท่าเทียมกันในการแจกแจงพารามิเตอร์และไม่ใช่พารามิเตอร์


คุณช่วยอธิบายสิ่งที่คุณหมายถึงโดย "ชุดข้อมูลนี้แตกต่างจากชุดข้อมูลนั้น" เช่นเดียวกับในคุณหมายถึงการเปรียบเทียบของสองกลุ่มหรือมากกว่าเช่นรายได้ของผู้ชายกับรายได้ของผู้หญิง? หรืออาจเป็นวิธีแบบเบส์เปรียบเทียบรายได้สองตัวอย่างโดยไม่มีความรู้เรื่องเพศ
ramhiser

2
@ JohnA.Ramey: ความแตกต่างคืออะไร? เมื่อตัวเลขทั้งหมดไม่ใช่ "male" และ "female" เพียงแค่ติดป้ายกำกับสำหรับตัวอย่าง
naught101

คำตอบ:


13

คิดว่าคำพูดของคุณผ่านการเป็นผู้ใช้บ่อยและทำให้มันเฉพาะเจาะจงมากขึ้นก่อน ผู้ใช้ประจำไม่สามารถพูดได้ว่า "ชุดข้อมูล A แตกต่างจากชุดข้อมูล B" โดยไม่มีการชี้แจงเพิ่มเติม

ก่อนอื่นคุณต้องระบุความหมายของ "แตกต่าง" บางทีคุณอาจหมายถึง "มีค่าเฉลี่ยที่แตกต่างกัน" จากนั้นอีกครั้งคุณอาจหมายถึง "มีความแตกต่าง" หรืออาจเป็นอย่างอื่น?

จากนั้นคุณต้องระบุประเภทการทดสอบที่คุณจะใช้ซึ่งขึ้นอยู่กับสิ่งที่คุณเชื่อว่าเป็นสมมติฐานที่ถูกต้องเกี่ยวกับข้อมูล คุณคิดว่าชุดข้อมูลนั้นกระจายทั้งแบบปกติหรือไม่? หรือคุณเชื่อว่าพวกเขาเป็นทั้งรุ่นเบต้ากระจาย? หรืออย่างอื่น?

ตอนนี้คุณเห็นหรือไม่ว่าการตัดสินใจครั้งที่สองนั้นเหมือนกับนักบวชในสถิติแบบเบย์? ไม่ใช่แค่ "ประสบการณ์ที่ผ่านมาของฉัน" แต่เป็นสิ่งที่ฉันเชื่อและสิ่งที่ฉันเชื่อว่าเพื่อนของฉันจะเชื่อเป็นข้อสมมติฐานที่สมเหตุสมผลเกี่ยวกับข้อมูลของฉัน (และ Bayesians สามารถใช้ชุดนักบวชเหมือนกันซึ่งผลักดันสิ่งต่าง ๆ ไปสู่การคำนวณเป็นประจำ)

แก้ไข: เพื่อตอบสนองต่อความคิดเห็นของคุณ: ขั้นตอนต่อไปมีอยู่ในการตัดสินใจครั้งแรกที่ฉันกล่าวถึง หากคุณต้องการตัดสินใจว่าค่าเฉลี่ยของสองกลุ่มนั้นแตกต่างกันหรือไม่คุณจะพิจารณาการกระจายความแตกต่างของค่าเฉลี่ยของทั้งสองกลุ่มเพื่อดูว่าการกระจายนี้มีหรือไม่มีค่าศูนย์ในระดับความมั่นใจ คุณนับว่าใกล้เคียงกับศูนย์มากน้อยเพียงใดและส่วนใดของการกระจาย (หลัง) ที่คุณใช้จะถูกกำหนดโดยคุณและระดับความมั่นใจที่คุณต้องการ

การสนทนาของความคิดเหล่านี้สามารถพบได้ ในกระดาษโดย Kruschkeผู้ยังเขียนหนังสืออ่านDoing Bayesian Data Analysisซึ่งอ่านได้มากซึ่งครอบคลุมตัวอย่างในหน้า 307-309, "Are Different Groups Equal?" (ฉบับที่สอง: หน้า 468-472) นอกจากนี้เขายังมีบล็อกโพสต์ในเรื่องด้วยคำถาม & คำตอบ

แก้ไขเพิ่มเติม: คำอธิบายของคุณเกี่ยวกับกระบวนการ Bayesian นั้นค่อนข้างไม่ถูกต้อง เบย์สนใจเฉพาะสิ่งที่ข้อมูลบอกเราเท่านั้นเนื่องจากสิ่งที่เรารู้ว่าเป็นอิสระจากข้อมูล (ดังที่ Kruschke ชี้ให้เห็นก่อนหน้านี้ไม่จำเป็นต้องเกิดขึ้นก่อนข้อมูลนั่นคือความหมายของวลี แต่จริงๆแล้วเป็นเพียงความรู้ของเราที่ไม่รวมข้อมูลบางส่วน) สิ่งที่เรารู้ว่าเป็นชุดของข้อมูลที่เฉพาะเจาะจงอาจคลุมเครือ และอาจขึ้นอยู่กับฉันทามติรูปแบบของกระบวนการสร้างข้อมูลพื้นฐานหรืออาจเป็นเพียงผลลัพธ์ของการทดลองอื่น (ไม่จำเป็นต้องมาก่อน)


ใช่แล้วผู้ที่พบบ่อยถือว่าเป็นผู้กระจายตัว แต่จากนั้นพวกเขาสามารถวัดค่าพารามิเตอร์ของแต่ละตัวอย่างด้วยข้อผิดพลาดและพูดว่า "ตกลงนี่คือพารามิเตอร์ของประชากรที่แท้จริงของแต่ละตัวอย่างและตอนนี้ความน่าจะเป็นที่ความแตกต่างนั้นเกิดจากการสุ่มตัวอย่างผิดพลาด" คำถามของฉันเป็นเรื่องเกี่ยวกับขั้นตอนหลังจากที่คำตอบของคุณ - วิธีการทำที่แตกต่างกันสรุปคชกรรมระหว่างตัวอย่าง (สมมติตัวอย่างจะมาจากที่เดียวกันประเภทของการกระจายตัวแปรหรือไม่)
naught101

@ naught101: โปรดดูการแก้ไขของฉัน
Wayne

@Wayne กระดาษที่คุณเชื่อมโยงเป็นเลิศ ขอบคุณสำหรับการแบ่งปัน
Cam.Davidson.Pilon

@ naught101: ฉันได้อัปเดตลิงก์บล็อกแล้ว เห็นได้ชัดว่าเขาเก็บบทความที่เก่ากว่าและแต่ละลิงก์ไปยังใหม่กว่าและหนึ่งที่ฉันเชื่อมโยงครั้งแรกเป็นสามรุ่น
Wayne

นี่เป็นวิธีการที่ยอดเยี่ยมและชัดเจนว่าการอนุมานแบบเบย์อาจทำงานอย่างไร สงสารมันเข้มข้นมาก นอกจากนี้การใช้ CIs 95% ดูเหมือนจะมากเกินไปเช่นการตั้งค่าระดับนัยสำคัญ แต่ฉันไม่สามารถดูว่ามีวิธีจริงที่จะได้รายงานเทียบเท่ากับค่า p-value (อาจเป็นผลรวมของความน่าจะเป็นของค่ามากกว่านี้ สุดขีดกว่า 0 จากค่าเฉลี่ยสำหรับความแตกต่างในค่าเฉลี่ยหรือไม่)
naught101

14

บทความนี้อาจเป็นที่สนใจ: http://arxiv.org/pdf/0906.4032v1.pdf

มันให้บทสรุปที่ดีเกี่ยวกับวิธีการแก้ปัญหาตัวอย่างแบบเบส์และแบบสองทางจากเบส์และอธิบายถึงทั้งกรณีพารามิเตอร์

xyxiyj01xiBern(p)yiBern(q)

H0:p=q

H1:p,q

โอกาสสำหรับข้อมูลในแต่ละกรณีคือ:

H0L0(p)=f(x,y;p)=ipi(1p)1ijpj(1p)1j

H1L1(p,q)=f(x,y;p,q)=ipi(1p)1ijqj(1q)1j

H0q=p

W=2log{L0(pmax)L1(pmax,qmax)},

pmax,qmaxpqpmaxpmaxWχ12H0

pπ0H0p,qπ1H1

BF=f(x,y|H0)f(x,y|H1)=01L0(p)π0(p)dp0101L1(p,q)π1(p,q)dpdq

H0H1H0H1 p(H0)=p(H1)=1/2

p(H0|x,y)p(H1|x,y)=BF×p(H0)p(H1)=BF×1/21/2=BF.

>1H0H1H0

H1

หวังว่าจะช่วยพร้อมกับคำตอบอื่น ๆ ที่โพสต์แล้ว


0

ข้อมูลที่ได้รับเราเชื่อมั่นอย่างยิ่งว่า 2 กลุ่มไม่ได้มาจากประชากรเดียวกัน (H_1: พวกเขาไม่ได้มาจากประชากรเดียวกันกับ H_0: พวกเขามาจากประชากรเดียวกัน) สามารถทำได้ด้วยการทดสอบแบบเบย์

ความซับซ้อนใช้เพื่อคำนวณว่าก่อนหน้านี้มีการทับซ้อนกับสมมติฐานเดียวมากน้อยเพียงใด Fit ใช้ในการคิดออกว่าด้านหลังซ้อนทับกันกับสมมติฐานเดียว รวมกันคุณสามารถเปรียบเทียบสมมติฐานและแสดงความเชื่อหลังของคุณว่าพวกเขามาจากประชากรเดียวกันหรือไม่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.