ตัวอย่างง่ายๆในโลกแห่งความจริงสำหรับการสอนสถิติแบบเบย์?


10

ฉันต้องการค้นหา "ตัวอย่างในโลกแห่งความจริง" สำหรับการสอนสถิติแบบเบย์ สถิติแบบเบย์อนุญาตให้มีการรวมความรู้ก่อนหน้านี้เข้ากับการวิเคราะห์อย่างเป็นทางการ ฉันต้องการให้นักเรียนตัวอย่างง่ายๆในโลกแห่งความจริงที่เรียบง่ายของนักวิจัยที่รวมความรู้ก่อนหน้าไว้ในการวิเคราะห์ของพวกเขาเพื่อให้นักเรียนสามารถเข้าใจแรงจูงใจที่ดีขึ้นว่าทำไมคนเราอาจต้องการใช้สถิติแบบเบย์ในตอนแรก

คุณตระหนักถึงตัวอย่างง่ายๆในโลกแห่งความเป็นจริงเช่นการประมาณค่าเฉลี่ยของประชากรสัดส่วนการถดถอยและอื่น ๆ ที่นักวิจัยรวบรวมข้อมูลก่อนหน้านี้อย่างเป็นทางการหรือไม่? ฉันรู้ว่า Bayesians สามารถใช้นักบวชที่ "ไม่ให้ข้อมูล" ได้เช่นกัน แต่ฉันสนใจเป็นพิเศษในตัวอย่างจริงที่ใช้นักบวชที่ให้ข้อมูล (เช่นข้อมูลก่อนจริง)


ฉันคิดว่า IQ เป็นตัวอย่างที่ดีงาม
hejseb

ไม่ใช่คำตอบที่เคร่งครัด แต่เมื่อคุณพลิกเหรียญสามครั้งและหัวขึ้นมาสองครั้งแล้วไม่มีนักเรียนเชื่อเลยว่าหัวนั้นน่าจะเป็นสองเท่าของหางซึ่งมันค่อนข้างน่าเชื่อถือแม้ว่าจะไม่ใช่การวิจัยจริง
Bernhard

1
คุณสามารถตรวจสอบคำตอบนี้เขียนโดยคุณอย่างแท้จริง: stats.stackexchange.com/a/134385/61496
Yair Daon

คุณอาจกำลังทำให้สมการเบส์กฎซึ่งสามารถนำไปใช้ในความน่าจะเป็น / การประมาณและสถิติเบย์ที่ "ความน่าจะเป็น" เป็นบทสรุปของความเชื่อหรือไม่?
AdamO

คำตอบ:


6

ทฤษฎีการค้นหาแบบเบย์เป็นแอปพลิเคชั่นในโลกแห่งความเป็นจริงที่น่าสนใจของสถิติแบบเบย์ซึ่งมีการนำมาใช้หลายครั้งเพื่อค้นหาเรือที่สูญหายในทะเล ในการเริ่มต้นแผนที่จะแบ่งออกเป็นสี่เหลี่ยม แต่ละตารางจะถูกกำหนดความน่าจะเป็นก่อนหน้าของการบรรจุเรือที่สูญหายตามตำแหน่งที่ทราบล่าสุดหัวข้อเวลาที่หายไปกระแสน้ำ ฯลฯ นอกจากนี้แต่ละตารางจะถูกกำหนดความน่าจะเป็นแบบมีเงื่อนไขในการค้นหาเรือถ้าเป็นจริงในตารางนั้น สิ่งต่าง ๆ เช่นความลึกของน้ำ การแจกแจงเหล่านี้จะรวมกันเพื่อจัดลำดับความสำคัญของแผนที่สี่เหลี่ยมที่มีโอกาสสูงที่สุดในการสร้างผลลัพธ์ที่เป็นบวก - ไม่จำเป็นต้องเป็นสถานที่ที่เป็นไปได้มากที่สุดสำหรับเรือ แต่สถานที่ที่มีโอกาสมากที่สุดในการค้นหาเรือ


1
ดีเหล่านี้จะเรียงลำดับของการใช้งานที่อธิบายไว้ในหนังสือความบันเทิงทฤษฎีที่จะไม่ตาย: วิธี Bayes' กฎ Cracked รหัส Enigma, ตามล่าเรือดำน้ำรัสเซียและโผล่ออกมาจากชัยชนะสองศตวรรษของการทะเลาะวิวาท ทัวริงใช้เหตุผลแบบนี้เพื่อไขปริศนา
jpmuc

ความน่าจะเป็น แต่มันเป็นแบบเบย์
Andrew

5

ฉันคิดว่าการประมาณขนาดการผลิตหรือจำนวนประชากรจากหมายเลขซีเรียลนั้นน่าสนใจถ้าเป็นตัวอย่างที่อธิบายแบบดั้งเดิม ที่นี่คุณพยายามทดลองการกระจายตัวแบบไม่ต่อเนื่องสูงสุด ขึ้นอยู่กับทางเลือกของคุณก่อนหน้านี้ความน่าจะเป็นสูงสุดและการประมาณแบบเบย์จะแตกต่างกันอย่างชัดเจน

บางทีตัวอย่างที่มีชื่อเสียงที่สุดคือการประมาณอัตราการผลิตของรถถังเยอรมันในช่วงสงครามโลกครั้งที่สองจากแถบหมายเลขประจำตัวถังและรหัสผู้ผลิตที่ทำในการตั้งค่าบ่อยครั้งโดย (Ruggles and Brodie, 1947) การวิเคราะห์ทางเลือกจากมุมมองแบบเบย์กับนักบวชที่ให้ข้อมูลได้ดำเนินการโดย (Downey, 2013) และกับนักบวชที่ไม่เหมาะสมโดย (Höhle and Held, 2004) งานโดย (Höhle and Held, 2004) ยังมีการอ้างอิงอีกมากมายเกี่ยวกับการรักษาก่อนหน้านี้ในวรรณคดีและยังมีการอภิปรายปัญหานี้เพิ่มเติมในเว็บไซต์นี้

แหล่งที่มา:

บทที่ 3 ดาวนีย์อัลเลน Think Bayes: Bayesian Statistics ใน Python "O'Reilly Media, Inc. ", 2013

วิกิพีเดีย

Ruggles, R.; Brodie, H. (1947) "แนวทางเชิงประจักษ์สู่ความฉลาดทางเศรษฐกิจในสงครามโลกครั้งที่สอง" วารสารสมาคมสถิติอเมริกัน 42 (237): 72

Höhle, Michael และ Leonhard Held การประมาณแบบเบย์ของขนาดของประชากร ลำดับ 499. กระดาษอภิปราย // Sonderforschungsbereich 386 der Ludwig-Maximilians-UniversitätMünchen, 2549


3

มีเรื่องราวดีๆใน Cressie & Wickle Statistics สำหรับ Spatio-Temporal Data , Wiley เกี่ยวกับการค้นหา (Bayesian) ของ USS Scorpion เรือดำน้ำที่หายไปในปี 1968 เราบอกเล่าเรื่องราวนี้แก่นักเรียนของเราและให้พวกเขาแสดง ( ง่าย) ค้นหาโดยใช้การจำลอง

ตัวอย่างที่คล้ายกันอาจถูกสร้างขึ้นรอบ ๆ เรื่องราวของเที่ยวบินที่สูญหาย MH370; คุณอาจต้องการดูที่ Davey et al., วิธี Bayesian ในการค้นหา MH370 , Springer-Verlag


1

นี่คือตัวอย่างของการประมาณค่าเฉลี่ยจากข้อมูลต่อเนื่องปกติ อย่างไรก็ตามก่อนที่จะเจาะลึกลงไปในตัวอย่างโดยตรงฉันต้องการตรวจสอบคณิตศาสตร์บางอย่างสำหรับตัวแบบข้อมูลแบบเบย์แบบ Normal-Normalθ

พิจารณาตัวอย่างที่สุ่มจากค่าอย่างต่อเนื่อง n แสดงโดยy_n นี่คือเวกเตอร์หมายถึงข้อมูลที่รวบรวม รูปแบบความน่าจะเป็นสำหรับข้อมูลปกติที่มีความแปรปรวนที่รู้จักและตัวอย่างที่เป็นอิสระและการกระจาย (iid) เหมือนกันคือy1,...,yny=(y1,...,yn)T

y1,...,yn|θN(θ,σ2)

หรือตามที่เขียนโดย Bayesian

y1,...,yn|θN(θ,τ)

โดยที่ ; เรียกแม่นยำτ=1/σ2τ

ด้วยสัญกรณ์นี้ความหนาแน่นของจึงเป็นเช่นนั้นyi

f(yi|θ,τ)=(τ2π)×exp(τ(yiθ)2/2)

สถิติแบบดั้งเดิม (คือความเป็นไปได้สูงสุด) ทำให้เราประมาณθ^=y¯

ในมุมมองแบบเบย์เราจะเพิ่มโอกาสสูงสุดด้วยข้อมูลก่อนหน้า ทางเลือกของไพรเออร์สำหรับข้อมูลแบบนี้ปกติเป็นอีกหนึ่งกระจายปกติ\การแจกแจงแบบปกติจะรวมกันกับการแจกแจงแบบปกติθ

θN(a,1/b)

การกระจายด้านหลังที่เราได้รับจากโมเดลข้อมูล Normal-Normal (หลังจากพีชคณิตจำนวนมาก) เป็นอีกการแจกแจงแบบปกติ

θ|yN(bb+nτa+nτb+nτy¯,1b+nτ)

ความแม่นยำด้านหลังคือและค่าเฉลี่ยถ่วงน้ำหนักระหว่างและ ,{y}b+nτay¯bb+nτa+nτb+nτy¯

ประโยชน์ของวิธีการแบบเบย์นี้มาจากข้อเท็จจริงที่ว่าคุณได้รับการกระจายของไม่ใช่แค่การประมาณเนื่องจากถูกมองว่าเป็นตัวแปรสุ่มแทนที่จะเป็นค่าคงที่ (ไม่ทราบ) นอกจากนี้การประมาณในโมเดลนี้เป็นค่าเฉลี่ยถ่วงน้ำหนักระหว่างค่าเฉลี่ยเชิงประจักษ์และข้อมูลก่อนหน้าθ|yθθ

ที่กล่าวว่าตอนนี้คุณสามารถใช้ตัวอย่างตำราข้อมูลปกติเพื่อแสดงสิ่งนี้ ฉันจะใช้ชุดข้อมูลairqualityภายใน R พิจารณาปัญหาของการประมาณความเร็วลมเฉลี่ย (MPH)

> ## New York Air Quality Measurements
> 
> help("airquality")
> 
> ## Estimating average wind speeds
> 
> wind = airquality$Wind
> hist(wind, col = "gray", border = "white", xlab = "Wind Speed (MPH)")
>

ป้อนคำอธิบายรูปภาพที่นี่

> n = length(wind)
> ybar = mean(wind)
> ybar
[1] 9.957516 ## "frequentist" estimate
> tau = 1/sd(wind)
> 
> 
> ## but based on some research, you felt avgerage wind speeds were closer to 12 mph
> ## but probably no greater than 15,
> ## then a potential prior would be N(12, 2)
> 
> a = 12
> b = 2
> 
> ## Your posterior would be N((1/))
> 
> postmean = 1/(1 + n*tau) * a + n*tau/(1 + n*tau) * ybar
> postsd = 1/(1 + n*tau)
> 
> set.seed(123)
> posterior_sample = rnorm(n = 10000, mean = postmean, sd = postsd)
> hist(posterior_sample, col = "gray", border = "white", xlab = "Wind Speed (MPH)")
> abline(v = median(posterior_sample))
> abline(v = ybar, lty = 3)
> 

ป้อนคำอธิบายรูปภาพที่นี่

> median(posterior_sample)
[1] 10.00324
> quantile(x = posterior_sample, probs = c(0.025, 0.975)) ## confidence intervals
2.5%     97.5% 
9.958984 10.047404 

ในการวิเคราะห์นี้ผู้วิจัย (คุณ) สามารถพูดได้ว่าข้อมูลที่ได้รับ + ​​ข้อมูลก่อนหน้าการประมาณค่าลมเฉลี่ยของคุณโดยใช้เปอร์เซ็นไทล์ที่ 50 ความเร็วควรเป็น 10.00324 มากกว่าการใช้ค่าเฉลี่ยจากข้อมูล นอกจากนี้คุณยังได้รับการแจกแจงแบบเต็มซึ่งคุณสามารถแยกช่วงเวลาที่น่าเชื่อถือ 95% โดยใช้ปริมาณ 2.5 และ 97.5

ด้านล่างฉันมีข้ออ้างอิงสองข้อฉันขอแนะนำให้อ่านบทความสั้น ๆ ของ Casella มันมีจุดมุ่งหมายเฉพาะในวิธีการทดลองแบบเบย์ แต่อธิบายวิธีการแบบเบย์แบบทั่วไปสำหรับรุ่นปกติ

อ้างอิง:

  1. Casella, G. (1985) การวิเคราะห์ข้อมูลเชิงประจักษ์เบย์เบื้องต้น. นักสถิติชาวอเมริกัน, 39 (2), 83-87

  2. Gelman, A. (2004) การวิเคราะห์ข้อมูลแบบเบย์ (ฉบับที่ 2, ตำราทางวิทยาศาสตร์สถิติ) Boca Raton, Fla .: Chapman & Hall / CRC


1

งานวิจัยที่ฉันเชื่อว่าวิธีการแบบเบย์จำเป็นอย่างยิ่งคือการออกแบบที่ดีที่สุด

ในการตั้งค่าการถดถอยโลจิสติกส์นักวิจัยพยายามประเมินค่าสัมประสิทธิ์และรวบรวมข้อมูลอย่างแข็งขันซึ่งบางครั้งจะมีจุดข้อมูลหนึ่งจุดในแต่ละครั้ง ผู้วิจัยมีความสามารถในการเลือกค่าที่ป้อนเข้าของxเป้าหมายคือการเพิ่มข้อมูลที่เรียนรู้ให้สูงสุดสำหรับขนาดตัวอย่างที่กำหนด (อีกทางหนึ่งคือลดขนาดตัวอย่างที่ต้องการเพื่อให้ถึงระดับความมั่นใจระดับหนึ่ง) หนึ่งสามารถแสดงให้เห็นว่าสำหรับที่กำหนดมีชุดของค่าที่เพิ่มประสิทธิภาพของปัญหานี้xβx

จับ-22 ที่นี่เป็นที่ที่จะเลือกที่ดีที่สุด 's, คุณจำเป็นต้องรู้\เห็นได้ชัดว่าคุณไม่ทราบว่าหรือคุณจะไม่จำเป็นต้องเก็บข้อมูลเพื่อเรียนรู้เกี่ยว\คุณสามารถใช้ MLE เพื่อเลือกได้ แต่xβββx

  • นี่ไม่ใช่จุดเริ่มต้นสำหรับคุณ สำหรับ ,ไม่ได้ถูกกำหนดn=0β^

  • แม้หลังจากรับตัวอย่างหลายครั้งผลกระทบของ Hauck-Donner ก็หมายความว่ามีความเป็นไปได้ในเชิงบวกที่ไม่ได้ถูกกำหนดβ^

  • แม้ว่า MLE จะมีค่า จำกัด แต่ก็มีแนวโน้มที่จะไม่เสถียรอย่างไม่น่าเชื่อดังนั้นจึงสิ้นเปลืองตัวอย่างจำนวนมาก (เช่นถ้าแต่คุณจะเลือกค่าของที่เหมาะสมที่สุดหาก , แต่ก็ไม่ได้ผลในการก่อให้เกิดผลลัพธ์มาก 's) β=1β^=5xβ=5x

  • สิ่งนี้ไม่ได้คำนึงถึงความไม่แน่นอนของβ

วรรณกรรมเก่า (เป็นที่ยอมรับ) จัดการกับปัญหาเหล่านี้จำนวนมากในลักษณะที่เป็นกิจวัตรและเสนอวิธีแก้ปัญหาที่ดีที่สุด: "เลือกภูมิภาคของที่คุณคิดว่าน่าจะนำไปสู่ทั้ง 0 และ 1 จนกระทั่งเป็นตัวอย่าง กำหนดไว้แล้วใช้ MLE เพื่อเลือก "xx

การวิเคราะห์แบบเบย์คือการเริ่มต้นก่อนหาที่มีข้อมูลมากที่สุดเกี่ยวกับให้ความรู้ปัจจุบันทำซ้ำจนกว่าการบรรจบกันxβ

ระบุว่านี่เป็นปัญหาที่เริ่มต้นโดยไม่มีข้อมูลและต้องการข้อมูลเกี่ยวกับให้เลือกฉันคิดว่ามันไม่อาจปฏิเสธได้ว่าวิธีการแบบเบย์จำเป็น แม้แต่วิธีการบ่อยก็แนะนำให้ใช้ข้อมูลก่อนหน้า วิธีการแบบเบย์นั้นทำได้อย่างมีประสิทธิภาพและมีเหตุผลมากขึ้นβx

นอกจากนี้ก็มีเหตุผลโดยสิ้นเชิงในการวิเคราะห์ข้อมูลที่มาในวิธี frequentist (หรือละเว้นก่อน) แต่มันเป็นเรื่องยากมากที่จะเถียงกับการใช้วิธีการแบบเบย์จะเลือกต่อไปxx


1

ฉันกำลังคิดถึงคำถามนี้เมื่อเร็ว ๆ นี้และฉันคิดว่าฉันมีตัวอย่างที่ Bayesian เข้าท่าโดยใช้ความน่าจะเป็นก่อนหน้านี้: อัตราส่วนความน่าจะเป็นของการทดสอบทางคลินิก

ตัวอย่างอาจเป็นเช่นนี้: ความถูกต้องของ dipslide ปัสสาวะภายใต้เงื่อนไขการปฏิบัติประจำวัน (Family Practice 2003; 20: 410-2) ความคิดคือการดูว่าผลบวกของการลดลงของปัสสาวะหมายถึงการวินิจฉัยการติดเชื้อในปัสสาวะ อัตราส่วนความน่าจะเป็นของผลบวกคือ:

LR(+)=test+|H+test+|H=Sensibility1specificity
กับสมมติฐานของการติดเชื้อในปัสสาวะและไม่มีการติดเชื้อในปัสสาวะ สิ่งที่ Bayes บอกกับเราคือH+H

OR(+|test+)=LR(+)×OR(+)
โดยที่เป็นอัตราต่อรอง เป็นอัตราส่วนคี่ของการติดเชื้อในปัสสาวะโดยรู้ว่าการทดสอบนั้นเป็นค่าบวกและอัตราส่วนคี่ก่อนหน้านี้OROR(+|test+)OR(+)

บทความให้ว่าและ0.29LR(+)=12.2LR()=0.29

ความรู้ก่อนหน้านี้คือความน่าจะเป็นที่จะมีการติดเชื้อในปัสสาวะจากการวิเคราะห์ทางคลินิกของผู้ป่วยที่อาจเกิดขึ้นก่อนที่จะทำการทดสอบ ถ้าแพทย์ประเมินว่าความน่าจะเป็นนี้คือจากการสังเกตการทดสอบเชิงบวกจะนำไปสู่ความน่าจะเป็นหลังการลงรายการบัญชีของและถ้าการทดสอบเป็นลบP + | t e s t + = 0.96 p + | t e s t - = 0.37p+=2/3p+|test+=0.96p+|test=0.37

ที่นี่การทดสอบเป็นสิ่งที่ดีในการตรวจสอบการติดเชื้อ แต่ไม่ดีที่จะทิ้งการติดเชื้อ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.