ความเป็นมา : ฉันมีปริญญาเอกในด้านจิตวิทยาสังคมซึ่งสถิติและคณิตศาสตร์ในเชิงทฤษฎีแทบจะไม่ครอบคลุมในหลักสูตรเชิงปริมาณของฉัน ผ่านการเรียนในระดับปริญญาตรีและระดับบัณฑิตศึกษาฉันได้รับการสอน (เช่นเดียวกับพวกคุณหลายคนในสังคมศาสตร์ด้วย) ผ่านโครงร่างของนักประพันธ์เพลง "คลาสสิค" ตอนนี้ฉันยังรัก R และใช้วิธีการจำลองเพื่อตรวจสอบว่าวิธีการทำงานเป็นวิธีความรู้สึกของฉันมากกว่าการพิสูจน์ทางคณิตศาสตร์ (อีกครั้ง: ภูมิหลังในเชิงสังคมศาสตร์เชิงปริมาณไม่ใช่สถิติเชิงทฤษฎี) วิธีการของผู้ใช้บ่อยและวิธีการจำลองด้วยกันทำให้ฉันมีเหตุผล เพราะผู้ที่พบเห็นความน่าจะเป็นเป็นอัตราเดิมพันระยะยาว (เช่นถ้าฉันทำสิ่งนี้เป็นจำนวนมากตามอำเภอใจและมันเกิดขึ้น 50% ของเวลาก็มีความน่าจะเป็น 50%) เราสามารถจำลองระยะยาวนี้ได้ด้วยวิธีการมอนติคาร์โล!
ภาวะแทรกซ้อน : ตั้งแต่ปริญญาตรีผมได้รับมากตระหนักถึงวิธีการแบบเบย์และมีได้เสมอคนในชีวิตของฉันเรียกฉันไปทางด้านเบส์บอกว่าผลที่ได้ก็ง่ายต่อการตีความที่เราได้รับความน่าจะเป็นสำหรับสมมติฐานแทนของข้อมูล ให้สมมติฐานและอื่น ๆ ฉันเป็นแบบนี้จริง ๆ แล้วเอาชั้นเรียนแบบเบย์อ่านหนังสือและเอกสารแบบเบย์บางอันและตอนนี้ฉันก็ค่อนข้างคุ้นเคยกับสแตนและแพ็คเกจ R ที่เกี่ยวข้อง
ใส่มายอ : หลังจากความคิด "แบบเบย์อาจจะเป็นวิธีของอนาคต" ในขณะที่ผมอ่านเดโบราห์เมโยสถิติอนุมานเป็นรุนแรงทดสอบ เธอบอกว่าเธอไม่ได้เลือกข้างในตอนเริ่มต้นของหนังสือ แต่เธอก็รู้ว่า: เธอเป็นคนที่เรียนบ่อยและหนังสือจำนวนมากกำลังปกป้องวิธีการที่ใช้บ่อย ฉันไม่ต้องการพูดคุยเกี่ยวกับว่าเราคิดว่าวิธีที่เธอเห็นหลักฐานนั้นถูกต้องหรือไม่ แต่สิ่งนี้ทำให้ฉันคิดว่า: Bayes เป็นสิ่งที่โฆษณาจริงๆหรือไม่? ฉันหมายความว่าฝูงชนเบย์แตกหักตัวเองจนฉันไม่รู้วิธีที่ถูกต้องในการวิเคราะห์ข้อมูลในกรอบเบย์บ่อยครั้ง ปกติฉันจะใช้rstanarm
และการประมาณจุดปัจจุบันและช่วงเวลาที่น่าเชื่อถือ ... ซึ่งมักจะเข้าแถวอย่างใกล้ชิดกับการประมาณการบ่อยครั้งและช่วงความเชื่อมั่น ฉันอาจทำการเปรียบเทียบโมเดล แต่ฉันมักจะกลัวที่จะอธิบายปัจจัย Bayes เป็นการเปรียบเทียบความน่าจะเป็นหลังและอื่น ๆ
คิดมากขึ้น : สิ่งที่ฉันคิดต่อไปในหนังสือของมาโยคือ: มีวิธีที่เราสามารถใช้คอมพิวเตอร์เพื่อให้แน่ใจว่าวิธีการของเราใช้งานได้บ่อยเพราะความน่าจะเป็นคือสิ่งที่เราเห็นในระยะยาวและเราสามารถจำลองได้ Bayesians ไม่สามารถเห็นด้วยกับความน่าจะเป็นที่แท้จริงขึ้นอยู่กับโรงเรียนของ Bayesian (ค่าเริ่มต้นอัตนัย ฯลฯ ) ซึ่งทำให้ฉันคำถามของฉัน:
คำถาม : Bayesians ตรวจสอบได้อย่างไรว่าวิธีการของพวกเขากำหนดความไม่แน่นอนอย่างเหมาะสม (เช่นคำนวณระยะเวลาที่น่าเชื่อถือและการแจกแจงหลัง) โดยใช้วิธีการจำลอง Monte Carlo หากความน่าจะเป็นไม่ได้กำหนดไว้ว่าเป็นอัตราในระยะยาว?
ตัวอย่าง : ฉันสร้างตัวสร้างข้อมูล นี่จะเป็นการจำลองจากการแจกแจงเบอร์นูลลีด้วยความน่าจะเป็น 0.5
set.seed(1839)
p <- .50
n <- 100
gen_dat <- function(n, p) {
rbinom(n, 1, p)
}
ทีนี้สมมุติว่าฉันต้องการให้แน่ใจว่าช่วงความเชื่อมั่นในการถดถอยโลจิสติกนั้นใช้ได้จริง ฉันสามารถจำลองการถดถอยเป็นจำนวนมากครั้งและตรวจสอบให้แน่ใจว่ามูลค่าจริงของประชากรอยู่ในช่วงความเชื่อมั่น 95% 95% ของเวลา เป็นโมเดลดักจับเท่านั้นดังนั้นฉันแค่ต้องการให้แน่ใจว่าฉันประมาณp
อย่างถูกต้อง:
set.seed(1839)
iter <- 10000
results <- sapply(seq_len(iter), function(zzz) {
mod <- glm(gen_dat(n, p) ~ 1, binomial)
conf <- suppressMessages(confint(mod))
log(p / (1 - p)) < max(conf) & log(p / (1 - p)) > min(conf)
})
mean(results)
นี้จะใช้เวลานาทีในการทำงาน แต่เราจบลงด้วยการเรียกร้องให้เราmean(results)
0.9416
นี่คือประมาณ 95% และฉันมั่นใจในการบอกว่าglm
คำสั่งอธิบายความไม่แน่นอนในทางที่ถูกต้อง ฉันแน่ใจว่ามันจะเข้าใกล้จมูกได้ถึง 95% ถ้าฉันเติมiter
และอยากรอที่แล็ปท็อปของฉันนานกว่านี้
ในทางกลับกันเราจะพอดีกับแบบจำลอง Bayesian สำหรับสิ่งเดียวกัน:
library(rstanarm)
set.seed(1839)
dat <- data.frame(y = gen_dat(n, p))
stan_mod <- stan_glm(y ~ 1, binomial, dat)
summary(stan_mod)
ในส่วนนี้ให้ฉัน:
Estimates:
mean sd 2.5% 25% 50% 75% 97.5%
(Intercept) -0.1 0.2 -0.5 -0.2 -0.1 0.0 0.3
mean_PPD 0.5 0.1 0.3 0.4 0.5 0.5 0.6
log-posterior -73.0 0.7 -75.1 -73.1 -72.7 -72.5 -72.5
เนื่องจาก Bayesians ไม่ได้กำหนดความน่าจะเป็นเหมือนที่เราเห็นในระยะยาวฉันจะใช้วิธีการจำลองในการตรวจสอบมากกว่าที่จะตรวจสอบstan_glm
ความไม่แน่นอนได้อย่างไร นั่นคือฉันจะมั่นใจได้อย่างไรว่าช่วงเวลาที่น่าเชื่อถือเหล่านี้ใช้ได้โดยใช้วิธีการจำลอง และตอนนี้ฉันไม่ได้กำหนดมาก่อน - การรวมนักบวชเข้ามาเล่นที่นี่ได้อย่างไรเนื่องจากจะส่งผลต่อการวัดความไม่แน่นอนของเรา
เมื่อฉันพยายามเขียนการถดถอยเบต้าด้วยองค์ประกอบตัวแบบกระโดดข้ามใน Stan ตั้งแต่เริ่มต้นฉันมีคนแนะนำให้ฉัน: "จำลองข้อมูลทำหลาย ๆ ครั้งและการประมาณจริงควรอยู่ในช่วงเวลาที่น่าเชื่อถือประมาณ 95 % ของเวลา " แต่สำหรับฉันมันขัดแย้งกับสิ่งที่ Bayesians เชื่อมั่น! นั่นขึ้นอยู่กับความเข้าใจถึงความน่าจะเป็นที่เกิดขึ้นเป็นประจำ! ดังนั้น Bayesian จะทำให้ฉันมั่นใจได้อย่างไรว่าช่วงเวลาที่น่าเชื่อถือที่ฉันได้รับจากการsummary()
โทรไปยังแบบจำลองของฉันอธิบายความไม่แน่นอนได้อย่างแม่นยำโดยใช้วิธีการจำลอง
วัตถุประสงค์ของคำถาม : นี่เป็นตัวอย่างเล็กน้อย แต่หลายครั้งที่ลูกค้าให้ฉันมีปัญหาที่ยาก และฉันลองสิ่งที่ฉันไม่คุ้นเคยดังนั้นฉันมักจะทำการศึกษาแบบจำลองเพื่อให้แน่ใจว่าสิ่งที่ฉันกำลังทำนั้นถูกต้อง ถ้าฉันจะเขียนโมเดลที่กำหนดเองในสแตนฉันจะรู้ได้อย่างไรว่าสิ่งที่ฉันทำนั้นถูกต้อง? ฉันจะใช้วิธีจำลองสถานการณ์เพื่อตรวจสอบว่าสิ่งที่ฉันทำในสแตนนั้นจริง ๆ แล้วจะบอกฉันว่าฉันอยากรู้อะไร