คำถามติดแท็ก bayesian

การอนุมานแบบเบย์เป็นวิธีการอนุมานเชิงสถิติที่อาศัยการรักษาพารามิเตอร์แบบจำลองเป็นตัวแปรสุ่มและการใช้ทฤษฎีบทของเบส์เพื่ออนุมานความน่าจะเป็นแบบอัตนัยเกี่ยวกับพารามิเตอร์หรือสมมติฐานตามเงื่อนไขบนชุดข้อมูลที่สังเกต

1
พารามิเตอร์เทียบกับตัวแปรแฝง
ฉันเคยถามเรื่องนี้มาก่อนและพยายามดิ้นรนกับการระบุสิ่งที่ทำให้พารามิเตอร์โมเดลและสิ่งที่ทำให้มันเป็นตัวแปรแฝง ดังนั้นเมื่อดูที่หัวข้อต่างๆในหัวข้อนี้ในเว็บไซต์นี้ความแตกต่างหลัก ๆ น่าจะเป็น: ตัวแปรแฝงไม่ได้ถูกสังเกต แต่มีการแจกแจงความน่าจะเป็นที่เกี่ยวข้องกับมันเนื่องจากมันเป็นตัวแปรและพารามิเตอร์ก็ไม่ได้ถูกสังเกตและไม่มีการแจกแจงที่เกี่ยวข้องกับพวกมันซึ่งฉันเข้าใจว่ามันเป็นค่าคงที่และมีค่าคงที่ หา. นอกจากนี้เราสามารถใส่ค่าพารามิเตอร์ให้กับตัวแทนเพื่อแสดงถึงความไม่แน่นอนของเราเกี่ยวกับพารามิเตอร์เหล่านี้แม้ว่าจะมีค่าจริงเพียงค่าเดียวที่เกี่ยวข้องกับพวกเขาหรืออย่างน้อยนั่นคือสิ่งที่เราคิด ฉันหวังว่าฉันถูกต้องจนถึงตอนนี้? ตอนนี้ฉันได้ดูตัวอย่างนี้สำหรับการถดถอยเชิงเส้นแบบเบย์แบบถ่วงน้ำหนักจากวารสารและพยายามดิ้นรนจริงๆที่จะเข้าใจว่าอะไรคือพารามิเตอร์และตัวแปรคืออะไร: yi=βTxi+ϵyiyi=βTxi+ϵyi y_i = \beta^T x_i + \epsilon_{y_i} ที่นี่และyถูกสังเกต แต่yเท่านั้นที่ถือว่าเป็นตัวแปรเช่นมีการกระจายที่เกี่ยวข้องกับมันxxxyyyyyy ตอนนี้สมมติฐานการสร้างแบบจำลองคือ: y∼N(βTxi,σ2/wi)y∼N(βTxi,σ2/wi) y \sim N(\beta^Tx_i, \sigma^2/w_i) ดังนั้นความแปรปรวนของจึงถูกถ่วงน้ำหนักyyy นอกจากนี้ยังมีการแจกแจงก่อนหน้าในและwซึ่งเป็นการแจกแจงแบบปกติและแกมมาตามลำดับ ββ\betawww ดังนั้นโอกาสในการบันทึกอย่างสมบูรณ์จะได้รับจาก: logp(y,w,β|x)=ΣlogP(yi|w,β,xi)+logP(β)+ΣlogP(wi)log⁡p(y,w,β|x)=Σlog⁡P(yi|w,β,xi)+log⁡P(β)+Σlog⁡P(wi) \log p(y, w, \beta |x) = \Sigma \log P(y_i|w, \beta, x_i) + \log P(\beta) + \Sigma \log P(w_i) ตอนนี้ฉันเข้าใจแล้วทั้งและwคือพารามิเตอร์ของแบบจำลอง อย่างไรก็ตามในเอกสารพวกเขาอ้างถึงพวกเขาเป็นตัวแปรแฝง …

1
มีคอนจูเกตก่อนหน้าการกระจาย Laplace หรือไม่?
มีคอนจูเกตก่อนหน้าการกระจาย Laplaceหรือไม่? ถ้าไม่เป็นเช่นนั้นมีการแสดงออกของรูปแบบปิดที่รู้จักกันซึ่งใกล้เคียงกับหลังสำหรับพารามิเตอร์ของการกระจาย Laplace หรือไม่? ฉันไปรอบ ๆ ค่อนข้างมากโดยไม่ประสบความสำเร็จดังนั้นการเดาปัจจุบันของฉันคือ "ไม่" สำหรับคำถามด้านบน ...

1
Hamiltonian Monte Carlo และการเว้นวรรคพารามิเตอร์ที่ไม่ต่อเนื่อง
ฉันเพิ่งเริ่มสร้างแบบจำลองในสแตน ; เพื่อสร้างความคุ้นเคยกับเครื่องมือฉันกำลังทำงานผ่านแบบฝึกหัดในการวิเคราะห์ข้อมูลแบบเบย์ (2nd ed.) Waterbuck ออกกำลังกายซึมว่าข้อมูลกับ( N , θ )ที่ไม่รู้จัก ตั้งแต่มิล Monte Carlo ไม่อนุญาตให้มีพารามิเตอร์ที่ไม่ต่อเนื่องผมเคยประกาศNเป็นจริง∈ [ 72 , ∞ )และรหัสการกระจายทวินามจริงมูลค่าโดยใช้ฟังก์ชั่นn ∼ ทวินาม( N, θ )n∼binomial(N,θ)n \sim \text{binomial}(N, \theta)( N, θ )(N,θ)(N, \theta)ยังไม่มีข้อความNN∈ [ 72 , ∞ )∈[72,∞)\in [72, \infty)lbeta ฮิสโตแกรมของผลลัพธ์ดูเหมือนจะเหมือนกับสิ่งที่ฉันพบโดยคำนวณความหนาแน่นด้านหลังโดยตรง อย่างไรก็ตามฉันกังวลว่าอาจมีเหตุผลบางอย่างที่ฉันไม่ควรเชื่อถือผลลัพธ์เหล่านี้โดยทั่วไป เนื่องจากการอนุมานมูลค่าจริงบนกำหนดความน่าจะเป็นบวกให้กับค่าที่ไม่ใช่จำนวนเต็มเรารู้ว่าค่าเหล่านี้เป็นไปไม่ได้เนื่องจาก waterbuck ที่เป็นเศษส่วนไม่มีอยู่จริง ในทางกลับกันผลลัพธ์ดูเหมือนจะดีดังนั้นการทำให้เข้าใจง่ายจะไม่มีผลต่อการอนุมานในกรณีนี้ยังไม่มีข้อความNN มีหลักการหรือกฎของหัวแม่มือสำหรับการสร้างแบบจำลองด้วยวิธีนี้หรือไม่หรือเป็นวิธีการ "ส่งเสริม" พารามิเตอร์ที่ไม่ต่อเนื่องกับการปฏิบัติที่ไม่ดีจริงหรือไม่?

2
ขนาดตัวอย่างที่มีประสิทธิภาพสำหรับการอนุมานหลังจากการสุ่มตัวอย่าง MCMC
เมื่อได้รับตัวอย่าง MCMC เพื่อทำการอนุมานพารามิเตอร์ที่เฉพาะเจาะจงอะไรคือคำแนะนำที่ดีสำหรับจำนวนตัวอย่างที่มีประสิทธิภาพขั้นต่ำที่เราควรตั้งเป้าหมายไว้? และคำแนะนำนี้เปลี่ยนไปเมื่อแบบจำลองมีความซับซ้อนมากขึ้นหรือน้อยลงหรือไม่?

2
เหตุใดปัญหารกรุงรังจึงไม่สามารถทำได้สำหรับตัวอย่างขนาดใหญ่
สมมติว่าเรามีชุดของจุด\} แต่ละจุดถูกสร้างขึ้นโดยใช้การกระจาย เพื่อให้ได้มาซึ่งหลังสำหรับเราเขียน ตามที่กระดาษ Minka ฯ เมื่อวันที่คาดว่าจะมีการขยายพันธุ์ที่เราต้องการคำนวณที่จะได้รับหลังและดังนั้นปัญหาจะกลายเป็นยากสำหรับตัวอย่างที่มีขนาดใหญ่ขนาดNอย่างไรก็ตามฉันไม่สามารถเข้าใจได้ว่าทำไมเราถึงต้องคำนวณจำนวนนี้ในกรณีนี้เพราะสำหรับเดี่ยวy ฉัน p ( y i | x ) = 1y={y1,y2,…,yN}y={y1,y2,…,yN}\mathbf{y} = \{y_1, y_2, \ldots, y_N \}yiyiy_ixP(x|Y)αP(Y|x)P(x)=P(x) N Πฉัน=1P(Yฉัน|x) 2Np(x|y)Nyip(yi|x)=12N(x,1)+12N(0,10).p(yi|x)=12N(x,1)+12N(0,10). p(y_i| x) = \frac12 \mathcal{N}(x, 1) + \frac12 \mathcal{N}(0, 10). xxxp(x|y)∝p(y|x)p(x)=p(x)∏i=1Np(yi|x).p(x|y)∝p(y|x)p(x)=p(x)∏i=1Np(yi|x). p(x| \mathbf{y}) \propto p(\mathbf{y}| x) p(x) = p(x) \prod_{i = 1}^N p(y_i | …

1
ช่วยฉันเข้าใจค่าในค่า Bayesian glm
ฉันกำลังพยายามที่จะใช้ logit คชกรรมกับข้อมูลที่นี่ ฉันใช้bayesglm()ในarmแพ็คเกจใน R การเข้ารหัสนั้นตรงไปตรงมามากพอ: df = read.csv("http://dl.dropbox.com/u/1791181/bayesglm.csv", header=T) library(arm) model = bayesglm(PASS ~ SEX + HIGH, family=binomial(link="logit"), data=df) summary(model) ให้เอาต์พุตต่อไปนี้: Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.10381 0.10240 1.014 0.311 SEXMale 0.02408 0.09363 0.257 0.797 HIGH -0.27503 0.03562 -7.721 1.15e-14 *** --- Signif. codes: 0 ‘***’ …
13 r  bayesian  p-value 

4
มีแบบฝึกหัดใดบ้างเกี่ยวกับทฤษฎีความน่าจะเป็นแบบเบย์หรือแบบจำลองกราฟิกโดยใช้ตัวอย่าง?
ฉันเคยเห็นการอ้างอิงถึงการเรียนรู้ทฤษฎีความน่าจะเป็นแบบเบย์ใน R และฉันสงสัยว่ามีอะไรมากกว่านี้บางทีใน Python โดยเฉพาะ มุ่งสู่การเรียนรู้ทฤษฎีความน่าจะเป็นแบบเบย์การอนุมานการประมาณความน่าจะเป็นสูงสุดแบบจำลองกราฟิกและการเรียงลำดับ?

5
R ทางเลือกเดียวของ BUGS [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดเมื่อปีที่แล้ว ฉันกำลังติดตามหลักสูตรเกี่ยวกับสถิติแบบเบย์โดยใช้ BUGS และ R ตอนนี้ฉันรู้แล้วว่า BUGS มันเยี่ยมมาก แต่ฉันไม่ชอบการใช้โปรแกรมแยกต่างหากแทนที่จะเป็นอาร์ ฉันได้อ่านแล้วว่ามีแพ็คเกจ Bayesian ใหม่จำนวนมากใน R. มีรายการหรือการอ้างอิงว่ามีแพ็คเกจใดบ้างสำหรับสถิติ Bayesian และสิ่งเหล่านี้มีอะไรบ้าง และมีแพ็คเกจ R ที่เป็นทางเลือกสำหรับความยืดหยุ่นของ BUGS หรือไม่?
13 r  bayesian  bugs 

1
อัตราส่วนความน่าจะเป็นและการเปรียบเทียบตัวแบบเบย์ให้ทางเลือกที่ดีกว่าและเพียงพอสำหรับการทดสอบสมมติฐานว่างหรือไม่?
ในการตอบสนองต่อร่างกายที่เพิ่มขึ้นของนักสถิติและนักวิจัยที่วิพากษ์วิจารณ์ยูทิลิตี้ของการทดสอบสมมติฐานว่าง (NHT) สำหรับวิทยาศาสตร์เป็นความพยายามสะสมสมาคมจิตวิทยาอเมริกันกองเรือรบในการอนุมานทางสถิติหลีกเลี่ยงการห้ามทันที NHT แต่แทนที่จะแนะนำว่านักวิจัย รายงานขนาดเอฟเฟกต์เพิ่มเติมจากค่า p ที่ได้จาก NHT อย่างไรก็ตามขนาดของเอฟเฟกต์นั้นไม่สามารถสะสมได้ง่ายในการศึกษา วิธีการวิเคราะห์ Meta สามารถสะสมการกระจายขนาดผล แต่โดยทั่วไปขนาดคำนวณเป็นอัตราส่วนระหว่างขนาดผลดิบและ "เสียง" ไม่ได้อธิบายในข้อมูลของการทดลองที่กำหนดหมายความว่าการกระจายขนาดของผลกระทบไม่เพียง ความแปรปรวนในขนาดที่แท้จริงของผลกระทบในการศึกษา แต่ยังมีความแปรปรวนในการแสดงของเสียงในการศึกษา ในทางตรงกันข้ามการวัดทางเลือกของความแข็งแรงของเอฟเฟกต์อัตราส่วนความน่าจะเป็นช่วยให้ตีความได้ง่ายทั้งบนพื้นฐานการศึกษาโดยการศึกษาและสามารถรวบรวมได้ง่ายในการศึกษาเพื่อการวิเคราะห์อภิมาน ในแต่ละการศึกษาโอกาสที่จะแสดงน้ำหนักของหลักฐานสำหรับแบบจำลองที่มีผลกระทบที่กำหนดเมื่อเทียบกับแบบจำลองที่ไม่ได้มีผลกระทบและโดยทั่วไปสามารถรายงานเป็นตัวอย่างเช่น "การคำนวณอัตราส่วนความน่าจะเป็นสำหรับผลของ X เผยหลักฐานเพิ่มเติมอีก 8 เท่าสำหรับเอฟเฟกต์มากกว่าโมฆะที่เกี่ยวข้อง " ยิ่งไปกว่านั้นอัตราส่วนความน่าจะเป็นยังอนุญาตให้แสดงถึงความแข็งแกร่งของการค้นพบโมฆะได้อย่างง่าย ๆ ในขณะที่อัตราส่วนความน่าจะเป็นต่ำกว่า 1 แสดงสถานการณ์ที่โมฆะได้รับการสนับสนุนและรับส่วนกลับของค่านี้แทนน้ำหนักของหลักฐาน โดยเฉพาะอย่างยิ่ง อัตราส่วนความน่าจะเป็นทางคณิตศาสตร์เป็นอัตราส่วนของความแปรปรวนที่ไม่ได้อธิบายของทั้งสองรุ่นซึ่งแตกต่างกันเฉพาะในความแปรปรวนที่อธิบายโดยผลกระทบและจึงไม่ได้เป็นแนวคิดขนาดใหญ่ออกจากขนาดผล ในอีกทางหนึ่งการคำนวณอัตราส่วนความน่าจะเป็น meta-analytic ซึ่งแสดงถึงน้ำหนักของหลักฐานสำหรับผลในการศึกษาเป็นเพียงเรื่องของการใช้ผลิตภัณฑ์ของอัตราส่วนความน่าจะเป็นในการศึกษา ดังนั้นฉันยืนยันว่าสำหรับวิทยาศาสตร์ที่กำลังมองหาเพื่อสร้างระดับของหลักฐานขั้นต้นในความโปรดปรานของผลกระทบ / แบบจำลองอัตราส่วนความน่าจะเป็นเป็นวิธีที่จะไป มีกรณีที่เหมาะสมยิ่งขึ้นซึ่งโมเดลสามารถสร้างความแตกต่างได้เฉพาะในขนาดเฉพาะของเอฟเฟกต์ซึ่งในกรณีนี้การแสดงช่วงเวลาที่เราเชื่อว่าข้อมูลสอดคล้องกับค่าพารามิเตอร์เอฟเฟกต์อาจต้องการ อันที่จริงคณะทำงาน APA ยังแนะนำให้มีการรายงานช่วงเวลาความเชื่อมั่นซึ่งสามารถนำมาใช้ในการนี้ แต่ฉันสงสัยว่านี่เป็นวิธีการที่ไม่ดี ช่วงความเชื่อมั่นมักตีความผิดอย่างน่าเศร้า ( โดยนักเรียนและนักวิจัยเหมือนกัน ) ฉันยังกลัวว่าความสามารถของพวกเขาสำหรับใช้ใน NHT …

1
ฉันสามารถทำการวินิจฉัยการบรรจบกันของ MCMC แบบกึ่งอัตโนมัติเพื่อตั้งค่าความยาวเบิร์นอินได้หรือไม่?
ฉันต้องการให้ตัวเลือกการเบิร์นอินสำหรับเครือข่าย MCMC โดยอัตโนมัติเช่นโดยการลบแถว n แรกตามการวิเคราะห์การลู่เข้า ขั้นตอนนี้จะปลอดภัยโดยอัตโนมัติในระดับใด แม้ว่าฉันจะยังตรวจสอบ autocorrelation, การติดตาม mcmc และ PDF อีกครั้งมันก็ดีถ้ามีทางเลือกในการเบิร์นอินแบบอัตโนมัติ คำถามของฉันเป็นเรื่องทั่วไป แต่มันจะดีถ้าคุณสามารถให้ข้อมูลเฉพาะสำหรับการจัดการกับ R mcmc.object; ฉันใช้แพ็คเกจ rjags และ coda ใน R
13 r  bayesian  mcmc 

3
การทำความเข้าใจ MCMC: ทางเลือกอื่นจะเป็นอย่างไร
การเรียนรู้สถิติแบบเบย์เป็นครั้งแรก ในมุมมองของการทำความเข้าใจ MCMC ฉันสงสัยว่า: มันเป็นการทำสิ่งที่ไม่สามารถทำได้โดยพื้นฐานหรือไม่หรือมันแค่ทำสิ่งที่มีประสิทธิภาพมากกว่าทางเลือกหรือไม่? โดยวิธีการภาพประกอบสมมติว่าเรากำลังพยายามที่จะคำนวณความน่าจะเป็นของพารามิเตอร์ของเราได้รับข้อมูลกำหนดรูปแบบที่คำนวณตรงข้ามเป็นz) การคำนวณนี้โดยตรงกับ Bayes' ทฤษฎีบทเราต้องหารเป็นแหลมออกที่นี่ แต่เราสามารถคำนวณได้โดยรวมเข้าด้วยกันพูดดังนี้:P(x,y,z|D)P(x,y,z|D)P(x,y,z|D)P(D|x,y,z)P(D|x,y,z)P(D|x,y,z)P(D)P(D)P(D) p_d = 0. for x in range(xmin,xmax,dx): for y in range(ymin,ymax,dy): for z in range(zmin,zmax,dz): p_d_given_x_y_z = cdf(model(x,y,z),d) p_d += p_d_given_x_y_z * dx * dy * dz การทำงานนั้น (แม้ว่าจะไม่มีประสิทธิภาพกับตัวแปรจำนวนมากขึ้น) หรือมีอย่างอื่นที่จะทำให้วิธีการนี้ล้มเหลวหรือไม่
13 bayesian  mcmc 

1
ทำไมตัวจําแนกแบบไร้เดียงสาเบย์จึงเหมาะสมที่สุดสําหรับการสูญเสีย 0-1
ตัวจําแนก Naive Bayes เป็นตัวจําแนกซึ่งกําหนดรายการให้กับคลาสCโดยใช้การเพิ่มหลังP ( C | x )สําหรับสมาชิกระดับสูงสุดและถือว่าคุณสมบัติของรายการนั้นเป็นอิสระxxxคCCP( C| x)P(C|x)P(C|x) การสูญเสีย 0-1 คือการสูญเสียซึ่งกำหนดให้การสูญเสียประเภทใด ๆ ของการจำแนก "1" และการสูญเสีย "0" ไปยังการจำแนกประเภทที่ถูกต้อง ฉันมักจะอ่าน (1) ว่าลักษณนาม "Naive Bayes" ดีที่สุดสำหรับการสูญเสีย 0-1 ทำไมเรื่องนี้ถึงเป็นจริง? (1) แหล่งที่เป็นแบบอย่างหนึ่งแหล่ง: ตัวจําแนกBayes และข้อผิดพลาด Bayes

2
ฟังก์ชั่นความแปรปรวนร่วมหรือเมล็ด - พวกมันคืออะไรกันแน่?
ฉันค่อนข้างใหม่กับกระบวนการเกาส์เซียนและวิธีการใช้ในการเรียนรู้ของเครื่อง ฉันอ่านและฟังเกี่ยวกับฟังก์ชันความแปรปรวนร่วมซึ่งเป็นจุดดึงดูดหลักของวิธีการเหล่านี้ ดังนั้นทุกคนสามารถอธิบายด้วยวิธีที่เข้าใจง่ายว่าเกิดอะไรขึ้นในฟังก์ชันความแปรปรวนร่วมเหล่านี้? มิฉะนั้นหากคุณสามารถชี้ไปที่บทช่วยสอนหรือเอกสารอธิบาย

1
โอกาสที่จะได้รับผลกระทบเล็กน้อยจากผลผลิตกิ๊บส์
ฉันทำซ้ำตั้งแต่เริ่มต้นผลลัพธ์ในหัวข้อ 4.2.1 จาก โอกาสที่จะได้รับผลกระทบเล็กน้อยจากผลผลิตกิ๊บส์ Siddhartha Chib วารสารสมาคมสถิติอเมริกัน 90, No. 432. (Dec. , 1995), pp. 1313-1321 มันเป็นส่วนผสมของโมเดล normals พร้อมด้วยหมายเลขรู้จัก k≥1k≥1k\geq 1f(x∣w,μ,σ2)=∏i=1n∑j=1kN(xi∣μj,σ2j).(∗)f(x∣w,μ,σ2)=∏i=1n∑j=1kN(xi∣μj,σj2).(∗) f(x\mid w,\mu,\sigma^2) =\prod_{i=1}^n\sum_{j=1}^k \mathrm{N}(x_i\mid\mu_j,\sigma_j^2) \, . \qquad (*) ตัวอย่าง Gibbs สำหรับรุ่นนี้นำมาใช้โดยใช้เทคนิคการเพิ่มข้อมูลของแทนเนอร์และหว่อง ชุดของตัวแปรการจัดสรรสมมติว่ามีค่าและเราระบุว่าและf (x_i \ mid z \ หมู่, \ Sigma ^ 2) = \ mathrm {N} (x_i \ กลาง \ …

1
การอนุมานเครือข่ายแบบเบย์โดยใช้ pymc (ความสับสนของผู้เริ่มต้น)
ฉันกำลังเรียนหลักสูตร PGM โดย Daphne Koller บน Coursera โดยทั่วไปเราจะสร้างแบบจำลองเครือข่ายแบบเบย์เป็นเหตุและผลของกราฟกำกับของตัวแปรซึ่งเป็นส่วนหนึ่งของข้อมูลที่สังเกตได้ แต่ในบทเรียนและตัวอย่างของ PyMC ฉันเห็นว่ามันไม่ได้เป็นแบบอย่างในแบบเดียวกับ PGM หรือ atleast ที่ฉันสับสน ใน PyMC ผู้ปกครองของตัวแปรโลกแห่งความเป็นจริงใด ๆ ที่สังเกตได้มักจะเป็นพารามิเตอร์ของการแจกแจงที่คุณใช้ในการสร้างแบบจำลองตัวแปร ตอนนี้คำถามของฉันเป็นคำถามที่ใช้งานได้จริง สมมติว่าฉันมี 3 ตัวแปรซึ่งข้อมูลถูกสังเกต (A, B, C) (สมมติว่าพวกมันเป็นตัวแปรต่อเนื่องทั้งหมดเพียงเพื่อประโยชน์ของมัน) จากความรู้ด้านโดเมนเราสามารถพูดได้ว่า A และ B เป็นสาเหตุของ C ดังนั้นเราจึงมี BN ที่นี่ - A, B เป็นผู้ปกครองและ C คือเด็ก ๆ ตอนนี้จากสมการ BN P (A, B, C) …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.