คำถามติดแท็ก bayesian

การอนุมานแบบเบย์เป็นวิธีการอนุมานเชิงสถิติที่อาศัยการรักษาพารามิเตอร์แบบจำลองเป็นตัวแปรสุ่มและการใช้ทฤษฎีบทของเบส์เพื่ออนุมานความน่าจะเป็นแบบอัตนัยเกี่ยวกับพารามิเตอร์หรือสมมติฐานตามเงื่อนไขบนชุดข้อมูลที่สังเกต

2
เหตุใดจึงใช้การแจกแจงแบบเบต้าบนพารามิเตอร์ Bernoulli สำหรับการถดถอยโลจิสติกแบบลำดับชั้น
ฉันกำลังอ่านหนังสือ "Doing Bayesian Data Analysis" ที่ยอดเยี่ยมของ Kruschke อย่างไรก็ตามบทที่เกี่ยวกับการถดถอยโลจิสติกแบบลำดับชั้น (บทที่ 20) ค่อนข้างสับสน รูปที่ 20.2 อธิบายการถดถอยโลจิสติกแบบลำดับชั้นที่พารามิเตอร์ Bernoulli ถูกกำหนดเป็นฟังก์ชันเชิงเส้นของสัมประสิทธิ์ที่ถูกแปลงผ่านฟังก์ชัน sigmoid นี่น่าจะเป็นวิธีการถดถอยโลจิสติกแบบลำดับชั้นในตัวอย่างส่วนใหญ่ที่ฉันเคยเห็นในแหล่งอื่น ๆ ทางออนไลน์เช่นกัน ตัวอย่างเช่น - http://polisci2.ucsd.edu/cfariss/code/SIMlogit02.bug อย่างไรก็ตามเมื่อตัวทำนายมีค่าน้อยที่สุดเขาจะเพิ่มเลเยอร์ในลำดับชั้น - พารามิเตอร์ Bernoulli ถูกดึงมาจากการแจกแจงแบบเบต้า (รูปที่ 20.5) ด้วยพารามิเตอร์ที่กำหนดโดย mu และ kappa โดยที่ mu คือการแปลง sigmoid ของฟังก์ชันเชิงเส้นของสัมประสิทธิ์ และคัปปาใช้แกมมามาก่อน ดูเหมือนว่าจะสมเหตุสมผลและคล้ายคลึงกับตัวอย่างการพลิกเหรียญจากบทที่ 9 แต่ฉันไม่เห็นว่าการคาดการณ์เล็กน้อยจะทำอย่างไรกับการเพิ่มการแจกแจงแบบเบต้า เหตุใดจึงไม่ทำเช่นนี้ในกรณีของตัวทำนายเมตริกและทำไมการแจกแจงเบต้าถูกเพิ่มเข้ามาสำหรับตัวทำนายที่ระบุ? แก้ไข:ชี้แจงเกี่ยวกับรูปแบบที่ฉันหมายถึง ก่อนอื่นโมเดลการถดถอยโลจิสติกพร้อมตัวทำนายเมตริก (ไม่มีเบต้าก่อน) นี่คล้ายกับตัวอย่างอื่น ๆ ของการถดถอยโลจิสติกส์แบบลำดับชั้นเช่นตัวอย่างข้อบกพร่องด้านบน: …

3
ความน่าจะเป็นและการกระจายแบบมีเงื่อนไขสำหรับการวิเคราะห์แบบเบย์
เราสามารถเขียนทฤษฎีบทของเบย์ได้ p(θ|x)=f(X|θ)p(θ)∫θf(X|θ)p(θ)dθp(θ|x)=f(X|θ)p(θ)∫θf(X|θ)p(θ)dθp(\theta|x) = \frac{f(X|\theta)p(\theta)}{\int_{\theta} f(X|\theta)p(\theta)d\theta} โดยที่คือด้านหลังคือการแจกแจงแบบมีเงื่อนไขและเป็นค่าก่อนหน้าp(θ|x)p(θ|x)p(\theta|x)f(X|θ)f(X|θ)f(X|\theta)p(θ)p(θ)p(\theta) หรือ p(θ|x)=L(θ|x)p(θ)∫θL(θ|x)p(θ)dθp(θ|x)=L(θ|x)p(θ)∫θL(θ|x)p(θ)dθp(\theta|x) = \frac{L(\theta|x)p(\theta)}{\int_{\theta} L(\theta|x)p(\theta)d\theta} โดยที่คือด้านหลังเป็นฟังก์ชันความน่าจะเป็นและเป็นหน้าที่ก่อนp(θ|x)p(θ|x)p(\theta|x)L(θ|x)L(θ|x)L(\theta|x)p(θ)p(θ)p(\theta) คำถามของฉันคือ ทำไมการวิเคราะห์แบบเบย์ทำโดยใช้ฟังก์ชันความน่าจะเป็นและไม่ใช่การแจกแจงแบบมีเงื่อนไข คุณสามารถพูดด้วยคำพูดว่าโอกาสและการแจกแจงแบบมีเงื่อนไขแตกต่างกันอย่างไร? ฉันรู้ว่าโอกาสไม่ได้เป็นการกระจายความน่าจะเป็นและtheta)L(θ|x)∝f(X|θ)L(θ|x)∝f(X|θ)L(\theta|x) \propto f(X|\theta)

5
การกำหนดมาตรฐานตัวแปรอิสระจะช่วยลดความเหลื่อมล้ำหรือไม่?
ฉันเจอข้อความที่ดีมากใน Bayes / MCMC ฝ่ายไอทีแนะนำว่าการสร้างมาตรฐานของตัวแปรอิสระของคุณจะทำให้อัลกอริทึม MCMC (Metropolis) มีประสิทธิภาพมากขึ้น นั่นเป็นเรื่องจริงเหรอ? นี่คือสิ่งที่ฉันควรทำตามมาตรฐาน (ขออภัย) Kruschke 2011, ทำการวิเคราะห์ข้อมูลแบบเบย์ (AP) แก้ไข: ตัวอย่างเช่น > data(longley) > cor.test(longley$Unemployed, longley$Armed.Forces) Pearson's product-moment correlation data: longley$Unemployed and longley$Armed.Forces t = -0.6745, df = 14, p-value = 0.5109 alternative hypothesis: true correlation is not equal to 0 95 percent confidence …

1
วัตถุประสงค์กับกระบวนทัศน์เบย์เซียนแบบอัตนัย
อะไรคือความแตกต่างระหว่างวัตถุประสงค์และทัศนะแบบเบย์แบบอัตนัย? วัตถุหรือขั้นตอนใดที่พวกเขานิยามหรือตีความแตกต่างกัน มีวิธีใดบ้างในการเลือกวิธีการของพวกเขา?

3
นักวิจัย 1 ทำงาน 1,000 การถดถอยนักวิจัย 2 ทำงานเพียง 1 ทั้งสองได้ผลลัพธ์เดียวกัน - พวกเขาควรทำการอนุมานที่แตกต่างกันหรือไม่
ลองนึกภาพนักวิจัยกำลังสำรวจชุดข้อมูลและเรียกใช้การถดถอยที่แตกต่างกัน 1,000 รายการและเขาพบว่ามีความสัมพันธ์ที่น่าสนใจหนึ่งอย่างในหมู่พวกเขา ทีนี้ลองนึกภาพว่านักวิจัยอีกคนที่มีข้อมูลเดียวกัน ทำงานเพียง 1 การถดถอยและมันกลับกลายเป็นว่าเป็นสิ่งเดียวกับที่นักวิจัยคนอื่นเอามา 1,000 การค้นหา นักวิจัย 2 ไม่รู้จักนักวิจัย 1 นักวิจัย 1 ควรอนุมานต่างจากนักวิจัย 2 หรือไม่? ทำไม? ตัวอย่างเช่นนักวิจัย 1 ควรทำการแก้ไขการเปรียบเทียบหลายรายการ แต่นักวิจัย 2 ไม่ควร? หากนักวิจัย 2 แสดงให้คุณเห็นการถดถอยเดี่ยวของคุณก่อนคุณจะทำการอนุมานอะไร หากหลังจากนักวิจัยคนที่ 1 แสดงผลลัพธ์ให้คุณคุณควรเปลี่ยนการอนุมานของคุณหรือไม่ ถ้าเป็นเช่นนั้นทำไมมันถึงสำคัญ? ป.ล. 1 : ถ้าพูดถึงนักวิจัยสมมุติที่ทำให้ปัญหาเป็นนามธรรมลองคิดดูสิ: ลองจินตนาการว่าคุณใช้การถดถอยเพียงครั้งเดียวสำหรับกระดาษของคุณโดยใช้วิธีการที่ดีที่สุด จากนั้นนักวิจัยอีกสำรวจ 1000 ถดถอยที่แตกต่างกับข้อมูลเดียวกันจนกระทั่งเขาพบถดถอยเดียวกันแน่นอนคุณขับรถ คุณสองคนควรทำการอนุมานที่แตกต่างกันหรือไม่? หลักฐานนี้เหมือนกันทั้งสองกรณีหรือไม่? คุณควรเปลี่ยนข้อสรุปของคุณถ้าคุณรู้ผลลัพธ์ของนักวิจัยคนอื่น ๆ ? ประชาชนควรประเมินหลักฐานของการศึกษาทั้งสองอย่างไร ป.ล. 2:โปรดพยายามเจาะจงและให้เหตุผลทางคณิตศาสตร์ / ทฤษฎีถ้าเป็นไปได้!

2
ความน่าเชื่อถือของโหมดจากตัวอย่าง MCMC
ในหนังสือของเขา Doing Bayesian Data Analysis John Kruschke ระบุว่าในการใช้ JAGS จาก R ... การประมาณค่าของโหมดจากตัวอย่าง MCMC นั้นค่อนข้างไม่เสถียรเนื่องจากการประมาณจะขึ้นอยู่กับอัลกอริธึมการปรับให้เรียบซึ่งสามารถไวต่อการกระแทกแบบสุ่มและระลอกในตัวอย่าง MCMC (ทำการวิเคราะห์ข้อมูลแบบเบย์ , หน้า 205, ส่วน 8.2.5.1) ในขณะที่ฉันมีความเข้าใจเกี่ยวกับอัลกอริทึม Metropolis และรูปแบบที่แน่นอนเช่นการสุ่มตัวอย่างกิ๊บส์ฉันไม่คุ้นเคยกับอัลกอริธึมที่ราบเรียบที่พูดพาดพิงเกินไปและสาเหตุที่มันหมายถึงการประเมินโหมดจากตัวอย่าง MCMC ไม่เสถียร ทุกคนสามารถให้ข้อมูลเชิงลึกที่เข้าใจง่ายเกี่ยวกับสิ่งที่อัลกอริทึมการปรับให้เรียบและทำไมมันทำให้การประเมินของโหมดไม่เสถียร?
12 bayesian  mcmc  mode 

3
สิ่งที่มีคุณสมบัติเป็นประจำที่ดีหมายถึงอะไร
ฉันมักจะได้ยินวลีนี้ แต่ไม่เคยเข้าใจความหมายทั้งหมด วลีที่ว่า "คุณสมบัติ frequentist ดี" มี ~ 2750 ฮิตใน google ในปัจจุบัน 536 ใน scholar.google.com และ4 stats.stackexchange.com สิ่งที่ใกล้เคียงที่สุดที่ฉันพบกับคำจำกัดความที่ชัดเจนมาจากสไลด์สุดท้ายในการนำเสนอของมหาวิทยาลัยสแตนฟอร์ดซึ่งกล่าวถึง [T] เขาหมายถึงการรายงานช่วงเวลาความมั่นใจ 95% คือคุณ“ ดักจับ” พารามิเตอร์ที่แท้จริงใน 95% ของการอ้างสิทธิ์ที่คุณทำแม้กระทั่งกับปัญหาการประมาณการที่แตกต่างกัน นี่คือลักษณะที่กำหนดของขั้นตอนการประมาณค่าซึ่งมีคุณสมบัติของนักสะสมประจำที่ดีพวกเขาสามารถตรวจสอบได้เมื่อใช้ซ้ำ ๆ สะท้อนให้เห็นถึงเรื่องนี้ฉันคิดว่าวลี "คุณสมบัติบ่อย ๆ ดี" หมายถึงการประเมินของวิธีเบย์บางและโดยเฉพาะอย่างยิ่งวิธีเบส์ในการก่อสร้างช่วงเวลา ผมเข้าใจว่าช่วงเวลาแบบเบย์จะหมายถึงการมีค่าที่แท้จริงของพารามิเตอร์ที่มีความน่าจะเป็นพีช่วงเวลาที่พบบ่อยจะหมายถึงการสร้างเช่นว่าหากกระบวนการของการก่อสร้างช่วงเวลาซ้ำหลายครั้งเกี่ยวกับของช่วงเวลาจะมีค่าที่แท้จริงของพารามิเตอร์ ช่วงเวลาแบบเบย์โดยทั่วไปไม่ได้ให้สัญญาใด ๆ เกี่ยวกับสิ่งที่% ของช่วงเวลาจะครอบคลุมถึงมูลค่าที่แท้จริงของพารามิเตอร์ อย่างไรก็ตามวิธีการแบบเบย์บางครั้งก็มีคุณสมบัติที่ถ้าทำซ้ำหลายครั้งพวกเขาครอบคลุมมูลค่าที่แท้จริงเกี่ยวกับp ∗ 100 % p ∗ 100 %pppp∗100%p∗100%p*100\%p∗100%p∗100%p*100\%ของเวลา เมื่อพวกเขามีคุณสมบัตินั้นเราบอกว่าพวกเขามี "คุณสมบัติที่ดีเป็นประจำ" นั่นถูกต้องใช่ไหม? รูปผมว่าต้องมีมากขึ้นไปกว่านั้นเนื่องจากวลีหมายถึง …

3
สิ่งหนึ่งหมายความว่าอะไรจากการรวมเชิงตัวเลขมีราคาแพงเกินไป?
ฉันกำลังอ่านเกี่ยวกับการอนุมานแบบเบย์และฉันพบวลี "การรวมเชิงตัวเลขของความเป็นไปได้ที่จะมีราคาแพงเกินไป" ฉันไม่มีพื้นฐานด้านคณิตศาสตร์และฉันสงสัยว่าราคาแพงตรงนี้หรือไม่ มันเป็นเพียงในแง่ของพลังการคำนวณหรือมีอะไรมากกว่านั้น

2
เหตุผลสำหรับการผันก่อน?
นอกจากการใช้งานแล้วยังมีเหตุผลอื่นใด (ทางคณิตศาสตร์, ปรัชญา, ฮิวริสติก, ฯลฯ ) สำหรับการใช้นักบวชคอนจูเกตหรือไม่? หรือมันเป็นเพียงแค่ว่าโดยปกติแล้วจะเป็นการประมาณที่ดีพอและทำให้สิ่งต่าง ๆ ง่ายขึ้นมาก?

1
เมื่อใดที่ฉันควรกังวลเกี่ยวกับ Jeffreys-Lindley บุคคลที่ผิดธรรมดาในตัวเลือกแบบจำลอง Bayesian
ฉันกำลังพิจารณาที่มีขนาดใหญ่ ( แต่ จำกัด ) พื้นที่ของรูปแบบที่แตกต่างกันของความซับซ้อนซึ่งผมสำรวจโดยใช้RJMCMC ก่อนหน้าเกี่ยวกับเวกเตอร์พารามิเตอร์สำหรับแต่ละรุ่นมีข้อมูลค่อนข้าง ในกรณีใด (ถ้ามี) ฉันควรกังวลเกี่ยวกับJeffreys-Lindley บุคคลที่ผิดธรรมดานิยมรุ่นที่ง่ายกว่าเมื่อหนึ่งในแบบจำลองที่ซับซ้อนมากขึ้นจะเหมาะสมกว่าหรือไม่ มีตัวอย่างง่ายๆที่เน้นปัญหาของความขัดแย้งในการเลือกตัวแบบเบย์หรือไม่? ฉันได้อ่านบทความไม่กี่ฉบับนั่นคือบล็อกของซีอานและบล็อกของแอนดรูเจลแมนแต่ฉันยังไม่เข้าใจปัญหามากนัก

2
ข้อดีของการใช้เครือข่ายประสาทแบบเบย์คืออะไร
เมื่อเร็ว ๆ นี้ฉันอ่านบทความเกี่ยวกับโครงข่ายประสาท Bayesian (BNN) [Neal, 1992] , [Neal, 2012]ซึ่งให้ความน่าจะเป็นความสัมพันธ์ระหว่างอินพุตและเอาต์พุตในเครือข่ายประสาท การฝึกอบรมเช่นโครงข่ายประสาทเทียมคือผ่าน MCMC ซึ่งแตกต่างจากอัลกอริธึมการขยายพันธุ์แบบเดิม คำถามของฉันคืออะไรประโยชน์ของการใช้เครือข่ายประสาทดังกล่าวคืออะไร? โดยเฉพาะคุณสามารถให้ตัวอย่างที่เหมาะสมกับ BNN มากกว่า NN หรือไม่?

2
พารามิเตอร์ด้านหลังของ Wishart-Wishart คืออะไร?
เมื่อ infering ความแม่นยำเมทริกซ์ของการกระจายปกติใช้ในการสร้างNเวกเตอร์ D-มิติx 1 , . , x N x iΛΛ\boldsymbol{\Lambda}ยังไม่มีข้อความNNx1, . . , xยังไม่มีข้อความx1,..,xN\mathbf{x_1},..,\mathbf{x_N} เรามักจะวาง Wishart ไว้ก่อนหน้าΛเนื่องจากการแจกแจง Wishart นั้นเป็นคอนจูเกตก่อนที่จะมีการตกตะกอนของการแจกแจงปกติแบบหลายตัวแปรที่มีค่าเฉลี่ยและตัวแปรที่ไม่รู้จัก: knownxi∼N(μ,Λ−1)xi∼N(μ,Λ−1)\begin{align} \mathbf{x_i} &\sim \mathcal{N}(\boldsymbol{\mu, \Lambda^{-1}}) \\ \end{align}ΛΛ\boldsymbol{\Lambda} ที่υเป็นองศาอิสระและΛ0เมทริกซ์ขนาด ในการเพิ่มความทนทานและความยืดหยุ่นให้กับโมเดลเราได้ใส่ไฮเปอร์ไพรส์ไว้เหนือพารามิเตอร์ของ Wishart ตัวอย่างเช่นGörürและ Rasmussenแนะนำ: Λ 0Λ∼W(υ,Λ0)Λ∼W(υ,Λ0)\begin{align} \mathbf{\Lambda} &\sim \mathcal{W}(\upsilon, \boldsymbol{\Lambda_0}) \\ \end{align}υυ\upsilonΛ0Λ0\boldsymbol{\Lambda_0} โดยที่Gคือ tha Gamma distributionΛ01υ−D+1∼W(D,1DΛx)∼G(1,1D)Λ0∼W(D,1DΛx)1υ−D+1∼G(1,1D)\begin{align} \mathbf{\Lambda_0} &\sim \mathcal{W}(D, \frac{1}{D}\boldsymbol{\Lambda_x}) \\ …

1
วิธีตีความพล็อตความสัมพันธ์อัตโนมัติใน MCMC
ฉันคุ้นเคยกับสถิติแบบเบย์โดยการอ่านหนังสือDoing Bayesian Data Analysisโดย John K. Kruschke หรือที่เรียกว่า "puppy book" ในบทที่ 9 มีการแนะนำตัวแบบลำดับชั้นด้วยตัวอย่างง่าย ๆ นี้: และการสังเกตของเบอร์นูลีคือ 3 เหรียญต่อการโยน 10 ครั้ง หนึ่งแสดง 9 หัวอื่น ๆ 5 หัวและอีก 1 หัวyjiθjμκ∼Bernoulli(θj)∼Beta(μκ,(1−μ)κ)∼Beta(Aμ,Bμ)∼Gamma(Sκ,Rκ)yji∼Bernoulli(θj)θj∼Beta(μκ,(1−μ)κ)μ∼Beta(Aμ,Bμ)κ∼Gamma(Sκ,Rκ)\begin{align} y_{ji} &\sim {\rm Bernoulli}(\theta_j) \\ \theta_j &\sim {\rm Beta}(\mu\kappa, (1-\mu)\kappa) \\ \mu &\sim {\rm Beta}(A_\mu, B_\mu) \\ \kappa &\sim {\rm Gamma}(S_\kappa, R_\kappa) …

5
จะทำการใส่ค่าในจุดข้อมูลจำนวนมากได้อย่างไร?
ฉันมีชุดข้อมูลที่มีขนาดใหญ่มากและมีค่าสุ่มประมาณ 5% หายไป ตัวแปรเหล่านี้มีความสัมพันธ์ซึ่งกันและกัน ตัวอย่างชุดข้อมูล R ต่อไปนี้เป็นเพียงตัวอย่างของเล่นที่มีข้อมูลที่สัมพันธ์กันจำลอง set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
ทำไมชุดการกระจายสินค้านี้
เรากำลังตรวจสอบการทดสอบทางสถิติแบบเบย์และพบกับปรากฏการณ์แปลก ๆ (สำหรับฉันอย่างน้อยที่สุด) พิจารณากรณีต่อไปนี้: เราสนใจที่จะวัดว่าประชากร A หรือ B ใดที่มีอัตราการแปลงสูงกว่า สำหรับการตรวจสอบสติเราตั้งค่านั่นคือความน่าจะเป็นของการแปลงเท่ากันทั้งสองกลุ่ม เราสร้างข้อมูลเทียมโดยใช้แบบจำลองทวินามเช่นpA=pBpA=pBp_A = p_BnA∼Binomial(N,pA)nA∼Binomial(N,pA)n_A \sim \text{Binomial}(N, p_A) จากนั้นเราพยายามประเมินโดยใช้แบบจำลองเบต้า - ทวินามแบบเบย์เพื่อให้เราได้รับสำหรับแต่ละอัตราการแปลงเช่นpA,pBpA,pBp_A, p_BPA∼Beta(1+nA,N−nA+1)PA∼Beta(1+nA,N−nA+1)P_A \sim \text{Beta}(1 + n_A, N - n_A +1 ) สถิติการทดสอบของเราคำนวณโดยการคำนวณผ่านทาง monte carloS=P(PA>PB|N,nA,nB)S=P(PA>PB|N,nA,nB)S = P(P_A > P_B\; |\; N, n_A, n_B) สิ่งที่ทำให้ผมประหลาดใจคือว่าถ้าแล้ว(0,1)} ความคิดของฉันคือว่ามันจะอยู่กึ่งกลางประมาณ 0.5 และยังมาบรรจบกันถึง 0.5 เป็นขนาดตัวอย่าง, , เติบโต pA=pBpA=pBp_A = …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.