คำถามติดแท็ก bayesian

การอนุมานแบบเบย์เป็นวิธีการอนุมานเชิงสถิติที่อาศัยการรักษาพารามิเตอร์แบบจำลองเป็นตัวแปรสุ่มและการใช้ทฤษฎีบทของเบส์เพื่ออนุมานความน่าจะเป็นแบบอัตนัยเกี่ยวกับพารามิเตอร์หรือสมมติฐานตามเงื่อนไขบนชุดข้อมูลที่สังเกต

1
การคำนวณซ้ำของเอฟเฟกต์จากโมเดล lmer
ฉันเพิ่งอ่านบทความนี้ซึ่งอธิบายถึงวิธีการคำนวณความสามารถในการทำซ้ำ (ความน่าเชื่อถือหรือความสัมพันธ์ภายในอินทราเน็ต) ของการวัดผ่านการสร้างแบบจำลองเอฟเฟกต์ผสม รหัส R จะเป็น: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

3
การใช้งานเชิงประจักษ์ของความเป็นไปได้เชิงประจักษ์มีอะไรบ้าง
ฉันเคยได้ยินความน่าจะเป็นเชิงประจักษ์ของโอเว่น แต่จนกระทั่งเมื่อไม่นานมานี้มันก็ไม่ต้องสนใจจนกระทั่งฉันเจอมันในกระดาษดอกเบี้ย ( Mengersen et al. 2012 ) ในความพยายามของฉันที่จะเข้าใจฉันได้รวบรวมว่าโอกาสที่ข้อมูลที่สังเกตได้จะแสดงเป็น ที่และ0L=∏ipi=∏iP(Xi=x)=∏iP(Xi≤x)−P(Xi<x)L=∏ipi=∏iP(Xi=x)=∏iP(Xi≤x)−P(Xi<x)L = \prod_i p_i = \prod_i P(X_i=x) = \prod_i P(X_i \le x) - P(X_i \lt x)∑ipi=1∑ipi=1\sum_i p_i = 1pi>0pi>0p_i > 0 อย่างไรก็ตามฉันไม่สามารถทำให้การก้าวกระโดดทางจิตที่เชื่อมโยงการเป็นตัวแทนนี้กับวิธีที่มันสามารถใช้ในการอ้างถึงเกี่ยวกับการสังเกต บางทีฉันอาจหยั่งรากเกินไปในการคิดถึงพารามิเตอร์ความน่าจะเป็นของโมเดล ไม่ว่าฉันกำลังค้นหา Google Scholar สำหรับกระดาษบางเล่มที่ใช้โอกาสเชิงประจักษ์ที่จะช่วยฉันกำหนดแนวคิด ... เพื่อประโยชน์ เห็นได้ชัดว่ามีหนังสือของ Art Owen เกี่ยวกับความเป็นไปได้ในเชิงประจักษ์แต่ Google Books หลุดพ้นความน่าเบื่อไปหมดแล้วและฉันยังอยู่ในขั้นตอนการขอสินเชื่อระหว่างห้องสมุดที่ช้า ในขณะเดียวกันใครบางคนสามารถชี้แนะฉันไปที่เอกสารและเอกสารที่แสดงให้เห็นอย่างชัดเจนถึงความเป็นไปได้ในเชิงประจักษ์และวิธีการใช้งาน? ตัวอย่างคำอธิบายของ EL ก็ยินดีด้วยเช่นกัน!


4
อะไรคือปัจจัยที่ทำให้การแจกแจงหลังเป็นเรื่องยาก
ในสถิติแบบเบย์มักถูกกล่าวถึงว่าการกระจายหลังนั้นเป็นไปไม่ได้ดังนั้นจึงต้องใช้การอนุมานโดยประมาณ อะไรคือปัจจัยที่ทำให้เกิดความไม่สะดวกนี้

3
เหตุใดนักบวช Jeffreys จึงถูกมองว่าไม่เป็นประโยชน์?
พิจารณา Jeffreys ก่อนที่ที่ฉันเป็นข้อมูลฟิชเชอร์p(θ)∝|i(θ)|−−−−√p(θ)∝|i(θ)|p(\theta) \propto \sqrt{|i(\theta)|}iii ฉันเคยเห็นสิ่งนี้ก่อนหน้านี้ถูกกล่าวถึงว่าเป็นคนที่ไม่รู้เรื่องมาก่อน แต่ฉันไม่เคยเห็นข้อโต้แย้งว่าทำไมมันถึงไม่เป็นที่รู้จัก ท้ายที่สุดมันไม่ได้เป็นค่าคงที่มาก่อนดังนั้นจึงต้องมีข้อโต้แย้งอื่น ๆ ฉันเข้าใจว่ามันไม่ได้ขึ้นอยู่กับ reparametrization ซึ่งนำฉันไปสู่คำถามต่อไป มันเป็นปัจจัยที่กำหนดข้อมูลฟิชเชอร์ไม่ได้ขึ้นอยู่กับการซ่อมแซมใหม่? เพราะข้อมูลชาวประมงขึ้นอยู่กับการแก้ไขปัญหาอย่างมาก ขอบคุณ
27 bayesian  prior 

5
จะคลุมเครือก่อนหน้าเช่นเดียวกับที่ไม่ให้ข้อมูลก่อน
นี่เป็นคำถามเกี่ยวกับคำศัพท์ "คลุมเครือก่อนหน้า" เหมือนกันกับที่ไม่ให้ข้อมูลมาก่อนหรือว่ามีความแตกต่างระหว่างทั้งสองหรือไม่? ความประทับใจของฉันคือพวกเขาเหมือนกัน (จากการค้นหาคลุมเครือและไม่ให้ข้อมูลด้วยกัน) แต่ฉันไม่สามารถมั่นใจได้

2
เหตุใดบทลงโทษของ Lasso จึงเทียบเท่ากับเลขชี้กำลังสองเท่า (Laplace) ก่อนหน้า?
ฉันได้อ่านจำนวนการอ้างอิงว่า Lasso ประมาณค่าสำหรับพารามิเตอร์การถดถอยเวกเตอร์เทียบเท่ากับโหมดหลังของซึ่งการแจกแจงก่อนหน้าสำหรับแต่ละเป็นการกระจายแบบเลขชี้กำลังสองเท่า (เรียกอีกอย่างว่าการกระจาย Laplace)B B iBBBBBBBiBiB_i ฉันพยายามพิสูจน์เรื่องนี้แล้วจะมีใครช่วยอธิบายรายละเอียดได้บ้างไหม?

3
เหตุผลของ Bayesian สำหรับการวิเคราะห์สิทธิพิเศษดำเนินการเร็วกว่าการวิเคราะห์อื่น ๆ
พื้นหลังและตัวอย่างเชิงประจักษ์ ฉันมีสองการศึกษา ฉันทำการทดลอง (การศึกษา 1) แล้วทำซ้ำ (การศึกษา 2) ในการศึกษา 1 ฉันพบปฏิสัมพันธ์ระหว่างสองตัวแปร ในการศึกษา 2 ปฏิสัมพันธ์นี้เป็นไปในทิศทางเดียวกัน แต่ไม่มีนัยสำคัญ นี่คือบทสรุปสำหรับโมเดลของ Study 1: Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 5.75882 0.26368 21.840 < 2e-16 *** condSuppression -1.69598 0.34549 -4.909 1.94e-06 *** prej -0.01981 0.08474 -0.234 0.81542 condSuppression:prej 0.36342 0.11513 3.157 0.00185 ** และรูปแบบการศึกษา …
26 bayesian 

2
อัลฟาในการแจกแจงดิริชเลตคืออะไร?
ฉันค่อนข้างใหม่กับสถิติแบบเบย์และฉันได้พบกับการวัดความสัมพันธ์ที่ถูกต้องคือSparCCที่ใช้กระบวนการ Dirichlet ในส่วนหลังของอัลกอริทึม ฉันได้ลองใช้อัลกอริทึมทีละขั้นตอนเพื่อเข้าใจสิ่งที่เกิดขึ้นจริง ๆ แต่ฉันไม่แน่ใจว่าสิ่งที่alphaพารามิเตอร์เวกเตอร์ในการแจกแจง Dirichlet และวิธีการปกติalphaเวกเตอร์พารามิเตอร์? การดำเนินการอยู่ในPythonการใช้NumPy: https://docs.scipy.org/doc/numpy/reference/generated/numpy.random.dirichlet.html เอกสารบอกว่า: alpha: array พารามิเตอร์ของการแจกแจง (k มิติสำหรับตัวอย่างของมิติ k) คำถามของฉัน: การalphasกระจายมีผลกระทบอย่างไร?; การเป็นalphasปกติได้อย่างไร?; และ จะเกิดอะไรขึ้นเมื่อalphasไม่ใช่จำนวนเต็ม? import numpy as np import pandas as pd import matplotlib.pyplot as plt # Reproducibility np.random.seed(0) # Integer values for alphas alphas = np.arange(10) # array([0, 1, 2, 3, …

1
ความสัมพันธ์ระหว่าง Bayes ผันแปรและ EM
ฉันอ่านบางที่ว่าวิธี Variational Bayes เป็นลักษณะทั่วไปของอัลกอริทึม EM แท้จริงแล้วส่วนซ้ำ ๆ ของอัลกอริทึมนั้นคล้ายกันมาก เพื่อทดสอบว่าอัลกอริทึม EM เป็นเวอร์ชันพิเศษของ Variational Bayes ฉันลองทำสิ่งต่อไปนี้: YYYคือข้อมูลคือชุดของตัวแปรแฝงและคือพารามิเตอร์ ในแปรผัน Bayes เราทำให้สามารถสร้างประมาณดังกล่าวว่าที) ในกรณีที่ s นั้นง่ายกว่าและมีการแจกแจงที่เข้าใจง่ายΘ P ( X , Θ | Y ) ≈ Q X ( X ) Q Θ ( Θ ) QXXXΘΘ\ThetaP( X, Θ | Y) ≈ QX( X) QΘ( Θ …

3
นักปราชญ์ชาวเบย์กลายเป็นคนไม่เกี่ยวข้องกับกลุ่มตัวอย่างขนาดใหญ่หรือไม่?
เมื่อดำเนินการอนุมานแบบเบย์เราดำเนินการโดยเพิ่มฟังก์ชั่นโอกาสของเราให้มากที่สุดเมื่อใช้ร่วมกับนักบวชที่เรามีเกี่ยวกับพารามิเตอร์ เนื่องจากความเป็นไปได้ในการบันทึกมีความสะดวกมากขึ้นเราจึงเพิ่มโดยใช้ MCMC หรือสร้างการกระจายหลัง ความน่าจะเป็นของจุดแต่ละจุดก่อนหน้าและจุดข้อมูลแต่ละจุด)Σ ln( ก่อนหน้า) + ∑ ln( โอกาส)ΣLN⁡(ก่อน)+ΣLN⁡(ความเป็นไปได้)\sum \ln (\text{prior}) + \sum \ln (\text{likelihood}) หากเรามีข้อมูลจำนวนมากความน่าจะเป็นที่จะครอบงำข้อมูลใด ๆ ที่มีให้ก่อนหน้านี้โดยคณิตศาสตร์อย่างง่าย ในที่สุดสิ่งนี้เป็นสิ่งที่ดีและจากการออกแบบ เรารู้ว่าคนหลังจะมาบรรจบกันเพื่อโอกาสที่จะมีข้อมูลมากขึ้นเพราะมันควรจะเป็น สำหรับปัญหาที่กำหนดโดยนักบวชคอนจูเกตสิ่งนี้สามารถพิสูจน์ได้อย่างแน่นอน มีวิธีในการตัดสินใจว่านักบวชไม่สำคัญสำหรับฟังก์ชั่นความน่าจะเป็นและขนาดตัวอย่างหรือไม่?
26 bayesian  prior 

7
การรวมความน่าจะเป็น / ข้อมูลจากแหล่งต่าง ๆ
ให้บอกว่าฉันมีสามแหล่งที่มาที่เป็นอิสระและแต่ละคนก็ทำนายสภาพอากาศในวันพรุ่งนี้ อันแรกบอกว่าความน่าจะเป็นของฝนในวันพรุ่งนี้คือ 0 จากนั้นอันที่สองบอกว่าความน่าจะเป็นที่ 1 และสุดท้ายอันสุดท้ายบอกว่าความน่าจะเป็นคือ 50% ฉันต้องการทราบความน่าจะเป็นทั้งหมดที่ได้รับจากข้อมูลนั้น ถ้าใช้ทฤษฎีบทการคูณสำหรับเหตุการณ์อิสระฉันได้ 0 ซึ่งดูไม่ถูกต้อง เหตุใดจึงเป็นไปไม่ได้ที่จะคูณทั้งสามถ้าแหล่งทั้งหมดเป็นอิสระ? มีวิธีการแบบเบย์ในการอัปเดตก่อนหน้านี้เมื่อฉันรับข้อมูลใหม่หรือไม่ หมายเหตุ: นี่ไม่ใช่การบ้านเป็นสิ่งที่ฉันคิด

5
ความเป็นไปได้ของ Wikipedia
ฉันมีคำถามง่ายๆเกี่ยวกับ "ความน่าจะเป็นตามเงื่อนไข" และ "โอกาส" (ฉันได้สำรวจคำถามนี้ที่นี่แล้วแต่ไม่มีประโยชน์) มันเริ่มต้นจากหน้า Wikipedia ตามความเป็นไปได้ พวกเขาพูดแบบนี้: ความน่าจะเป็นของชุดของค่าพารามิเตอร์, θθ\theta , ให้ผลลัพธ์xxx , เท่ากับความน่าจะเป็นของผลลัพธ์ที่สังเกตได้จากค่าพารามิเตอร์เหล่านั้น, นั่นคือ L(θ∣x)=P(x∣θ)L(θ∣x)=P(x∣θ)\mathcal{L}(\theta \mid x) = P(x \mid \theta) ที่ดี! ดังนั้นในภาษาอังกฤษฉันอ่านสิ่งนี้ว่า: "ความน่าจะเป็นของพารามิเตอร์ที่เท่ากับทีต้า, รับข้อมูล X = x, (ทางซ้ายมือ), เท่ากับความน่าจะเป็นของข้อมูล X ที่เท่ากับ x, เนื่องจากพารามิเตอร์นั้น เท่ากับทีต้า " ( ตัวหนาเป็นของฉันสำหรับการเน้น ) อย่างไรก็ตามไม่น้อยกว่า 3 บรรทัดในหน้าเดียวกันรายการ Wikipedia ก็จะกล่าวต่อไปว่า: ให้XXXเป็นตัวแปรสุ่มที่มีต่อเนื่องกระจาย pppขึ้นอยู่กับพารามิเตอร์θθθ\thetaจากนั้นฟังก์ชั่น L(θ∣x)=pθ(x)=Pθ(X=x),L(θ∣x)=pθ(x)=Pθ(X=x),\mathcal{L}(\theta \mid …

1
ความเท่าเทียมกันระหว่างกำลังสองน้อยที่สุดและ MLE ในแบบจำลองเกาส์เซียน
ฉันยังใหม่กับการเรียนรู้ของเครื่องและกำลังพยายามเรียนรู้ด้วยตัวเอง เมื่อเร็ว ๆ นี้ฉันกำลังอ่านบันทึกการบรรยายและมีคำถามพื้นฐาน สไลด์ 13 กล่าวว่า "Least Square Estimate เหมือนกับประมาณการความน่าจะเป็นสูงสุดภายใต้แบบจำลอง Gaussian" ดูเหมือนว่ามันเป็นอะไรที่เรียบง่าย แต่ฉันไม่สามารถเห็นสิ่งนี้ได้ บางคนช่วยอธิบายสิ่งที่เกิดขึ้นที่นี่ได้ไหม? ฉันสนใจที่จะเห็นคณิตศาสตร์ หลังจากนั้นฉันจะพยายามดูความน่าจะเป็นของการถดถอยแบบสันและแบบบ่วงบาศเช่นกันดังนั้นหากมีข้อเสนอแนะใด ๆ ที่จะช่วยฉันได้สิ่งนั้นก็จะได้รับการชื่นชมเช่นกัน

2
เป็นความจริงที่ว่าวิธีการแบบเบย์ไม่เหมาะสมหรือไม่
เป็นความจริงที่ว่าวิธีการแบบเบย์ไม่เหมาะสมหรือไม่ (ฉันเห็นเอกสารและแบบฝึกหัดที่อ้างสิทธิ์นี้) ตัวอย่างเช่นหากเราใช้กระบวนการแบบเกาส์เซียนกับ MNIST (การจำแนกตัวเลขด้วยลายมือ) แต่แสดงเพียงตัวอย่างเดียวมันจะเปลี่ยนเป็นการกระจายก่อนหน้าสำหรับอินพุตใด ๆ ที่แตกต่างจากตัวอย่างเดี่ยว แต่มีความแตกต่างเล็กน้อยหรือไม่?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.