คำถามติดแท็ก bayesian

การอนุมานแบบเบย์เป็นวิธีการอนุมานเชิงสถิติที่อาศัยการรักษาพารามิเตอร์แบบจำลองเป็นตัวแปรสุ่มและการใช้ทฤษฎีบทของเบส์เพื่ออนุมานความน่าจะเป็นแบบอัตนัยเกี่ยวกับพารามิเตอร์หรือสมมติฐานตามเงื่อนไขบนชุดข้อมูลที่สังเกต

2
คุณสมบัติความไม่แปรเปลี่ยนของตัวประมาณค่า ML นั้นไร้ความหมายจากมุมมองแบบเบย์หรือไม่?
Casella และ Bergerระบุคุณสมบัติ invariance ของตัวประมาณค่า ML ดังนี้: อย่างไรก็ตามดูเหมือนว่าพวกเขาจะกำหนด "โอกาส" ของ ηη\eta อย่างสมบูรณ์แบบและไร้สาระ: ถ้าฉันใช้กฎพื้นฐานของทฤษฎีความน่าจะเป็นกับกรณีอย่างง่าย η=τ(θ)=θ2η=τ(θ)=θ2\eta=\tau(\theta)=\theta^2ฉันได้รับต่อไปนี้แทน: L(η|x)=p(x|θ2=η)=p(x|θ=−η–√∨θ=η–√)=:p(x|A∨B)L(η|x)=p(x|θ2=η)=p(x|θ=−η∨θ=η)=:p(x|A∨B)L(\eta|x)=p(x|\theta^2=\eta)=p(x|\theta = -\sqrt \eta \lor \theta = \sqrt \eta)=:p(x|A \lor B) ตอนนี้ใช้ทฤษฎีบทของเบย์แล้วจากข้อเท็จจริงที่ว่า AAA และ BBB เป็นเอกสิทธิ์เฉพาะบุคคลร่วมกันเพื่อให้เราสามารถใช้กฎผลรวม: p(x|A∨B)=p(x)p(A∨B|x)p(A∨B)=p(x|A∨B)=p(x)p(A|x)+p(B|x)p(A)+p(B)p(x|A∨B)=p(x)p(A∨B|x)p(A∨B)=p(x|A∨B)=p(x)p(A|x)+p(B|x)p(A)+p(B)p(x|A\lor B)=p(x)\frac {p(A\lor B|x)}{p(A\lor B)}=p(x|A\lor B)=p(x)\frac {p(A|x)+p(B|x)}{p(A)+p(B)} ตอนนี้ใช้ทฤษฎีบทของเบย์กับเงื่อนไขในตัวเศษอีกครั้ง: p(x)p(A)p(x|A)p(x)+p(B)p(x|B)p(x)p(A)+p(B)=p(A)p(x|A)+p(B)p(x|B)p(A)+p(B)p(x)p(A)p(x|A)p(x)+p(B)p(x|B)p(x)p(A)+p(B)=p(A)p(x|A)+p(B)p(x|B)p(A)+p(B)p(x)\frac {p(A)\frac {p(x|A)}{p(x)}+p(B)\frac {p(x|B)}{p(x)}}{p(A)+p(B)}=\frac {p(A)p(x|A)+p(B)p(x|B)}{p(A)+p(B)} ถ้าเราต้องการเพิ่ม wrt นี้ให้สูงสุด ηη\eta เพื่อให้ได้ค่าประมาณโอกาสสูงสุด ηη\etaเราต้องเพิ่มสูงสุด: pθ(−η–√)p(x|θ=−η–√)+pθ(η–√)p(x|θ=η–√)pθ(−η)p(x|θ=−η)+pθ(η)p(x|θ=η)p_\theta(-\sqrt …

1
เหตุใดช่วงเวลาที่น่าเชื่อถือของเบย์ในการถดถอยพหุนามนี้จึงเอนเอียงในขณะที่ช่วงความเชื่อมั่นนั้นถูกต้อง
พิจารณาพล็อตด้านล่างที่ฉันจำลองข้อมูลดังนี้ เราดูผลลัพธ์แบบไบนารีซึ่งความน่าจะเป็นที่แท้จริงที่จะเป็น 1 ถูกระบุด้วยเส้นสีดำ ความสัมพันธ์การทำงานระหว่าง covariateและคือพหุนามลำดับที่ 3 ที่มีลิงค์โลจิสติก (ดังนั้นจึงไม่ใช่เชิงเส้นในสองทาง)Yo b sYโอขsy_{obs}xxxp (Yo b s= 1 | x )พี(Yโอขs=1|x)p(y_{obs}=1 | x) เส้นสีเขียวคือการถดถอยโลจิสติก GLM โดยที่ถูกนำมาใช้เป็นพหุนามลำดับที่ 3 เส้นสีเขียวประคือช่วงความมั่นใจ 95% รอบการคาดการณ์โดยที่สัมประสิทธิ์การถดถอยที่พอดี ฉันใช้และสำหรับสิ่งนี้xxxp (Yo b s= 1 | x ,β^)พี(Yโอขs=1|x,β^)p(y_{obs}=1 | x, \hat{\beta})β^β^\hat{\beta}R glmpredict.glm บรรทัด pruple เป็นค่าเฉลี่ยของช่วงหลังที่น่าเชื่อถือ 95% สำหรับของแบบจำลองการถดถอยโลจิสติกแบบเบย์โดยใช้เครื่องแบบก่อนหน้า ฉันใช้แพคเกจพร้อมฟังก์ชั่นสำหรับสิ่งนี้ (การตั้งค่าให้ความรู้เบื้องต้นที่ไม่เหมือนกันมาก่อน)p (Yo b s= 1 …

6
การใช้ค่า p เพื่อคำนวณความน่าจะเป็นของสมมติฐานที่เป็นจริง ต้องการอะไรอีก
คำถาม: ความเข้าใจผิดอย่างหนึ่งที่พบบ่อยของค่า p คือพวกมันเป็นตัวแทนของความน่าจะเป็นของสมมติฐานว่างเปล่าที่เป็นจริง ฉันรู้ว่าไม่ถูกต้องและฉันรู้ว่าค่า p แสดงถึงความน่าจะเป็นในการหาตัวอย่างมากเช่นนี้เนื่องจากสมมติฐานว่างเป็นจริง อย่างไรก็ตามอย่างสังหรณ์ใจคนหนึ่งควรจะได้รับมาจากคนหลัง ต้องมีเหตุผลว่าทำไมไม่มีใครทำเช่นนี้ ข้อมูลใดที่เราขาดหายไปซึ่ง จำกัด เราจากการได้รับความน่าจะเป็นของสมมติฐานที่เป็นจริงจากค่า p และข้อมูลที่เกี่ยวข้อง? ตัวอย่าง: สมมติฐานของเราคือ "วิตามินดีส่งผลต่ออารมณ์" (สมมติฐานว่างเปล่าว่าเป็น "ไม่มีผล") สมมติว่าเราทำการศึกษาทางสถิติที่เหมาะสมกับ 1,000 คนและค้นหาความสัมพันธ์ระหว่างอารมณ์และระดับวิตามิน สิ่งอื่น ๆ ที่เท่าเทียมกันค่า p-0.01 บ่งชี้ความเป็นไปได้ของสมมติฐานที่แท้จริงสูงกว่าค่า p-0.05 สมมุติว่าเราได้ค่า p เป็น 0.05 ทำไมเราไม่สามารถคำนวณความน่าจะเป็นจริงที่สมมติฐานของเราเป็นจริงได้ ข้อมูลอะไรที่เราขาดหายไป? คำศัพท์สำรองสำหรับนักสถิติประจำ: หากคุณยอมรับหลักฐานของคำถามของฉันคุณสามารถหยุดอ่านได้ที่นี่ ต่อไปนี้สำหรับผู้ที่ปฏิเสธที่จะยอมรับว่าสมมติฐานสามารถมีการตีความความน่าจะเป็น เรามาลืมคำศัพท์กันสักครู่ แทน... สมมติว่าคุณกำลังเดิมพันกับเพื่อนของคุณ เพื่อนของคุณแสดงการศึกษาทางสถิตินับพันเกี่ยวกับวิชาที่ไม่เกี่ยวข้อง สำหรับการศึกษาแต่ละครั้งคุณจะได้รับอนุญาตให้ดูที่ p-value ขนาดตัวอย่างและค่าเบี่ยงเบนมาตรฐานของตัวอย่าง สำหรับการศึกษาแต่ละครั้งเพื่อนของคุณเสนอโอกาสที่จะเดิมพันว่าสมมติฐานที่นำเสนอในการศึกษาเป็นจริง คุณสามารถเลือกที่จะเดิมพันหรือไม่ก็ได้ หลังจากที่คุณทำการเดิมพันสำหรับการศึกษาทั้งหมด 1,000 ครั้งแล้วออราเคิลก็ขึ้นไปหาคุณและบอกคุณว่าสมมติฐานใดถูกต้อง ข้อมูลนี้ช่วยให้คุณสามารถตัดสินการเดิมพัน …

1
รูปแบบการเรียนรู้แบบลึกใดที่สามารถจำแนกหมวดหมู่ที่ไม่ได้เกิดร่วมกัน
ตัวอย่าง: ฉันมีประโยคในรายละเอียดงาน: "วิศวกรอาวุโสของ Java ในสหราชอาณาจักร" ฉันต้องการที่จะใช้รูปแบบการเรียนรู้ที่ลึกที่จะคาดการณ์ว่ามันเป็น 2 ประเภทและEnglish IT jobsถ้าฉันใช้รูปแบบการจำแนกแบบดั้งเดิมมันสามารถทำนายได้เพียง 1 ฉลากที่มีsoftmaxฟังก์ชั่นที่ชั้นสุดท้าย ดังนั้นฉันสามารถใช้โครงข่ายประสาทเทียม 2 แบบในการทำนาย "ใช่" / "ไม่" กับทั้งสองหมวดหมู่ แต่ถ้าเรามีหมวดหมู่มากขึ้นมันก็แพงเกินไป ดังนั้นเราจึงมีรูปแบบการเรียนรู้หรือการเรียนรู้ด้วยเครื่องเพื่อคาดการณ์ 2 หมวดหมู่ขึ้นไปพร้อมกันหรือไม่ "แก้ไข": ด้วย 3 ป้ายกำกับโดยวิธีดั้งเดิมมันจะถูกเข้ารหัสโดย [1,0,0] แต่ในกรณีของฉันมันจะถูกเข้ารหัสโดย [1,1,0] หรือ [1,1,1] ตัวอย่าง: หากเรามี 3 ป้ายกำกับและประโยคอาจเหมาะกับป้ายกำกับเหล่านี้ทั้งหมด ดังนั้นถ้าผลลัพธ์จากฟังก์ชัน softmax คือ [0.45, 0.35, 0.2] เราควรแบ่งมันออกเป็น 3 label หรือ 2 label หรืออาจเป็นหนึ่ง? ปัญหาหลักเมื่อเราทำคือ: …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
ข้อสงสัยเกี่ยวกับการกำเนิดสมการการถดถอยแบบเกาส์ในเอกสาร
ฉันกำลังอ่านบทความนี้และฉันมีปัญหาในการติดตามสมการสำหรับการถดถอยแบบเกาส์กระบวนการ พวกเขาใช้การตั้งค่าและสัญกรณ์ของรัสมุสและวิลเลียมส์ ดังนั้นสารเติมแต่งศูนย์เฉลี่ยนิ่งและกระจายตามปกติเสียงที่มีความแปรปรวนจะสันนิษฐาน:σ2noiseσnoise2\sigma^2_{noise} y=f(x)+ϵ,ϵ∼N(0,σ2noise)y=f(x)+ϵ,ϵ∼N(0,σnoise2)y=f(\mathbf{x})+\epsilon, \quad \epsilon\sim N(0,\sigma^2_{noise}) GP ก่อนที่มีค่าเฉลี่ยศูนย์จะถือว่าเป็นซึ่งหมายความว่า ,เป็นเวกเตอร์แบบเกาส์ที่มีค่าเฉลี่ย 0 และเมทริกซ์ความแปรปรวนร่วมf(x)f(x)f(\mathbf{x})∀ d∈N∀ d∈N\forall \ d\in Nf={f(x1),…,f(xd)}f={f(x1),…,f(xd)}\mathbf{f}=\{f(\mathbf{x_1}),\dots,f(\mathbf{x_d})\} Σd=⎛⎝⎜⎜k(x1,x1)k(xd,x1)⋱k(x1,xd)k(xd,xd)⎞⎠⎟⎟Σd=(k(x1,x1)k(x1,xd)⋱k(xd,x1)k(xd,xd))\Sigma_d=\pmatrix{k(\mathbf{x_1},\mathbf{x_1})& & k(\mathbf{x_1},\mathbf{x_d}) \\ & \ddots & \\k(\mathbf{x_d},\mathbf{x_1})& & k(\mathbf{x_d},\mathbf{x_d}) } จากนี้ไปเราจะสันนิษฐานว่าเป็นที่รู้จักกันในนามพารามิเตอร์ จากนั้นเห็นได้ชัดว่า Eq. (4) ของกระดาษ: p(f,f∗)=N(0,(Kf,fKf∗,fKf∗,fKf∗,f∗))p(f,f∗)=N(0,(Kf,fKf∗,fKf∗,fKf∗,f∗))p(\mathbf{f},\mathbf{f^*})=N\left(0,\pmatrix { K_{\mathbf{f},\mathbf{f}} & K_{\mathbf{f^*},\mathbf{f}} \\K_{\mathbf{f^*},\mathbf{f}} & K_{\mathbf{f^*},\mathbf{f^*}}} \right) มาที่นี่ข้อสงสัย: สมการ (5): p(y|f)=N(f,σ2noiseI)p(y|f)=N(f,σnoise2I)p(\mathbf{y}|\mathbf{f})=N\left(\mathbf{f},\sigma^2_{noise}I \right) E[f]=0E[f]=0E[\mathbf{f}]=0แต่ฉันเดา เพราะเมื่อฉันมีเงื่อนไขในแล้ว โดยที่เป็นเวกเตอร์คงที่และมีเพียง …

2
การใช้การอนุมานสุ่มสโทคาสต์กับ Bayesian Mixture of Gaussian
ฉันกำลังพยายามใช้โมเดล Gaussian Mixture ด้วยการอนุมานแปรปรวนแบบสุ่มต่อจากบทความนี้ นี่คือ pgm ของส่วนผสมแบบเกาส์เซียน ตามที่กระดาษ, อัลกอริทึมเต็มรูปแบบของการอนุมานสุ่มแปรผันคือ: และฉันยังคงสับสนอย่างมากเกี่ยวกับวิธีการขยายสู่ GMM ก่อนอื่นฉันคิดว่าพารามิเตอร์ความแปรปรวนในท้องถิ่นเป็นเพียงและอื่น ๆ เป็นพารามิเตอร์ระดับโลกทั้งหมด โปรดแก้ไขฉันหากฉันผิด ขั้นตอนที่ 6 หมายถึงอะไร ฉันควรทำอย่างไรเพื่อให้บรรลุเป้าหมายนี้QZqzq_zas though Xi is replicated by N times คุณช่วยฉันด้วยเรื่องนี้ได้ไหม ขอบคุณล่วงหน้า!

1
ตัวอย่างของสถิติแบบเบย์ที่สามารถประมาณค่าพารามิเตอร์ที่มีความท้าทายอย่างมากในการประมาณค่าด้วยวิธีการที่ใช้บ่อย
สถิติแบบเบย์ยืนยันว่า "สถิติแบบเบย์สามารถประมาณค่าพารามิเตอร์ที่มีความท้าทายมากในการประมาณค่าด้วยวิธีการที่ใช้บ่อย" ข้อความต่อไปนี้นำมาจากเอกสาร SAS นี้บอกว่าเหมือนกันหรือไม่ มันให้การอนุมานที่มีเงื่อนไขกับข้อมูลและเป็นที่แน่นอนโดยไม่ต้องพึ่งพาการประมาณเชิงเส้นกำกับ การอนุมานตัวอย่างขนาดเล็กดำเนินไปในลักษณะเดียวกับที่มีตัวอย่างขนาดใหญ่ การวิเคราะห์แบบเบย์ยังสามารถประมาณฟังก์ชั่นของพารามิเตอร์ได้โดยตรงโดยไม่ต้องใช้วิธี "ปลั๊กอิน" (วิธีการประมาณฟังก์ชั่นโดยการเสียบพารามิเตอร์ที่ประมาณไว้ในฟังก์ชั่น) ฉันเห็นข้อความที่คล้ายกันในหนังสือเรียนบางเล่ม แต่ไม่จำที่ มีใครช่วยอธิบายสิ่งนี้ให้ฉันฟังได้ไหม

1
การตรวจหาการเปลี่ยนแปลงคู่เคียงแบบเบย์ออนไลน์
ฉันกำลังอ่านรายงานการตรวจหาการเปลี่ยนแปลงไบเซียนออนไลน์โดย Adams และ MacKay ( ลิงก์ ) ผู้แต่งเริ่มต้นด้วยการเขียนการแจกแจงการทำนายแบบชายขอบ: โดยที่P(xt+1|x1:t)=∑rtP(xt+1|rt,x(r)t)P(rt|x1:t)(1)P(xt+1|x1:t)=∑rtP(xt+1|rt,xt(r))P(rt|x1:t)(1) P(x_{t+1} | \textbf{x}_{1:t}) = \sum_{r_t} P(x_{t+1} | r_t, \textbf{x}_t^{(r)}) P(r_t | \textbf{x}_{1:t}) \qquad \qquad (1) xtxtx_tคือการสังเกตในเวลา ;ttt x1:tx1:t\textbf{x}_{1:t}หมายถึงชุดการสังเกตจนกระทั่งเวลา ;ttt rt∈Nrt∈Nr_t \in \mathbb{N}คือ runlength ปัจจุบัน (เวลานับตั้งแต่การเปลี่ยนแปลงครั้งล่าสุดสามารถเป็น 0); และ x(r)txt(r)\textbf{x}_t^{(r)}เป็นชุดของการสังเกตที่เกี่ยวข้องกับการทำงานr_trtrtr_t อีคิว 1 ถูกต้องเป็นทางการ (ดูคำตอบด้านล่างโดย @JuhoKokkala) แต่ความเข้าใจของฉันคือถ้าคุณต้องการทำนายเกี่ยวกับคุณจะต้องขยายดังต่อไปนี้:xt+1xt+1x_{t+1} P(xt+1|x1:t)=∑rt,rt+1P(xt+1|rt+1,x(r)t)P(rt|x1:t)P(rt+1|rt)(1b)P(xt+1|x1:t)=∑rt,rt+1P(xt+1|rt+1,xt(r))P(rt|x1:t)P(rt+1|rt)(1b) P(x_{t+1} | \textbf{x}_{1:t}) = \sum_{r_t, r_{t+1}} …

3
เมื่อใด (และทำไม) Bayesians ปฏิเสธวิธีการ Bayesian ที่ถูกต้อง? [ปิด]
ปิด คำถามนี้ต้องการรายละเอียดหรือความคมชัด ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ เพิ่มรายละเอียดและชี้แจงปัญหาโดยแก้ไขโพสต์นี้ ปิดให้บริการใน3 ปีที่ผ่านมา จากสิ่งที่ฉันได้อ่านและจากคำตอบของคำถามอื่น ๆ ที่ฉันถามที่นี่วิธีการที่ใช้กันบ่อย ๆ นั้นเรียกว่าคณิตศาสตร์เป็นประจำ ( ฉันไม่สนใจว่าพวกเขาสอดคล้องกับปรัชญาหรือไม่ฉันแค่สนใจว่ามันสอดคล้องกับคณิตศาสตร์) หรือไม่ วิธีการแบบเบย์ (สำหรับผู้ที่คัดค้านเรื่องนี้ให้ดูหมายเหตุที่ด้านล่างของคำถามนี้) คำตอบสำหรับคำถามที่เกี่ยวข้อง (ไม่ใช่ของฉัน) นี้สนับสนุนข้อสรุปนี้: วิธีการของผู้ใช้บ่อย ๆ ส่วนใหญ่มีความเท่าเทียมกันแบบเบย์ซึ่งในกรณีส่วนใหญ่จะให้ผลลัพธ์ที่เหมือนกัน โปรดทราบว่าในสิ่งต่อไปนี้การมีความหมายทางคณิตศาสตร์เหมือนกันจะให้ผลลัพธ์เดียวกัน หากคุณกำหนดลักษณะสองวิธีที่สามารถพิสูจน์ได้ว่าให้ผลลัพธ์ที่เหมือนกันว่า "แตกต่าง" อยู่เสมอนั่นคือสิ่งที่ถูกต้องของคุณ แต่นั่นเป็นการตัดสินเชิงปรัชญาไม่ใช่เชิงคณิตศาสตร์หรือวิธีปฏิบัติ หลายคนที่อธิบายตนเองว่า "Bayesians" แต่ดูเหมือนว่าจะปฏิเสธโดยใช้การประเมินความเป็นไปได้สูงสุดภายใต้สถานการณ์ใด ๆ แม้ว่ามันจะเป็นกรณีพิเศษของวิธีการแบบเบส์( ทางคณิตศาสตร์ ) เพราะมันเป็น "วิธีการประจำ" เห็นได้ชัดว่า Bayesians ยังใช้การแจกแจงแบบ จำกัด / จำกัด เมื่อเปรียบเทียบกับผู้ใช้บ่อยแม้ว่าการแจกแจงแบบนั้นจะถูกต้องทางคณิตศาสตร์จากมุมมองแบบเบย์ คำถาม: Bayesians ปฏิเสธและวิธีการที่ถูกต้องทางคณิตศาสตร์จากมุมมองของ Bayesian เมื่อใดและเพราะเหตุใด มีเหตุผลสำหรับสิ่งนี้ซึ่งไม่ใช่ …

1
การผสานการวัดแบบสุ่มหมายความว่าอย่างไร
ฉันกำลังดูกระดาษแบบจำลองเอฟเฟกต์แบบสุ่มของ Dirichlet และสเปคของโมเดลมีดังนี้: YผมψผมG=Xผมβ+ψผม+εผม∼ กรัม~ D P( α ,G0)Yผม=Xผมβ+ψผม+εผมψผม~GG~DP(α,G0) \begin{align*}y_{i} &= X_{i}\beta + \psi_{i} + \epsilon_{i}\\ \psi_{i} &\sim G \\ G &\sim \mathcal{DP}\left(\alpha, G_{0}\right) \end{align*} ที่ไหน αα\alpha เป็นพารามิเตอร์ขนาดและ G0G0G_{0}เป็นตัวชี้วัดพื้นฐาน ต่อมาในบทความแนะนำว่าเรารวมฟังก์ชั่นเข้ากับการวัดพื้นฐานG0G0G_{0} เช่น ∫ฉ(YJ| θ,ψJ)dG0(ψJ) .∫ฉ(YJ|θ,ψJ)dG0(ψJ). \int f\left(y_{j}|\theta, \psi_{j}\right)\, dG_{0}\left(\psi_{j}\right).การวัดพื้นฐานใน Dirichlet ประมวลผลเป็น cdf หรือว่าเป็น pdf หรือไม่? จะเกิดอะไรขึ้นหากการวัดพื้นฐานคือ Gaussian

2
การเปรียบเทียบระหว่างตัวประมาณ Bayes
พิจารณาการสูญเสียกำลังสองด้วยก่อนรับที่2) ปล่อยให้ โอกาส ค้นหาประมาณเบส์\L(θ,δ)=(θ−δ)2L(θ,δ)=(θ−δ)2L(\theta,\delta)=(\theta-\delta)^2π(θ)π(θ)\pi(\theta)π(θ)∼U(0,1/2)π(θ)∼U(0,1/2)\pi(\theta)\sim U(0,1/2)f(x|θ)=θxθ−1I[0,1](x),θ>0f(x|θ)=θxθ−1I[0,1](x),θ>0f(x|\theta)=\theta x^{\theta-1}\mathbb{I}_{[0,1]}(x), \theta>0δπδπ\delta^\pi พิจารณาการสูญเสียกำลังสองน้ำหนัก โดยที่ กับก่อน theta) ปล่อยให้เป็นโอกาส ค้นหาประมาณเบส์\Lw(θ,δ)=w(θ)(θ−δ)2Lw(θ,δ)=w(θ)(θ−δ)2L_w(\theta,\delta)=w(\theta)(\theta-\delta)^2w(θ)=I(−∞,1/2)w(θ)=I(−∞,1/2)w(\theta)=\mathbb{I}_{(-\infty,1/2)}π1(θ)=I[0,1](θ)π1(θ)=I[0,1](θ)\pi_1(\theta)=\mathbb{I}_{[0,1]}(\theta)f(x|θ)=θxθ−1I[0,1](x),θ>0f(x|θ)=θxθ−1I[0,1](x),θ>0f(x|\theta)=\theta x^{\theta-1}\mathbb{I}_{[0,1]}(x), \theta>0δπ1δ1π\delta^\pi_1 เปรียบเทียบและδπδπ\delta^\piδπ1δ1π\delta^\pi_1 ครั้งแรกที่ฉันสังเกตเห็นว่าและฉันคิดว่านั่นเป็นโอกาสที่มิฉะนั้นฉันจะไม่ได้รับหลังแล้ว ดังนั้นตัวประมาณค่า Bayes ที่เกี่ยวกับการสูญเสียกำลังสองคือ f(x|θ)∼Beta(θ,1)f(x|θ)∼Beta(θ,1)f(x|\theta)\sim Beta(\theta,1)π(θ|x)∝f(x|θ)π(θ)=θxθ−1I[0,1]∗2I(0,1/2)(θ)∼Beta(θ,1)π(θ|x)∝f(x|θ)π(θ)=θxθ−1I[0,1]∗2I(0,1/2)(θ)∼Beta(θ,1)\pi(\theta|x)\propto f(x|\theta)\pi(\theta)=\theta x^{\theta-1}\mathbb{I}_{[0,1]}*2\mathbb{I}_{(0,1/2)}(\theta)\sim Beta(\theta,1)E[π(θ|x)]=θθ+1E[π(θ|x)]=θθ+1\mathbb{E}[\pi(\theta|x)]=\frac{\theta}{\theta+1} ฉันกำลังดูในหนังสือThe Bayesian Choiceและมีทฤษฎีบทเกี่ยวกับตัวประมาณค่า Bayes ที่เกี่ยวข้องกับการสูญเสียกำลังสองและมันถูกกำหนดโดย δπ(x)=Eπ[w(θ)θ|x]Eπ[w(θ)|x]δπ(x)=Eπ[w(θ)θ|x]Eπ[w(θ)|x]\delta^\pi(x)=\frac{\mathbb{E}^\pi[w(\theta)\theta|x]}{\mathbb{E}^\pi[w(\theta)|x]} บางคนสามารถอธิบายให้ฉันคำนวณได้อย่างไร สิ่งที่ฉันพยายามคือ: δπ(x)=∫θw(θ)f(x|θ)π(θ)dθ∫w(θ)f(x|θ)π(θ)dθ∫f(x|θ)π(θ)dθ∫w(θ)f(xθ)π(θ)dθδπ(x)=∫θw(θ)f(x|θ)π(θ)dθ∫w(θ)f(x|θ)π(θ)dθ∫f(x|θ)π(θ)dθ∫w(θ)f(xθ)π(θ)dθ\delta^\pi(x)=\frac{\frac{\int \theta w(\theta)f(x|\theta)\pi(\theta)d\theta}{\int w(\theta)f(x|\theta)\pi(\theta)d\theta}}{\frac{\int f(x|\theta)\pi(\theta)d\theta}{\int w(\theta)f(x\theta)\pi(\theta)d\theta}} ฉันรู้ว่าการสนับสนุนคือแต่เมื่อฉันพยายามรวมเข้ากับตัวเศษ[0,12][0,12][0,\frac{1}{2}] ∫θw(θ)f(x|θ)π(θ)dθ=∫120θθxθ−1dθ=1x∫120θ2xθdθ∫θw(θ)f(x|θ)π(θ)dθ=∫012θθxθ−1dθ=1x∫012θ2xθdθ\int \theta w(\theta)f(x|\theta)\pi(\theta)d\theta=\int_0^\frac{1}{2}\theta\theta x^{\theta-1}d\theta=\frac{1}{x}\int_0^\frac{1}{2}\theta^2 x^\theta d\theta ฉันไม่ได้ผลลัพธ์ที่ดี

2
ช่วยในการเพิ่มความคาดหวังจากกระดาษ: วิธีการรวมการกระจายก่อนหน้า?
คำถามนี้มีพื้นฐานอยู่บนกระดาษหัวข้อ: การสร้างภาพใหม่ในการถ่ายภาพด้วยแสงแบบกระจายโดยใช้แบบจำลองการกระจายการแผ่รังสีแบบคู่ - การกระจาย ลิ้งค์ดาวน์โหลด ผู้เขียนใช้อัลกอริทึม EM ด้วย ล.1l1l_1sparsity normalization ของ vectorไม่รู้จักเพื่อประมาณค่าพิกเซลของรูปภาพ รูปแบบที่ได้รับจากμμ\mu Y= A μ + e(1)(1)y=Aμ+ey=A\mu + e \tag{1} การประมาณการจะได้รับใน Eq (8) เป็น μ^= หาเรื่องm a x lnp ( y| μ)+γLNp ( μ )(2)(2)μ^=arg⁡maxln⁡p(y|μ)+γln⁡p(μ)\hat{\mu} = \arg max {\ln p(y|\mu) + \gamma \ln p(\mu)} \tag{2} ในกรณีของฉันฉันได้ถือว่าเป็นตัวกรองความยาวและคือคูณเวกเตอร์ที่แสดงตัวกรอง ดังนั้น,μμ\muLLLμμ\mathbf{\mu}L × 1L×1L …

1
หนึ่งจะทำให้การกระจายความน่าจะเป็นก่อนเป็นทางการได้อย่างไร มีกฎของหัวแม่มือหรือเคล็ดลับที่ควรใช้หรือไม่
ในขณะที่ฉันชอบคิดว่าฉันมีความเข้าใจอย่างดีเกี่ยวกับแนวคิดของข้อมูลก่อนหน้านี้ในการวิเคราะห์ทางสถิติแบบเบย์และการตัดสินใจ ฉันมีสถานการณ์สองสามอย่างที่เป็นตัวอย่างการต่อสู้ของฉันและฉันรู้สึกว่าพวกเขาไม่ได้รับการกล่าวถึงอย่างถูกต้องในตำราทางสถิติแบบเบย์ที่ฉันได้อ่าน: สมมติว่าฉันทำแบบสำรวจไม่กี่ปีที่ผ่านมาที่บอกว่า 68% ของผู้คนจะสนใจซื้อผลิตภัณฑ์ ACME ฉันตัดสินใจที่จะเรียกใช้แบบสำรวจอีกครั้ง ในขณะที่ฉันจะใช้ขนาดตัวอย่างเดียวกับครั้งที่แล้ว (พูด, n = 400) ความคิดเห็นของผู้คนมีการเปลี่ยนแปลงตั้งแต่นั้นมา อย่างไรก็ตามหากฉันใช้เป็นรุ่นก่อนหน้ากับการแจกแจงแบบเบต้าซึ่งผู้ตอบแบบสอบถาม 272 จาก 400 คนตอบว่า "ใช่" ฉันจะให้น้ำหนักเท่ากันกับแบบสำรวจที่ฉันวิ่งไปเมื่อสองสามปีก่อน มีกฎง่ายๆที่จะสร้างความไม่แน่นอนที่ยิ่งใหญ่กว่าที่ฉันต้องการก่อนหน้านี้โดยอาศัยอำนาจของข้อมูลที่มีอายุไม่กี่ปี? ฉันเข้าใจว่าฉันสามารถลดค่าก่อนหน้านี้จาก 272/400 เป็น 136/200 แต่สิ่งนี้ให้ความรู้สึกโดยพลการมากและฉันสงสัยว่ามีรูปแบบของการให้เหตุผลบางอย่างหรืออาจเป็นในวรรณกรรม อีกตัวอย่างหนึ่งสมมติว่าเรากำลังจะทำการทดลองทางคลินิก ก่อนที่จะเริ่มการทดลองเราทำการวิจัยระดับทุติยภูมิซึ่งเราสามารถใช้เป็นข้อมูลก่อนหน้านี้รวมถึงความคิดเห็นของผู้เชี่ยวชาญผลจากการทดลองทางคลินิกก่อนหน้านี้ (จากความเกี่ยวข้องที่แตกต่างกัน) ข้อเท็จจริงทางวิทยาศาสตร์พื้นฐานอื่น ๆ (บางอันไม่ใช่เชิงปริมาณโดยธรรมชาติ) ไปสู่การแจกแจงความน่าจะเป็นก่อนหน้า? เป็นกรณีของการตัดสินใจที่จะเลือกครอบครัวและทำให้ครอบครัวกระจายข้อมูลมากพอที่จะทำให้แน่ใจว่าข้อมูลถูกครอบงำหรือมีงานจำนวนมากเพื่อสร้างการเผยแพร่ก่อนหน้าอย่างเป็นธรรมหรือไม่?

1
ตายมีกี่ด้าน? การอนุมานแบบเบย์ใน JAGS
ปัญหา ฉันต้องการอนุมานเกี่ยวกับระบบที่คล้ายคลึงกันเพื่อตายด้วยจำนวนด้านที่ไม่รู้จัก ตายถูกม้วนหลายครั้งหลังจากนั้นฉันต้องการอนุมานการกระจายความน่าจะเป็นเหนือพารามิเตอร์ที่สอดคล้องกับจำนวนด้านที่มีตายθ ปรีชา หากหลังจาก 40 ม้วนคุณสังเกตเห็น 10 สีแดง, 10 บลูส์, 10 กรีนและ 10 สีเหลืองดูเหมือนว่าθควรสูงสุดที่ 4 และอคติของการหมุนแต่ละด้านจะมีการจัดกึ่งกลางที่ 1/4 θมีขอบเขตล่างที่ไม่สำคัญเป็นจำนวนด้านต่าง ๆ ที่สังเกตได้ในข้อมูล ขอบเขตบนยังไม่ทราบ อาจมีด้านที่ห้าซึ่งอาจมีอคติต่ำ ยิ่งคุณสังเกตเห็นข้อมูลที่ขาดหมวดหมู่ที่ห้ายิ่งความน่าจะเป็นด้านหลังของ of = 4 ยิ่งสูงขึ้น เข้าใกล้ ฉันใช้ JAGS สำหรับปัญหาที่คล้ายกัน (ผ่าน R และ rjags) ซึ่งดูเหมือนเหมาะสมที่นี่ ด้วยความเคารพต่อข้อมูลให้พูดobs <- c(10, 10, 10, 10)สอดคล้องกับการสังเกตในตัวอย่างข้างต้น ผมคิดว่าข้อสังเกตที่ควรจะสร้างแบบจำลองที่มีการกระจายพหุนามobs ~ dmulti(p, n)ที่และp ~ ddirch(alpha)n <- …

1
ข้อ จำกัด MCMC / EM MCMC มากกว่า EM?
ขณะนี้ฉันเรียนรู้โมเดลเบย์แบบลำดับชั้นโดยใช้ JAGS จาก R และ pymc โดยใช้ Python ( "วิธีเบส์สำหรับแฮกเกอร์" ) ฉันสามารถรับปรีชาจากโพสต์นี้ : "คุณจะจบลงด้วยจำนวนของตัวเลขที่มีลักษณะ" ราวกับว่า "คุณมีการจัดการอย่างใดที่จะนำตัวอย่างอิสระจากการกระจายที่ซับซ้อนที่คุณต้องการรู้" มันเป็นสิ่งที่ฉันสามารถให้ความน่าจะเป็นแบบมีเงื่อนไขจากนั้นฉันสามารถสร้างกระบวนการที่ไม่มีหน่วยความจำขึ้นอยู่กับความน่าจะเป็นแบบมีเงื่อนไข เมื่อฉันสร้างกระบวนการนานพอแล้วความน่าจะเป็นร่วมจะมาบรรจบกันและจากนั้นฉันก็สามารถนำจำนวนตัวเลขมารวมกันที่ส่วนท้ายของลำดับที่สร้างขึ้น มันเหมือนกับว่าฉันเอาตัวอย่างอิสระจากการกระจายข้อต่อที่ซับซ้อน ตัวอย่างเช่นฉันสามารถสร้างฮิสโตแกรมและสามารถประมาณฟังก์ชันการแจกแจง จากนั้นปัญหาของฉันคือฉันต้องพิสูจน์ว่า MCMC มาบรรจบกันสำหรับรุ่นใดรุ่นหนึ่งหรือไม่ ฉันมีแรงจูงใจที่จะรู้สิ่งนี้เพราะก่อนหน้านี้ฉันได้เรียนรู้อัลกอริทึม EM สำหรับ GMM และ LDA (โมเดลกราฟิก) ถ้าฉันสามารถใช้อัลกอริทึม MCMC โดยไม่ต้องพิสูจน์ว่ามันมาบรรจบกันแล้วมันสามารถประหยัดเวลาได้มากกว่า EM เนื่องจากฉันจะต้องคำนวณฟังก์ชั่นโอกาสในการบันทึกที่คาดหวัง (จะต้องคำนวณความน่าจะเป็นหลัง) แล้วจึงเพิ่มโอกาสในการบันทึกที่คาดหวัง เห็นได้ชัดว่ามันยุ่งยากกว่า MCMC (ฉันแค่ต้องกำหนดความน่าจะเป็นแบบมีเงื่อนไข) ฉันยังสงสัยด้วยว่าฟังก์ชันความน่าจะเป็นและการกระจายก่อนหน้านั้นเป็นแบบคอนจูเกตหรือไม่ มันหมายความว่า MCMC ต้องมาบรรจบกัน? ฉันสงสัยเกี่ยวกับข้อ จำกัด ของ MCMC และ EM

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.