คำถามติดแท็ก bayesian

การอนุมานแบบเบย์เป็นวิธีการอนุมานเชิงสถิติที่อาศัยการรักษาพารามิเตอร์แบบจำลองเป็นตัวแปรสุ่มและการใช้ทฤษฎีบทของเบส์เพื่ออนุมานความน่าจะเป็นแบบอัตนัยเกี่ยวกับพารามิเตอร์หรือสมมติฐานตามเงื่อนไขบนชุดข้อมูลที่สังเกต

2
อะไรคือความสัมพันธ์เบื้องหลัง Jeffreys Priors และความแปรปรวนของการเปลี่ยนแปลงที่มั่นคง?
ฉันกำลังอ่านเกี่ยวกับ Jeffreys ก่อนในวิกิพีเดีย: Jeffreys Priorและเห็นว่าหลังจากแต่ละตัวอย่างมันอธิบายว่าการเปลี่ยนแปลงที่ทำให้เกิดความแปรปรวนทำให้เกิดความแปรปรวนทำให้ Jeffreys กลายเป็นชุดก่อนได้อย่างไร เป็นตัวอย่างสำหรับกรณี Bernoulli มันกล่าวว่าสำหรับเหรียญที่มีหัวกับความน่าจะเป็นγ∈ [ 0 ,1]γ∈[0,1]\gamma \in [0,1]ที่อัตราผลตอบแทน Bernoulli รุ่นทดลองใช้ฟรีย์ว่าก่อนสำหรับพารามิเตอร์γγ\gammaคือ: p(γ)∝1γ(1−γ)−−−−−−−√p(γ)∝1γ(1−γ) p(\gamma) \propto \frac{1}{\sqrt{\gamma ( 1-\gamma)}} จากนั้นระบุว่านี่คือการแจกแจงแบบเบต้าด้วยα=β=12α=β=12\alpha = \beta = \frac{1}{2} . นอกจากนี้ยังระบุด้วยว่าถ้าγ=sin2(θ)γ=sin2⁡(θ)\gamma = \sin^2(\theta)ดังนั้น Jeffreys ก่อนหน้าสำหรับθθ\thetaจะเหมือนกันในช่วง[0,π2][0,π2]\left[0, \frac{\pi}{2}\right] . ฉันรับรู้การเปลี่ยนแปลงว่าเป็นการเปลี่ยนแปลงที่ทำให้เกิดความแปรปรวน สิ่งที่ทำให้ฉันสับสนคือ: ทำไมการแปรปรวนที่ทำให้เกิดความแปรปรวนทำให้เกิดความแปรปรวนในรูปแบบเหมือนกันมาก่อน ทำไมเราถึงต้องการเครื่องแบบก่อน (เนื่องจากดูเหมือนว่าอาจจะไม่เหมาะสมกว่า) โดยทั่วไปแล้วฉันไม่แน่ใจว่าทำไมการแปลงสแควร์ - ไซน์ถึงได้รับและบทบาทอะไร ใครจะมีความคิดใด ๆ

2
ตัวอย่างก่อนหน้านี้ซึ่งแตกต่างจาก Jeffreys นำไปสู่การหลังที่ไม่คงที่
ฉันกำลังโพสต์ข้อความ "คำตอบ" สำหรับคำถามที่ฉันให้ไว้เมื่อสองสัปดาห์ก่อนที่นี่: ทำไม Jeffreys จึงมีประโยชน์มาก่อน มันเป็นคำถามจริงๆ (และฉันไม่มีสิทธิ์ในการโพสต์ความคิดเห็นในเวลานั้น) อย่างไรก็ตามดังนั้นฉันหวังว่าจะเป็นเช่นนั้น: ในลิงก์ด้านบนมีการกล่าวถึงคุณสมบัติที่น่าสนใจของ Jeffreys ก่อนคือเมื่อทำการวิเคราะห์รูปแบบซ้ำการกระจายหลังทำให้เกิดความน่าจะเป็นหลังซึ่งเป็นไปตามข้อ จำกัด ที่กำหนดโดยการเปลี่ยนแปลง กล่าวว่าตามที่กล่าวไว้ที่นั่นเมื่อย้ายจากความสำเร็จที่น่าจะเป็นθθ\thetaในตัวอย่าง Beta-Bernoulli อัตราต่อรองψ=θ/(1−θ)ψ=θ/(1−θ)\psi=\theta/(1-\theta)ก็ควรจะเป็นกรณีที่มีความพึงพอใจหลังP(1/3≤θ≤2/3∣X=x)=P(1/2≤ψ≤2∣X=x)P(1/3≤θ≤2/3∣X=x)=P(1/2≤ψ≤2∣X=x)P(1/3\leq\theta\leq 2/3\mid X=x)=P(1/2\leq\psi\leq 2\mid X=x) ) ฉันอยากจะสร้างตัวอย่างที่ตัวเลขของการแปรเปลี่ยนของฟรีย์ก่อนสำหรับการเปลี่ยนθθ\thetaอัตราต่อรองψψ\psiและอื่น ๆ อีกมากมายที่น่าสนใจขาดมันของไพรเออร์อื่น ๆ (พูด, Haldane เครื่องแบบหรือคนโดยพล) ตอนนี้ถ้าหลังสำหรับความน่าจะเป็นความสำเร็จคือเบต้า (Beta สำหรับการใด ๆ ก่อนฟรีย์ไม่ได้เท่านั้น) หลังของราคาดังต่อไปนี้การกระจายเบต้าของประเภทที่สอง (ดูวิกิพีเดีย) กับพารามิเตอร์เดียวกัน จากนั้นดังที่ไฮไลต์ในตัวอย่างตัวเลขด้านล่างมันไม่น่าแปลกใจเกินไป (สำหรับฉันอย่างน้อย) ที่มีค่าคงที่สำหรับตัวเลือกเบต้าใด ๆ ก่อนหน้านี้ (เล่นรอบ ๆ ด้วยalpha0_Uและbeta0_U) ไม่ใช่แค่ Jeffreys, cf ผลลัพธ์ของโปรแกรม library(GB2) …

1
คำถามเกี่ยวกับหลักการความน่าจะเป็น
ขณะนี้ฉันพยายามเข้าใจหลักการความน่าจะเป็นและฉันก็ไม่เข้าใจเลย ดังนั้นฉันจะเขียนคำถามทั้งหมดเป็นรายการแม้ว่าคำถามเหล่านั้นอาจเป็นคำถามพื้นฐาน วลี "ข้อมูลทั้งหมด" หมายความว่าอะไรในบริบทของหลักการนี้ (เช่นเดียวกับข้อมูลทั้งหมดในตัวอย่างมีอยู่ในฟังก์ชันความน่าจะเป็น) หลักการเชื่อมโยงกับข้อเท็จจริงที่พิสูจน์ได้อย่างใดนั่นคือ ? "ความน่าจะเป็น" ในหลักการเป็นสิ่งเดียวกันเช่นหรือไม่?p(x|y)∝p(y|x)p(x)p(x|y)∝p(y|x)p(x)p(x|y)\propto p(y|x)p(x)p(y|x)p(y|x)p(y|x) ทฤษฎีทางคณิตศาสตร์สามารถ "แย้ง" ได้อย่างไร? ความเข้าใจทางคณิตศาสตร์ของฉัน (อ่อน) คือทฤษฎีบทพิสูจน์แล้วหรือไม่ได้รับการพิสูจน์ หลักการความน่าจะเป็นอยู่ในประเภทใด หลักการความน่าจะเป็นมีความสำคัญอย่างไรสำหรับการอนุมานแบบเบย์ซึ่งอิงจากสูตร?p(x|y)∝p(y|x)p(x)p(x|y)∝p(y|x)p(x)p(x|y)\propto p(y|x)p(x)

4
Bayesian และผู้ประเมินจุดประจำใช้เงื่อนไขอะไรได้บ้าง?
เมื่อพิจารณาก่อนหน้านี้ค่า ML (ความถี่ - ความเป็นไปได้สูงสุด) และ MAP (Bayesian - ค่าสูงสุดด้านหลัง) จะตรงกัน อย่างไรก็ตามโดยทั่วไปแล้วฉันกำลังพูดถึงตัวประมาณค่าที่ได้จากการเพิ่มประสิทธิภาพของฟังก์ชันการสูญเสีย กล่าวคือ x^(.)=argminE(L(X−x^(y))|y) (Bayesian) x^(.)=argminE(L(X−x^(y))|y) (Bayesian) \hat x(\,. ) = \text{argmin} \; \mathbb{E} \left( L(X-\hat x(y)) \; | \; y \right) \qquad \; \,\text{ (Bayesian) } x^(.)=argminE(L(x−x^(Y))|x)(Frequentist)x^(.)=argminE(L(x−x^(Y))|x)(Frequentist) \hat x(\,. ) = \text{argmin} \; \mathbb{E} \left( L(x-\hat x(Y)) \; | …


2
บ่อยและนักบวช
Robby McKilliam พูดในความคิดเห็นในโพสต์นี้ : ควรชี้ให้เห็นว่าจากมุมมองของผู้ใช้บ่อยไม่มีเหตุผลที่คุณไม่สามารถรวมความรู้ก่อนหน้านี้เข้ากับโมเดลได้ ในแง่นี้มุมมองที่ใช้บ่อยจะง่ายกว่าคุณมีเพียงรุ่นและข้อมูลบางส่วนเท่านั้น ไม่จำเป็นต้องแยกข้อมูลก่อนหน้าออกจากตัวแบบ นอกจากนี้ที่นี่ @jbowman บอกว่าผู้ใช้บ่อยใช้การทำให้เป็นมาตรฐานโดยฟังก์ชั่นค่าใช้จ่าย / การลงโทษในขณะที่ชาวเบย์สามารถทำสิ่งนี้ได้ก่อน: ผู้ใช้บ่อยตระหนักว่าการทำให้เป็นมาตรฐานนั้นดีและใช้กันอย่างแพร่หลายในทุกวันนี้และนักบวชแบบเบย์สามารถตีความได้อย่างง่ายดายว่าเป็นการทำให้เป็นระเบียบ ดังนั้นคำถามของฉันคือผู้ใช้งานทั่วไปสามารถรวมรูปแบบของสิ่งที่ Bayesians ระบุว่าเป็นนักบวชได้หรือไม่? ยกตัวอย่างเช่นการทำให้เป็นมาตรฐานฟังก์ชั่นค่าใช้จ่าย / การลงโทษได้รวมเข้ากับแบบจำลองจริง ๆ หรือนี่คือวิธีการที่แท้จริงในการปรับแก้ปัญหา (รวมถึงทำให้เป็นเอกลักษณ์)

1
พารามิเตอร์อินพุตสำหรับการใช้การจัดสรร Dirichlet แฝง
เมื่อใช้การสร้างหัวข้อ (Latent Dirichlet Allocation) จำนวนหัวข้อคือพารามิเตอร์อินพุตที่ผู้ใช้ต้องระบุ ฉันคิดว่าเราควรจะมีชุดหัวข้อผู้สมัครที่กระบวนการ Dirichlet มีตัวอย่าง ความเข้าใจของฉันถูกต้องหรือไม่ ในทางปฏิบัติจะตั้งค่าหัวข้อผู้สมัครประเภทนี้ได้อย่างไร

2
ภูมิสถิติ
มีใครเขียนแบบสำรวจสั้น ๆ เกี่ยวกับวิธีการต่างๆในสถิติ? ในการประมาณแรกคุณจะมีสถิติประจำและ Bayesian แต่เมื่อคุณมองใกล้คุณจะมีวิธีการอื่นเช่น likelihoodist และ empirical Bayes แล้วคุณก็มีส่วนย่อยภายในกลุ่มเช่น Bayes Objective Bayes แบบอัตนัยภายในสถิติ Bayesian เป็นต้น บทความสำรวจจะดี มันจะดียิ่งขึ้นถ้ามันรวมไดอะแกรม

2
การวิเคราะห์แบบเบส์แบบไม่มีพารามิเตอร์ใน R
ฉันกำลังมองหาบทช่วยสอนที่ดีเกี่ยวกับการจัดกลุ่มข้อมูลในการRใช้กระบวนการดีริชเลต์แบบลำดับชั้น (HDP) (หนึ่งในวิธีการแบบเบส์แบบ nonparametric ล่าสุดและเป็นที่นิยม) มีDPpackage(IMHO, ครอบคลุมมากที่สุดของทั้งหมดที่มีอยู่) ในRการวิเคราะห์แบบเบส์แบบไม่มีพารามิเตอร์ แต่ฉันไม่สามารถเข้าใจตัวอย่างที่มีให้ในR Newsหรือในคู่มืออ้างอิงแพ็คเกจได้ดีพอที่จะใช้รหัส HDP ความช่วยเหลือหรือตัวชี้ใด ๆ ที่ชื่นชม การใช้งาน C ++ ของ HDP สำหรับการสร้างแบบจำลองหัวข้อมีอยู่ที่นี่ (โปรดดูที่ด้านล่างสำหรับรหัส C ++)

12
หนังสือที่ดีที่สุดสำหรับการแนะนำการวิเคราะห์ข้อมูลทางสถิติ?
ล็อคแล้ว คำถามและคำตอบของคำถามนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ฉันซื้อหนังสือเล่มนี้: วิธีการวัดสิ่งใด: การค้นหาคุณค่าของสิ่งที่จับต้องไม่ได้ในธุรกิจ และ หัวหน้าการวิเคราะห์ข้อมูลครั้งแรก: คู่มือสำหรับผู้เรียนเกี่ยวกับตัวเลขขนาดใหญ่สถิติและการตัดสินใจที่ดี หนังสืออื่น ๆ ที่คุณอยากแนะนำคืออะไร?

2
บางคนสามารถอธิบายให้ฉัน NUTS เป็นภาษาอังกฤษได้ไหม
ความเข้าใจเกี่ยวกับอัลกอริทึมของฉันมีดังต่อไปนี้: No U-Turn Sampler (NUTS) เป็นวิธีการ Hamiltonian Monte Carlo ซึ่งหมายความว่ามันไม่ใช่วิธีของมาร์คอฟเชนดังนั้นขั้นตอนวิธีนี้จะหลีกเลี่ยงส่วนของการเดินแบบสุ่มซึ่งมักจะถือว่าไม่มีประสิทธิภาพและช้าในการบรรจบกัน แทนที่จะเดินแบบสุ่ม NUTS กระโดดข้ามความยาว x การกระโดดแต่ละครั้งจะเพิ่มเป็นสองเท่าเมื่ออัลกอริทึมยังคงทำงาน สิ่งนี้จะเกิดขึ้นจนกว่าวิถีจะถึงจุดที่ต้องการกลับไปยังจุดเริ่มต้น คำถามของฉัน: มีอะไรพิเศษเกี่ยวกับการกลับรถ? การเพิ่มเส้นทางเป็นสองเท่าไม่ข้ามจุดที่ปรับให้เหมาะสมได้อย่างไร คำอธิบายข้างต้นของฉันถูกต้องหรือไม่

1
การเลือกระหว่างนักบวชเบต้ารุ่นใหม่
ฉันกำลังมองหานักบวชที่ไม่รู้เรื่องสำหรับการแจกแจงเบต้าเพื่อทำงานกับกระบวนการทวินาม (Hit / Miss) ในตอนแรกที่ผมคิดเกี่ยวกับการใช้α = 1,β= 1α=1,β=1\alpha=1, \beta=1ที่สร้างเครื่องแบบ PDF, หรือเจฟฟรีย์ก่อนα = 0.5,β= 0.5α=0.5,β=0.5\alpha=0.5, \beta=0.5 0.5 แต่ฉันกำลังมองหาจริงไพรเออร์ที่มีผลกระทบน้อยที่สุดกับผลหลังและจากนั้นผมคิดเกี่ยวกับการใช้งานที่ไม่เหมาะสมก่อนα=0,β=0α=0,β=0\alpha=0, \beta=0 0 ปัญหาตรงนี้คือการกระจายตัวด้านหลังของฉันใช้งานได้ก็ต่อเมื่อฉันมีเพลงฮิตอย่างน้อยหนึ่งเพลง เพื่อเอาชนะสิ่งนี้ฉันจึงคิดถึงการใช้ค่าคงที่ที่น้อยมากเช่นα=0.0001,β=0.0001α=0.0001,β=0.0001\alpha=0.0001, \beta=0.0001เพียงเพื่อให้มั่นใจว่าหลังαα\alphaและββ\betaจะ0>0>0>0 ไม่มีใครรู้ว่าวิธีนี้เป็นที่ยอมรับ? ฉันเห็นเอฟเฟ็กต์ตัวเลขของการเปลี่ยนแปลงก่อนหน้านี้ แต่มีบางคนให้การแปลความหมายของการใส่ค่าคงที่ขนาดเล็กเช่นนี้ในฐานะนักบวช?

3
การปรับปรุงแบบเบย์ด้วยข้อมูลใหม่
เราจะคำนวณหาด้านหลังด้วย N ~ (a, b) ก่อนหลังจากสังเกตจุดข้อมูลได้อย่างไร ฉันคิดว่าเราต้องคำนวณค่าเฉลี่ยตัวอย่างและความแปรปรวนของจุดข้อมูลและทำการคำนวณบางอย่างที่รวมหลังกับก่อนหน้านี้ แต่ฉันไม่แน่ใจว่าสูตรการรวมกันเป็นอย่างไร

3
วิธีการเลือกก่อนในการประมาณค่าพารามิเตอร์แบบเบย์
ฉันรู้ 3 วิธีในการประมาณค่าพารามิเตอร์, วิธี ML, MAP และ Bayes และสำหรับวิธี MAP และ Bayes เราต้องเลือก priors สำหรับพารามิเตอร์ใช่ไหม สมมติว่าฉันมีโมเดลนี้p(x|α,β)p(x|α,β)p(x|\alpha,\beta)ซึ่งα,βα,β\alpha,\betaเป็นพารามิเตอร์เพื่อทำการประมาณค่าโดยใช้ MAP หรือ Bayes ฉันอ่านในหนังสือที่เราควรเลือกคอนจูเกตก่อนp(α,β)p(α,β)p(\alpha,\beta)ซึ่งเป็นความน่าจะเป็นร่วมของα,βα,β\alpha,\beta , จริงไหม? ฉันมีคำถาม 2 ข้อ: เรามีทางเลือกอื่น ๆ เลือกสิ่งอื่นนอกเหนือจากคอนจูเกตนี้หรือไม่? เราสามารถเลือก Priors สำหรับαα\alphaและตามลำดับเช่นและนอกเหนือจากที่รวมไว้ในข้อต่อได้หรือไม่?ββ\betap(α)p(α)p(\alpha)p(β)p(β)p(\beta)

4
สถิติแบบเบย์จัดการกับการไม่มีตัวตนอย่างไร
คำถามนี้ได้รับแรงบันดาลใจจากการโต้ตอบสองครั้งล่าสุดที่ฉันมีหนึ่งที่นี่ในประวัติย่อส่วนอีกเรื่องที่economics.se ที่นั่นผมได้โพสต์คำตอบไปที่รู้จักกันดี "ซองจดหมาย Paradox" (ใจคุณไม่เป็น"คำตอบที่ถูกต้อง" แต่เป็นคำตอบที่ไหลออกมาจากสมมติฐานที่เฉพาะเจาะจงเกี่ยวกับโครงสร้างของสถานการณ์) หลังจากนั้นสักครู่ผู้ใช้โพสต์ความคิดเห็นที่สำคัญและฉันมีส่วนร่วมในการสนทนาพยายามที่จะเข้าใจประเด็นของเขา มันก็เห็นได้ชัดว่าเขาคิดวิธีคชกรรมและเก็บไว้พูดคุยเกี่ยวกับไพรเออร์และอื่นแล้วมัน dawned กับฉันและผมพูดกับตัวเอง: "รอนาทีที่บอกอะไรเกี่ยวกับเรื่องใดก่อน?ในทางที่ผมได้สูตร ปัญหาไม่มีนักบวชอยู่ที่นี่พวกเขาแค่ไม่ป้อนรูปภาพและไม่จำเป็นต้อง " เมื่อเร็ว ๆ นี้ฉันเห็นคำตอบนี้ในประวัติย่อเกี่ยวกับความหมายของความเป็นอิสระทางสถิติ ฉันให้ความเห็นกับผู้เขียนว่าประโยคของเขา "... ถ้าเหตุการณ์มีความเป็นอิสระทางสถิติแล้ว (โดยคำจำกัดความ) เราไม่สามารถเรียนรู้เกี่ยวกับสิ่งหนึ่งจากการสังเกตอื่น ๆ " ผิดอย่างโจ๋งครึ่ม ในการแลกเปลี่ยนความคิดเห็นเขายังคงกลับไปที่ปัญหาของ (คำพูดของเขา) "การเรียนรู้" จะไม่หมายถึงการเปลี่ยนความเชื่อของเราเกี่ยวกับสิ่งที่อยู่บนพื้นฐานของการสังเกตของผู้อื่นหรือไม่ถ้าเป็นเช่นนั้นไม่เป็นอิสระ (นิยาม) แยกแยะเรื่องนี้? อีกครั้งเห็นได้ชัดว่าเขาคิดแบบเบย์และเขาคิดว่าตนเองชัดเจนว่าเราเริ่มต้นด้วยความเชื่อบางอย่าง (เช่นก่อนหน้า)แล้วปัญหาคือวิธีที่เราสามารถเปลี่ยน / อัปเดตพวกเขา แต่ความเชื่อครั้งแรกเกิดขึ้นได้อย่างไร? เนื่องจากวิทยาศาสตร์จะต้องสอดคล้องกับความเป็นจริงฉันทราบว่าสถานการณ์มีอยู่ว่ามนุษย์มีส่วนเกี่ยวข้องไม่มีนักบวช (ฉันมีสิ่งหนึ่งที่เดินเข้าสู่สถานการณ์โดยไม่เคยมีมาก่อน - และโปรดอย่าเถียงว่าฉันมีนักบวช แต่ฉัน เพียงแค่ไม่ได้ตระหนักถึงมันขอให้ตัวเองจิตปลอมที่นี่) เนื่องจากฉันเคยได้ยินคำว่า "นักบวชที่ไม่รู้เรื่อง" ฉันจึงแบ่งคำถามของฉันออกเป็นสองส่วนและฉันค่อนข้างมั่นใจว่าผู้ใช้ที่นี่ที่เข้าใจในทฤษฎี Bayesian รู้ว่าฉันกำลังจะถามอะไร: คำถามที่ 1: การไม่มีตัวตนที่เทียบเท่าก่อนหน้านี้ (ในแง่ทฤษฎีที่เข้มงวด) …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.