คำถามติดแท็ก prior

ในสถิติแบบเบย์การกระจายก่อนหน้านี้ทำให้ข้อมูลหรือความรู้เป็นระเบียบ (มักเป็นแบบอัตนัย) ซึ่งมีอยู่ก่อนตัวอย่างจะเห็นในรูปแบบของการแจกแจงความน่าจะเป็น การกระจายที่มีการแพร่กระจายขนาดใหญ่จะถูกใช้เมื่อมีความรู้เพียงเล็กน้อยเกี่ยวกับพารามิเตอร์ในขณะที่การกระจายก่อนหน้าแคบลงแสดงถึงระดับของข้อมูลที่มากขึ้น

2
ทำไม Laplace จึงผลิตสารละลายแบบเบาบาง?
ฉันดูวรรณกรรมเกี่ยวกับการทำให้เป็นระเบียบและมักจะเห็นย่อหน้าที่เชื่อมโยงการควบคุม L2 กับ Gaussian ก่อนและ L1 กับ Laplace โดยมีศูนย์เป็นศูนย์ ฉันรู้ว่านักบวชเหล่านี้มีหน้าตาเป็นอย่างไร แต่ฉันไม่เข้าใจว่ามันแปลอย่างไรเช่นตุ้มน้ำหนักในตัวแบบเชิงเส้น ใน L1 ถ้าฉันเข้าใจอย่างถูกต้องเราคาดหวังว่าการแก้ปัญหาแบบกระจัดกระจายนั่นคือน้ำหนักบางส่วนจะถูกผลักจนเหลือศูนย์ และใน L2 เราจะได้น้ำหนักเล็ก ๆ แต่ไม่ให้น้ำหนักเป็นศูนย์ แต่ทำไมมันเกิดขึ้น? โปรดแสดงความคิดเห็นหากฉันต้องการให้ข้อมูลเพิ่มเติมหรือชี้แจงเส้นทางการคิดของฉัน

3
วิธีที่ไม่เหมาะสมก่อนนำไปสู่การกระจายหลังที่เหมาะสมได้อย่างไร
เรารู้ว่าในกรณีที่มีการกระจายก่อนที่เหมาะสม P( θ ∣ X) = P( X| θ ) P(θ )P( X)P(θ∣X)=P(X∣θ)P(θ)P(X)P(\theta \mid X) = \dfrac{P(X \mid \theta)P(\theta)}{P(X)} )α P(X∣ θ) P( θ )∝P(X∣θ)P(θ) \propto P(X \mid \theta)P(\theta) เหตุผลปกติสำหรับขั้นตอนนี้ก็คือการกระจายตัวของ , P ( X )นั้นคงที่เมื่อเทียบกับθและสามารถถูกละเว้นได้เมื่อได้รับการแจกแจงหลังXXXP(X)P(X)P(X)θθ\theta อย่างไรก็ตามในกรณีที่ไม่เหมาะสมมาก่อนคุณจะรู้ได้อย่างไรว่าการกระจายหลังมีอยู่จริง? ดูเหมือนจะมีบางสิ่งที่ขาดหายไปในข้อโต้แย้งที่เป็นวงกลม กล่าวอีกนัยหนึ่งถ้าฉันคิดว่ามีอยู่หลังฉันเข้าใจกลไกของการได้รับมา แต่ฉันดูเหมือนจะหายไปในทางทฤษฎีเหตุผลว่าทำไมมันถึงมีอยู่ ป.ล. ฉันยังรับรู้ว่ามีบางกรณีที่ก่อนหน้านี้ไม่เหมาะสมนำไปสู่การหลังที่ไม่เหมาะสม

6
ด้านหลังแตกต่างจากก่อนและมีโอกาสมาก
หากก่อนหน้านี้และโอกาสที่แตกต่างกันมากจากนั้นบางครั้งสถานการณ์ที่เกิดขึ้นที่หลังหลังจะไม่เหมือนกัน ดูตัวอย่างภาพนี้ซึ่งใช้การแจกแจงแบบปกติ แม้ว่านี่จะถูกต้องในเชิงคณิตศาสตร์ แต่ดูเหมือนว่าจะไม่สอดคล้องกับสัญชาตญาณของฉัน - ถ้าข้อมูลไม่ตรงกับความเชื่อหรือข้อมูลที่จัดขึ้นอย่างรุนแรงของฉัน ทั้งช่วงหรือบางทีการกระจาย bimodal รอบก่อนและโอกาส (ฉันไม่แน่ใจซึ่งทำให้รู้สึกตรรกะเพิ่มเติม) แน่นอนว่าฉันจะไม่คาดหวังว่าคนหลังแน่นหนาในช่วงที่ไม่ตรงกับความเชื่อหรือข้อมูลของฉัน ฉันเข้าใจว่าเมื่อมีการรวบรวมข้อมูลมากขึ้นผู้หลังจะย้ายไปสู่ความเป็นไปได้ แต่ในสถานการณ์เช่นนี้ดูเหมือนว่าจะตอบโต้ได้ง่าย คำถามของฉันคือ: ความเข้าใจของฉันเกี่ยวกับสถานการณ์นี้มีข้อบกพร่องอย่างไร (หรือมีข้อบกพร่อง) ด้านหลังเป็นฟังก์ชัน `ถูกต้อง 'สำหรับสถานการณ์นี้หรือไม่ และถ้าไม่ทำเช่นนั้น เพื่อประโยชน์ครบถ้วนก่อนที่จะได้รับเป็นและความน่าจะเป็น0.4)N ( μ = 6.1 , σ = 0.4 )ยังไม่มีข้อความ( μ = 1.5 , σ= 0.4 )ยังไม่มีข้อความ(μ=1.5,σ=0.4)\mathcal{N}(\mu=1.5, \sigma=0.4)ยังไม่มีข้อความ( μ = 6.1 , σ= 0.4 )ยังไม่มีข้อความ(μ=6.1,σ=0.4)\mathcal{N}(\mu=6.1, \sigma=0.4) แก้ไข: ดูคำตอบที่ได้รับฉันรู้สึกว่าฉันไม่ได้อธิบายสถานการณ์ได้ดีนัก ประเด็นของฉันคือการวิเคราะห์แบบเบย์ดูเหมือนจะให้ผลลัพธ์ที่ไม่เป็นไปตามสัญชาตญาณเนื่องจากข้อสมมติฐานในแบบจำลอง ความหวังของฉันคือการที่หลังผู้ใดจะ …

4
การแจกแจงก่อนหน้าอย่างไม่ทราบข้อมูลสำหรับพารามิเตอร์มาตราส่วน
ฉันใช้การแจกแจงแบบปกติของล็อกเป็นการแจกแจงก่อนหน้าสำหรับพารามิเตอร์สเกล (สำหรับการแจกแจงแบบปกติ, การแจกแจงแบบอื่น ๆ ) เมื่อฉันมีความคิดคร่าวๆเกี่ยวกับสิ่งที่สเกลควรจะเป็น แต่ต้องการทำผิดด้าน มากเกี่ยวกับมัน ฉันใช้เพราะการใช้นั้นทำให้ฉันเข้าใจได้ง่าย แต่ฉันไม่ได้เห็นคนอื่นใช้ มีอันตรายซ่อนอยู่หรือไม่?

2
การตีความตามธรรมชาติสำหรับพารามิเตอร์ LDA
ใครสามารถอธิบายการตีความตามธรรมชาติของพารามิเตอร์ LDA ได้บ้าง? ALPHAและBETAเป็นพารามิเตอร์ของการแจกแจง Dirichlet สำหรับหัวข้อ (ต่อเอกสาร) และ (ต่อหัวข้อ) การแจกแจงคำตามลำดับ อย่างไรก็ตามบางคนสามารถอธิบายความหมายของการเลือกค่าที่มากขึ้นของพารามิเตอร์เหล่านี้กับค่าที่น้อยลงได้อย่างไร นั่นหมายถึงการใส่ความเชื่อก่อนหน้านี้ในแง่ของหัวข้อที่กระจัดกระจายในเอกสารและการยกเว้นร่วมกันของหัวข้อในแง่ของคำ? คำถามนี้เกี่ยวกับการจัดสรร Dirichlet ที่แฝงอยู่ แต่ความคิดเห็นโดย BGReene ด้านล่างนี้หมายถึงการวิเคราะห์การจำแนกเชิงเส้นซึ่งทำให้สับสนก็คือ LDA ย่อ

2
ทำไม
พื้นหลัง หนึ่งของสินค้าที่อ่อนแอก่อนในความแปรปรวนมากที่สุดคือการผกผันแกมมากับพารามิเตอร์ (Gelman 2006)α = 0.001 , β= 0.001α=0.001,β=0.001\alpha =0.001, \beta=0.001 อย่างไรก็ตามการกระจายนี้มี CI 90% ของประมาณ ][ 3 × 1019, ∞ ][3×1019,∞][3\times10^{19},\infty] library(pscl) sapply(c(0.05, 0.95), function(x) qigamma(x, 0.001, 0.001)) [1] 3.362941e+19 Inf จากนี้ฉันตีความว่าให้ความน่าจะเป็นต่ำที่ความแปรปรวนจะสูงมากและความน่าจะเป็นต่ำมากที่ความแปรปรวนจะน้อยกว่า 1 P ( σ < 1 | α = 0.001 , β = 0.001 ) = 0.006ผมG ( …

2
อะไรคือสิ่งที่ / นัยในสถิติบ่อย ๆ คืออะไร?
ฉันเคยได้ยินความคิดที่ว่าเจย์เนสอ้างว่าผู้ใช้บ่อยใช้งานด้วย "โดยปริยายมาก่อน" นักบวชโดยนัยคืออะไรหรือ นี่หมายความว่าแบบจำลองผู้ใช้ประจำเป็นกรณีพิเศษทั้งหมดของแบบจำลอง Bayesian ที่รอการค้นพบหรือไม่?

2
ปัญหาของนักบวชเชิงประจักษ์คืออะไร?
ในวรรณคดีบางครั้งฉันก็กลั้นกับคำพูดการเลือกนักบวชที่ขึ้นอยู่กับข้อมูล (เช่น Zellners g- ก่อน) จะถูกวิพากษ์วิจารณ์จากมุมมองทางทฤษฎี ปัญหาจะเกิดขึ้นที่ไหนหากข้อมูลก่อนหน้านี้ไม่ได้ถูกเลือกโดยอิสระจากข้อมูล

4
กรอบการเรียนรู้แบบเบย์ดีกว่าในการตีความอย่างไรเมื่อเรามักใช้นักบวชที่ไม่เป็นทางการหรือเป็นอัตนัย
มันมักจะเป็นที่ถกเถียงกันอยู่ว่ากรอบการทำงานแบบเบย์มีประโยชน์อย่างมากในการตีความ (มากกว่าบ่อยครั้ง) เพราะมันคำนวณความน่าจะเป็นของพารามิเตอร์ที่กำหนดข้อมูล -แทนใน กรอบบ่อย จนถึงตอนนี้ดีมากp(θ|x)p(θ|x)p(\theta|x)p(x|θ)p(x|θ)p(x|\theta) แต่สมการทั้งหมดขึ้นอยู่กับ: p(θ|x)=p(x|θ).p(θ)p(x)p(θ|x)=p(x|θ).p(θ)p(x)p(\theta|x) = {p(x|\theta) . p(\theta) \over p(x)} ฉันสงสัยเล็กน้อยด้วยเหตุผล 2 ประการ: ในเอกสารจำนวนมากมีการใช้ตัวพิมพ์ใหญ่แบบปกติ (การแจกแจงแบบสม่ำเสมอ) และใช้เพียงแค่ดังนั้น Bayesians จะได้ผลลัพธ์เช่นเดียวกับผู้ที่ได้รับบ่อย การตีความเมื่อเบย์หลังและบ่อยครั้งความน่าจะเป็นการแจกแจงเดียวกันคืออะไร? มันให้ผลลัพธ์ที่เหมือนกันp(θ|x)=p(x|θ)p(θ|x)=p(x|θ)p(\theta|x) = p(x|\theta) เมื่อใช้ข้อมูลที่มีค่าคุณจะได้รับผลลัพธ์ที่แตกต่างกัน แต่ Bayesian ได้รับผลกระทบจากบุคคลก่อนดังนั้นทั้งหมดจึงมีสีแบบอัตนัยเช่นกันp(θ|x)p(θ|x)p(\theta|x) กล่าวอีกนัยหนึ่งการโต้แย้งทั้งหมดของดีกว่าในการตีความมากกว่าp (x | \ theta) ที่สร้างขึ้นบนสมมุติฐานว่าp (\ theta)เป็น "จริง" ชนิดซึ่งปกติไม่ใช่มัน เป็นเพียงจุดเริ่มต้นที่เราเลือกที่จะทำให้การเรียกใช้ MCMC เป็นข้อสันนิษฐาน แต่ไม่ใช่คำอธิบายของความเป็นจริง (มันไม่สามารถนิยามได้ฉันคิด)p(θ|x)p(θ|x)p(\theta|x)p(x|θ)p(x|θ)p(x|\theta)p(θ)p(θ)p(\theta) แล้วเราจะเถียงได้อย่างไรว่าชาวเบเซียนนั้นดีกว่าในการตีความ?

1
มีการตีความแบบเบย์ของการถดถอยเชิงเส้นพร้อมกับการทำให้เป็นมาตรฐาน L1 และ L2 พร้อมกัน (อาคายืดหยุ่นสุทธิ) หรือไม่?
เป็นที่ทราบกันดีว่าการถดถอยเชิงเส้นที่มีการลงโทษนั้นเทียบเท่ากับการหาค่าประมาณ MAP ที่กำหนดให้ Gaussian ก่อนค่าสัมประสิทธิ์ ในทำนองเดียวกันการใช้การลงโทษนั้นเทียบเท่ากับการใช้การแจกแจงแบบลาปลาซก่อนหน้านี้l2l2l^2l1l1l^1 มันไม่ใช่เรื่องแปลกที่จะใช้บางชุดถ่วงน้ำหนักของและกู เราสามารถพูดได้ไหมว่าสิ่งนี้เทียบเท่ากับการกระจายก่อนหน้ามากกว่าค่าสัมประสิทธิ์ (โดยสังเขปดูเหมือนว่าจะต้องเป็น) เราสามารถให้รูปแบบการวิเคราะห์ที่ดี (อาจเป็นส่วนผสมของ Gaussian และ Laplacian) ได้หรือไม่? ถ้าไม่ทำไมไม่l1l1l^1l2l2l^2

2
อะไรคือความสัมพันธ์เบื้องหลัง Jeffreys Priors และความแปรปรวนของการเปลี่ยนแปลงที่มั่นคง?
ฉันกำลังอ่านเกี่ยวกับ Jeffreys ก่อนในวิกิพีเดีย: Jeffreys Priorและเห็นว่าหลังจากแต่ละตัวอย่างมันอธิบายว่าการเปลี่ยนแปลงที่ทำให้เกิดความแปรปรวนทำให้เกิดความแปรปรวนทำให้ Jeffreys กลายเป็นชุดก่อนได้อย่างไร เป็นตัวอย่างสำหรับกรณี Bernoulli มันกล่าวว่าสำหรับเหรียญที่มีหัวกับความน่าจะเป็นγ∈ [ 0 ,1]γ∈[0,1]\gamma \in [0,1]ที่อัตราผลตอบแทน Bernoulli รุ่นทดลองใช้ฟรีย์ว่าก่อนสำหรับพารามิเตอร์γγ\gammaคือ: p(γ)∝1γ(1−γ)−−−−−−−√p(γ)∝1γ(1−γ) p(\gamma) \propto \frac{1}{\sqrt{\gamma ( 1-\gamma)}} จากนั้นระบุว่านี่คือการแจกแจงแบบเบต้าด้วยα=β=12α=β=12\alpha = \beta = \frac{1}{2} . นอกจากนี้ยังระบุด้วยว่าถ้าγ=sin2(θ)γ=sin2⁡(θ)\gamma = \sin^2(\theta)ดังนั้น Jeffreys ก่อนหน้าสำหรับθθ\thetaจะเหมือนกันในช่วง[0,π2][0,π2]\left[0, \frac{\pi}{2}\right] . ฉันรับรู้การเปลี่ยนแปลงว่าเป็นการเปลี่ยนแปลงที่ทำให้เกิดความแปรปรวน สิ่งที่ทำให้ฉันสับสนคือ: ทำไมการแปรปรวนที่ทำให้เกิดความแปรปรวนทำให้เกิดความแปรปรวนในรูปแบบเหมือนกันมาก่อน ทำไมเราถึงต้องการเครื่องแบบก่อน (เนื่องจากดูเหมือนว่าอาจจะไม่เหมาะสมกว่า) โดยทั่วไปแล้วฉันไม่แน่ใจว่าทำไมการแปลงสแควร์ - ไซน์ถึงได้รับและบทบาทอะไร ใครจะมีความคิดใด ๆ


2
บ่อยและนักบวช
Robby McKilliam พูดในความคิดเห็นในโพสต์นี้ : ควรชี้ให้เห็นว่าจากมุมมองของผู้ใช้บ่อยไม่มีเหตุผลที่คุณไม่สามารถรวมความรู้ก่อนหน้านี้เข้ากับโมเดลได้ ในแง่นี้มุมมองที่ใช้บ่อยจะง่ายกว่าคุณมีเพียงรุ่นและข้อมูลบางส่วนเท่านั้น ไม่จำเป็นต้องแยกข้อมูลก่อนหน้าออกจากตัวแบบ นอกจากนี้ที่นี่ @jbowman บอกว่าผู้ใช้บ่อยใช้การทำให้เป็นมาตรฐานโดยฟังก์ชั่นค่าใช้จ่าย / การลงโทษในขณะที่ชาวเบย์สามารถทำสิ่งนี้ได้ก่อน: ผู้ใช้บ่อยตระหนักว่าการทำให้เป็นมาตรฐานนั้นดีและใช้กันอย่างแพร่หลายในทุกวันนี้และนักบวชแบบเบย์สามารถตีความได้อย่างง่ายดายว่าเป็นการทำให้เป็นระเบียบ ดังนั้นคำถามของฉันคือผู้ใช้งานทั่วไปสามารถรวมรูปแบบของสิ่งที่ Bayesians ระบุว่าเป็นนักบวชได้หรือไม่? ยกตัวอย่างเช่นการทำให้เป็นมาตรฐานฟังก์ชั่นค่าใช้จ่าย / การลงโทษได้รวมเข้ากับแบบจำลองจริง ๆ หรือนี่คือวิธีการที่แท้จริงในการปรับแก้ปัญหา (รวมถึงทำให้เป็นเอกลักษณ์)

1
การเลือกระหว่างนักบวชเบต้ารุ่นใหม่
ฉันกำลังมองหานักบวชที่ไม่รู้เรื่องสำหรับการแจกแจงเบต้าเพื่อทำงานกับกระบวนการทวินาม (Hit / Miss) ในตอนแรกที่ผมคิดเกี่ยวกับการใช้α = 1,β= 1α=1,β=1\alpha=1, \beta=1ที่สร้างเครื่องแบบ PDF, หรือเจฟฟรีย์ก่อนα = 0.5,β= 0.5α=0.5,β=0.5\alpha=0.5, \beta=0.5 0.5 แต่ฉันกำลังมองหาจริงไพรเออร์ที่มีผลกระทบน้อยที่สุดกับผลหลังและจากนั้นผมคิดเกี่ยวกับการใช้งานที่ไม่เหมาะสมก่อนα=0,β=0α=0,β=0\alpha=0, \beta=0 0 ปัญหาตรงนี้คือการกระจายตัวด้านหลังของฉันใช้งานได้ก็ต่อเมื่อฉันมีเพลงฮิตอย่างน้อยหนึ่งเพลง เพื่อเอาชนะสิ่งนี้ฉันจึงคิดถึงการใช้ค่าคงที่ที่น้อยมากเช่นα=0.0001,β=0.0001α=0.0001,β=0.0001\alpha=0.0001, \beta=0.0001เพียงเพื่อให้มั่นใจว่าหลังαα\alphaและββ\betaจะ0>0>0>0 ไม่มีใครรู้ว่าวิธีนี้เป็นที่ยอมรับ? ฉันเห็นเอฟเฟ็กต์ตัวเลขของการเปลี่ยนแปลงก่อนหน้านี้ แต่มีบางคนให้การแปลความหมายของการใส่ค่าคงที่ขนาดเล็กเช่นนี้ในฐานะนักบวช?

3
วิธีการเลือกก่อนในการประมาณค่าพารามิเตอร์แบบเบย์
ฉันรู้ 3 วิธีในการประมาณค่าพารามิเตอร์, วิธี ML, MAP และ Bayes และสำหรับวิธี MAP และ Bayes เราต้องเลือก priors สำหรับพารามิเตอร์ใช่ไหม สมมติว่าฉันมีโมเดลนี้p(x|α,β)p(x|α,β)p(x|\alpha,\beta)ซึ่งα,βα,β\alpha,\betaเป็นพารามิเตอร์เพื่อทำการประมาณค่าโดยใช้ MAP หรือ Bayes ฉันอ่านในหนังสือที่เราควรเลือกคอนจูเกตก่อนp(α,β)p(α,β)p(\alpha,\beta)ซึ่งเป็นความน่าจะเป็นร่วมของα,βα,β\alpha,\beta , จริงไหม? ฉันมีคำถาม 2 ข้อ: เรามีทางเลือกอื่น ๆ เลือกสิ่งอื่นนอกเหนือจากคอนจูเกตนี้หรือไม่? เราสามารถเลือก Priors สำหรับαα\alphaและตามลำดับเช่นและนอกเหนือจากที่รวมไว้ในข้อต่อได้หรือไม่?ββ\betap(α)p(α)p(\alpha)p(β)p(β)p(\beta)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.