คำถามติดแท็ก bayesian

การอนุมานแบบเบย์เป็นวิธีการอนุมานเชิงสถิติที่อาศัยการรักษาพารามิเตอร์แบบจำลองเป็นตัวแปรสุ่มและการใช้ทฤษฎีบทของเบส์เพื่ออนุมานความน่าจะเป็นแบบอัตนัยเกี่ยวกับพารามิเตอร์หรือสมมติฐานตามเงื่อนไขบนชุดข้อมูลที่สังเกต

2
เหตุใดจึงจำเป็นต้องสุ่มตัวอย่างจากการแจกแจงหลังถ้าเรารู้การกระจายตัวหลังแล้ว?
ความเข้าใจของฉันคือเมื่อใช้วิธีการแบบเบย์เพื่อประเมินค่าพารามิเตอร์: การกระจายหลังคือการรวมกันของการกระจายก่อนหน้าและการกระจายโอกาส เราจำลองสิ่งนี้โดยการสร้างตัวอย่างจากการแจกแจงด้านหลัง (เช่นการใช้อัลกอริทึม Metropolis-Hasting เพื่อสร้างค่าและยอมรับถ้าพวกเขาอยู่เหนือขีดจำกัดความน่าจะเป็นที่แน่นอนที่จะเป็นของการแจกแจงหลัง) เมื่อเราสร้างตัวอย่างนี้เราจะใช้มันเพื่อประมาณการกระจายตัวของหลังและสิ่งต่าง ๆ เช่นค่าเฉลี่ย แต่ฉันรู้สึกว่าฉันต้องเข้าใจผิดบางอย่าง ดูเหมือนว่าเรามีการแจกแจงด้านหลังแล้วสุ่มตัวอย่างจากนั้นใช้ตัวอย่างนั้นเป็นค่าประมาณของการแจกแจงหลัง แต่ถ้าเรามีการกระจายด้านหลังเพื่อเริ่มต้นด้วยเหตุใดเราจึงต้องสุ่มตัวอย่างจากมันถึงค่าประมาณ

3
ความน่าจะเป็นหลังอาจเป็น> 1 หรือไม่
ในสูตรของเบย์: P(x|a)=P(a|x)P(x)P(a)P(x|a)=P(a|x)P(x)P(a)P(x|a) = \frac{P(a|x) P(x)}{P(a)} ความน่าจะเป็นหลังที่P(x|a)P(x|a)P(x|a)เกิน 1 ได้หรือไม่? ฉันคิดว่ามันเป็นไปได้ถ้ายกตัวอย่างเช่นสมมติว่า0&lt;P(a)&lt;10&lt;P(a)&lt;10 < P(a) < 1และP(a)&lt;P(x)&lt;1P(a)&lt;P(x)&lt;1P(a) < P(x) < 1และP(a)/P(x)&lt;P(a|x)&lt;1P(a)/P(x)&lt;P(a|x)&lt;1P(a)/P(x) < P(a|x) < 1 1 แต่ฉันไม่แน่ใจเกี่ยวกับเรื่องนี้เพราะความน่าจะเป็นที่จะมีค่ามากกว่าหนึ่งหมายความว่าอย่างไร

4
แรงจูงใจเชิงทฤษฎีสำหรับการใช้โอกาสในการเข้าสู่ระบบและความน่าจะเป็น
ฉันพยายามที่จะเข้าใจในระดับที่ลึกกว่าความแพร่หลายของความน่าจะเป็นในการบันทึก (และความน่าจะเป็นโดยทั่วไปของการบันทึก) ในสถิติและทฤษฎีความน่าจะเป็น ความน่าจะเป็นบันทึกปรากฏขึ้นทั่วทุกสถานที่: เรามักจะทำงานร่วมกับบันทึกความน่าจะเป็นสำหรับการวิเคราะห์ (เช่นสำหรับการขยายให้ใหญ่สุด) ข้อมูลฟิชเชอร์ถูกกำหนดในแง่ของอนุพันธ์อันดับสองของบันทึกความน่าจะเป็น , Kullback-Liebler divergence เกี่ยวข้องกับความน่าจะเป็นของล็อก, การคาดหวังของนักทำนายนั้นเป็นโอกาสในการบันทึกที่คาดหวัง, เป็นต้น ตอนนี้ฉันขอขอบคุณเหตุผลที่เป็นประโยชน์และสะดวกสบายมากมาย ไฟล์ PDF ทั่วไปและมีประโยชน์มากมายนั้นมาจากตระกูลเอ็กซ์โปเนนเชียล ผลรวมจะทำงานได้ง่ายกว่าผลิตภัณฑ์ (โดยเฉพาะสำหรับการแยกแยะ) Log-probs มีข้อได้เปรียบจากการใช้โพรบ การแปลงรูปแบบไฟล์ PDF มักจะแปลงฟังก์ชั่นที่ไม่ใช่เว้าให้เป็นฟังก์ชั่นเว้า แต่เหตุผลทางเหตุผล / เหตุผล / แรงจูงใจสำหรับ log-probs คืออะไร? เป็นตัวอย่างของความฉงนสนเท่ห์ของฉันพิจารณาข้อมูลของชาวประมง (FI) คำอธิบายตามปกติสำหรับสัญชาตญาณของ FI คืออนุพันธ์อันดับสองของบันทึกความน่าจะเป็นบอกเราว่า "ยอดแหลม" บันทึกความเป็นเหมือนกันคืออะไร: บันทึกความน่าจะเป็นยอดแหลมสูงหมายถึง MLE ระบุไว้อย่างดีและเราค่อนข้างมั่นใจในคุณค่า ในขณะที่ความใกล้ชิดบันทึก (ความโค้งต่ำ) หมายถึงค่าพารามิเตอร์ที่แตกต่างกันหลายอย่างเกือบจะดี (ในแง่ของความน่าจะเป็นบันทึก) เช่นเดียวกับ MLE ดังนั้น MLE ของเราจึงมีความไม่แน่นอนมากขึ้น …


5
สถิติแบบเบย์ทำให้การวิเคราะห์อภิธานศัพท์ล้าสมัยหรือไม่?
ฉันแค่สงสัยว่าสถิติของเบย์จะถูกนำมาใช้ตั้งแต่การศึกษาครั้งแรกจนถึงครั้งสุดท้ายหรือไม่หากนี่เป็นการวิเคราะห์เมตาดาต้าที่ล้าสมัย ตัวอย่างเช่นสมมติว่ามีการศึกษา 20 ครั้งซึ่งทำในเวลาที่ต่างกัน การประเมินหรือการกระจายของการศึกษาครั้งแรกได้ทำกับuninformativeก่อน การศึกษาที่สองใช้การแจกแจงหลังเป็นแบบก่อน การกระจายหลังใหม่นี้ใช้ก่อนหน้านี้สำหรับการศึกษาที่สามเป็นต้น ในตอนท้ายเรามีการประมาณการซึ่งมีการประมาณการหรือข้อมูลทั้งหมดที่เคยทำมาก่อน มันสมเหตุสมผลหรือไม่ที่จะทำการวิเคราะห์อภิมาน? ที่น่าสนใจฉันคิดว่าการเปลี่ยนลำดับของการวิเคราะห์นี้จะเปลี่ยนการกระจายของหลังสุดด้วยความเคารพประมาณการ

2
ปัญหาของนักบวชเชิงประจักษ์คืออะไร?
ในวรรณคดีบางครั้งฉันก็กลั้นกับคำพูดการเลือกนักบวชที่ขึ้นอยู่กับข้อมูล (เช่น Zellners g- ก่อน) จะถูกวิพากษ์วิจารณ์จากมุมมองทางทฤษฎี ปัญหาจะเกิดขึ้นที่ไหนหากข้อมูลก่อนหน้านี้ไม่ได้ถูกเลือกโดยอิสระจากข้อมูล

5
หนังสือดีเกี่ยวกับปรัชญาที่อยู่เบื้องหลังการคิดแบบเบย์คืออะไร?
อะไรคือหนังสือที่ดีเกี่ยวกับปรัชญาแบบเบย์, การเปรียบเทียบตัวแบบอัตนัยกับนักเขียนเชิงวัตถุ, อธิบายมุมมองของความน่าจะเป็นว่าเป็นความรู้ในสถิติแบบเบย์เป็นต้น? บางทีหนังสือของ Savage? ตอนแรกฉันคิดว่าเบอร์เกอร์ (1986) สามารถทำงานได้ แต่มันไม่ใช่สิ่งที่ฉันกำลังมองหา การค้นหาหนังสือเช่นนี้ไม่ได้นำไปสู่ผลลัพธ์ที่ฉันต้องการ

3
ทำไมสถิติแบบเบย์ไม่เป็นที่นิยมสำหรับการควบคุมกระบวนการทางสถิติ?
ความเข้าใจของฉันเกี่ยวกับการถกเถียงกันอย่างเบยส์ vs บ่อยเป็นสถิติที่บ่อย: มีวัตถุประสงค์ (หรืออ้างว่าเป็น) หรืออย่างน้อยก็ไม่เอนเอียง นักวิจัยที่แตกต่างกันดังนั้นการใช้สมมติฐานที่แตกต่างกันยังคงสามารถรับผลการเปรียบเทียบเชิงปริมาณได้ ในขณะที่สถิติแบบเบย์ อ้างว่าทำการคาดคะเน "ดีกว่า" (เช่นการสูญเสียต่ำกว่าที่คาด) เนื่องจากสามารถใช้ความรู้เดิม (ท่ามกลางเหตุผลอื่น ๆ ) ต้องการตัวเลือก "เฉพาะกิจ" น้อยลงแทนที่ด้วยตัวเลือกก่อนหน้า / แบบจำลองที่ (อย่างน้อยในหลักการ) มีการตีความในโลกแห่งความเป็นจริง ระบุว่าฉันจะคาดหวังว่าสถิติแบบเบย์จะได้รับความนิยมอย่างมากใน SPC: ถ้าฉันเป็นเจ้าของโรงงานที่พยายามควบคุมคุณภาพกระบวนการของฉัน ถ้าฉันสามารถลดได้เพราะฉันมีความรู้ล่วงหน้ามากกว่า / คู่แข่งที่ดีกว่าของฉันดียิ่งขึ้น แต่ในทางปฏิบัติทุกสิ่งที่ฉันได้อ่านเกี่ยวกับ SPC ดูเหมือนจะเป็นประจำอย่างแน่นอน (เช่นไม่มีการแจกแจงก่อนหน้าการประมาณค่าพารามิเตอร์ทั้งหมดตัวเลือก Ad-hoc จำนวนมากเกี่ยวกับขนาดตัวอย่างค่า p ฯลฯ ) ทำไมถึงเป็นอย่างนั้น? ฉันเห็นได้ว่าทำไมสถิติบ่อยครั้งจึงเป็นตัวเลือกที่ดีกว่าในปี 1960 เมื่อ SPC ใช้ปากกาและกระดาษ แต่ทำไมไม่มีใครลองใช้วิธีการอื่นตั้งแต่นั้นมา

4
กรอบการเรียนรู้แบบเบย์ดีกว่าในการตีความอย่างไรเมื่อเรามักใช้นักบวชที่ไม่เป็นทางการหรือเป็นอัตนัย
มันมักจะเป็นที่ถกเถียงกันอยู่ว่ากรอบการทำงานแบบเบย์มีประโยชน์อย่างมากในการตีความ (มากกว่าบ่อยครั้ง) เพราะมันคำนวณความน่าจะเป็นของพารามิเตอร์ที่กำหนดข้อมูล -แทนใน กรอบบ่อย จนถึงตอนนี้ดีมากp(θ|x)p(θ|x)p(\theta|x)p(x|θ)p(x|θ)p(x|\theta) แต่สมการทั้งหมดขึ้นอยู่กับ: p(θ|x)=p(x|θ).p(θ)p(x)p(θ|x)=p(x|θ).p(θ)p(x)p(\theta|x) = {p(x|\theta) . p(\theta) \over p(x)} ฉันสงสัยเล็กน้อยด้วยเหตุผล 2 ประการ: ในเอกสารจำนวนมากมีการใช้ตัวพิมพ์ใหญ่แบบปกติ (การแจกแจงแบบสม่ำเสมอ) และใช้เพียงแค่ดังนั้น Bayesians จะได้ผลลัพธ์เช่นเดียวกับผู้ที่ได้รับบ่อย การตีความเมื่อเบย์หลังและบ่อยครั้งความน่าจะเป็นการแจกแจงเดียวกันคืออะไร? มันให้ผลลัพธ์ที่เหมือนกันp(θ|x)=p(x|θ)p(θ|x)=p(x|θ)p(\theta|x) = p(x|\theta) เมื่อใช้ข้อมูลที่มีค่าคุณจะได้รับผลลัพธ์ที่แตกต่างกัน แต่ Bayesian ได้รับผลกระทบจากบุคคลก่อนดังนั้นทั้งหมดจึงมีสีแบบอัตนัยเช่นกันp(θ|x)p(θ|x)p(\theta|x) กล่าวอีกนัยหนึ่งการโต้แย้งทั้งหมดของดีกว่าในการตีความมากกว่าp (x | \ theta) ที่สร้างขึ้นบนสมมุติฐานว่าp (\ theta)เป็น "จริง" ชนิดซึ่งปกติไม่ใช่มัน เป็นเพียงจุดเริ่มต้นที่เราเลือกที่จะทำให้การเรียกใช้ MCMC เป็นข้อสันนิษฐาน แต่ไม่ใช่คำอธิบายของความเป็นจริง (มันไม่สามารถนิยามได้ฉันคิด)p(θ|x)p(θ|x)p(\theta|x)p(x|θ)p(x|θ)p(x|\theta)p(θ)p(θ)p(\theta) แล้วเราจะเถียงได้อย่างไรว่าชาวเบเซียนนั้นดีกว่าในการตีความ?

2
เมื่อไหร่ที่ MCMC กลายเป็นเรื่องธรรมดา?
ไม่มีใครรู้ว่าในปี MCMC กลายเป็นเรื่องธรรมดา (เช่นวิธีการที่นิยมสำหรับการอนุมานแบบเบย์)? ลิงก์ไปยังจำนวนบทความ MCMC (เจอร์นัล) ที่ตีพิมพ์เมื่อเวลาผ่านไปจะเป็นประโยชน์อย่างยิ่ง
18 bayesian  mcmc  history 

1
หลังหลายตัวแปรปกติ
นี่เป็นคำถามง่าย ๆ แต่ฉันไม่สามารถหาที่มาที่ใดก็ได้บนอินเทอร์เน็ตหรือในหนังสือ ฉันต้องการที่จะเห็นการกำเนิดของวิธีการแบบเบย์หนึ่งปรับปรุงการกระจายปกติหลายตัวแปร ตัวอย่างเช่นลองจินตนาการว่า P(x|μ,Σ)P(μ)==N(μ,Σ)N(μ0,Σ0).P(x|μ,Σ)=N(μ,Σ)P(μ)=N(μ0,Σ0). \begin{array}{rcl} \mathbb{P}({\bf x}|{\bf μ},{\bf Σ}) & = & N({\bf \mu}, {\bf \Sigma}) \\ \mathbb{P}({\bf \mu}) &= & N({\bf \mu_0}, {\bf \Sigma_0})\,. \end{array} หลังจากการเฝ้าสังเกตชุดของ , ผมอยากจะคำนวณx_n}) ฉันรู้ว่าคำตอบคือ\ mathbb {P} ({\ bf \ mu | x_1 ... x_n}) = N ({\ bf \ mu_n}, {\ bf …

4
เมื่อใดวิธีการแบบเบย์จึงเป็นที่นิยมสำหรับผู้นิยมใช้บ่อย
ฉันต้องการเรียนรู้เกี่ยวกับเทคนิคแบบเบย์ดังนั้นฉันจึงพยายามสอนตัวเองเล็กน้อย อย่างไรก็ตามฉันมีช่วงเวลาที่ยากลำบากในการดูเมื่อใช้เทคนิคแบบเบย์ที่เคยได้รับประโยชน์มากกว่าวิธีการแบบใช้บ่อย ตัวอย่างเช่น: ฉันเคยเห็นในงานวรรณกรรมมาบ้างเกี่ยวกับวิธีที่บางคนใช้นักบวชที่ให้ข้อมูลในขณะที่คนอื่นใช้วิธีที่ไม่ให้ข้อมูลมาก่อน แต่ถ้าคุณใช้แบบไม่ให้ข้อมูลมาก่อน (ซึ่งดูเหมือนว่าเป็นเรื่องธรรมดาจริง ๆ ?) และคุณพบว่าการแจกแจงแบบหลังนั้นคือการแจกแจงแบบเบต้า ... คุณจะไม่พอดีกับการแจกแจงแบบเบต้าในตอนแรกและเรียกว่า มันดี? ฉันไม่เห็นวิธีการสร้างการกระจายก่อนหน้านี้ที่บอกอะไรคุณไม่ได้ ... สามารถบอกอะไรคุณได้จริงเหรอ? มันกลับกลายเป็นว่าวิธีการบางอย่างที่ฉันใช้ใน R ใช้วิธีผสมระหว่างแบบเบย์และแบบผู้ใช้ประจำ (ผู้เขียนยอมรับว่านี่ค่อนข้างไม่สอดคล้องกัน) และฉันไม่สามารถแยกแยะว่าส่วนใดเป็นแบบเบส์ นอกเหนือจากการกระจายตัวที่เหมาะสมฉันไม่สามารถเข้าใจวิธีที่คุณจะใช้วิธีการแบบเบย์ มี "การถดถอยแบบเบย์" หรือไม่? มันจะมีหน้าตาเป็นอย่างไร? ทั้งหมดที่ฉันจินตนาการได้คือการเดาว่ามีการแจกแจงพื้นฐานซ้ำแล้วซ้ำอีกในขณะที่นักคิดประจำคิดเกี่ยวกับข้อมูลบางอย่างมองมันเห็นการกระจายของปัวซองและเรียกใช้ GLM (นี่ไม่ใช่คำวิจารณ์ ... ฉันแค่ไม่เข้าใจจริงๆ!) ดังนั้น .. บางทีตัวอย่างเบื้องต้นบางอย่างอาจช่วยได้? และถ้าคุณรู้ถึงการอ้างอิงที่ใช้ได้จริงสำหรับผู้เริ่มต้นตัวจริงเช่นฉันนั่นก็จะเป็นประโยชน์เช่นกัน!

1
ในตัวอย่างโรงเรียน 8 แห่งของเจลแมนเหตุใดจึงมีข้อผิดพลาดมาตรฐานของการประมาณการส่วนบุคคลที่สันนิษฐาน
บริบท: ในตัวอย่างของโรงเรียน 8 แห่งของ Gelman (การวิเคราะห์ข้อมูลแบบเบย์, รุ่นที่ 3, Ch 5.5) มีการทดลองแบบขนานแปดครั้งใน 8 โรงเรียนที่ทำการทดสอบผลของการฝึก การทดสอบแต่ละครั้งให้ผลลัพธ์โดยประมาณสำหรับประสิทธิภาพของการฝึกและข้อผิดพลาดมาตรฐานที่เกี่ยวข้อง ผู้เขียนสร้างแบบจำลองลำดับชั้นสำหรับจุดข้อมูล 8 จุดของลักษณะพิเศษการฝึกดังนี้: yi∼N(θi,sei)θi∼N(μ,τ)yi∼N(θi,sei)θi∼N(μ,τ) y_i \sim N(\theta_i, se_i) \\ \theta_i \sim N(\mu, \tau) คำถาม ในรูปแบบนี้พวกเขาคิดว่าseiseise_iเป็นที่รู้จักกัน ฉันไม่เข้าใจสมมติฐานนี้ - ถ้าเรารู้สึกว่าเรามีรูปแบบθiθi\theta_iทำไมเราไม่ทำเช่นเดียวกันสำหรับseiseise_i ? ฉันได้ตรวจสอบกระดาษต้นฉบับของ Rubinแนะนำตัวอย่างโรงเรียน 8 แห่งแล้วและที่นั่นผู้เขียนก็บอกเช่นนั้น (หน้า 382): ข้อสันนิษฐานของความเป็นมาตรฐานและข้อผิดพลาดมาตรฐานที่รู้จักนั้นเกิดขึ้นเป็นประจำเมื่อเราสรุปการศึกษาโดยมีผลกระทบโดยประมาณและข้อผิดพลาดมาตรฐานและเราจะไม่ถามคำถามการใช้งานที่นี่ เพื่อสรุปทำไมเราไม่รูปแบบseiseise_i ? ทำไมเราปฏิบัติต่อมันอย่างที่รู้กัน?

2
LASSO และสันเขาจากมุมมองแบบเบย์: แล้วพารามิเตอร์การจูนล่ะ?
การประมาณค่าถดถอยแบบปรับโทษเช่น LASSO และสันถูกกล่าวว่าสอดคล้องกับตัวประมาณแบบเบย์กับนักบวชบางคน ฉันเดา (เนื่องจากฉันไม่ทราบเกี่ยวกับสถิติของ Bayesian มากพอ) ว่าสำหรับพารามิเตอร์การปรับค่าคงที่มีรูปธรรมที่สอดคล้องกันมาก่อน ตอนนี้ผู้ใช้งานประจำจะปรับพารามิเตอร์การปรับให้เหมาะสมโดยการตรวจสอบข้าม มีสิ่งที่เทียบเท่ากับการทำแบบเบย์หรือไม่และมีการนำมาใช้ทั้งหมดหรือไม่? หรือวิธีการแบบเบย์แก้ไขพารามิเตอร์การจูนอย่างมีประสิทธิภาพก่อนที่จะเห็นข้อมูลหรือไม่? (ฉันเดาว่าหลังจะเป็นอันตรายต่อประสิทธิภาพการทำนาย)

1
มีการตีความแบบเบย์ของการถดถอยเชิงเส้นพร้อมกับการทำให้เป็นมาตรฐาน L1 และ L2 พร้อมกัน (อาคายืดหยุ่นสุทธิ) หรือไม่?
เป็นที่ทราบกันดีว่าการถดถอยเชิงเส้นที่มีการลงโทษนั้นเทียบเท่ากับการหาค่าประมาณ MAP ที่กำหนดให้ Gaussian ก่อนค่าสัมประสิทธิ์ ในทำนองเดียวกันการใช้การลงโทษนั้นเทียบเท่ากับการใช้การแจกแจงแบบลาปลาซก่อนหน้านี้l2l2l^2l1l1l^1 มันไม่ใช่เรื่องแปลกที่จะใช้บางชุดถ่วงน้ำหนักของและกู เราสามารถพูดได้ไหมว่าสิ่งนี้เทียบเท่ากับการกระจายก่อนหน้ามากกว่าค่าสัมประสิทธิ์ (โดยสังเขปดูเหมือนว่าจะต้องเป็น) เราสามารถให้รูปแบบการวิเคราะห์ที่ดี (อาจเป็นส่วนผสมของ Gaussian และ Laplacian) ได้หรือไม่? ถ้าไม่ทำไมไม่l1l1l^1l2l2l^2

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.