คำถามติดแท็ก bayesian

การอนุมานแบบเบย์เป็นวิธีการอนุมานเชิงสถิติที่อาศัยการรักษาพารามิเตอร์แบบจำลองเป็นตัวแปรสุ่มและการใช้ทฤษฎีบทของเบส์เพื่ออนุมานความน่าจะเป็นแบบอัตนัยเกี่ยวกับพารามิเตอร์หรือสมมติฐานตามเงื่อนไขบนชุดข้อมูลที่สังเกต

2
เกณฑ์การให้คะแนนอัจฉริยะและการตัดสินผู้ชนะ
มีพอดคาสต์ NPR ที่เรียกว่า Intelligence Squared แต่ละตอนเป็นการถ่ายทอดสดการโต้วาทีในแถลงการณ์ที่ถกเถียงเช่น "การแก้ไขครั้งที่ 2 ไม่มีความเกี่ยวข้องอีกต่อไป" หรือ "การกระทำที่ยืนยันในวิทยาเขตของวิทยาลัยจะเป็นอันตรายมากกว่าดี" ผู้แทนสี่คนถกเถียงกัน - สองเรื่องต่อการเคลื่อนไหวและอีกสองเรื่องต่อต้าน เพื่อตัดสินว่าฝ่ายใดชนะฝ่ายผู้ชมจะทำการสำรวจทั้งก่อนและหลังการอภิปราย ด้านที่ได้รับมากขึ้นในแง่ของเปอร์เซ็นต์แน่นอนถือเป็นผู้ชนะ ตัวอย่างเช่น: For Against Undecided Before 18% 42% 40% After 23% 49% 28% Winner: Against team -- The motion is rejected. ฉันคิดว่ามาตรวัดความสำเร็จนี้มีอคติและฉันสงสัยว่าจะสำรวจความคิดเห็นของผู้ชมเพื่อตัดสินผู้ชนะอย่างยุติธรรมอย่างไร สามประเด็นที่ฉันเห็นทันทีด้วยวิธีปัจจุบัน: ที่สุดขั้วถ้าด้านใดด้านหนึ่งเริ่มต้นด้วยข้อตกลง 100% พวกเขาสามารถผูกหรือแพ้เท่านั้น หากไม่มีการลังเลจากนั้นด้านที่มีข้อตกลงเริ่มต้นน้อยสามารถดูได้ว่ามีตัวอย่างขนาดใหญ่กว่าที่จะวาด ด้านที่ไม่แน่ใจนั้นไม่น่าจะแน่ใจได้อย่างแท้จริง ถ้าเราคิดว่าทั้งสองฝ่ายมีความเท่าเทียมกันดูเหมือนว่าเราเชื่อว่าประชากรที่ไม่มีความมั่นใจก่อนหน้านี้ควรเป็นหากแต่ละฝ่ายถูกบังคับให้เข้าข้าง .เบต้า( # สำหรับ, # Against )Beta(# …
12 bayesian  rating 

3
Bayesian vs MLE, ปัญหากำลังเกิดขึ้น
ในหนังสือ PRML ของบิชอปเขากล่าวว่าการให้ข้อมูลมากเกินไปเป็นปัญหากับการประมาณความน่าจะเป็นสูงสุด (MLE) และ Bayesian สามารถหลีกเลี่ยงได้ แต่ฉันคิดว่าการ overfitting เป็นปัญหาเพิ่มเติมเกี่ยวกับการเลือกแบบจำลองไม่ใช่วิธีการที่ใช้ในการประมาณค่าพารามิเตอร์ นั่นคือสมมติว่าฉันมีชุดข้อมูลซึ่งสร้างขึ้นผ่านตอนนี้ฉันอาจเลือกรุ่นที่แตกต่างเพื่อให้พอดีกับข้อมูลและค้นหา อันไหนดีที่สุด และโมเดลที่อยู่ในการพิจารณาคือพหุนามที่มีคำสั่งต่างกันคือคำสั่ง 1,คือคำสั่ง 2,คือคำสั่ง 9DDDf(x)=sin(x),x∈[0,1]f(x)=sin(x),x∈[0,1]f(x)=sin(x),\;x\in[0,1]HiHiH_iH1H1H_1H2H2H_2H3H3H_3 ตอนนี้ผมพยายามที่จะพอดีกับข้อมูลด้วยกัน 3 รุ่นแต่ละรุ่นมีพารามิเตอร์ของตนแสดงเป็นสำหรับH_iDDDwiwiw_iHiHiH_i ใช้ ML ผมจะมีการประมาณการจุดพารามิเตอร์แบบและง่ายเกินไปและจะเสมอ underfit ข้อมูลในขณะที่ซับซ้อนเกินไปและจะ overfit ข้อมูลเพียงจะพอดีกับข้อมูลที่ดีwwwH1H1H_1H3H3H_3H2H2H_2 คำถามของฉันคือ 1) รุ่นจะทำให้ข้อมูลเหมาะสม แต่ฉันไม่คิดว่ามันเป็นปัญหาของ ML แต่เป็นปัญหาของรุ่นต่อ se เนื่องจากการใช้ ML สำหรับจึงไม่ส่งผลให้เกิดการโอเวอร์โหลด ฉันถูกไหม?H3H3H_3H1,H2H1,H2H_1,H_2 2) เมื่อเปรียบเทียบกับ Bayesian แล้ว ML จะมีข้อเสียเนื่องจากมันเพิ่งจะให้ค่าประมาณของพารามิเตอร์แบบจำลองและมันเกินความจริง ในขณะที่ Bayesian ไม่ได้พึ่งเพียงค่าที่เป็นไปได้มากที่สุดของพารามิเตอร์ แต่ค่าที่เป็นไปได้ทั้งหมดของพารามิเตอร์ที่กำหนดจากข้อมูลที่สังเกตใช่ไหม?wwwDDD 3) เหตุใด Bayesian …

1
อัตราส่วนของความน่าจะเป็นเทียบกับอัตราส่วนของ PDF
ฉันใช้ Bayes เพื่อแก้ปัญหาการจัดกลุ่ม หลังจากทำการคำนวณบางอย่างฉันก็จำเป็นต้องได้รับอัตราส่วนของความน่าจะเป็นสองอย่าง: P(A)/P(B)P(A)/P(B)P(A)/P(B) เพื่อให้สามารถที่จะได้รับP(H|D)P(H|D)P(H|D) ) ความน่าจะเป็นเหล่านี้ได้มาจากการรวมกันของ KD หลายตัวแปร 2D สองแบบตามที่อธิบายไว้ในคำตอบนี้ : P(A)=∬x,y:f^(x,y)&lt;f^(ra,sa)f^(x,y)dxdyP(A)=∬x,y:f^(x,y)&lt;f^(ra,sa)f^(x,y)dxdyP(A) = \iint_{x, y : \hat{f}(x, y) < \hat{f}(r_a, s_a)} \hat{f}(x,y)\,dx\,dy P(B)=∬x,y:g^(x,y)&lt;g^(rb,sb)g^(x,y)dxdyP(B)=∬x,y:g^(x,y)&lt;g^(rb,sb)g^(x,y)dxdyP(B) = \iint_{x, y : \hat{g}(x, y) < \hat{g}(r_b, s_b)} \hat{g}(x,y)\,dx\,dy โดยที่และคือ KDEs และการรวมเข้าด้วยกันนั้นทำสำหรับทุกจุดใต้ thresholdsและs_b) ทั้งสอง KDEs ใช้เคอร์เนล Gaussian ภาพตัวแทนของ KDE คล้ายกับคนที่ฉันกำลังทำงานกับสามารถมองเห็นได้ที่นี่: การบูรณาการประมาณค่าความหนาแน่นของเคอร์เนลในแบบ 2Df^(x,y)f^(x,y)\hat{f}(x, y)g^(x,y)g^(x,y)\hat{g}(x, y)f^(ra,sa)f^(ra,sa)\hat{f}(r_a, …

1
ตัวอย่างความไม่เท่าเทียมที่เข้มงวดของฟอนนอยมันน์
ให้แสดงถึงความเสี่ยงของ Bayes ของตัวประมาณด้วยความเคารพก่อนหน้านี้ , ให้แสดงถึงชุดของนักบวชทั้งหมดในพื้นที่พารามิเตอร์และให้แสดงถึงชุดของ กฎการตัดสินใจทั้งหมด (อาจจะสุ่ม)r(π,δ)r(π,δ)r(\pi, \delta)δδ\deltaππ\piΠΠ\PiΘΘ\ThetaΔΔ\Delta การตีความทางสถิติของความไม่เท่าเทียมกันของ minimax ของ John von Neumann ระบุไว้ว่า supπ∈Πinfδ∈Δr(π,δ)≤infδ∈Δsupπ∈Πr(π,δ),supπ∈Πinfδ∈Δr(π,δ)≤infδ∈Δsupπ∈Πr(π,δ), \sup_{\pi\in\Pi} \inf_{\delta\in\Delta} r(\pi, \delta) \leq \inf_{\delta\in\Delta}\sup_{\pi\in\Pi} r(\pi, \delta), รับประกันความเสมอภาคอย่างเข้มงวดสำหรับδ′δ′\delta'และπ′π′\pi'เมื่อΘΘ\ThetaและΔΔ\Deltaทั้งสองมี จำกัด บางคนสามารถให้ตัวอย่างที่เป็นรูปธรรมที่ความไม่เท่าเทียมนั้นเข้มงวดได้หรือไม่?

1
เกณฑ์สำหรับการเลือกโมเดล“ ดีที่สุด” ในโมเดลมาร์คอฟที่ซ่อนอยู่
ฉันมีชุดข้อมูลอนุกรมเวลาที่ฉันพยายามจัดวางแบบซ่อนมาร์คอฟ (HMM) เพื่อประเมินจำนวนสถานะแฝงในข้อมูล รหัสหลอกของฉันสำหรับทำสิ่งนี้มีดังต่อไปนี้: for( i in 2 : max_number_of_states ){ ... calculate HMM with i states ... optimal_number_of_states = "model with smallest BIC" ... } ตอนนี้ในรูปแบบการถดถอยปกติ BIC มีแนวโน้มที่จะชอบรูปแบบที่น่าสังเวชมากที่สุด แต่ในกรณีของ HMM ฉันไม่แน่ใจว่ามันคือสิ่งที่ทำ มีใครบ้างที่ทราบว่าเกณฑ์ BIC ของ HMM ประเภทใดมีแนวโน้มเป็นจริง? ฉันยังสามารถได้รับ AIC และค่าความน่าจะเป็นเช่นกัน เนื่องจากฉันพยายามที่จะอนุมานจำนวนจริงของรัฐเป็นหนึ่งในเกณฑ์เหล่านี้ "ดีกว่า" เพื่ออื่น ๆ สำหรับวัตถุประสงค์นี้หรือไม่

1
แบบจำลองเบย์แบบลำดับชั้นเปรียบเทียบกับเบย์เชิงประจักษ์
คุณจะพิจารณา HBM กับ EB เป็นสองทางเลือกซึ่งไฮเปอร์พารามิเตอร์คือ "ในเกม" ที่มีการสุ่มตัวอย่าง / โดยประมาณ / ฯลฯ มีการเชื่อมโยงอย่างชัดเจนระหว่างสองสิ่งนี้ คุณจะพิจารณา HBM ว่า "Bayesian อย่างเต็มที่" มากกว่า EB หรือไม่ มีบางที่ที่ฉันเห็นความแตกต่างระหว่างการเป็น "Bayesian เต็มที่" และทางเลือกอื่น ๆ หรือไม่? ขอบคุณ

5
Bayesians เคยโต้แย้งว่ามีกรณีที่วิธีการของพวกเขาสรุป / ทับซ้อนกับวิธีการที่ใช้บ่อยหรือไม่?
Bayesians เคยยืนยันว่าวิธีการของพวกเขาทำให้วิธีการทั่วไปเป็นปกติหรือไม่เพราะเราสามารถใช้นักบวชที่ไม่ให้ข้อมูลได้และดังนั้นจึงสามารถกู้คืนโครงสร้างแบบจำลองของนักสะสมทั่วไปได้หรือไม่? ใครช่วยแนะนำฉันไปยังสถานที่ที่ฉันสามารถอ่านเกี่ยวกับเรื่องนี้ถ้ามันถูกใช้จริง? แก้ไข: คำถามนี้อาจจะเป็นประโยคที่ไม่ตรงกับที่ฉันตั้งใจจะพูด คำถามคือ: "มีการอ้างอิงใด ๆ เกี่ยวกับการอภิปรายของกรณีที่วิธีการแบบเบย์และวิธีการที่พบบ่อยซ้อนทับกัน / ตัด / มีบางสิ่งที่เหมือนกันผ่านการใช้บางอย่างมาก่อนหรือไม่" ตัวอย่างหนึ่งจะใช้ที่ไม่เหมาะสมก่อนนี้ แต่ฉันค่อนข้างแน่ใจว่านี่เป็นเพียงส่วนปลายสุดของภูเขาน้ำแข็งp(θ)=1p(θ)=1p(\theta) = 1

6
หากคุณใช้การประมาณจุดที่เพิ่มให้มากที่สุดนั่นจะพูดถึงปรัชญาของคุณอย่างไร? (เป็นประจำหรือ Bayesian หรืออย่างอื่น?)
ถ้ามีคนพูดว่า "วิธีการนั้นใช้การประเมินจุดMLEสำหรับพารามิเตอร์ที่เพิ่มสูงสุดดังนั้นจึงเป็นสิ่งที่เกิดขึ้นบ่อยครั้งและยิ่งไม่ใช่ Bayesian"P ( x | θ )P(x|θ)\mathrm{P}(x|\theta) คุณจะเห็นด้วยไหม อัปเดตบนพื้นหลัง : เมื่อเร็ว ๆ นี้ฉันอ่านกระดาษที่อ้างว่าใช้บ่อย ฉันไม่เห็นด้วยกับการเรียกร้องของพวกเขาที่ดีที่สุดฉันรู้สึกว่ามันคลุมเครือ กระดาษไม่ได้กล่าวถึง MLE อย่างชัดเจน (หรือMAPสำหรับเรื่องนั้น) พวกเขาใช้การประมาณค่าจุดและพวกเขาก็ดำเนินการราวกับว่าการประเมินจุดนี้เป็นจริง พวกเขาทำไม่ได้ทำการวิเคราะห์การกระจายตัวตัวอย่างของตัวประมาณค่านี้หรืออะไรทำนองนั้น แบบจำลองค่อนข้างซับซ้อนและดังนั้นการวิเคราะห์ดังกล่าวอาจเป็นไปไม่ได้ พวกเขาไม่ใช้คำว่า 'หลัง' ที่จุดใดก็ได้ พวกเขาเพียงแค่ใช้การประเมินจุดนี้ที่มูลค่าหน้าและดำเนินการในหัวข้อหลักที่น่าสนใจ - อนุมานข้อมูลที่ขาดหายไป ฉันไม่คิดว่าจะมีอะไรในแนวทางของพวกเขาที่ชี้ให้เห็นว่าปรัชญาของพวกเขาคืออะไร พวกเขาอาจจะตั้งใจที่จะเป็นประจำ (เพราะพวกเขารู้สึกว่าจำเป็นต้องสวมปรัชญาบนแขนเสื้อของพวกเขา) แต่วิธีการที่แท้จริงของพวกเขาค่อนข้างง่าย / สะดวก / ขี้เกียจ / คลุมเครือ ตอนนี้ฉันอยากบอกว่าการวิจัยไม่มีปรัชญาใด ๆ อยู่เบื้องหลัง แต่ฉันคิดว่าทัศนคติของพวกเขาในทางปฏิบัติหรือสะดวกกว่า: "ฉันสังเกตุข้อมูล, , และฉันต้องการประเมินข้อมูลที่ขาดหายไป, . มีพารามิเตอร์ที่ควบคุมความสัมพันธ์ระหว่างและ . ฉันไม่สนใจยกเว้นเรื่องที่จะจบ ถ้าฉันมีค่าประมาณสำหรับมันจะทำให้ง่ายต่อการทำนายจากฉันจะเลือกการประมาณค่าของเพราะสะดวกโดยเฉพาะฉันจะเลือกที่เพิ่ม …

1
มีการเชื่อมต่อระหว่างเบย์เชิงประจักษ์กับเอฟเฟกต์แบบสุ่มหรือไม่?
เมื่อไม่นานมานี้ฉันได้อ่านเกี่ยวกับการทดลอง Bayes (Casella, 1985, การแนะนำการวิเคราะห์ข้อมูลเชิงประจักษ์ Bayes) และมันดูคล้ายกับแบบจำลองเอฟเฟกต์แบบสุ่ม; ในที่ทั้งสองมีการประมาณการหดตัวถึงค่าเฉลี่ยทั่วโลก แต่ฉันยังไม่ได้อ่านอย่างละเอียด ... ใครบ้างมีความเข้าใจอย่างถ่องแท้เกี่ยวกับความเหมือนและความแตกต่างระหว่างพวกเขาบ้างไหม?

1
ประเด็นของนักบวชที่ไม่ให้ข้อมูลคืออะไร?
ทำไมถึงมีนักบวชที่ไม่ให้ข้อมูล? พวกเขาไม่ได้ให้ข้อมูลเกี่ยวกับθเหตุใดจึงต้องใช้พวกเขา ทำไมไม่ใช้นักบวชที่มีข้อมูลเท่านั้น? ตัวอย่างเช่นสมมติว่าθ ∈ [ 0 , 1 ] ถ้าเช่นนั้นθ ∼ U ( 0 , 1 )ไม่ใช่ข้อมูลก่อนหน้าสำหรับθหรือไม่θθ\thetaθ∈[0,1]θ∈[0,1] \theta \in [0,1]θ∼U(0,1)θ∼U(0,1)\theta \sim \mathcal{U}(0,1)θθ\theta

2
เมื่อใดที่ควรใช้เทคนิคบูตสแตรปกับเทคนิคแบบเบย์?
ฉันมีปัญหาในการวิเคราะห์การตัดสินใจที่ค่อนข้างซับซ้อนซึ่งเกี่ยวข้องกับการทดสอบความน่าเชื่อถือและวิธีการทางตรรกะ (สำหรับฉัน) ดูเหมือนว่าจะเกี่ยวข้องกับการใช้ MCMC เพื่อสนับสนุนการวิเคราะห์แบบเบย์ อย่างไรก็ตามมีการแนะนำว่าควรใช้วิธี bootstrapping ใครช่วยแนะนำอ้างอิง (หรือสาม) ที่อาจสนับสนุนการใช้เทคนิคอย่างใดอย่างหนึ่งมากกว่าอีก (แม้สำหรับสถานการณ์เฉพาะ)? FWIW ฉันมีข้อมูลจากหลายแหล่งที่แตกต่างกันและการสังเกตความล้มเหลวน้อย / ศูนย์ ฉันยังมีข้อมูลที่ระบบย่อยและระดับระบบ ดูเหมือนว่าจะมีการเปรียบเทียบแบบนี้ แต่ฉันไม่โชคดีที่ค้นหาผู้ต้องสงสัยตามปกติ ขอบคุณล่วงหน้าสำหรับพอยน์เตอร์ใด ๆ

2
แบบลำดับชั้น Bayesian (?)
โปรดขออภัยการใช้ศัพท์แสงเชิงสถิติของฉันด้วย :) ฉันพบคำถามสองสามข้อเกี่ยวกับการโฆษณาและอัตราการคลิกผ่าน แต่พวกเขาไม่ได้ช่วยฉันมากกับความเข้าใจของฉันเกี่ยวกับสถานการณ์ลำดับชั้นของฉัน มีคำถามที่เกี่ยวข้องการเป็นตัวแทนที่เท่าเทียมกันของโมเดล Bayesian ลำดับชั้นเดียวกันหรือไม่ แต่ฉันไม่แน่ใจว่าจริง ๆ แล้วพวกเขามีปัญหาที่คล้ายกัน อีกคำถามที่Priors สำหรับแบบจำลองแบบทวินามแบบเบย์แบบลำดับชั้นจะมีรายละเอียดเกี่ยวกับ hyperpriors แต่ฉันไม่สามารถแมปคำตอบของพวกเขากับปัญหาของฉันได้ ฉันมีโฆษณาสองรายการออนไลน์สำหรับผลิตภัณฑ์ใหม่ ฉันปล่อยให้โฆษณาทำงานสองสามวัน ณ จุดนี้มีคนคลิกโฆษณาเพื่อดูว่าใครได้รับคลิกมากที่สุด หลังจากเตะออกไปหมดแล้ว แต่คลิกที่มีการคลิกมากที่สุดฉันปล่อยให้มันวิ่งไปอีกสองสามวันเพื่อดูว่าผู้คนซื้อจริงแค่ไหนหลังจากคลิกโฆษณา ณ จุดนี้ฉันรู้ว่ามันเป็นความคิดที่ดีที่จะเรียกใช้โฆษณาในครั้งแรก สถิติของฉันดังมากเพราะฉันไม่มีข้อมูลมากมายเนื่องจากฉันขายสินค้าเพียงไม่กี่รายการทุกวัน ดังนั้นจึงเป็นเรื่องยากที่จะประเมินจำนวนผู้ที่ซื้อบางอย่างหลังจากเห็นโฆษณา การคลิกเพียงครั้งเดียวจะส่งผลให้เกิดการซื้อ โดยทั่วไปฉันต้องทราบว่าฉันเสียเงินกับโฆษณาแต่ละรายการเร็วที่สุดเท่าที่จะเป็นไปได้โดยการปรับสถิติกลุ่มโฆษณาแต่ละรายการให้ราบรื่นด้วยสถิติทั่วโลกสำหรับโฆษณาทั้งหมด หากฉันรอจนกระทั่งโฆษณาทุกรายการเห็นการซื้อมากพอฉันจะพังเพราะใช้เวลานานเกินไป: การทดสอบ 10 โฆษณาที่ฉันต้องใช้จ่ายมากขึ้น 10 เท่าเพื่อให้สถิติสำหรับโฆษณาแต่ละรายการมีความน่าเชื่อถือมากพอ ตามเวลาที่ฉันอาจจะสูญเสียเงิน หากฉันซื้อสินค้าโดยเฉลี่ยมากกว่าโฆษณาทั้งหมดฉันจะไม่สามารถเริ่มโฆษณาที่ไม่ได้ผลเช่นกัน ฉันสามารถใช้อัตราการซื้อทั่วโลก (การกระจายย่อย N $ ได้หรือไม่ นั่นหมายความว่ายิ่งฉันมีข้อมูลสำหรับโฆษณาแต่ละรายการมากเท่าไหร่สถิติของโฆษณานั้นก็จะยิ่งมากขึ้นเท่านั้น หากยังไม่มีใครคลิกโฆษณาฉันคิดว่าค่าเฉลี่ยทั่วโลกเหมาะสมperclick)anduseitasapriorforperclick)anduseitasapriorfor per click) and use it as a prior for …

1
ขั้นตอนในการหาการกระจายหลังเมื่อมันอาจจะง่ายพอที่จะมีรูปแบบการวิเคราะห์?
นี่ก็ถามวิทยาศาสตร์การคำนวณ ฉันกำลังพยายามคำนวณค่าสัมประสิทธิ์แบบเบย์ของการหาค่าสัมประสิทธิ์แบบเบส์โดยมี 11 ตัวอย่างข้อมูล: โดยที่คือ Gaussian ที่มีค่าเฉลี่ย 0 และความแปรปรวน การแจกแจงก่อนหน้าบนเวกเตอร์คือ Gaussian ที่มีค่าเฉลี่ยและเมทริกซ์ความแปรปรวนร่วมแนวทแยง รายการแนวทแยงเท่ากับ{2}Yi=μ+α⋅Yi−1+ϵiYi=μ+α⋅Yi−1+ϵi Y_{i} = \mu + \alpha\cdot{}Y_{i-1} + \epsilon_{i} ϵiϵi\epsilon_{i}σ2eσe2\sigma_{e}^{2}(μ,α)t(μ,α)t(\mu, \alpha)^{t}(0,0)(0,0)(0,0)σ2pσp2\sigma_{p}^{2} จากสูตรการตอบโต้อัตโนมัติหมายความว่าการแจกแจงของจุดข้อมูล ( ) เป็นเรื่องปกติที่มีค่าเฉลี่ยและความแปรปรวน2} ดังนั้นความหนาแน่นสำหรับทุกจุดข้อมูลร่วมกัน (สมมติว่าเป็นอิสระซึ่งเป็นสิ่งที่ดีสำหรับโปรแกรมที่ฉันเขียน) จะเป็น:YiYiY_{i}μ+α⋅Yi−1μ+α⋅Yi−1\mu + \alpha\cdot{}Y_{i-1}σ2eσe2\sigma_{e}^{2}(Y)(Y)(Y)p(Y|(μ,α)t)=∏i=21112πσ2e−−−−√exp−(Yi−μ−α⋅Yi−1)22σ2e.p(Y|(μ,α)t)=∏i=21112πσe2exp⁡−(Yi−μ−α⋅Yi−1)22σe2. p(Y \quad | (\mu, \alpha)^{t}) = \prod_{i=2}^{11}\frac{1}{\sqrt{2\pi\sigma_{e}^{2}}}\exp{\frac{-(Y_{i} - \mu - \alpha\cdot{}Y_{i-1})^{2}}{2\sigma_{e}^{2}}}. ตามทฤษฎีบทของเบย์เราสามารถนำผลคูณของความหนาแน่นข้างต้นมาใช้กับความหนาแน่นก่อนหน้านี้จากนั้นเราก็แค่ต้องการค่าคงที่ปกติ ลางสังหรณ์ของฉันอยู่ที่นี้ควรจะทำงานออกมาเป็นเสียนกระจายเพื่อให้เราสามารถกังวลเกี่ยวกับค่าคงที่ normalizing ในตอนท้ายมากกว่าอย่างชัดเจนกับการคำนวณปริพันธ์กว่าและ\μμ\muαα\alpha นี่คือส่วนที่ฉันมีปัญหากับ ฉันจะคำนวณการคูณของความหนาแน่นก่อนหน้า (ซึ่งคือหลายตัวแปร) และผลิตภัณฑ์นี้ของความหนาแน่นของข้อมูลที่ไม่เปลี่ยนแปลงได้อย่างไร …

2
ฉันควรรู้อะไรเกี่ยวกับการออกแบบอัลกอริทึม Hybrid / Hamiltonian Monte Carlo ที่ดี?
ฉันกำลังออกแบบอัลกอริทึมการสุ่มตัวอย่างแบบไฮบริดมอนติคาร์โลสำหรับPyMCและฉันพยายามทำให้มันยุ่งยากและเป็นไปได้โดยทั่วไปดังนั้นฉันกำลังมองหาคำแนะนำที่ดีในการออกแบบอัลกอริทึม HMC ฉันได้อ่านบทสำรวจของ RadfordและBeskos et กระดาษล่าสุดของการปรับจูน (ขนาดขั้นตอน) ที่เหมาะสมของ HMC และฉันได้รวบรวมเคล็ดลับต่อไปนี้: ตัวแปรโมเมนตัมควรแจกจ่ายด้วยความแปรปรวนร่วม , โดยทั่วไปคืออะไรบางอย่างเช่นเมทริกซ์ความแปรปรวนร่วมของการแจกแจง (สำหรับการแจกแจงแบบง่าย), แต่อาจแตกต่างกันไป โดยค่าเริ่มต้นฉันใช้ hessian ที่โหมดC−1C−1C^{-1}CCC ควรคำนวณวิถีด้วยวิธี leapfrog (ผู้ประกอบการรายอื่นดูเหมือนจะไม่คุ้มค่า) อัตราการยอมรับที่เหมาะสมคือ. 651 สำหรับปัญหาที่มีขนาดใหญ่มากและสูงกว่านั้น ขนาดสเต็ปควรถูกปรับสัดส่วนเช่นโดยที่เป็นตัวแปรอิสระและคือจำนวนมิติL×d(1/4)L×d(1/4)L\times d^{(1/4)}LLLddd ขนาดของขั้นตอนควรมีขนาดเล็กลงเมื่อมีหางแสงหรือภูมิภาคอื่นที่มีลักษณะความมั่นคงแปลก การสุ่มขนาดขั้นตอนสามารถช่วยได้ มีความคิดอื่น ๆ ที่ฉันควรนำมาใช้หรืออย่างน้อยพิจารณา? เอกสารอื่น ๆ ที่ฉันควรอ่าน? ตัวอย่างเช่นมีอัลกอริทึมขนาดขั้นตอนการปรับตัวที่คุ้มค่าหรือไม่ มีคำแนะนำที่ดีเกี่ยวกับความยาววิถีหรือไม่? ในความเป็นจริงแล้วผู้ประกอบการที่ดีกว่า บางคนได้โปรดทำให้ชุมชนนี้เป็นวิกิ

2
ในการอนุมานแบบเบย์เหตุใดคำศัพท์บางคำจึงลดลงจากการคาดการณ์หลัง
ในการวิเคราะห์แบบผันคำกริยาแบบเบส์ของเควินเมอร์ฟี่ย์เรื่องการกระจายแบบเกาส์เซียนเขาเขียนว่า p(x∣D)=∫p(x∣θ)p(θ∣D)dθp(x∣D)=∫p(x∣θ)p(θ∣D)dθ p(x \mid D) = \int p(x \mid \theta) p(\theta \mid D) d \theta โดยที่เป็นข้อมูลที่โมเดลมีความเหมาะสมและเป็นข้อมูลที่มองไม่เห็น สิ่งที่ฉันไม่เข้าใจคือสาเหตุที่การพึ่งพาหายไปในเทอมแรกในอินทิกรัล การใช้กฎพื้นฐานความน่าจะเป็นฉันจะคาดหวัง:DDDxxxDDD p(a)p(a∣b)p(x∣D)=∫p(a∣c)p(c)dc=∫p(a∣c,b)p(c∣b)dc↓=∫p(x∣θ,D)⋆p(θ∣D)dθp(a)=∫p(a∣c)p(c)dcp(a∣b)=∫p(a∣c,b)p(c∣b)dc↓p(x∣D)=∫p(x∣θ,D)⏞⋆p(θ∣D)dθ \begin{align} p(a) &= \int p(a \mid c) p(c) dc \\ p(a \mid b) &= \int p(a \mid c, b) p(c \mid b) dc \\ &\downarrow \\ p(x \mid D) &= \int …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.