สถิติและข้อมูลขนาดใหญ่ monte-carlo

1

การรวมตัวของมหานคร - เฮสติ้งส์ - ทำไมกลยุทธ์ของฉันจึงไม่ทำงาน

สมมติว่าฉันมีฟังก์ชั่นที่ฉันต้องการรวม แน่นอนสมมติว่าไปที่ศูนย์ที่จุดสิ้นสุดไม่มีการระเบิดฟังก์ชันที่ดี วิธีหนึ่งที่ฉันได้รับการเล่นซอกับคือการใช้อัลกอริทึม Metropolis-เฮสติ้งส์เพื่อสร้างรายการของตัวอย่างจากการกระจายสัดส่วนการซึ่งจะหายไปอย่างต่อเนื่องการฟื้นฟู ซึ่งฉันจะเรียกแล้วคำนวณสถิติf (x)บนxเหล่านี้: g(x)g(x)g(x)∫∞−∞g(x)dx.∫−∞∞g(x)dx. \int_{-\infty}^\infty g(x) dx.g(x)g(x)g(x)x1,x2,…,xnx1,x2,…,xnx_1, x_2, \dots, x_ng(x)g(x)g(x)N=∫∞−∞g(x)dxN=∫−∞∞g(x)dxN = \int_{-\infty}^{\infty} g(x)dx p(x)p(x)p(x)f(x)f(x)f(x)xxx1n∑i=0nf(xi)≈∫∞−∞f(x)p(x)dx.1n∑i=0nf(xi)≈∫−∞∞f(x)p(x)dx. \frac{1}{n} \sum_{i=0}^n f(x_i) \approx \int_{-\infty}^\infty f(x)p(x)dx. ตั้งแต่p(x)=g(x)/Np(x)=g(x)/Np(x) = g(x)/Nฉันสามารถแทนที่f(x)=U(x)/g(x)f(x)=U(x)/g(x)f(x) = U(x)/g(x)เพื่อยกเลิกgggจากอินทิกรัลส่งผลให้เกิดการแสดงออกของรูปแบบ 1N∫∞−∞U(x)g(x)g(x)dx=1N∫∞−∞U(x)dx.1N∫−∞∞U(x)g(x)g(x)dx=1N∫−∞∞U(x)dx. \frac{1}{N}\int_{-\infty}^{\infty}\frac{U(x)}{g(x)} g(x) dx = \frac{1}{N}\int_{-\infty}^\infty U(x) dx. ดังนั้นหากU(x)U(x)U(x)รวมกับ111ตามภูมิภาคนั้นฉันควรได้ผลลัพธ์1/N1/N1/Nซึ่งฉันสามารถเอาส่วนกลับซึ่งกันและกันเพื่อได้คำตอบที่ฉันต้องการ ดังนั้นฉันสามารถใช้ช่วงของตัวอย่างของฉัน (เพื่อใช้คะแนนอย่างมีประสิทธิภาพมากที่สุด) r=xmax−xminr=xmax−xminr = x_\max - x_\min และให้U(x)=1/rU(x)=1/rU(x) = 1/rสำหรับแต่ละตัวอย่างที่ฉันวาด ด้วยวิธีนี้U(x)U(x)U(x)หาค่าเป็นศูนย์นอกขอบเขตที่ตัวอย่างของฉันไม่ได้ แต่รวมกับ111ในพื้นที่นั้น ดังนั้นถ้าฉันเอาค่าที่คาดหวังมาฉันควรได้รับ: …

16 simulation monte-carlo metropolis-hastings numerical-integration

2

เทคนิคใดบ้างสำหรับการสุ่มตัวอย่างสองตัวแปรสุ่มที่สัมพันธ์กัน?

เทคนิคใดบ้างสำหรับการสุ่มตัวอย่างตัวแปรสุ่มที่มีความสัมพันธ์สองตัว: ถ้าการแจกแจงความน่าจะเป็นของพวกเขาถูกแปร (เช่น log-normal) หากพวกเขามีการแจกแจงแบบไม่อิงพารามิเตอร์ ข้อมูลเป็นอนุกรมเวลาสองชุดที่เราสามารถคำนวณค่าสัมประสิทธิ์สหสัมพันธ์ได้ เราต้องการจำลองข้อมูลเหล่านี้ในอนาคตโดยสมมติว่าความสัมพันธ์ทางประวัติศาสตร์และอนุกรมเวลา CDF นั้นคงที่ สำหรับกรณี (2) อะนาล็อก 1-D จะสร้าง CDF และตัวอย่างจากมัน ดังนั้นฉันเดาว่าฉันสามารถสร้าง CDF 2 มิติและทำสิ่งเดียวกัน อย่างไรก็ตามฉันสงสัยว่ามีวิธีที่จะเข้าใกล้โดยใช้ 1-D CDFs แต่ละรายการและเชื่อมโยงตัวเลือกอย่างใด ขอบคุณ!

16 correlation sampling monte-carlo stochastic-processes copula

2

การใช้ตัวเลขสุ่มในการคำนวณทางสถิติมีความสำคัญอะไรบ้าง?

เครื่องกำเนิดเลขสุ่ม (RNG) มีความสำคัญอย่างไรในสถิติการคำนวณ ฉันเข้าใจว่าการสุ่มนั้นมีความสำคัญเมื่อเลือกตัวอย่างสำหรับการทดสอบทางสถิติจำนวนมากเพื่อหลีกเลี่ยงอคติต่อสมมติฐานใด ๆ แต่มีพื้นที่อื่น ๆ ของสถิติการคำนวณที่เครื่องกำเนิดเลขสุ่มมีความสำคัญหรือไม่

15 hypothesis-testing monte-carlo algorithms random-generation computational-statistics

1

สัญชาตญาณของตัวอย่างที่แลกเปลี่ยนได้ภายใต้สมมติฐานว่างคืออะไร

การทดสอบการเปลี่ยนรูป (เรียกอีกอย่างว่าการทดสอบแบบสุ่มการทดสอบแบบสุ่มอีกครั้งหรือการทดสอบที่แน่นอน) มีประโยชน์มากและมีประโยชน์เมื่อสมมติฐานของการแจกแจงปกติที่ต้องการโดยตัวอย่างเช่นt-testไม่พบและเมื่อการเปลี่ยนแปลงของค่าโดยการจัดอันดับ การทดสอบแบบไม่มีพารามิเตอร์Mann-Whitney-U-testจะนำไปสู่การสูญเสียข้อมูลมากขึ้น อย่างไรก็ตามไม่ควรมองข้ามสมมุติฐานข้อเดียวและข้อเดียวเพียงข้อเดียวเมื่อใช้การทดสอบชนิดนี้คือข้อสมมติฐานของความสามารถแลกเปลี่ยนได้ของตัวอย่างภายใต้สมมติฐานว่าง เป็นที่น่าสังเกตว่าวิธีการแบบนี้สามารถใช้ได้เมื่อมีตัวอย่างมากกว่าสองตัวอย่างเช่นสิ่งที่นำไปใช้ในcoinแพ็คเกจ R คุณช่วยกรุณาใช้ภาษาที่เป็นรูปเป็นร่างหรือปรีชาเชิงแนวคิดในภาษาอังกฤษธรรมดาเพื่อแสดงสมมติฐานนี้ได้หรือไม่? นี่จะมีประโยชน์มากในการอธิบายปัญหาที่ถูกมองข้ามในหมู่ผู้ที่ไม่ใช่นักสถิติเช่นฉัน หมายเหตุ: จะเป็นประโยชน์อย่างมากหากพูดถึงกรณีที่การใช้การทดสอบการเปลี่ยนแปลงไม่ถือหรือไม่ถูกต้องภายใต้สมมติฐานเดียวกัน ปรับปรุง: สมมติว่าฉันมี 50 วิชาที่รวบรวมจากคลินิกท้องถิ่นในเขตของฉันโดยการสุ่ม พวกเขาถูกสุ่มให้รับยาหรือยาหลอกในอัตราส่วน 1: 1 พวกเขาทั้งหมดถูกวัดสำหรับ Paramerter 1 Par1ที่ V1 (พื้นฐาน), V2 (3 เดือนต่อมา) และ V3 (1 ปีต่อมา) วิชาทั้งหมด 50 กลุ่มสามารถแบ่งเป็น 2 กลุ่มตามคุณสมบัติ A; ค่าบวก = 20 และค่าลบ = 30 นอกจากนี้ยังสามารถจัดกลุ่มย่อยได้อีก 2 กลุ่มตามคุณลักษณะ B; B positive = …

15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

2

การเชื่อมต่อระหว่างห่วงโซ่มาร์คอฟกับมาร์คอฟโซ่มอนเต้คาร์โลคืออะไร

ฉันพยายามทำความเข้าใจกับ Markov chains โดยใช้ SAS ฉันเข้าใจว่ากระบวนการมาร์คอฟเป็นสิ่งที่รัฐในอนาคตขึ้นอยู่กับสถานะปัจจุบันเท่านั้นและไม่ได้อยู่ในสถานะที่ผ่านมาและมีเมทริกซ์การเปลี่ยนแปลงที่จับความน่าจะเป็นการเปลี่ยนแปลงจากรัฐหนึ่งไปยังอีกรัฐหนึ่ง แต่ฉันเจอคำนี้: มาร์คอฟเชนมอนติคาร์โล สิ่งที่ฉันอยากรู้คือถ้ามาร์คอฟเชนมอนติคาร์โลนั้นเกี่ยวข้องกับกระบวนการมาร์คอฟที่ฉันอธิบายไว้ข้างต้นหรือไม่

15 probability simulation mcmc monte-carlo markov-process

1

การต่อสู้และความสัมพันธ์ในลำดับความคลาดเคลื่อนต่ำ (Halton / Sobol)

ขณะนี้ฉันกำลังทำงานในโครงการที่ฉันสร้างค่าสุ่มโดยใช้ชุดจุดที่มีความคลาดเคลื่อน / กึ่งสุ่มต่ำเช่นชุดจุด Halton และ Sobol เหล่านี้เป็นหลักdddมิติเวกเตอร์ที่เลียนแบบdddมิติเครื่องแบบ (0,1) ตัวแปร แต่มีการแพร่กระจายที่ดีขึ้น ในทางทฤษฎีพวกเขาควรจะช่วยลดความแปรปรวนของการประมาณของฉันในส่วนอื่นของโครงการ แต่น่าเสียดายที่ฉันพบเจอปัญหาการทำงานกับพวกเขาและงานเขียนของพวกเขาส่วนใหญ่นั้นหนาแน่น ดังนั้นฉันจึงหวังที่จะได้รับข้อมูลเชิงลึกจากคนที่มีประสบการณ์กับพวกเขาหรืออย่างน้อยก็หาวิธีที่จะประเมินสิ่งที่เกิดขึ้นโดยประจักษ์ หากคุณทำงานกับพวกเขา: การต่อสู้คืออะไร? และผลกระทบอะไรที่มีต่อกระแสคะแนนที่สร้างขึ้น โดยเฉพาะมีผลเมื่อขนาดของคะแนนที่สร้างเพิ่มขึ้นหรือไม่ ทำไมถ้าฉันสร้างกระแส Sobol สองจุดด้วย MatousekAffineOwen scrambling ฉันได้รับกระแสสองจุดที่แตกต่างกัน เหตุใดจึงไม่เป็นเช่นนี้เมื่อฉันใช้ scrambling แบบย้อนกลับด้วยคะแนนฮาลตัน? มีวิธีการแย่งชิงอื่น ๆ ที่มีอยู่สำหรับชุดจุดเหล่านี้ - และถ้าเป็นเช่นนั้นมีการใช้ MATLAB หรือไม่? หากคุณไม่ได้ทำงานกับพวกเขา: ว่าฉันมีลำดับS 1 , S 2 , … , S nของตัวเลขสุ่มที่คาดคะเนสถิติประเภทใดที่ฉันควรใช้เพื่อแสดงว่าพวกเขาไม่ได้มีความสัมพันธ์กัน? และสิ่งที่จำนวนnฉันจะต้องพิสูจน์ให้เห็นว่าผลของฉันคือนัยสำคัญทางสถิติ? นอกจากนี้ฉันจะทำสิ่งเดียวกันได้อย่างไรถ้าฉันมีnซีเควนซ์S 1 , S 2 …

14 hypothesis-testing monte-carlo random-generation randomness

5

Matlab / octave หรือ R เหมาะสำหรับการจำลอง monte carlo หรือไม่?

ฉันเริ่มทำ Monte Carlo ใน R เป็นงานอดิเรก แต่ในที่สุดนักวิเคราะห์ทางการเงินก็แนะนำให้ย้ายไปที่ Matlab ฉันเป็นนักพัฒนาซอฟต์แวร์ที่มีประสบการณ์ แต่ผู้เริ่มต้น Monte Carlo ฉันต้องการสร้างแบบจำลองสแตติกด้วยการวิเคราะห์ความไวและโมเดลไดนามิกในภายหลัง ต้องการไลบรารี่ / อัลกอริทึมที่ดี สำหรับฉันดูเหมือนว่า R มีห้องสมุดที่ยอดเยี่ยมและฉันคิดว่า mathlab เป็นที่ต้องการของโปรแกรมเมอร์ที่ไม่มีประสบการณ์เนื่องจากภาษาปาสคาลที่ง่าย ภาษา R ขึ้นอยู่กับแบบแผนและมันยากสำหรับผู้เริ่มต้น แต่ไม่ใช่สำหรับฉัน ถ้า Matlab / Octave ไม่มีข้อได้เปรียบในด้านตัวเลข / ห้องสมุดฉันจะใช้ R

14 r matlab monte-carlo

1

เหตุใดจึงใช้ bootstrap แบบพารามิเตอร์

ขณะนี้ฉันกำลังพยายามทำให้บางสิ่งบางอย่างเกี่ยวกับ bootstrap ของพารามิเตอร์ สิ่งต่าง ๆ ส่วนใหญ่อาจไม่สำคัญ แต่ฉันก็ยังคิดว่าฉันอาจพลาดอะไรบางอย่างไป สมมติว่าฉันต้องการรับช่วงความมั่นใจสำหรับข้อมูลโดยใช้ขั้นตอนการบูตพารามิเตอร์ ดังนั้นฉันมีตัวอย่างนี้และฉันถือว่าการกระจายตัวตามปกติ ฉันก็จะประเมินความแปรปรวนและค่าเฉลี่ยและได้รับการกระจายของฉันประมาณการซึ่งจะเห็นได้ชัดเพียง{V}) เอ็ม พีเอ็น(ม. ,วี )โวลต์^v^\hat{v}ม.^m^\hat{m}P^P^\hat{P}ยังไม่มีข้อความ( ม^, v^)N(m^,v^)N(\hat{m},\hat{v}) แทนที่จะสุ่มตัวอย่างจากการแจกแจงนั้นฉันก็สามารถคำนวณควอนไทล์เชิงวิเคราะห์และทำได้ a) ฉันสรุป: ในกรณีที่ไม่สำคัญนี้ bootstrap แบบพารามิเตอร์จะเหมือนกับการคำนวณสิ่งต่าง ๆ ในการแจกแจงแบบปกติ? ในทางทฤษฎีนี่จะเป็นกรณีสำหรับโมเดลบูตสแตรปทั้งหมดตราบใดที่ฉันสามารถจัดการการคำนวณได้ b) ฉันได้ข้อสรุป: การใช้สมมติฐานของการแจกแจงบางอย่างจะทำให้ฉันมีความแม่นยำเป็นพิเศษใน bootstrap แบบพารามิเตอร์เหนือ nonparametric one (ถ้ามันถูกต้องแน่นอน) แต่นอกเหนือจากนั้นฉันแค่ทำเพราะฉันไม่สามารถจัดการกับการคำนวณการวิเคราะห์และไม่พยายามจำลองทางออกของฉัน? c) ฉันจะใช้มันถ้าการคำนวณแบบ "ปกติ" ทำได้โดยใช้การประมาณบางอย่างเพราะนี่อาจทำให้ฉันมีความแม่นยำมากขึ้น ... ? สำหรับฉันประโยชน์ของ bootstrap (ไม่ใช่พารามิเตอร์) ดูเหมือนจะโกหกในความจริงที่ว่าฉันไม่จำเป็นต้องรับการแจกจ่ายใด ๆ สำหรับ bootstrap แบบพาราเมตริกที่หายไป - หรือมีสิ่งที่ฉันพลาดและตำแหน่ง …

14 nonparametric bootstrap simulation monte-carlo parametric

2

ผลลัพธ์ของการประมาณการ Monte Carlo ผลิตโดยการสุ่มตัวอย่างที่สำคัญ

ฉันทำงานเกี่ยวกับการสุ่มตัวอย่างที่สำคัญอย่างใกล้ชิดสำหรับปีที่ผ่านมาและมีคำถามปลายเปิดสองสามข้อที่ฉันหวังว่าจะได้รับความช่วยเหลือ ประสบการณ์เชิงปฏิบัติของฉันกับแผนการสุ่มตัวอย่างที่สำคัญคือพวกเขาสามารถสร้างค่าความแปรปรวนต่ำและค่าอคติต่ำได้เป็นครั้งคราว อย่างไรก็ตามบ่อยครั้งที่พวกเขามีแนวโน้มที่จะประเมินความผิดพลาดสูงที่มีความแปรปรวนตัวอย่างต่ำ แต่มีอคติสูงมาก ฉันสงสัยว่าทุกคนสามารถอธิบายได้อย่างชัดเจนว่าปัจจัยชนิดใดที่ส่งผลต่อความถูกต้องของการประมาณตัวอย่างที่สำคัญ? โดยเฉพาะอย่างยิ่งฉันสงสัยว่า: 1) การประมาณการตัวอย่างที่สำคัญรับประกันว่าจะรวมกันเป็นผลลัพธ์ที่ถูกต้องเมื่อการแจกแจงความเอนเอียงมีการสนับสนุนเช่นเดียวกับการกระจายแบบดั้งเดิมหรือไม่? ถ้าเป็นเช่นนั้นทำไมสิ่งนี้ถึงใช้เวลานานในการฝึกฝน? 2) มีความสัมพันธ์เชิงปริมาณระหว่างข้อผิดพลาดในการประมาณการที่เกิดจากการสุ่มตัวอย่างที่สำคัญและ "คุณภาพ" ของการแจกแจงการให้น้ำหนัก (เช่นเท่าใดมันตรงกับการกระจายศูนย์แปรปรวน) 3) บางส่วนอิงจาก 1) และ 2) - มีวิธีการวัดปริมาณ 'เท่าใด' ที่คุณต้องรู้เกี่ยวกับการแจกแจงก่อนที่คุณจะดีขึ้นโดยใช้การออกแบบการสุ่มตัวอย่างที่สำคัญกว่าวิธี Monte Carlo แบบง่าย ๆ

13 monte-carlo information-theory importance-sampling

3

วิธีตั้งโปรแกรมการจำลอง Monte Carlo ของกล่องเส้นขนานของ Bertrand ได้อย่างไร

ปัญหาต่อไปนี้ได้รับการโพสต์ในหน้า Facebook ของ Mensa International: \quad\quad\quad\quad\quad\quad\quad\quad โพสต์นั้นได้รับความคิดเห็นมากกว่า 1,000 ข้อ แต่ฉันจะไม่ลงรายละเอียดเกี่ยวกับการอภิปรายที่นั่นเพราะฉันรู้ว่านี่คือกล่องความขัดแย้งของเบอร์ทรานด์และคำตอบคือ . สิ่งที่ทำให้ฉันสนใจที่นี่คือหนึ่งจะตอบปัญหานี้โดยใช้วิธีการ Monte Carlo ได้อย่างไร อัลกอริทึมเป็นวิธีการแก้ปัญหานี้อย่างไร2323\frac23 นี่คือความพยายามของฉัน: สร้างกระจายอย่างสม่ำเสมอตัวเลขสุ่มระหว่าง0และ1NNN000111 ให้เหตุการณ์ของกล่องมี 2 ลูกทองคำ (กล่อง 1) เลือกน้อยกว่าครึ่ง 0.50.50.5SSS P(B2=G|B1=G)=SS+0.5(N−S)P(B2=G|B1=G)=SS+0.5(N−S)P(B2=G|B1=G)=\frac{S}{S+0.5(N-S)} การใช้อัลกอริทึมด้านบนใน R: N <- 10000 S <- sum(runif(N)<0.5) S/(S+0.5*(N-S)) 0.670.670.67

12 r probability simulation monte-carlo paradox

5

จะทำการใส่ค่าในจุดข้อมูลจำนวนมากได้อย่างไร?

ฉันมีชุดข้อมูลที่มีขนาดใหญ่มากและมีค่าสุ่มประมาณ 5% หายไป ตัวแปรเหล่านี้มีความสัมพันธ์ซึ่งกันและกัน ตัวอย่างชุดข้อมูล R ต่อไปนี้เป็นเพียงตัวอย่างของเล่นที่มีข้อมูลที่สัมพันธ์กันจำลอง set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

1

ความแตกต่างระหว่าง PROC Mixed และ lme / lmer ใน R - degree of freedom

หมายเหตุ: คำถามนี้เป็นคำถามใหม่เนื่องจากต้องลบคำถามก่อนหน้านี้ด้วยเหตุผลทางกฎหมาย ในขณะที่เปรียบเทียบ PROC MIXED จาก SAS กับฟังก์ชันlmeจากnlmeแพ็คเกจใน R ฉันพบความแตกต่างที่ค่อนข้างสับสน โดยเฉพาะอย่างยิ่งองศาอิสระในการทดสอบที่แตกต่างกันระหว่างPROC MIXEDและlmeและฉันสงสัยว่าทำไม เริ่มจากชุดข้อมูลต่อไปนี้ (รหัส R ระบุด้านล่าง): ind: ปัจจัยบ่งชี้บุคคลที่จะทำการวัด fac: อวัยวะที่ใช้ทำการวัด trt: ปัจจัยบ่งชี้การรักษา y: ตัวแปรตอบสนองต่อเนื่องบางอย่าง ความคิดคือการสร้างแบบจำลองง่ายๆดังต่อไปนี้: y ~ trt + (ind): indเป็นปัจจัยสุ่ม y ~ trt + (fac(ind)): facซ้อนกันindเป็นปัจจัยสุ่ม โปรดทราบว่ารุ่นสุดท้ายที่ควรทำให้เกิดเอกเป็นมีเพียง 1 ค่าของyสำหรับการรวมกันของทุกและindfac แบบจำลองแรก ใน SAS ฉันสร้างโมเดลต่อไปนี้: PROC MIXED data=Data; CLASS ind fac …

12 r mixed-model sas degrees-of-freedom pdf unbiased-estimator distance-functions functional-data-analysis hellinger time-series outliers c++ relative-risk absolute-risk rare-events regression t-test multiple-regression survival teaching multiple-regression regression self-study t-distribution machine-learning recommender-system self-study binomial standard-deviation data-visualization r predictive-models pearson-r spearman-rho r regression modeling r categorical-data data-visualization ggplot2 many-categories machine-learning cross-validation weka microarray variance sampling monte-carlo regression cross-validation model-selection feature-selection elastic-net distance-functions information-theory r regression mixed-model random-effects-model fixed-effects-model dataset data-mining

2

อินทิกรัลประมาณโดยใช้การจำลองมอนติคาร์โลใน R

ฉันจะประมาณอินทิกรัลต่อไปนี้โดยใช้การจำลอง MC ได้อย่างไร ∫1−1∫1−1|x−y|dxdy∫−11∫−11|x−y|dxdy \int_{-1}^{1} \int_{-1}^{1} |x-y| \,\mathrm{d}x \,\mathrm{d}y ขอบคุณ! แก้ไข (บางบริบท): ฉันกำลังพยายามเรียนรู้วิธีใช้การจำลองเพื่อการอินทิเกรตโดยประมาณและฉันได้รับการฝึกฝนเมื่อฉันประสบปัญหาบางอย่าง แก้ไข 2 + 3 : อย่างใดฉันก็สับสนและคิดว่าฉันต้องแยกอินทิกรัลเป็นส่วนแยก ดังนั้นฉันคิดออกจริง: n <- 15000 x <- runif(n, min=-1, max=1) y <- runif(n, min=-1, max=1) mean(4*abs(x-y))

12 r self-study monte-carlo

2

การค้นหาความแม่นยำของการจำลองสถานการณ์ของ Monte Carlo

พื้นหลัง ฉันออกแบบการจำลองมอนติคาร์โลที่รวมเอาท์พุทของชุดของแบบจำลองและฉันต้องการให้แน่ใจว่าการจำลองจะช่วยให้ฉันสามารถเรียกร้องที่สมเหตุสมผลเกี่ยวกับความน่าจะเป็นของผลลัพธ์ที่จำลองและความแม่นยำของการประมาณความน่าจะเป็น การจำลองจะพบว่ามีความเป็นไปได้ที่คณะลูกขุนที่ดึงมาจากชุมชนที่ระบุจะลงโทษจำเลยที่หนึ่ง นี่คือขั้นตอนของการจำลอง: ใช้ข้อมูลที่มีอยู่แล้วสร้างแบบจำลองความน่าจะเป็นแบบโลจิสติกส์ ( M ) โดยการลงคะแนน“ juror first ballot vote” บนตัวทำนายกลุ่มประชากร ใช้วิธีการ Monte Carlo เพื่อจำลองM 1,000 เวอร์ชัน(เช่น 1,000 สัมประสิทธิ์สำหรับพารามิเตอร์รุ่น) เลือกรุ่นหนึ่งใน 1,000 รุ่น ( M i ) Empanel 1,000 คณะลูกขุนโดยการสุ่มเลือก 12 คณะลูกขุน 12 คนจาก "ชุมชน" ( C ) ของบุคคลที่มีการแจกแจงลักษณะประชากร deterministically คำนวณความน่าจะเป็นครั้งแรกของการลงคะแนนเสียงการโหวตว่ามีความผิดในแต่ละตุลาการใช้Mฉัน แสดงผลคะแนนที่น่าจะเป็น "ลูกขุน" ในการลงคะแนนเสียงแบบกำหนด (ขึ้นอยู่กับว่ามันมีค่ามากกว่าหรือน้อยกว่าค่าที่เลือกแบบสุ่มระหว่าง 0-1) พิจารณา“ การลงคะแนนเสียงรอบสุดท้าย” …

12 confidence-interval monte-carlo standard-error simulation

2

ฉันควรรู้อะไรเกี่ยวกับการออกแบบอัลกอริทึม Hybrid / Hamiltonian Monte Carlo ที่ดี?

ฉันกำลังออกแบบอัลกอริทึมการสุ่มตัวอย่างแบบไฮบริดมอนติคาร์โลสำหรับPyMCและฉันพยายามทำให้มันยุ่งยากและเป็นไปได้โดยทั่วไปดังนั้นฉันกำลังมองหาคำแนะนำที่ดีในการออกแบบอัลกอริทึม HMC ฉันได้อ่านบทสำรวจของ RadfordและBeskos et กระดาษล่าสุดของการปรับจูน (ขนาดขั้นตอน) ที่เหมาะสมของ HMC และฉันได้รวบรวมเคล็ดลับต่อไปนี้: ตัวแปรโมเมนตัมควรแจกจ่ายด้วยความแปรปรวนร่วม , โดยทั่วไปคืออะไรบางอย่างเช่นเมทริกซ์ความแปรปรวนร่วมของการแจกแจง (สำหรับการแจกแจงแบบง่าย), แต่อาจแตกต่างกันไป โดยค่าเริ่มต้นฉันใช้ hessian ที่โหมดC−1C−1C^{-1}CCC ควรคำนวณวิถีด้วยวิธี leapfrog (ผู้ประกอบการรายอื่นดูเหมือนจะไม่คุ้มค่า) อัตราการยอมรับที่เหมาะสมคือ. 651 สำหรับปัญหาที่มีขนาดใหญ่มากและสูงกว่านั้น ขนาดสเต็ปควรถูกปรับสัดส่วนเช่นโดยที่เป็นตัวแปรอิสระและคือจำนวนมิติL×d(1/4)L×d(1/4)L\times d^{(1/4)}LLLddd ขนาดของขั้นตอนควรมีขนาดเล็กลงเมื่อมีหางแสงหรือภูมิภาคอื่นที่มีลักษณะความมั่นคงแปลก การสุ่มขนาดขั้นตอนสามารถช่วยได้ มีความคิดอื่น ๆ ที่ฉันควรนำมาใช้หรืออย่างน้อยพิจารณา? เอกสารอื่น ๆ ที่ฉันควรอ่าน? ตัวอย่างเช่นมีอัลกอริทึมขนาดขั้นตอนการปรับตัวที่คุ้มค่าหรือไม่ มีคำแนะนำที่ดีเกี่ยวกับความยาววิถีหรือไม่? ในความเป็นจริงแล้วผู้ประกอบการที่ดีกว่า บางคนได้โปรดทำให้ชุมชนนี้เป็นวิกิ

12 bayesian monte-carlo

คำถามติดแท็ก monte-carlo