คำถามติดแท็ก simulation

พื้นที่กว้างใหญ่ซึ่งรวมถึงการสร้างผลลัพธ์จากแบบจำลองคอมพิวเตอร์

5
ทำไมการรวบรวมข้อมูลจนกว่าจะได้ผลลัพธ์ที่มีนัยสำคัญจะเพิ่มอัตราความผิดพลาด Type I
ฉันสงสัยว่าทำไมการรวบรวมข้อมูลจนกว่าจะได้ผลลัพธ์ที่สำคัญ (เช่น ) ได้รับ (เช่นการแฮ็ค p) เพิ่มอัตราความผิดพลาด Type I หรือไม่p < .05p<.05p \lt .05 ฉันขอชื่นชมการRสาธิตปรากฏการณ์นี้อย่างมาก

8
วิธีจำลองข้อมูลที่เป็นไปตามข้อ จำกัด เฉพาะเช่นมีค่าเฉลี่ยเฉพาะและค่าเบี่ยงเบนมาตรฐาน
คำถามนี้กระตุ้นโดยคำถามของฉันในการวิเคราะห์อภิมาน แต่ฉันคิดว่ามันจะมีประโยชน์ในการสอนบริบทที่คุณต้องการสร้างชุดข้อมูลที่สะท้อนชุดข้อมูลที่มีอยู่เดิม ฉันรู้วิธีสร้างข้อมูลแบบสุ่มจากการแจกแจงที่กำหนด ตัวอย่างเช่นถ้าฉันอ่านเกี่ยวกับผลลัพธ์ของการศึกษาที่มี: ค่าเฉลี่ย 102 ค่าเบี่ยงเบนมาตรฐานเท่ากับ 5.2 และ ขนาดตัวอย่าง 72 ฉันสามารถสร้างข้อมูลที่คล้ายกันโดยใช้rnormใน R ตัวอย่างเช่น set.seed(1234) x <- rnorm(n=72, mean=102, sd=5.2) แน่นอนค่าเฉลี่ยและ SD จะไม่เท่ากับ 102 และ 5.2 ตามลำดับ: round(c(n=length(x), mean=mean(x), sd=sd(x)), 2) ## n mean sd ## 72.00 100.58 5.25 โดยทั่วไปฉันสนใจที่จะจำลองข้อมูลที่เป็นไปตามข้อ จำกัด ในกรณีข้างต้นค่าคงที่คือขนาดตัวอย่างค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐาน ในกรณีอื่น ๆ อาจมีข้อ จำกัด เพิ่มเติม ตัวอย่างเช่น, ขั้นต่ำและสูงสุดในข้อมูลหรือตัวแปรพื้นฐานอาจเป็นที่รู้จัก ตัวแปรอาจทราบว่าใช้กับค่าจำนวนเต็มเท่านั้นหรือเฉพาะค่าที่ไม่เป็นลบ …

2
วิธีการจำลองข้อมูลเทียมสำหรับการถดถอยโลจิสติก?
ฉันรู้ว่าฉันไม่มีอะไรในการทำความเข้าใจเกี่ยวกับการถดถอยโลจิสติกและขอขอบคุณสำหรับความช่วยเหลือ เท่าที่ฉันเข้าใจแล้วการถดถอยโลจิสติกถือว่าความน่าจะเป็นของผลลัพธ์ '1' ที่ได้รับจากอินพุตคือการรวมกันเชิงเส้นของอินพุตที่ส่งผ่านฟังก์ชันผกผัน - โลจิสติกส์ นี่คือสุดขั้วในรหัส R ต่อไปนี้: #create data: x1 = rnorm(1000) # some continuous variables x2 = rnorm(1000) z = 1 + 2*x1 + 3*x2 # linear combination with a bias pr = 1/(1+exp(-z)) # pass through an inv-logit function y = pr > 0.5 # take …

6
ควรใช้แบบจำลองเมื่อใด
นี่เป็นคำถามที่ง่ายและโง่มาก อย่างไรก็ตามเมื่อฉันอยู่ในโรงเรียนฉันให้ความสนใจน้อยมากกับแนวคิดทั้งหมดของการจำลองในชั้นเรียนและนั่นทำให้ฉันหวาดกลัวเล็กน้อยเกี่ยวกับกระบวนการนั้น คุณสามารถอธิบายขั้นตอนการจำลองในแง่ฆราวาสได้หรือไม่? (อาจใช้สำหรับการสร้างข้อมูลสัมประสิทธิ์การถดถอย ฯลฯ ) อะไรคือสถานการณ์ / ปัญหาที่ใช้งานได้จริงเมื่อเราจะใช้สถานการณ์จำลอง? ฉันต้องการตัวอย่างที่ให้ไว้ใน R
40 simulation 

2
การจำลองการวิเคราะห์กำลังถดถอยของโลจิสติกส์ - การทดลองที่ออกแบบมา
คำถามนี้เป็นคำถามในการตอบสนองต่อคำตอบที่ได้รับจาก @ Greg หิมะในเรื่องที่เกี่ยวกับคำถามที่Proc GLMPOWERผมถามเกี่ยวกับการวิเคราะห์การใช้พลังงานที่มีการถดถอยโลจิสติกและเอสเอ ถ้าฉันออกแบบการทดลองและวิเคราะห์ผลลัพธ์ในการถดถอยแบบลอจิสติกแบบแฟคทอเรียลฉันจะใช้การจำลอง (และที่นี่ ) เพื่อทำการวิเคราะห์พลังงานได้อย่างไร นี่คือตัวอย่างง่ายๆที่มีตัวแปรสองตัวตัวแรกใช้กับค่าที่เป็นไปได้สามค่าคือ {0.03, 0.06, 0.09} และตัวที่สองคือตัวบ่งชี้จำลอง {0,1} สำหรับแต่ละครั้งเราประเมินอัตราการตอบกลับสำหรับแต่ละชุดค่าผสม (จำนวนผู้ตอบ / จำนวนผู้ที่ทำการตลาด) นอกจากนี้เราต้องการให้มีการรวมกันครั้งแรกหลายเท่าของปัจจัยอื่น ๆ (ซึ่งถือได้ว่ามีค่าเท่ากัน) เนื่องจากชุดค่าผสมครั้งแรกนี้เป็นรุ่นทดลองและจริงของเรา นี่คือการตั้งค่าที่กำหนดไว้ในหลักสูตร SAS ที่กล่าวถึงในคำถามที่เชื่อมโยง รูปแบบที่จะใช้ในการวิเคราะห์ผลลัพธ์จะเป็นการถดถอยโลจิสติกโดยมีเอฟเฟกต์หลักและการโต้ตอบ (การตอบสนองคือ 0 หรือ 1) mod <- glm(response ~ Var1 + Var2 + I(Var1*Var2)) ฉันจะจำลองชุดข้อมูลที่ใช้กับรุ่นนี้เพื่อทำการวิเคราะห์พลังงานได้อย่างไร เมื่อฉันรันสิ่งนี้ผ่าน SAS Proc GLMPOWER(การใช้STDDEV =0.05486016 ซึ่งสอดคล้องกับsqrt(p(1-p))ตำแหน่ง p คือค่าเฉลี่ยถ่วงน้ำหนักของอัตราการตอบกลับที่แสดง): data …

6
ประมาณ
ฉันได้ดูการจำลอง Monte Carlo เมื่อเร็ว ๆ นี้และได้ใช้มันกับค่าคงที่โดยประมาณเช่นππ\pi (วงกลมภายในสี่เหลี่ยมมุมฉากสัดส่วนตามสัดส่วน) อย่างไรก็ตามฉันไม่สามารถคิดถึงวิธีการที่สอดคล้องกันในการประมาณค่าของeee [หมายเลขของออยเลอร์] โดยใช้การรวม Monte Carlo คุณมีพอยน์เตอร์เกี่ยวกับวิธีการนี้สามารถทำได้หรือไม่?


2
การบูตสแตรปปิ้งประมาณการกระจายตัวตัวอย่างของตัวประมาณได้ดีเพียงใด
หลังจากศึกษา bootstrap มาฉันมีคำถามแนวความคิดที่ยังคงไขปริศนาฉันอยู่: คุณมีประชากรและคุณต้องการทราบแอตทริบิวต์ของประชากรนั่นคือซึ่งฉันใช้เพื่อเป็นตัวแทนของประชากร นี้อาจจะหมายถึงประชากรตัวอย่างเช่น โดยปกติแล้วคุณไม่สามารถรับข้อมูลทั้งหมดจากประชากร คุณวาดตัวอย่างขนาดจากประชากร สมมติว่าคุณมีตัวอย่าง iid เพื่อความง่าย แล้วคุณจะได้รับการประมาณการของคุณ(X) คุณต้องการที่จะใช้ที่จะทำให้การหาข้อสรุปเกี่ยวกับดังนั้นคุณอยากจะรู้ว่าความแปรปรวนของ theta}θ=g(P)θ=g(P)\theta=g(P)PPPθθ\thetaXXXNNNθ^=g(X)θ^=g(X)\hat{\theta}=g(X)θ^θ^\hat{\theta}θθ\thetaθ^θ^\hat{\theta} ครั้งแรกมีความเป็นจริงการกระจายตัวอย่างของtheta} ตามแนวคิดคุณสามารถวาดตัวอย่างจำนวนมาก (แต่ละอันมีขนาด ) จากประชากร ในแต่ละครั้งที่คุณมีการรับรู้ตั้งแต่แต่ละครั้งคุณจะมีตัวอย่างที่แตกต่างกัน จากนั้นในท้ายที่สุดแล้วคุณจะสามารถที่จะกู้จริงการกระจายของtheta} ตกลงนี้อย่างน้อยเป็นมาตรฐานแนวคิดสำหรับการประมาณค่าการกระจายของtheta} ผมขอย้ำว่ามัน: เป้าหมายสูงสุดคือการใช้วิธีการต่างๆในการประมาณการหรือใกล้เคียงกับความจริงการกระจายของtheta}θ^θ^\hat{\theta}NNNθ^=g(X)θ^=g(X)\hat{\theta}=g(X)θ^θ^\hat{\theta}θ^θ^\hat{\theta}θ^θ^\hat{\theta} ตอนนี้ที่นี่คำถามมา โดยปกติคุณจะมีหนึ่งตัวอย่างที่มีจุดข้อมูลแล้วคุณ resample จากนี้ตัวอย่างหลายครั้งและคุณจะเกิดขึ้นกับการกระจายของบูตtheta} คำถามของฉันคือการกระจาย bootstrap นี้ใกล้กับการแจกแจงตัวอย่างที่แท้จริงของแค่ไหน มีวิธีหาปริมาณหรือไม่XXXNNNθ^θ^\hat{\theta}θ^θ^\hat{\theta}

1
องศาอิสระเป็นหมายเลขที่ไม่ใช่จำนวนเต็มหรือไม่
เมื่อฉันใช้ GAM มันให้ DF ที่เหลือกับฉันคือ (บรรทัดสุดท้ายในรหัส) นั่นหมายความว่าอย่างไร? นอกเหนือไปจากตัวอย่างของ GAM โดยทั่วไปแล้วจำนวนองศาความเป็นอิสระจะเป็นจำนวนที่ไม่ใช่จำนวนเต็มหรือไม่26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

2
การสุ่มตัวอย่างที่สำคัญคืออะไร?
ฉันพยายามเรียนรู้การเสริมแรงและหัวข้อนี้ทำให้ฉันสับสนจริงๆ ฉันได้แนะนำสถิติไปแล้ว แต่ฉันไม่เข้าใจหัวข้อนี้อย่างสังหรณ์ใจ

1
MCMC แบบปรับได้สามารถเชื่อถือได้หรือไม่?
ฉันกำลังอ่านเกี่ยวกับการปรับตัวMCMC (ดูเช่นบทที่ 4 ของคู่มือของมาร์คอฟเชนมอนติคาร์โล , เอ็ดบรูคส์และคณะ, 2011; และAndrieu & Thoms, 2008 ) ผลลัพธ์หลักของโรเบิร์ตและโรเซนธาล (2007)คือถ้ารูปแบบการปรับตัวสอดคล้องกับเงื่อนไขการปรับตัวที่หายไป (รวมถึงเทคนิคอื่น ๆ ) MCMC ที่ปรับตัวได้นั้นเป็นไปตามหลักสรีรศาสตร์ภายใต้โครงการใด ๆ ยกตัวอย่างเช่นการปรับตัวที่หายไปสามารถรับได้อย่างง่ายดายโดยการปรับผู้ประกอบการเปลี่ยนแปลงที่ซ้ำกับความน่าจะเป็นกับ0nnnp ( n )พี(n)p(n)Limn → ∞p ( n ) = 0Limn→∞พี(n)=0\lim_{n \rightarrow \infty} p(n) = 0 ผลลัพธ์นี้คือ (รูปหลัง) ที่ใช้งานง่ายไม่แสดงอาการ เนื่องจากจำนวนการปรับตัวมีแนวโน้มที่จะเป็นศูนย์ในที่สุดมันจะไม่ยุ่งเหยิงกับการยศาสตร์ ความกังวลของฉันคือสิ่งที่เกิดขึ้นกับเวลาที่จำกัด เราจะรู้ได้อย่างไรว่าการปรับตัวไม่ได้ยุ่งเหยิงในช่วงเวลาที่กำหนดและตัวอย่างนั้นเป็นการสุ่มตัวอย่างจากการแจกแจงที่ถูกต้อง? ถ้ามันสมเหตุสมผลแล้วการเผาไหม้จะต้องทำเท่าไหร่เพื่อให้แน่ใจว่าการปรับตัวก่อนหน้านี้ไม่ได้เป็นการให้น้ำหนักโซ่ ผู้ปฏิบัติงานในสาขาเชื่อถือ MCMC ที่ปรับตัวได้หรือไม่? เหตุผลที่ฉันถามคือเพราะฉันได้เห็นวิธีการล่าสุดหลายอย่างที่พยายามสร้างการปรับตัวในวิธีอื่น ๆ ที่ซับซ้อนกว่าซึ่งเป็นที่รู้กันว่าเคารพการยศาสตร์เช่นการฟื้นฟูหรือวิธีการรวมกัน (เช่นมันเป็นเรื่องปกติที่จะเลือกการเปลี่ยนแปลง …

1
เราจะจำลองจากส่วนผสมทางเรขาคณิตได้อย่างไร
ถ้าเป็นที่รู้จักกันในความหนาแน่นซึ่งฉันสามารถจำลองคืออัลกอริธึมที่มีอยู่ และถ้าผลิตภัณฑ์สามารถรวมกันได้มีวิธีการทั่วไปในการจำลองจากความหนาแน่นของผลิตภัณฑ์นี้โดยใช้ ซิมูเลเตอร์จากหรือไม่k ∏ i = 1 f i ( x ) α if1,…,fkf1,…,fkf_1,\ldots,f_kf i∏i=1kfi(x)αiα1,…,αk>0∏i=1kfi(x)αiα1,…,αk>0\prod_{i=1}^k f_i(x)^{\alpha_i}\qquad \alpha_1,\ldots,\alpha_k>0fifif_i

2
การจำลองอนุกรมเวลาที่ให้กำลังและความหนาแน่นสเปกตรัมข้าม
ฉันมีปัญหาในการสร้างชุดของชุดสีเวลาคงที่ให้เมทริกซ์ความแปรปรวนร่วมของพวกเขา (ความหนาแน่นสเปกตรัมพลังงานของพวกเขา (PSDs) และความหนาแน่นสเปกตรัมข้ามอำนาจ (CSDs) ฉันรู้ว่าเมื่อได้รับอนุกรมเวลาสองชุดและฉันสามารถประเมินความหนาแน่นเชิงสเปกตรัมกำลัง (PSDs) และความหนาแน่นข้ามสเปกตรัม (CSDs) โดยใช้กิจวัตรที่มีอยู่มากมายเช่นและฟังก์ชั่นใน Matlab เป็นต้น PSDs และ CSD ประกอบขึ้นเป็นเมทริกซ์ความแปรปรวนร่วม: Yผม( t)Yผม(เสื้อ)y_{I}(t)YJ( t )YJ(เสื้อ)y_{J}(t)psd()csd()C ( f) = ( Pผมผม(ฉ)PJผม(ฉ)PผมJ(ฉ)PJJ(ฉ)),ค(ฉ)=(Pผมผม(ฉ)PผมJ(ฉ)PJผม(ฉ)PJJ(ฉ)), \mathbf{C}(f) = \left( \begin{array}{cc} P_{II}(f) & P_{IJ}(f)\\ P_{JI}(f) & P_{JJ}(f) \end{array} \right)\;, ซึ่งอยู่ในฟังก์ชั่นทั่วไปของความถี่ฉ ฉฉf จะเกิดอะไรขึ้นถ้าฉันต้องการย้อนกลับ รับเมทริกซ์ความแปรปรวนร่วมฉันจะสร้างการรับรู้ของและอย่างไรYผม( t )Yผม(เสื้อ)y_{I}(t)YJ( t )YJ(เสื้อ)y_{J}(t) โปรดรวมทฤษฎีพื้นหลังใด ๆ หรือชี้ให้เห็นเครื่องมือที่มีอยู่ใด ๆ ที่ทำสิ่งนี้ …

1
เมื่อไหร่จะใช้การสุ่มตัวอย่างของกิ๊บส์แทนเมโทรโพลิส - แฮสติ้ง
อัลกอริทึม MCMC มีหลายประเภท: มหานครเฮสติ้งส์ กิ๊บส์ การสุ่มตัวอย่างความสำคัญ / การปฏิเสธ (เกี่ยวข้อง) เหตุใดจึงใช้การสุ่มตัวอย่างของกิ๊บส์แทนเมโทรโพลิส - แฮสติ้ง ฉันสงสัยว่ามีบางกรณีที่การอนุมานทำได้ง่ายกว่าด้วยการสุ่มตัวอย่างของกิ๊บส์มากกว่ากับเมโทรโพลิส - เฮสติงส์ แต่ฉันไม่ชัดเจนในเรื่องเฉพาะ

3
เหตุการณ์อคติการถดถอยโลจิสติกที่หายาก: วิธีจำลอง p ต่ำสุดด้วยตัวอย่างน้อยที่สุด?
CrossValidated มีหลายคำถามเกี่ยวกับเวลาและวิธีการที่จะใช้การแก้ไขเหตุการณ์อคติที่หายากโดยพระบาทสมเด็จพระเจ้าอยู่หัวและเซง (2001) ฉันกำลังมองหาสิ่งที่แตกต่าง: การสาธิตแบบจำลองขั้นต่ำที่มีอคติอยู่ โดยเฉพาะอย่างยิ่งราชาและเซงรัฐ "... ในเหตุการณ์ที่หายากข้อมูลอคติในความน่าจะเป็นความหมายอย่างมีนัยสำคัญกับขนาดตัวอย่างเป็นพันและอยู่ในทิศทางที่สามารถคาดการณ์ได้: ความน่าจะเป็นของเหตุการณ์โดยประมาณนั้นเล็กเกินไป" นี่คือความพยายามของฉันในการจำลองอคติดังกล่าวใน R: # FUNCTIONS do.one.sim = function(p){ N = length(p) # Draw fake data based on probabilities p y = rbinom(N, 1, p) # Extract the fitted probability. # If p is constant, glm does y ~ 1, the intercept-only model. …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.