คำถามติดแท็ก bootstrap

bootstrap เป็นวิธี resampling เพื่อประเมินการกระจายตัวตัวอย่างของสถิติ

1
Bootstrap: การประเมินอยู่นอกช่วงความมั่นใจ
ฉันทำการ bootstrapping ด้วยโมเดลผสม (มีหลายตัวแปรที่มีการโต้ตอบและหนึ่งตัวแปรสุ่ม) ฉันได้รับผลลัพธ์นี้ (บางส่วนเท่านั้น): > boot_out ORDINARY NONPARAMETRIC BOOTSTRAP Call: boot(data = a001a1, statistic = bootReg, R = 1000) Bootstrap Statistics : original bias std. error t1* 4.887383e+01 -1.677061e+00 4.362948e-01 t2* 3.066825e+01 1.264024e+00 5.328387e-01 t3* 8.105422e+01 2.368599e+00 6.789091e-01 t4* 1.620562e+02 4.908711e+00 1.779522e+00 ...... ตอนนี้ฉันต้องการได้รับช่วงความเชื่อมั่นสำหรับการสกัดกั้น: > boot.ci(boot_out,type=c("norm","basic","perc"), index=1) BOOTSTRAP …

2
ฉันควรบูตที่ระดับคลัสเตอร์หรือระดับบุคคลหรือไม่
ฉันมีแบบจำลองการเอาชีวิตรอดกับผู้ป่วยที่ซ้อนอยู่ในโรงพยาบาลซึ่งรวมถึงผลกระทบแบบสุ่มสำหรับโรงพยาบาล เอฟเฟกต์แบบสุ่มคือการแจกแจงแกมม่าและฉันพยายามรายงาน 'ความเกี่ยวข้อง' ของคำนี้ในระดับที่เข้าใจได้ง่าย ฉันได้พบข้อมูลอ้างอิงต่อไปนี้ซึ่งใช้อัตราส่วนค่ามัธยฐานอันตราย (bit เช่น Median Odds Ratio) และคำนวณค่านี้ Bengtsson T, Dribe M: วิธีการทางประวัติศาสตร์ 43:15, 2010 อย่างไรก็ตามตอนนี้ฉันต้องการรายงานความไม่แน่นอนที่เกี่ยวข้องกับการประเมินนี้โดยใช้ bootstrap ข้อมูลนี้เป็นข้อมูลการอยู่รอดและด้วยเหตุนี้จึงมีการสังเกตหลายครั้งต่อผู้ป่วยและผู้ป่วยหลายรายต่อโรงพยาบาล ดูเหมือนชัดเจนว่าฉันต้องจัดกลุ่มการสังเกตผู้ป่วยเมื่อทำการสุ่มตัวอย่างใหม่ แต่ฉันไม่รู้ว่าฉันควรจัดกลุ่มโรงพยาบาลด้วยหรือไม่ ฉันสงสัยว่าคำตอบนั้นขึ้นอยู่กับพารามิเตอร์ที่น่าสนใจหรือไม่และจะแตกต่างกันอย่างไรหากเป้าหมายเป็นสิ่งที่เกี่ยวข้องในระดับผู้ป่วยมากกว่าระดับโรงพยาบาล ฉันระบุรหัส stata ด้านล่างในกรณีที่ช่วยได้ cap program drop est_mhr program define est_mhr, rclass stcox patient_var1 patient_var2 /// , shared(hospital) /// noshow local twoinvtheta2 = 2 / (e(theta)^2) local …

2
ฉันสามารถใช้ bootstrapping ได้หรือไม่
ขณะนี้ฉันกำลังทำงานกับการประมาณมวลชีวภาพโดยใช้ภาพถ่ายดาวเทียม ฉันจะกำหนดพื้นหลังของคำถามของฉันอย่างรวดเร็วแล้วอธิบายคำถามเชิงสถิติที่ฉันกำลังทำอยู่ พื้นหลัง ปัญหา ฉันพยายามประเมินมวลชีวภาพของพื้นที่ในฝรั่งเศส คำตอบของฉันคือความหนาแน่นปริมาตรไม้ไอน้ำ (เป็น ) ซึ่งมากหรือน้อยตามสัดส่วนของชีวมวล (ขึ้นอยู่กับความหนาแน่นของไม้ ... )m3/ham3/ham^3/ha ตัวแปรอิสระที่ฉันมีคือดัชนีพืชพรรณที่ได้จากการสะท้อนกลับที่วัดได้ในพื้นที่นี้ (ดาวเทียมที่ใช้ในการศึกษาคือ MODIS สำหรับผู้ที่รู้ว่ามัน) ดัชนีเหล่านี้เป็นตัวอย่าง NDVI, EVI ฯลฯ ฉันมีแผนที่ของดัชนีและความละเอียดของแผนที่คือ 250m มีความสัมพันธ์ที่แข็งแกร่งระหว่างดัชนีเหล่านี้กับปริมาณในป่าชนิดเดียวกัน (ชีวนิเวศและภูมิอากาศ) ดังนั้นฉันจึงพยายามที่จะลดความหนาแน่นของปริมาณเทียบกับตัวบ่งชี้เหล่านี้ (อันที่จริงเวลาของพวกเขา) ในแปลงสินค้าคงคลังที่ฉันรู้ปริมาณ สินค้าคงเหลือป่าไม้ ปริมาณในแปลงเหล่านี้ประมาณด้วยวิธีการสุ่มตัวอย่างต่อไปนี้: โหนดสินค้าคงคลังจะถูกวางในตารางปกติที่ครอบคลุมพื้นที่ พล็อตเชื่อมต่อกับแต่ละโหนดและกระบวนการสินค้าคงคลัง (ชนิดต้นไม้ปริมาณความสูงของหลังคาเป็นต้น) เกิดขึ้นในพล็อตนี้ แน่นอนฉันสนใจเฉพาะพล็อตสินค้าคงคลังและค่าดัชนีพืชพรรณของฉันคือค่าของพิกเซลที่มีพล็อต กระบวนการสินค้าคงคลังในพล็อตมีดังต่อไปนี้: วัดต้นไม้ที่มีเส้นผ่านศูนย์กลาง> 37.5 ซม. ในวงกลมรัศมี 15 ม วัดต้นไม้ที่มีเส้นผ่านศูนย์กลาง> 22.5 ซม. ในวงกลมรัศมี 9 ม วัดต้นไม้ที่มีเส้นผ่านศูนย์กลาง> 7.5 ซม. …
10 bootstrap 

1
ทำไม Anova () และ drop1 () จึงให้คำตอบที่แตกต่างกันสำหรับ GLMM
ฉันมีแบบฟอร์ม GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) เมื่อฉันใช้drop1(model, test="Chi")ฉันได้รับผลลัพธ์ที่แตกต่างกว่าถ้าผมใช้จากแพคเกจรถหรือAnova(model, type="III") summary(model)สองหลังนี้ให้คำตอบเดียวกัน จากการใช้ข้อมูลที่ประดิษฐ์ขึ้นมาฉันพบว่าทั้งสองวิธีปกติไม่แตกต่างกัน พวกเขาให้คำตอบเดียวกันสำหรับแบบจำลองเชิงเส้นที่มีความสมดุลแบบจำลองเชิงเส้นที่ไม่สมดุล (ซึ่งไม่เท่ากันในกลุ่มต่าง ๆ ) และสำหรับแบบจำลองเชิงเส้นที่สมดุลแบบทั่วไป ดังนั้นจึงปรากฏว่าเฉพาะในกรณีที่มีการรวมปัจจัยแบบสุ่มเข้าด้วยกัน ทำไมจึงมีความคลาดเคลื่อนระหว่างสองวิธีนี้? เมื่อใช้ GLMM ควรAnova()หรือdrop1()จะใช้งานอย่างไร ความแตกต่างระหว่างสองสิ่งนี้ค่อนข้างเล็กน้อยอย่างน้อยสำหรับข้อมูลของฉัน มันมีความสำคัญต่อการใช้งานหรือไม่?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
ข้อความที่ดีสำหรับการสุ่มใหม่หรือไม่
กลุ่มสามารถแนะนำข้อความ / ทรัพยากรการแนะนำที่ดีให้กับเทคนิคการสุ่มตัวอย่างใหม่ได้หรือไม่? โดยเฉพาะฉันสนใจทางเลือกในการทดสอบแบบพาราเมตริกคลาสสิก (เช่นการทดสอบ t, ANOVA, ANCOVA) สำหรับการเปรียบเทียบกลุ่มเมื่อข้อสมมติฐานเช่นภาวะปกติถูกละเมิดอย่างชัดเจน ประเภทของปัญหาตัวอย่างที่ฉันต้องการให้ความรู้แก่ตัวเองว่าวิธีที่ดีกว่าในการแก้ไขอาจเกี่ยวข้องกับบางสิ่งเช่น: I) 2 กลุ่ม: การรักษาและการควบคุม Dependent Var: การเปลี่ยนแปลงในบัญชีดอลลาร์ดุลหลังจากการแทรกแซง Covariate: ดอลลาร์ล่วงหน้าของบัญชีการแทรกแซง ปัญหาเกี่ยวกับการใช้ ANCOVA: หลายวิชาจะไม่มีการเปลี่ยนแปลงใด ๆ (ศูนย์จำนวนมาก) II) 2 กลุ่ม: การรักษาและการควบคุม Dependent Var: เพิ่มบัญชีใหม่แล้ว Covariate: จำนวนการแทรกแซงล่วงหน้าของบัญชี * วิชาจำนวนมากจะไม่มีบัญชีเพิ่ม (ศูนย์จำนวนมาก) ฉันสามารถใช้ bootstrap ได้หรือไม่? การทดสอบการเปลี่ยนรูป? นี่คือประเภทของการวิเคราะห์ที่ฉันต้องการใช้วิธีการ resampling nonparametric

2
การรับและตีความช่วงความเชื่อมั่นที่บูตสแตรปจากข้อมูลลำดับชั้น
ฉันสนใจที่จะรับช่วงความมั่นใจในการบูตที่มีปริมาณ X เมื่อปริมาณนี้วัดได้ 10 ครั้งในแต่ละ 10 คน วิธีหนึ่งคือการได้รับค่าเฉลี่ยต่อบุคคลจากนั้น bootstrap หมายถึง (เช่น resample วิธีที่มีการเปลี่ยน) อีกวิธีคือทำตามขั้นตอนต่อไปนี้ของขั้นตอน bootstrapping: ในแต่ละบุคคลให้ทดลองการสังเกตซ้ำของบุคคลที่ 10 ด้วยการแทนที่จากนั้นคำนวณค่าเฉลี่ยใหม่สำหรับบุคคลนั้นและคำนวณค่าเฉลี่ยกลุ่มใหม่ ในวิธีการนี้แต่ละบุคคลที่สังเกตเห็นในชุดข้อมูลดั้งเดิมจะมีส่วนร่วมกับค่าเฉลี่ยของกลุ่มในการวนซ้ำของโพรซีเดอร์บูตสแตรปทุกครั้ง ในที่สุดวิธีที่สามคือการรวมสองวิธีข้างต้น: resample บุคคลแล้ว resample ภายในบุคคลเหล่านั้น วิธีนี้แตกต่างจากวิธีการก่อนหน้านี้ที่อนุญาตให้บุคคลเดียวกันมีส่วนร่วมคูณกับค่าเฉลี่ยของกลุ่มในการทำซ้ำแต่ละครั้งเนื่องจากการบริจาคแต่ละครั้งถูกสร้างขึ้นผ่านขั้นตอนการสุ่มตัวอย่างอิสระการมีส่วนร่วมเหล่านี้อาจแตกต่างกันเล็กน้อย ในทางปฏิบัติฉันพบว่าวิธีการเหล่านี้ให้ผลการประมาณที่แตกต่างกันสำหรับช่วงความมั่นใจ (เช่นชุดข้อมูลหนึ่งฉันพบว่าวิธีที่สามให้ช่วงความเชื่อมั่นที่มากกว่าช่วงสองวิธีแรก) ดังนั้นฉันสงสัยว่าแต่ละสิ่งอาจเป็นอย่างไร ตีความเพื่อเป็นตัวแทน

3
วิธีการรับค่า p ของสัมประสิทธิ์จากการถดถอย bootstrap?
จากQuick-Rของ Robert Kabacoff ฉันมี # Bootstrap 95% CI for regression coefficients library(boot) # function to obtain regression weights bs <- function(formula, data, indices) { d <- data[indices,] # allows boot to select sample fit <- lm(formula, data=d) return(coef(fit)) } # bootstrapping with 1000 replications results <- boot(data=mtcars, statistic=bs, R=1000, formula=mpg~wt+disp) …

3
Bootstrapping residencies: ฉันทำถูกไหม?
ก่อนอื่น: จากสิ่งที่ฉันเข้าใจส่วนที่เหลือในการบูตสแตรปทำงานได้ดังนี้: ปรับโมเดลให้เหมาะสมกับข้อมูล คำนวณส่วนที่เหลือ ลองสุ่มดูส่วนที่เหลือแล้วเพิ่มลงใน 1 ปรับโมเดลให้เหมาะกับชุดข้อมูลใหม่จาก 3 ทำซ้ำnครั้ง แต่เพิ่มส่วนที่เหลือที่ถูก resampled ให้พอดีจาก 1 เสมอ ถูกต้องจนถึงตอนนี้หรือไม่ สิ่งที่ฉันต้องการจะทำคือสิ่งที่แตกต่างออกไปเล็กน้อย: ฉันต้องการประมาณค่าพารามิเตอร์และการทำนายความไม่แน่นอนสำหรับอัลกอริทึมที่ประมาณค่าตัวแปรสภาพแวดล้อม สิ่งที่ผมมีคือปราศจากข้อผิดพลาดอนุกรมเวลา (จากการจำลอง) ของตัวแปรที่x_trueซึ่งฉันจะเพิ่มเสียงบางอย่างในการสั่งซื้อเพื่อสร้างชุดข้อมูลที่สังเคราะห์x_noise xจากนั้นฉันพยายามค้นหาพารามิเตอร์ที่เหมาะสมโดยปรับอัลกอริธึมของฉันด้วยผลรวมของกำลังสองsum((x_estimate - x_true)^2)(! ไม่x_estimate - x!) เป็นฟังก์ชันวัตถุประสงค์ เพื่อที่จะดูว่าอัลกอริทึมของฉันทำงานอย่างไรและเพื่อสร้างตัวอย่างของการแจกแจงพารามิเตอร์ของฉันฉันต้องการที่จะ resample x_noiseเพิ่มให้x_trueพอดีกับแบบจำลองของฉันอีกครั้งล้างและทำซ้ำ นั่นเป็นวิธีที่ถูกต้องในการประเมินความไม่แน่นอนของพารามิเตอร์หรือไม่ ฉันสามารถแปลความพอดีกับชุดข้อมูล bootstrapped ว่าเป็นความไม่แน่นอนในการทำนายหรือฉันต้องทำตามขั้นตอนที่ฉันโพสต์ไว้ด้านบนหรือไม่ / แก้ไข: ฉันคิดว่าฉันยังไม่ได้ทำให้ชัดเจนว่าแบบจำลองของฉันทำอะไร คิดว่ามันเป็นสิ่งที่ต้องการวิธีลดเสียง มันไม่ใช่รูปแบบการทำนายมันเป็นอัลกอริทึมที่พยายามดึงสัญญาณต้นแบบของข้อมูลด้านสิ่งแวดล้อมที่มีเสียงดัง / edit ^ 2: สำหรับผู้ใช้ MATLAB ที่นั่นฉันได้เขียนตัวอย่างการถดถอยเชิงเส้นอย่างรวดเร็วและสกปรกของสิ่งที่ฉันหมายถึง นี่คือสิ่งที่ฉันเชื่อว่าการบู๊ตแบบธรรมดา "(โปรดแก้ไขฉันหากฉันผิด): http://pastebin.com/C0CJp3d1 นี่คือสิ่งที่ฉันต้องการทำ: …

1
ฉันควรเลือกรูปแบบการถดถอยแบบ Bootstrapped
ฉันมีรูปแบบการถดถอยโลจิสติกแบบไบนารีที่มี DV (โรค: ใช่ / ไม่ใช่) และ 5 ตัวทำนาย (ประชากร [อายุ, เพศ, การสูบบุหรี่ (ใช่ / ไม่ใช่)], ดัชนีทางการแพทย์ (ลำดับ) และหนึ่งการรักษาแบบสุ่ม [ใช่ / ไม่ใช่ ]) ฉันได้ทำแบบจำลองเงื่อนไขการโต้ตอบสองด้านทั้งหมดเช่นกัน ตัวแปรหลักอยู่กึ่งกลางและไม่มีสัญลักษณ์ของความสัมพันธ์หลายระดับ (VIF ทั้งหมด <2.5) ฉันมีคำถาม: การบูตสแตรปมีประโยชน์เหนือรุ่นเดียวของฉันหรือไม่ ถ้าเป็นเช่นนั้น ฉันควรเลือกรุ่น bootstrapped ใด ฉันแค่อยากจะดูว่าอัลกอริทึมการบูตสแตรปทำตามวิธีการสุ่มสำหรับการสร้างตัวอย่างใหม่หรือไม่หรือว่าพวกมันมีอัลกอริธึมที่เข้มงวด ดังนั้นฉันจึงลองใหม่อีกครั้ง 1,000 ครั้งในแต่ละครั้ง (ดังนั้นฉันจึงมีโมเดล bootstrapped หลายแบบแต่ละอันมีการทดลอง 1,000 ครั้ง) อย่างไรก็ตามแต่ละครั้งที่ค่าสัมประสิทธิ์ของรุ่น bootstrapped แตกต่างกัน (แม้ว่าจำนวนการทดลองจะ 1,000 ครั้งอย่างต่อเนื่อง) ดังนั้นฉันสงสัยว่าฉันควรเลือกอันไหนสำหรับรายงานของฉัน …

1
R ตัวแปรเชิงเส้นถดถอยหมวดหมู่ "ซ่อน" ค่า
นี่เป็นเพียงตัวอย่างที่ฉันเจอหลายครั้งดังนั้นฉันจึงไม่มีข้อมูลตัวอย่าง ใช้แบบจำลองการถดถอยเชิงเส้นใน R: a.lm = lm(Y ~ x1 + x2) x1เป็นตัวแปรต่อเนื่อง x2เป็นหมวดหมู่และมีสามค่าเช่น "ต่ำ", "ปานกลาง" และ "สูง" อย่างไรก็ตามเอาต์พุตที่กำหนดโดย R จะเป็นดังนี้: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 ฉันเข้าใจว่า R แนะนำการเข้ารหัสแบบหลอกบางอย่างเกี่ยวกับปัจจัยดังกล่าว ( …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

1
รูปแบบการเรียนรู้แบบลึกใดที่สามารถจำแนกหมวดหมู่ที่ไม่ได้เกิดร่วมกัน
ตัวอย่าง: ฉันมีประโยคในรายละเอียดงาน: "วิศวกรอาวุโสของ Java ในสหราชอาณาจักร" ฉันต้องการที่จะใช้รูปแบบการเรียนรู้ที่ลึกที่จะคาดการณ์ว่ามันเป็น 2 ประเภทและEnglish IT jobsถ้าฉันใช้รูปแบบการจำแนกแบบดั้งเดิมมันสามารถทำนายได้เพียง 1 ฉลากที่มีsoftmaxฟังก์ชั่นที่ชั้นสุดท้าย ดังนั้นฉันสามารถใช้โครงข่ายประสาทเทียม 2 แบบในการทำนาย "ใช่" / "ไม่" กับทั้งสองหมวดหมู่ แต่ถ้าเรามีหมวดหมู่มากขึ้นมันก็แพงเกินไป ดังนั้นเราจึงมีรูปแบบการเรียนรู้หรือการเรียนรู้ด้วยเครื่องเพื่อคาดการณ์ 2 หมวดหมู่ขึ้นไปพร้อมกันหรือไม่ "แก้ไข": ด้วย 3 ป้ายกำกับโดยวิธีดั้งเดิมมันจะถูกเข้ารหัสโดย [1,0,0] แต่ในกรณีของฉันมันจะถูกเข้ารหัสโดย [1,1,0] หรือ [1,1,1] ตัวอย่าง: หากเรามี 3 ป้ายกำกับและประโยคอาจเหมาะกับป้ายกำกับเหล่านี้ทั้งหมด ดังนั้นถ้าผลลัพธ์จากฟังก์ชัน softmax คือ [0.45, 0.35, 0.2] เราควรแบ่งมันออกเป็น 3 label หรือ 2 label หรืออาจเป็นหนึ่ง? ปัญหาหลักเมื่อเราทำคือ: …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
โอกาสที่ตัวอย่าง bootstrap นั้นเหมือนกับตัวอย่างดั้งเดิม
แค่ต้องการตรวจสอบเหตุผลบางอย่าง หากตัวอย่างดั้งเดิมของฉันมีขนาดและฉันบูตมันแล้วกระบวนการคิดของฉันเป็นดังนี้:nnn 1n1n\frac{1}{n}เป็นโอกาสของการสังเกตใด ๆ ที่ดึงมาจากตัวอย่างดั้งเดิม เพื่อให้แน่ใจว่าการวาดต่อไปคือไม่ได้สังเกตตัวอย่างก่อนหน้านี้เรา จำกัด ขนาดของกลุ่มตัวอย่างที่จะn-1ดังนั้นเราจึงได้รูปแบบนี้:n - 1n-1n-1 1n⋅1n - 1⋅1n - 2⋯1n - ( n - 1 )=1n !.1n⋅1n-1⋅1n-2⋯1n-(n-1)=1n!. \frac{1}{n} \cdot \frac{1}{n-1} \cdot \frac{1}{n-2} \cdots \frac{1}{n-(n-1)} = \frac{1}{n!}. ถูกต้องหรือไม่ ฉันสะดุดที่สาเหตุที่ไม่สามารถแทน(1n)n(1n)n(\frac{1}{n})^n

2
ขนาดของตัวอย่างบู๊ตสแตรป
ฉันเรียนรู้เกี่ยวกับการบูตสแตรปเป็นวิธีการประมาณความแปรปรวนของสถิติตัวอย่าง ฉันมีข้อสงสัยพื้นฐานหนึ่งข้อ ข้อความจากhttp://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdf : •เราควรลองสังเกตซ้ำอีกครั้ง คำแนะนำที่ดีคือขนาดตัวอย่างดั้งเดิม เราจะสุ่มตัวอย่างการสังเกตได้มากเท่าในตัวอย่างดั้งเดิมได้อย่างไร ถ้าฉันมีขนาดตัวอย่าง 100 และฉันพยายามประเมินความแปรปรวนของค่าเฉลี่ย ฉันจะขอรับตัวอย่าง bootstrap หลายขนาด 100 จากขนาดตัวอย่างทั้งหมด 100 ได้อย่างไร ตัวอย่าง bootstrap เพียง 1 ตัวเท่านั้นที่เป็นไปได้ในกรณีนี้ซึ่งจะเทียบเท่ากับตัวอย่างดั้งเดิมใช่ไหม เห็นได้ชัดว่าฉันเข้าใจอะไรบางอย่างที่ธรรมดามาก ๆ ผมเข้าใจว่าจำนวนของที่เหมาะตัวอย่างบูตอยู่เสมอไม่มีที่สิ้นสุดและเพื่อกำหนดจำนวนตัวอย่างบูตที่จำเป็นสำหรับข้อมูลของฉันฉันต้องทดสอบลู่รักษาความแม่นยำที่จำเป็นของฉันในใจ แต่ฉันสับสนจริง ๆ เกี่ยวกับสิ่งที่ควรเป็นขนาดของตัวอย่างบูตแต่ละอัน

2
จะคำนวณช่วงความมั่นใจของการสกัดกั้น x ในการถดถอยเชิงเส้นได้อย่างไร?
เนื่องจากข้อผิดพลาดมาตรฐานของการถดถอยเชิงเส้นมักจะได้รับสำหรับตัวแปรตอบสนองฉันสงสัยว่าจะได้รับช่วงความมั่นใจในทิศทางอื่นได้อย่างไร - เช่นการสกัดกั้น x ฉันสามารถเห็นภาพว่ามันอาจจะเป็นอะไร แต่ฉันแน่ใจว่าต้องมีวิธีที่ตรงไปตรงมาในการทำเช่นนี้ ด้านล่างเป็นตัวอย่างใน R ของวิธีการเห็นภาพนี้: set.seed(1) x <- 1:10 a <- 20 b <- -2 y <- a + b*x + rnorm(length(x), mean=0, sd=1) fit <- lm(y ~ x) XINT <- -coef(fit)[1]/coef(fit)[2] plot(y ~ x, xlim=c(0, XINT*1.1), ylim=c(-2,max(y))) abline(h=0, lty=2, col=8); abline(fit, col=2) points(XINT, 0, col=4, …

1
ทำไมการกำจัดย้อนหลังจึงมีเหตุผลเมื่อทำการถดถอยหลายครั้ง?
มันไม่ได้ส่งผลให้กระชับหรือไม่? ผลลัพธ์ของฉันจะเชื่อถือได้มากขึ้นหรือไม่ถ้าฉันเพิ่มขั้นตอนแจ็คมีดหรือ bootstrap เป็นส่วนหนึ่งของการวิเคราะห์

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.