คำถามติดแท็ก bootstrap

bootstrap เป็นวิธี resampling เพื่อประเมินการกระจายตัวตัวอย่างของสถิติ

11
อธิบายให้คนทั่วไปเห็นว่าทำไมการบูตสแตรปทำงานได้ดี
ฉันเพิ่งใช้ bootstrapping เพื่อประเมินช่วงความมั่นใจสำหรับโครงการ บางคนที่ไม่ทราบเกี่ยวกับสถิติมากนักเมื่อเร็ว ๆ นี้ขอให้ฉันอธิบายว่าเพราะเหตุใด bootstrapping จึงใช้งานได้เช่นเหตุใดการสุ่มตัวอย่างตัวอย่างซ้ำไปซ้ำมาจึงให้ผลลัพธ์ที่ดี ฉันรู้ว่าถึงแม้ว่าฉันจะใช้เวลามากมายในการทำความเข้าใจวิธีการใช้ แต่ฉันก็ไม่เข้าใจว่าทำไมการบูตสแตรป โดยเฉพาะ: ถ้าเราสุ่มตัวอย่างจากตัวอย่างของเรามันเป็นอย่างไรที่เรากำลังเรียนรู้บางอย่างเกี่ยวกับประชากรมากกว่าเพียงแค่ตัวอย่าง ดูเหมือนว่าจะมีการกระโดดที่นั่นซึ่งค่อนข้างเคาน์เตอร์ง่าย ฉันได้พบคำตอบของคำถามนี้ที่ฉันเข้าใจครึ่ง โดยเฉพาะอย่างยิ่งคนนี้ ฉันเป็นสถิติ "ผู้บริโภค" ไม่ใช่นักสถิติและฉันทำงานกับคนที่รู้สถิติน้อยกว่าฉันมาก ดังนั้นใครบางคนสามารถอธิบายได้โดยมีการอ้างอิงอย่างน้อยที่สุดเกี่ยวกับทฤษฎีบท ฯลฯ เหตุผลพื้นฐานที่อยู่เบื้องหลัง bootstrap? นั่นคือถ้าคุณต้องอธิบายให้เพื่อนบ้านฟังคุณจะพูดว่าอย่างไร

4
กฎ. 632+ ในการบูตสแตรปคืออะไร
ที่นี่ @gung อ้างอิงถึงกฎ. 632+ การค้นหาโดย Google อย่างรวดเร็วไม่ได้ให้คำตอบที่เข้าใจง่ายว่ากฎนี้หมายถึงอะไรและใช้เพื่อจุดประสงค์ใด มีคนช่วยอธิบายกฎ. 632+ หน่อยได้ไหม
107 bootstrap 

5
ความแตกต่างระหว่างการตรวจสอบความถูกต้องข้ามและความร่วมมือเพื่อประเมินข้อผิดพลาดในการทำนาย
ฉันต้องการความคิดของคุณเกี่ยวกับความแตกต่างระหว่างการตรวจสอบความถูกต้องระหว่างกันและการบูตสแตรปเพื่อประเมินข้อผิดพลาดในการทำนาย ทำงานได้ดีกว่าสำหรับชุดข้อมูลขนาดเล็กหรือชุดข้อมูลขนาดใหญ่หรือไม่

3
ตัวอย่างอะไรบ้างที่“ ไร้เดียงสา bootstrap” ล้มเหลว?
สมมติว่าฉันมีชุดข้อมูลตัวอย่างจากการแจกแจงที่ไม่รู้จักหรือซับซ้อนและฉันต้องการทำการอนุมานบนสถิติTTTของข้อมูล ความโน้มเอียงเริ่มต้นของฉันเป็นเพียงการสร้างพวงของตัวอย่างบูตด้วยการเปลี่ยนและคำนวณสถิติของฉันTTTในแต่ละตัวอย่างบูตเพื่อสร้างการกระจายประมาณสำหรับTTTT ตัวอย่างอะไรที่นี่เป็นความคิดที่ไม่ดี? ตัวอย่างเช่นกรณีหนึ่งที่การทำบูทสแตรปอย่างไร้เดียงสาจะล้มเหลวคือถ้าฉันพยายามใช้ bootstrap ในข้อมูลอนุกรมเวลา (พูดเพื่อทดสอบว่าฉันมีความสัมพันธ์อัตโนมัติที่สำคัญ) bootstrap ไร้เดียงสาที่อธิบายไว้ข้างต้น (การสร้างชุดข้อมูลที่iiiของชุดตัวอย่าง bootstrap ที่ n โดยการสุ่มตัวอย่างด้วยการแทนที่จากชุดเดิมของฉัน) จะ (ฉันคิดว่า) จะไม่ได้รับคำแนะนำเพราะมันละเว้นโครงสร้างในอนุกรมเวลาเดิมของฉัน รับเทคนิค bootstrap ที่นักเล่นชอบมากเช่น bootstrap บล็อก หากต้องการใช้วิธีอื่น Bootstrap จะมีอะไรอีกนอกเหนือจาก "การสุ่มตัวอย่างด้วยการแทนที่"

3
ตัวอย่าง: การถดถอย LASSO โดยใช้ glmnet สำหรับผลลัพธ์ไบนารี
ฉันเริ่มตะลุยกับการใช้งานglmnetกับการถดถอยแบบ LASSOซึ่งผลลัพธ์ของความสนใจของฉันนั้นเป็นแบบขั้วคู่ ฉันได้สร้างกรอบข้อมูลจำลองขนาดเล็กด้านล่าง: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

2
วิธีการสุ่มตัวอย่าง / การจำลองใหม่: monte carlo, bootstrapping, jackknifing, cross-validation, การทดสอบแบบสุ่มและการทดสอบการเปลี่ยนรูป
ฉันพยายามเข้าใจความแตกต่างระหว่างวิธีการสุ่มใหม่ (การจำลองมอนติคาร์โล, การบูตแบบพาราเมตริก, การบู๊ตแบบไม่มีพารามิเตอร์, การทดสอบแบบสุ่ม, การตรวจสอบข้าม, การทดสอบแบบสุ่มและการเปลี่ยนรูป) และการนำไปใช้ในบริบทของฉันเอง ว่าฉันมีสถานการณ์ดังต่อไปนี้ - ฉันต้องการดำเนินการ ANOVA ด้วยตัวแปรY ( Yvar) และX variable ( Xvar) Xvarเป็นหมวดหมู่ ฉันสนใจในสิ่งต่อไปนี้: (1) ความสำคัญของ p-values ​​- อัตราการค้นพบที่ผิด (2) ขนาดผลของXvarระดับ Yvar <- c(8,9,10,13,12, 14,18,12,8,9, 1,3,2,3,4) Xvar <- c(rep("A", 5), rep("B", 5), rep("C", 5)) mydf <- data.frame (Yvar, Xvar) คุณช่วยให้ฉันอธิบายความแตกต่างของการสุ่มตัวอย่างด้วยตัวอย่างงานที่ชัดเจนว่าวิธีการสุ่มตัวอย่างใหม่นี้ทำงานอย่างไร การแก้ไข: นี่คือความพยายามของฉัน: Bootstrap …

4
bootstrap ถูกมองว่าเป็น“ การรักษา” สำหรับตัวอย่างขนาดเล็กหรือไม่?
คำถามนี้ถูกกระตุ้นโดยสิ่งที่ฉันอ่านในหนังสือเรียนระดับบัณฑิตศึกษานี้และยังมีการได้ยิน (อิสระ) ระหว่างการนำเสนอนี้ในงานสัมมนาทางสถิติ ในทั้งสองกรณีคำสั่งนั้นเป็นไปตามเส้นของ "เนื่องจากขนาดตัวอย่างมีขนาดค่อนข้างเล็กเราจึงตัดสินใจทำการประมาณค่าผ่าน bootstrap แทน (หรือพร้อมกับ) วิธีการพารามิเตอร์นี้ "XXX พวกเขาไม่ได้ลงรายละเอียด แต่อาจเหตุผลดังนี้วิธีถือว่าข้อมูลตามบางพารากระจายD ในความเป็นจริงการกระจายไม่ตรงDแต่ก็โอเคตราบใดที่ขนาดตัวอย่างใหญ่พอ เนื่องจากในกรณีนี้ขนาดตัวอย่างเล็กเกินไปลองเปลี่ยนเป็น bootstrap (ที่ไม่ใช่พารามิเตอร์) ที่ไม่ได้ตั้งสมมติฐานการกระจาย แก้ไขปัญหา!XXXDDDDDD ในความคิดของฉันนั่นไม่ใช่สิ่งที่ bootstrap มีไว้สำหรับ นี่คือวิธีที่ฉันเห็น: bootstrap สามารถให้ขอบเมื่อเห็นได้ชัดว่ามีข้อมูลเพียงพอหรือไม่ แต่ไม่มีวิธีแก้ปัญหาแบบปิดเพื่อรับข้อผิดพลาดมาตรฐานค่า p และสถิติที่คล้ายกัน ตัวอย่างคลาสสิกคือการได้รับ CI สำหรับค่าสัมประสิทธิ์สหสัมพันธ์ที่ได้รับตัวอย่างจากการแจกแจงปกติแบบ bivariate: การแก้ปัญหาแบบปิดมีอยู่ แต่มันซับซ้อนมากที่ bootstrapping ง่าย อย่างไรก็ตามไม่มีสิ่งใดที่บ่งบอกว่า bootstrap สามารถช่วยได้ด้วยขนาดตัวอย่างที่เล็ก การรับรู้ของฉันถูกต้องหรือไม่ หากคุณพบว่าคำถามนี้น่าสนใจมีคำถาม bootstrap ที่เฉพาะเจาะจงมากขึ้นจากฉัน: Bootstrap: ปัญหาการ overfitting ป.ล. ฉันไม่สามารถช่วยแบ่งปันหนึ่งตัวอย่างที่น่าเกรงขามของ "วิธีบูตสแตรป" ฉันไม่ได้เปิดเผยชื่อผู้แต่ง แต่เขาเป็นหนึ่งใน …

4
ข้อสันนิษฐานเกี่ยวกับการประมาณการ bootstrap ของความไม่แน่นอน
ฉันขอขอบคุณความมีประโยชน์ของ bootstrap ในการได้รับการประเมินความไม่แน่นอน แต่สิ่งหนึ่งที่รบกวนฉันอยู่เสมอเกี่ยวกับเรื่องนี้คือการกระจายตัวที่สอดคล้องกับการประมาณการเหล่านั้นคือการกระจายตัวที่กำหนดโดยกลุ่มตัวอย่าง โดยทั่วไปดูเหมือนว่าเป็นความคิดที่ดีที่จะเชื่อว่าความถี่ตัวอย่างของเรามีลักษณะเหมือนกับการแจกแจงพื้นฐานดังนั้นเหตุใดจึงเป็นที่ยอมรับกันโดยทั่วไปว่าการประเมินความไม่แน่นอนขึ้นอยู่กับการกระจายที่ความถี่ตัวอย่างกำหนดการแจกแจงต้นแบบ ในทางกลับกันสิ่งนี้อาจไม่เลว (อาจดีกว่า) กว่าสมมติฐานการกระจายอื่น ๆ ที่เรามักทำ แต่ฉันก็ยังต้องการที่จะเข้าใจเหตุผลที่ดีกว่า

1
Bootstrap vs. jackknife
ทั้งวิธี bootstrap และ jackknife สามารถใช้ในการประเมินความลำเอียงและข้อผิดพลาดมาตรฐานของการประมาณและกลไกของวิธีการสุ่มตัวอย่างทั้งสองวิธีนั้นไม่แตกต่างกันมาก: การสุ่มตัวอย่างด้วยการแทนที่และการละครั้ง อย่างไรก็ตาม jackknife ไม่ได้รับความนิยมเท่ากับ bootstrap ในการวิจัยและการปฏิบัติ มีข้อดีที่ชัดเจนของการใช้ bootstrap แทนที่จะใช้ jackknife หรือไม่?

3
การแปลความหมายของตัวทำนายการแปลงสภาพบันทึกและ / หรือการตอบสนอง
ฉันสงสัยว่ามันจะสร้างความแตกต่างในการตีความไม่ว่าจะเป็นเพียงขึ้นอยู่กับทั้งขึ้นอยู่กับและเป็นอิสระหรือตัวแปรอิสระเท่านั้นที่ถูกเปลี่ยนเข้าสู่ระบบ พิจารณากรณีของ log(DV) = Intercept + B1*IV + Error ฉันสามารถตีความ IV เป็นเปอร์เซ็นต์เพิ่มขึ้น แต่จะเปลี่ยนแปลงได้อย่างไรเมื่อฉันมี log(DV) = Intercept + B1*log(IV) + Error หรือเมื่อฉันมี DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

3
เป็นไปได้ไหมที่จะตีความ bootstrap จากมุมมองแบบเบย์?
ตกลงนี่เป็นคำถามที่ทำให้ฉันตื่นขึ้นมาในตอนกลางคืน ขั้นตอนการบู๊ตสแตรปสามารถตีความได้ว่าใกล้เคียงกับโพรซีเดอร์แบบเบย์บางอย่าง (ยกเว้นเบย์แบบสแตรปบูต) ฉันชอบ "การตีความ" ของสถิติแบบเบย์ซึ่งฉันพบว่าสอดคล้องกันและเข้าใจง่าย อย่างไรก็ตามฉันมีจุดอ่อนสำหรับโพรซีเดอร์ bootstrap ซึ่งง่ายมาก แต่ให้ข้อสรุปที่สมเหตุสมผลในหลาย ๆ สถานการณ์ ฉันจะมีความสุขมากขึ้นกับ bootstrapping แต่ถ้าฉันรู้ว่า bootstrap นั้นประมาณการกระจายด้านหลังในบางแง่ ฉันรู้ว่า "Bayesian bootstrap" (Rubin, 1981) แต่จากมุมมองของฉันว่า bootstrap เวอร์ชันนั้นมีปัญหาเช่นเดียวกับ bootstrap มาตรฐาน ปัญหาคือสมมุติฐานที่แปลกประหลาดจริง ๆ ที่คุณทำทั้งในขณะที่ทำ bootstrap แบบคลาสสิคและแบบเบย์นั่นคือค่าที่เป็นไปได้ของการแจกแจงนั้นเป็นเพียงค่าที่ฉันเคยเห็นมาแล้วเท่านั้น สมมติฐานของตัวแบบจำลองแปลก ๆ เหล่านี้ยังคงให้ผลการอนุมานที่สมเหตุสมผลซึ่งโพรซีเดอร์บูทสแตรปให้ผลอย่างไร? ฉันกำลังมองหาบทความที่ตรวจสอบคุณสมบัติของ bootstrap (เช่น Weng, 1989) แต่ฉันไม่พบคำอธิบายที่ชัดเจนว่าฉันมีความสุข อ้างอิง โดนัลด์บี. รูบิน (1981) รองเท้าบู๊ทเบย์ แอน statist เล่มที่ 9, …

5
เพราะเหตุใดโดยเฉลี่ยแต่ละตัวอย่าง bootstrap มีประมาณสองในสามของการสังเกต?
ฉันได้วิ่งข้ามการยืนยันว่าแต่ละตัวอย่าง bootstrap (หรือ tree bagged) จะมีค่าเฉลี่ยประมาณของการสังเกต2/32/32/3 ฉันเข้าใจว่าโอกาสที่จะไม่ถูกเลือกในเสมอใด ๆจากตัวอย่างที่มีการแทนที่คือซึ่งคิดเป็นประมาณของโอกาสที่จะไม่ถูกเลือกnnnnnn(1−1/n)n(1−1/n)n(1- 1/n)^n1/31/31/3 อะไรคือคำอธิบายทางคณิตศาสตร์สำหรับสาเหตุที่สูตรนี้ให้เสมอ?≈1/3≈1/3\approx 1/3
42 bootstrap 

1
วิธีการตรวจสอบส่วนประกอบหลักที่สำคัญโดยใช้วิธีการ bootstrapping หรือวิธีการ Monte Carlo?
ฉันสนใจที่จะกำหนดจำนวนของรูปแบบที่สำคัญที่มาจากการวิเคราะห์องค์ประกอบหลัก (PCA) หรือการวิเคราะห์เชิงประจักษ์ฟังก์ชันมุมฉาก (EOF) ฉันสนใจเป็นพิเศษในการใช้วิธีนี้กับข้อมูลสภาพภูมิอากาศ เขตข้อมูลเป็นเมทริกซ์ MxN โดยที่ M เป็นมิติเวลา (เช่นวัน) และ N เป็นมิติข้อมูลเชิงพื้นที่ (เช่นตำแหน่งโลน / ละติจูด) ฉันได้อ่านวิธีบูตสแตรปที่เป็นไปได้เพื่อกำหนดพีซีที่สำคัญ แต่ไม่สามารถหาคำอธิบายโดยละเอียดเพิ่มเติมได้ จนถึงตอนนี้ฉันได้ใช้ Rule of Thumb (North et al ., 1982) ของนอร์ทเพื่อกำหนดทางลัดนี้ แต่ฉันสงสัยว่ามีวิธีการที่แข็งแกร่งกว่านี้หรือไม่ ตัวอย่างเช่น: ###Generate data x <- -10:10 y <- -10:10 grd <- expand.grid(x=x, y=y) #3 spatial patterns sp1 <- grd$x^3+grd$y^2 tmp1 …
40 r  pca  bootstrap  monte-carlo 

6
กฎของหัวแม่มือสำหรับจำนวนตัวอย่าง bootstrap
ฉันสงสัยว่ามีใครรู้กฎทั่วไปของหัวแม่มือเกี่ยวกับจำนวนตัวอย่าง bootstrap ที่เราควรใช้โดยขึ้นอยู่กับลักษณะของข้อมูล (จำนวนการสังเกต ฯลฯ ) และ / หรือตัวแปรที่รวมอยู่ด้วย?

3
อะไรคือความหมายของช่วงความมั่นใจที่นำมาจากตัวอย่างที่เก็บมาใหม่
ฉันได้ดูคำถามมากมายในเว็บไซต์นี้เกี่ยวกับช่วงการบูตและความมั่นใจ แต่ฉันก็ยังสับสนอยู่ สาเหตุส่วนหนึ่งของความสับสนของฉันอาจเป็นเพราะฉันไม่ได้มีความรู้ทางสถิติเพียงพอที่จะเข้าใจคำตอบมากมาย ฉันประมาณครึ่งทางผ่านหลักสูตรสถิติเบื้องต้นและระดับคณิตศาสตร์ของฉันเป็นเพียงกลางคันพีชคณิต II ดังนั้นทุกอย่างที่ผ่านมาในระดับนั้นจะทำให้ฉันสับสน หากหนึ่งในผู้ที่มีความรู้ในไซต์นี้สามารถอธิบายปัญหานี้ในระดับของฉันมันจะเป็นประโยชน์อย่างมาก เราได้เรียนรู้ในชั้นเรียนว่าจะนำชิ้นส่วนใหม่โดยใช้วิธี bootstrap และใช้เพื่อสร้างช่วงความมั่นใจสำหรับสถิติบางอย่างที่เราต้องการวัด ตัวอย่างเช่นสมมติว่าเรานำตัวอย่างจากประชากรจำนวนมากและพบว่า 40% บอกว่าพวกเขาจะลงคะแนนให้กับผู้สมัครก. เราคิดว่าตัวอย่างนี้เป็นภาพสะท้อนที่ถูกต้องแม่นยำของประชากรดั้งเดิมซึ่งในกรณีนี้เราสามารถ resamples จาก เพื่อค้นพบบางสิ่งเกี่ยวกับประชากร ดังนั้นเราจึงทำการทดสอบซ้ำและค้นหา (ใช้ระดับความเชื่อมั่น 95%) ว่าช่วงความเชื่อมั่นที่ได้นั้นอยู่ในช่วงตั้งแต่ 35% ถึง 45% คำถามของฉันคือช่วงความมั่นใจนี้จริงหมายถึงอะไร ฉันอ่านต่อไปเรื่อย ๆ ว่ามีความแตกต่างระหว่างช่วงความเชื่อมั่น (Frequentistist) และ (Bayesian) ถ้าผมเข้าใจอย่างถูกต้องในช่วงเวลาที่น่าเชื่อถือจะบอกว่ามีโอกาส 95% ที่ว่าในสถานการณ์ของเราพารามิเตอร์ที่แท้จริงคือภายในช่วงเวลาที่กำหนด (35% -45%) ในขณะที่ช่วงความเชื่อมั่นจะบอกว่ามี 95% ที่อยู่ในนี้ ประเภทของสถานการณ์ (แต่ไม่จำเป็นในสถานการณ์ของเราโดยเฉพาะ) วิธีการที่เราใช้จะต้องรายงานอย่างถูกต้องว่าพารามิเตอร์ที่แท้จริงนั้นอยู่ในช่วงเวลาที่กำหนด ถ้าคำจำกัดความนี้ถูกต้องคำถามของฉันคือ: "พารามิเตอร์ที่แท้จริง" ที่เรากำลังพูดถึงเมื่อใช้ช่วงความเชื่อมั่นที่สร้างขึ้นโดยใช้วิธีการ bootstrap คืออะไร? เราอ้างถึง (a) พารามิเตอร์จริงของประชากรดั้งเดิมหรือ …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.