คำถามติดแท็ก resampling

การสุ่มตัวอย่างใหม่คือการสุ่มตัวอย่างจากกลุ่มตัวอย่าง การใช้งานทั่วไปคือ jackknifing (การใช้ตัวอย่างย่อยเช่นค่าทั้งหมด แต่ 1) & bootstrapping (การสุ่มตัวอย่าง w / การแทนที่) เทคนิคเหล่านี้สามารถให้ค่าประมาณที่ชัดเจนของการแจกแจงการสุ่มตัวอย่างเมื่อการวิเคราะห์หายากหรือเป็นไปไม่ได้

3
วิธีการสุ่มตัวอย่างใหม่ใน R โดยไม่ต้องเปลี่ยนลำดับซ้ำ?
ใน R ถ้าฉัน set.seed () จากนั้นใช้ฟังก์ชั่นตัวอย่างเพื่อสุ่มรายการฉันสามารถรับประกันได้ว่าฉันจะไม่สร้างการเปลี่ยนแปลงแบบเดียวกันหรือไม่? เช่น ... set.seed(25) limit <- 3 myindex <- seq(0,limit) for (x in seq(1,factorial(limit))) { permutations <- sample(myindex) print(permutations) } สิ่งนี้ผลิต [1] 1 2 0 3 [1] 0 2 1 3 [1] 0 3 2 1 [1] 3 1 2 0 [1] 2 3 0 …

1
การบูตสแตรปเหมาะสมกับข้อมูลต่อเนื่องนี้หรือไม่
ฉันเป็นมือใหม่ที่สมบูรณ์ :) ฉันกำลังศึกษาขนาดตัวอย่าง 10,000 คนจากประชากรประมาณ 745,000 คน แต่ละตัวอย่างแสดงถึง "ความคล้ายคลึงกันของเปอร์เซ็นต์" กลุ่มตัวอย่างส่วนใหญ่อยู่ที่ประมาณ 97% -98% แต่มีไม่กี่คนที่อยู่ระหว่าง 60% ถึง 90% นั่นคือการกระจายตัวค่อนข้างเบ้ ประมาณ 0.6% ของผลลัพธ์เป็น 0% แต่สิ่งเหล่านี้จะได้รับการแยกจากตัวอย่าง ค่าเฉลี่ยของตัวอย่าง 10,000 ตัวอย่างทั้งหมดคือ 97.7% และใน Excel StdDev คือ 3.20 ฉันเข้าใจว่า StdDev ไม่สามารถใช้งานได้ที่นี่เพราะผลลัพธ์ไม่ได้กระจายตามปกติ (และเนื่องจาก +3.20 จะทำให้คุณสูงกว่า 100%!) คำถามของฉันคือ: การบูตสแตรป (แนวคิดใหม่สำหรับฉัน) เหมาะสมหรือไม่ ฉันกำลังทำการบูตอย่างถูกต้องหรือไม่ :) ขนาดตัวอย่างที่เพียงพอคืออะไร สิ่งที่ฉันทำคือการสุ่มตัวอย่างใหม่ (แทนที่) ผลลัพธ์ 10,000 รายการของฉันและคำนวณค่าเฉลี่ยใหม่ …

1
วิธีการ Bootstrap ทำไม resample“ with replace” แทนที่จะเป็น subsampling แบบสุ่ม
วิธีบูตสแตรปได้เห็นการแพร่กระจายที่ยอดเยี่ยมในปีที่ผ่านมาฉันยังใช้มันมากโดยเฉพาะอย่างยิ่งเพราะเหตุผลที่อยู่เบื้องหลังนั้นค่อนข้างใช้งานง่าย แต่นั่นเป็นสิ่งหนึ่งที่ฉันไม่เข้าใจ เหตุใด Efron จึงเลือกที่จะทำการ resample ด้วยการแทนที่แทนการ subsampling เพียงโดยการสุ่มรวมหรือไม่รวมการสังเกตเดี่ยว ฉันคิดว่าการสุ่มตัวอย่างแบบสุ่มมีคุณภาพดีมากอย่างหนึ่งซึ่งเป็นตัวแทนของสถานการณ์ในชีวิตจริงที่การสังเกตการณ์ที่เรามีในการศึกษาของเราเป็นส่วนย่อยของประชากรสมมุติ ฉันไม่เห็นประโยชน์ของการสังเกตหลายครั้งระหว่างการสุ่มใหม่ ในบริบทจริงไม่มีการสังเกตใดที่คล้ายกันโดยเฉพาะอย่างยิ่งสำหรับสถานการณ์หลายตัวแปรที่ซับซ้อน

1
ค่าสัมประสิทธิ์จินีและขอบเขตข้อผิดพลาด
ฉันมีชุดข้อมูลเวลาที่มี N = 14 นับในแต่ละช่วงเวลาและฉันต้องการคำนวณค่าสัมประสิทธิ์ Gini และข้อผิดพลาดมาตรฐานสำหรับการประมาณนี้ในแต่ละช่วงเวลา เนื่องจากฉันมีเพียง N = 14 นับในแต่ละครั้งที่ฉันดำเนินการคำนวณความแปรปรวนของขนุนคือจากสม 7 ของ Tomson Ogwang 'วิธีการที่สะดวกในการคำนวณดัชนี Gini และ' ข้อผิดพลาดมาตรฐาน' ที่ไหนเป็นสัมประสิทธิ์จีนีของค่า N โดยไม่ต้ององค์ประกอบและเป็นค่าเฉลี่ยของk)var( G ) = n - 1n× ∑nk = 1( G ( n , k ) - G¯( n ) )2var⁡(G)=n-1n×Σk=1n(G(n,k)-G¯(n))2\operatorname{var}(G) = \frac{n-1}{n} \times \sum_{k=1}^n (G(n,k)-\bar{G}(n))^2G ( n …

4
ทำไมการทดสอบสมมติฐานเกี่ยวกับชุดข้อมูลที่ resampled ปฏิเสธค่า null บ่อยเกินไป?
tl; dr: เริ่มต้นด้วยชุดข้อมูลที่สร้างขึ้นภายใต้ null ฉัน resampled กรณีที่มีการเปลี่ยนและดำเนินการทดสอบสมมติฐานในแต่ละชุดข้อมูล resampled การทดสอบสมมติฐานเหล่านี้ปฏิเสธค่าว่างมากกว่า 5% ของเวลา ในด้านล่างการจำลองที่ง่ายมากฉันสร้างชุดข้อมูลด้วยและฉันพอดีกับ OLS แบบง่าย ๆ จากนั้นสำหรับแต่ละชุดข้อมูลฉันสร้างชุดข้อมูลใหม่ 1,000 ชุดโดยการสุ่มแถวใหม่ของชุดข้อมูลเดิมพร้อมการแทนที่ (อัลกอริทึมที่อธิบายไว้โดยเฉพาะในข้อความคลาสสิกของ Davison & Hinkley ว่าเหมาะสมสำหรับการถดถอยเชิงเส้น) สำหรับแต่ละอันฉันพอดีกับ OLS รุ่นเดียวกัน ในที่สุดประมาณ 16% ของการทดสอบสมมติฐานในตัวอย่าง bootstrap ปฏิเสธ nullในขณะที่เราควรได้รับ 5% (ตามที่เราทำในชุดข้อมูลดั้งเดิม)X∼N(0,1)⨿Y∼N(0,1)X∼N(0,1)⨿Y∼N(0,1)X \sim N(0,1) \amalg Y \sim N(0,1) ฉันสงสัยว่ามันมีบางอย่างเกี่ยวกับการสังเกตซ้ำ ๆ ทำให้เกิดความสัมพันธ์ที่สูงเกินจริงดังนั้นในการเปรียบเทียบฉันลองวิธีอื่นสองวิธีในรหัสด้านล่าง (แสดงความคิดเห็น) ในวิธีที่ 2 ฉันแก้ไขจากนั้นแทนที่ด้วยส่วนที่เหลือ resampled จากโมเดล OLS …

2
ฉันควรบูตที่ระดับคลัสเตอร์หรือระดับบุคคลหรือไม่
ฉันมีแบบจำลองการเอาชีวิตรอดกับผู้ป่วยที่ซ้อนอยู่ในโรงพยาบาลซึ่งรวมถึงผลกระทบแบบสุ่มสำหรับโรงพยาบาล เอฟเฟกต์แบบสุ่มคือการแจกแจงแกมม่าและฉันพยายามรายงาน 'ความเกี่ยวข้อง' ของคำนี้ในระดับที่เข้าใจได้ง่าย ฉันได้พบข้อมูลอ้างอิงต่อไปนี้ซึ่งใช้อัตราส่วนค่ามัธยฐานอันตราย (bit เช่น Median Odds Ratio) และคำนวณค่านี้ Bengtsson T, Dribe M: วิธีการทางประวัติศาสตร์ 43:15, 2010 อย่างไรก็ตามตอนนี้ฉันต้องการรายงานความไม่แน่นอนที่เกี่ยวข้องกับการประเมินนี้โดยใช้ bootstrap ข้อมูลนี้เป็นข้อมูลการอยู่รอดและด้วยเหตุนี้จึงมีการสังเกตหลายครั้งต่อผู้ป่วยและผู้ป่วยหลายรายต่อโรงพยาบาล ดูเหมือนชัดเจนว่าฉันต้องจัดกลุ่มการสังเกตผู้ป่วยเมื่อทำการสุ่มตัวอย่างใหม่ แต่ฉันไม่รู้ว่าฉันควรจัดกลุ่มโรงพยาบาลด้วยหรือไม่ ฉันสงสัยว่าคำตอบนั้นขึ้นอยู่กับพารามิเตอร์ที่น่าสนใจหรือไม่และจะแตกต่างกันอย่างไรหากเป้าหมายเป็นสิ่งที่เกี่ยวข้องในระดับผู้ป่วยมากกว่าระดับโรงพยาบาล ฉันระบุรหัส stata ด้านล่างในกรณีที่ช่วยได้ cap program drop est_mhr program define est_mhr, rclass stcox patient_var1 patient_var2 /// , shared(hospital) /// noshow local twoinvtheta2 = 2 / (e(theta)^2) local …

2
ข้อความที่ดีสำหรับการสุ่มใหม่หรือไม่
กลุ่มสามารถแนะนำข้อความ / ทรัพยากรการแนะนำที่ดีให้กับเทคนิคการสุ่มตัวอย่างใหม่ได้หรือไม่? โดยเฉพาะฉันสนใจทางเลือกในการทดสอบแบบพาราเมตริกคลาสสิก (เช่นการทดสอบ t, ANOVA, ANCOVA) สำหรับการเปรียบเทียบกลุ่มเมื่อข้อสมมติฐานเช่นภาวะปกติถูกละเมิดอย่างชัดเจน ประเภทของปัญหาตัวอย่างที่ฉันต้องการให้ความรู้แก่ตัวเองว่าวิธีที่ดีกว่าในการแก้ไขอาจเกี่ยวข้องกับบางสิ่งเช่น: I) 2 กลุ่ม: การรักษาและการควบคุม Dependent Var: การเปลี่ยนแปลงในบัญชีดอลลาร์ดุลหลังจากการแทรกแซง Covariate: ดอลลาร์ล่วงหน้าของบัญชีการแทรกแซง ปัญหาเกี่ยวกับการใช้ ANCOVA: หลายวิชาจะไม่มีการเปลี่ยนแปลงใด ๆ (ศูนย์จำนวนมาก) II) 2 กลุ่ม: การรักษาและการควบคุม Dependent Var: เพิ่มบัญชีใหม่แล้ว Covariate: จำนวนการแทรกแซงล่วงหน้าของบัญชี * วิชาจำนวนมากจะไม่มีบัญชีเพิ่ม (ศูนย์จำนวนมาก) ฉันสามารถใช้ bootstrap ได้หรือไม่? การทดสอบการเปลี่ยนรูป? นี่คือประเภทของการวิเคราะห์ที่ฉันต้องการใช้วิธีการ resampling nonparametric

1
รูปแบบการเรียนรู้แบบลึกใดที่สามารถจำแนกหมวดหมู่ที่ไม่ได้เกิดร่วมกัน
ตัวอย่าง: ฉันมีประโยคในรายละเอียดงาน: "วิศวกรอาวุโสของ Java ในสหราชอาณาจักร" ฉันต้องการที่จะใช้รูปแบบการเรียนรู้ที่ลึกที่จะคาดการณ์ว่ามันเป็น 2 ประเภทและEnglish IT jobsถ้าฉันใช้รูปแบบการจำแนกแบบดั้งเดิมมันสามารถทำนายได้เพียง 1 ฉลากที่มีsoftmaxฟังก์ชั่นที่ชั้นสุดท้าย ดังนั้นฉันสามารถใช้โครงข่ายประสาทเทียม 2 แบบในการทำนาย "ใช่" / "ไม่" กับทั้งสองหมวดหมู่ แต่ถ้าเรามีหมวดหมู่มากขึ้นมันก็แพงเกินไป ดังนั้นเราจึงมีรูปแบบการเรียนรู้หรือการเรียนรู้ด้วยเครื่องเพื่อคาดการณ์ 2 หมวดหมู่ขึ้นไปพร้อมกันหรือไม่ "แก้ไข": ด้วย 3 ป้ายกำกับโดยวิธีดั้งเดิมมันจะถูกเข้ารหัสโดย [1,0,0] แต่ในกรณีของฉันมันจะถูกเข้ารหัสโดย [1,1,0] หรือ [1,1,1] ตัวอย่าง: หากเรามี 3 ป้ายกำกับและประโยคอาจเหมาะกับป้ายกำกับเหล่านี้ทั้งหมด ดังนั้นถ้าผลลัพธ์จากฟังก์ชัน softmax คือ [0.45, 0.35, 0.2] เราควรแบ่งมันออกเป็น 3 label หรือ 2 label หรืออาจเป็นหนึ่ง? ปัญหาหลักเมื่อเราทำคือ: …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

2
ขนาดของตัวอย่างบู๊ตสแตรป
ฉันเรียนรู้เกี่ยวกับการบูตสแตรปเป็นวิธีการประมาณความแปรปรวนของสถิติตัวอย่าง ฉันมีข้อสงสัยพื้นฐานหนึ่งข้อ ข้อความจากhttp://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdf : •เราควรลองสังเกตซ้ำอีกครั้ง คำแนะนำที่ดีคือขนาดตัวอย่างดั้งเดิม เราจะสุ่มตัวอย่างการสังเกตได้มากเท่าในตัวอย่างดั้งเดิมได้อย่างไร ถ้าฉันมีขนาดตัวอย่าง 100 และฉันพยายามประเมินความแปรปรวนของค่าเฉลี่ย ฉันจะขอรับตัวอย่าง bootstrap หลายขนาด 100 จากขนาดตัวอย่างทั้งหมด 100 ได้อย่างไร ตัวอย่าง bootstrap เพียง 1 ตัวเท่านั้นที่เป็นไปได้ในกรณีนี้ซึ่งจะเทียบเท่ากับตัวอย่างดั้งเดิมใช่ไหม เห็นได้ชัดว่าฉันเข้าใจอะไรบางอย่างที่ธรรมดามาก ๆ ผมเข้าใจว่าจำนวนของที่เหมาะตัวอย่างบูตอยู่เสมอไม่มีที่สิ้นสุดและเพื่อกำหนดจำนวนตัวอย่างบูตที่จำเป็นสำหรับข้อมูลของฉันฉันต้องทดสอบลู่รักษาความแม่นยำที่จำเป็นของฉันในใจ แต่ฉันสับสนจริง ๆ เกี่ยวกับสิ่งที่ควรเป็นขนาดของตัวอย่างบูตแต่ละอัน

1
การใช้เกินขนาดด้วยตัวแปรเด็ดขาด
ฉันต้องการทำการรวมกันของการสุ่มตัวอย่างมากเกินไปและการ Undersampling เพื่อรักษาสมดุลของชุดข้อมูลของฉันกับลูกค้าประมาณ 4,000 คนแบ่งออกเป็นสองกลุ่มโดยที่หนึ่งในกลุ่มนั้นมีสัดส่วนประมาณ 15% ฉันดู SMOTE ( http://www.inside-r.org/packages/cran/DMwR/docs/SMOTE ) และ ROSE ( http://cran.r-project.org/web/packages/ROSE/) ROSE.pdf ) แต่ทั้งสองอย่างนี้สร้างตัวอย่างสังเคราะห์ใหม่โดยใช้การสังเกตที่มีอยู่และเช่น kNN อย่างไรก็ตามคุณลักษณะหลายอย่างที่เชื่อมโยงกับลูกค้านั้นเป็นหมวดหมู่ฉันไม่คิดว่านี่เป็นวิธีที่ถูกต้อง ตัวอย่างเช่นตัวแปรของฉันจำนวนมากเช่น Region_A และ Region_B นั้นไม่ได้เกิดร่วมกัน แต่การใช้ kNN การสังเกตใหม่อาจถูกวางไว้ทั้งใน Region_A และ Region_B คุณเห็นด้วยหรือไม่ว่านี่เป็นปัญหา ในกรณีดังกล่าว - เราจะทำอย่างใดอย่างหนึ่งการ oversampling ใน R โดยการทำซ้ำการสังเกตที่มีอยู่ซ้ำได้อย่างไร หรือนี่เป็นวิธีที่ผิดที่จะทำ?

1
สามารถใช้ bootstrap resampling ใหม่เพื่อคำนวณช่วงความมั่นใจสำหรับความแปรปรวนของชุดข้อมูลได้หรือไม่?
ฉันรู้ว่าถ้าคุณสุ่มตัวอย่างจากชุดข้อมูลซ้ำหลาย ๆ ครั้งและคำนวณค่าเฉลี่ยในแต่ละครั้งค่าเฉลี่ยเหล่านี้จะเป็นไปตามการแจกแจงแบบปกติ (โดย CLT) ดังนั้นคุณสามารถคำนวณช่วงความมั่นใจในค่าเฉลี่ยของชุดข้อมูลได้โดยไม่ต้องทำการตั้งสมมติฐานใด ๆ เกี่ยวกับการแจกแจงความน่าจะเป็นของชุดข้อมูล ฉันสงสัยว่าถ้าคุณสามารถทำสิ่งที่คล้ายกันกับความแปรปรวน นั่นคือถ้าฉันต้องสุ่มตัวอย่างใหม่จากชุดข้อมูลหลาย ๆ ครั้งและคำนวณความแปรปรวนในแต่ละครั้งความแปรปรวนเหล่านี้จะเป็นไปตามการแจกแจงที่แน่นอน (ไม่ว่าการแจกแจงความน่าจะเป็นดั้งเดิมของชุดข้อมูลนั้นคืออะไร) ฉันรู้ว่าถ้าชุดข้อมูลดั้งเดิมนั้นเป็นเรื่องปกติความแปรปรวนจะเป็นไปตามการแจกแจงแบบไคสแควร์ แต่ในกรณีที่มันไม่ปกติ
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.