สถิติและข้อมูลขนาดใหญ่ resampling

3

วิธีการสุ่มตัวอย่างใหม่ใน R โดยไม่ต้องเปลี่ยนลำดับซ้ำ?

ใน R ถ้าฉัน set.seed () จากนั้นใช้ฟังก์ชั่นตัวอย่างเพื่อสุ่มรายการฉันสามารถรับประกันได้ว่าฉันจะไม่สร้างการเปลี่ยนแปลงแบบเดียวกันหรือไม่? เช่น ... set.seed(25) limit <- 3 myindex <- seq(0,limit) for (x in seq(1,factorial(limit))) { permutations <- sample(myindex) print(permutations) } สิ่งนี้ผลิต [1] 1 2 0 3 [1] 0 2 1 3 [1] 0 3 2 1 [1] 3 1 2 0 [1] 2 3 0 …

12 r sampling combinatorics resampling

1

การบูตสแตรปเหมาะสมกับข้อมูลต่อเนื่องนี้หรือไม่

ฉันเป็นมือใหม่ที่สมบูรณ์ :) ฉันกำลังศึกษาขนาดตัวอย่าง 10,000 คนจากประชากรประมาณ 745,000 คน แต่ละตัวอย่างแสดงถึง "ความคล้ายคลึงกันของเปอร์เซ็นต์" กลุ่มตัวอย่างส่วนใหญ่อยู่ที่ประมาณ 97% -98% แต่มีไม่กี่คนที่อยู่ระหว่าง 60% ถึง 90% นั่นคือการกระจายตัวค่อนข้างเบ้ ประมาณ 0.6% ของผลลัพธ์เป็น 0% แต่สิ่งเหล่านี้จะได้รับการแยกจากตัวอย่าง ค่าเฉลี่ยของตัวอย่าง 10,000 ตัวอย่างทั้งหมดคือ 97.7% และใน Excel StdDev คือ 3.20 ฉันเข้าใจว่า StdDev ไม่สามารถใช้งานได้ที่นี่เพราะผลลัพธ์ไม่ได้กระจายตามปกติ (และเนื่องจาก +3.20 จะทำให้คุณสูงกว่า 100%!) คำถามของฉันคือ: การบูตสแตรป (แนวคิดใหม่สำหรับฉัน) เหมาะสมหรือไม่ ฉันกำลังทำการบูตอย่างถูกต้องหรือไม่ :) ขนาดตัวอย่างที่เพียงพอคืออะไร สิ่งที่ฉันทำคือการสุ่มตัวอย่างใหม่ (แทนที่) ผลลัพธ์ 10,000 รายการของฉันและคำนวณค่าเฉลี่ยใหม่ …

11 bootstrap sample-size resampling

1

วิธีการ Bootstrap ทำไม resample“ with replace” แทนที่จะเป็น subsampling แบบสุ่ม

วิธีบูตสแตรปได้เห็นการแพร่กระจายที่ยอดเยี่ยมในปีที่ผ่านมาฉันยังใช้มันมากโดยเฉพาะอย่างยิ่งเพราะเหตุผลที่อยู่เบื้องหลังนั้นค่อนข้างใช้งานง่าย แต่นั่นเป็นสิ่งหนึ่งที่ฉันไม่เข้าใจ เหตุใด Efron จึงเลือกที่จะทำการ resample ด้วยการแทนที่แทนการ subsampling เพียงโดยการสุ่มรวมหรือไม่รวมการสังเกตเดี่ยว ฉันคิดว่าการสุ่มตัวอย่างแบบสุ่มมีคุณภาพดีมากอย่างหนึ่งซึ่งเป็นตัวแทนของสถานการณ์ในชีวิตจริงที่การสังเกตการณ์ที่เรามีในการศึกษาของเราเป็นส่วนย่อยของประชากรสมมุติ ฉันไม่เห็นประโยชน์ของการสังเกตหลายครั้งระหว่างการสุ่มใหม่ ในบริบทจริงไม่มีการสังเกตใดที่คล้ายกันโดยเฉพาะอย่างยิ่งสำหรับสถานการณ์หลายตัวแปรที่ซับซ้อน

11 bootstrap resampling subsampling

1

ค่าสัมประสิทธิ์จินีและขอบเขตข้อผิดพลาด

ฉันมีชุดข้อมูลเวลาที่มี N = 14 นับในแต่ละช่วงเวลาและฉันต้องการคำนวณค่าสัมประสิทธิ์ Gini และข้อผิดพลาดมาตรฐานสำหรับการประมาณนี้ในแต่ละช่วงเวลา เนื่องจากฉันมีเพียง N = 14 นับในแต่ละครั้งที่ฉันดำเนินการคำนวณความแปรปรวนของขนุนคือจากสม 7 ของ Tomson Ogwang 'วิธีการที่สะดวกในการคำนวณดัชนี Gini และ' ข้อผิดพลาดมาตรฐาน' ที่ไหนเป็นสัมประสิทธิ์จีนีของค่า N โดยไม่ต้ององค์ประกอบและเป็นค่าเฉลี่ยของk)var( G ) = n - 1n× ∑nk = 1( G ( n , k ) - G¯( n ) )2var⁡(G)=n-1n×Σk=1n(G(n,k)-G¯(n))2\operatorname{var}(G) = \frac{n-1}{n} \times \sum_{k=1}^n (G(n,k)-\bar{G}(n))^2G ( n …

11 r variance econometrics resampling gini

4

ทำไมการทดสอบสมมติฐานเกี่ยวกับชุดข้อมูลที่ resampled ปฏิเสธค่า null บ่อยเกินไป?

tl; dr: เริ่มต้นด้วยชุดข้อมูลที่สร้างขึ้นภายใต้ null ฉัน resampled กรณีที่มีการเปลี่ยนและดำเนินการทดสอบสมมติฐานในแต่ละชุดข้อมูล resampled การทดสอบสมมติฐานเหล่านี้ปฏิเสธค่าว่างมากกว่า 5% ของเวลา ในด้านล่างการจำลองที่ง่ายมากฉันสร้างชุดข้อมูลด้วยและฉันพอดีกับ OLS แบบง่าย ๆ จากนั้นสำหรับแต่ละชุดข้อมูลฉันสร้างชุดข้อมูลใหม่ 1,000 ชุดโดยการสุ่มแถวใหม่ของชุดข้อมูลเดิมพร้อมการแทนที่ (อัลกอริทึมที่อธิบายไว้โดยเฉพาะในข้อความคลาสสิกของ Davison & Hinkley ว่าเหมาะสมสำหรับการถดถอยเชิงเส้น) สำหรับแต่ละอันฉันพอดีกับ OLS รุ่นเดียวกัน ในที่สุดประมาณ 16% ของการทดสอบสมมติฐานในตัวอย่าง bootstrap ปฏิเสธ nullในขณะที่เราควรได้รับ 5% (ตามที่เราทำในชุดข้อมูลดั้งเดิม)X∼N(0,1)⨿Y∼N(0,1)X∼N(0,1)⨿Y∼N(0,1)X \sim N(0,1) \amalg Y \sim N(0,1) ฉันสงสัยว่ามันมีบางอย่างเกี่ยวกับการสังเกตซ้ำ ๆ ทำให้เกิดความสัมพันธ์ที่สูงเกินจริงดังนั้นในการเปรียบเทียบฉันลองวิธีอื่นสองวิธีในรหัสด้านล่าง (แสดงความคิดเห็น) ในวิธีที่ 2 ฉันแก้ไขจากนั้นแทนที่ด้วยส่วนที่เหลือ resampled จากโมเดล OLS …

10 r bootstrap simulation resampling

2

ฉันควรบูตที่ระดับคลัสเตอร์หรือระดับบุคคลหรือไม่

ฉันมีแบบจำลองการเอาชีวิตรอดกับผู้ป่วยที่ซ้อนอยู่ในโรงพยาบาลซึ่งรวมถึงผลกระทบแบบสุ่มสำหรับโรงพยาบาล เอฟเฟกต์แบบสุ่มคือการแจกแจงแกมม่าและฉันพยายามรายงาน 'ความเกี่ยวข้อง' ของคำนี้ในระดับที่เข้าใจได้ง่าย ฉันได้พบข้อมูลอ้างอิงต่อไปนี้ซึ่งใช้อัตราส่วนค่ามัธยฐานอันตราย (bit เช่น Median Odds Ratio) และคำนวณค่านี้ Bengtsson T, Dribe M: วิธีการทางประวัติศาสตร์ 43:15, 2010 อย่างไรก็ตามตอนนี้ฉันต้องการรายงานความไม่แน่นอนที่เกี่ยวข้องกับการประเมินนี้โดยใช้ bootstrap ข้อมูลนี้เป็นข้อมูลการอยู่รอดและด้วยเหตุนี้จึงมีการสังเกตหลายครั้งต่อผู้ป่วยและผู้ป่วยหลายรายต่อโรงพยาบาล ดูเหมือนชัดเจนว่าฉันต้องจัดกลุ่มการสังเกตผู้ป่วยเมื่อทำการสุ่มตัวอย่างใหม่ แต่ฉันไม่รู้ว่าฉันควรจัดกลุ่มโรงพยาบาลด้วยหรือไม่ ฉันสงสัยว่าคำตอบนั้นขึ้นอยู่กับพารามิเตอร์ที่น่าสนใจหรือไม่และจะแตกต่างกันอย่างไรหากเป้าหมายเป็นสิ่งที่เกี่ยวข้องในระดับผู้ป่วยมากกว่าระดับโรงพยาบาล ฉันระบุรหัส stata ด้านล่างในกรณีที่ช่วยได้ cap program drop est_mhr program define est_mhr, rclass stcox patient_var1 patient_var2 /// , shared(hospital) /// noshow local twoinvtheta2 = 2 / (e(theta)^2) local …

10 stata bootstrap multilevel-analysis resampling frailty

2

ข้อความที่ดีสำหรับการสุ่มใหม่หรือไม่

กลุ่มสามารถแนะนำข้อความ / ทรัพยากรการแนะนำที่ดีให้กับเทคนิคการสุ่มตัวอย่างใหม่ได้หรือไม่? โดยเฉพาะฉันสนใจทางเลือกในการทดสอบแบบพาราเมตริกคลาสสิก (เช่นการทดสอบ t, ANOVA, ANCOVA) สำหรับการเปรียบเทียบกลุ่มเมื่อข้อสมมติฐานเช่นภาวะปกติถูกละเมิดอย่างชัดเจน ประเภทของปัญหาตัวอย่างที่ฉันต้องการให้ความรู้แก่ตัวเองว่าวิธีที่ดีกว่าในการแก้ไขอาจเกี่ยวข้องกับบางสิ่งเช่น: I) 2 กลุ่ม: การรักษาและการควบคุม Dependent Var: การเปลี่ยนแปลงในบัญชีดอลลาร์ดุลหลังจากการแทรกแซง Covariate: ดอลลาร์ล่วงหน้าของบัญชีการแทรกแซง ปัญหาเกี่ยวกับการใช้ ANCOVA: หลายวิชาจะไม่มีการเปลี่ยนแปลงใด ๆ (ศูนย์จำนวนมาก) II) 2 กลุ่ม: การรักษาและการควบคุม Dependent Var: เพิ่มบัญชีใหม่แล้ว Covariate: จำนวนการแทรกแซงล่วงหน้าของบัญชี * วิชาจำนวนมากจะไม่มีบัญชีเพิ่ม (ศูนย์จำนวนมาก) ฉันสามารถใช้ bootstrap ได้หรือไม่? การทดสอบการเปลี่ยนรูป? นี่คือประเภทของการวิเคราะห์ที่ฉันต้องการใช้วิธีการ resampling nonparametric

10 references bootstrap resampling

1

รูปแบบการเรียนรู้แบบลึกใดที่สามารถจำแนกหมวดหมู่ที่ไม่ได้เกิดร่วมกัน

ตัวอย่าง: ฉันมีประโยคในรายละเอียดงาน: "วิศวกรอาวุโสของ Java ในสหราชอาณาจักร" ฉันต้องการที่จะใช้รูปแบบการเรียนรู้ที่ลึกที่จะคาดการณ์ว่ามันเป็น 2 ประเภทและEnglish IT jobsถ้าฉันใช้รูปแบบการจำแนกแบบดั้งเดิมมันสามารถทำนายได้เพียง 1 ฉลากที่มีsoftmaxฟังก์ชั่นที่ชั้นสุดท้าย ดังนั้นฉันสามารถใช้โครงข่ายประสาทเทียม 2 แบบในการทำนาย "ใช่" / "ไม่" กับทั้งสองหมวดหมู่ แต่ถ้าเรามีหมวดหมู่มากขึ้นมันก็แพงเกินไป ดังนั้นเราจึงมีรูปแบบการเรียนรู้หรือการเรียนรู้ด้วยเครื่องเพื่อคาดการณ์ 2 หมวดหมู่ขึ้นไปพร้อมกันหรือไม่ "แก้ไข": ด้วย 3 ป้ายกำกับโดยวิธีดั้งเดิมมันจะถูกเข้ารหัสโดย [1,0,0] แต่ในกรณีของฉันมันจะถูกเข้ารหัสโดย [1,1,0] หรือ [1,1,1] ตัวอย่าง: หากเรามี 3 ป้ายกำกับและประโยคอาจเหมาะกับป้ายกำกับเหล่านี้ทั้งหมด ดังนั้นถ้าผลลัพธ์จากฟังก์ชัน softmax คือ [0.45, 0.35, 0.2] เราควรแบ่งมันออกเป็น 3 label หรือ 2 label หรืออาจเป็นหนึ่ง? ปัญหาหลักเมื่อเราทำคือ: …

9 machine-learning deep-learning natural-language tensorflow sampling distance non-independent application regression machine-learning logistic mixed-model control-group crossover r multivariate-analysis ecology procrustes-analysis vegan regression hypothesis-testing interpretation chi-squared bootstrap r bioinformatics bayesian exponential beta-distribution bernoulli-distribution conjugate-prior distributions bayesian prior beta-distribution covariance naive-bayes smoothing laplace-smoothing distributions data-visualization regression probit penalized estimation unbiased-estimator fisher-information unbalanced-classes bayesian model-selection aic multiple-regression cross-validation regression-coefficients nonlinear-regression standardization naive-bayes trend machine-learning clustering unsupervised-learning wilcoxon-mann-whitney z-score econometrics generalized-moments method-of-moments machine-learning conv-neural-network image-processing ocr machine-learning neural-networks conv-neural-network tensorflow r logistic scoring-rules probability self-study pdf cdf classification svm resampling forecasting rms volatility-forecasting diebold-mariano neural-networks prediction-interval uncertainty

2

ขนาดของตัวอย่างบู๊ตสแตรป

ฉันเรียนรู้เกี่ยวกับการบูตสแตรปเป็นวิธีการประมาณความแปรปรวนของสถิติตัวอย่าง ฉันมีข้อสงสัยพื้นฐานหนึ่งข้อ ข้อความจากhttp://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdf : •เราควรลองสังเกตซ้ำอีกครั้ง คำแนะนำที่ดีคือขนาดตัวอย่างดั้งเดิม เราจะสุ่มตัวอย่างการสังเกตได้มากเท่าในตัวอย่างดั้งเดิมได้อย่างไร ถ้าฉันมีขนาดตัวอย่าง 100 และฉันพยายามประเมินความแปรปรวนของค่าเฉลี่ย ฉันจะขอรับตัวอย่าง bootstrap หลายขนาด 100 จากขนาดตัวอย่างทั้งหมด 100 ได้อย่างไร ตัวอย่าง bootstrap เพียง 1 ตัวเท่านั้นที่เป็นไปได้ในกรณีนี้ซึ่งจะเทียบเท่ากับตัวอย่างดั้งเดิมใช่ไหม เห็นได้ชัดว่าฉันเข้าใจอะไรบางอย่างที่ธรรมดามาก ๆ ผมเข้าใจว่าจำนวนของที่เหมาะตัวอย่างบูตอยู่เสมอไม่มีที่สิ้นสุดและเพื่อกำหนดจำนวนตัวอย่างบูตที่จำเป็นสำหรับข้อมูลของฉันฉันต้องทดสอบลู่รักษาความแม่นยำที่จำเป็นของฉันในใจ แต่ฉันสับสนจริง ๆ เกี่ยวกับสิ่งที่ควรเป็นขนาดของตัวอย่างบูตแต่ละอัน

9 sampling bootstrap resampling

1

การใช้เกินขนาดด้วยตัวแปรเด็ดขาด

ฉันต้องการทำการรวมกันของการสุ่มตัวอย่างมากเกินไปและการ Undersampling เพื่อรักษาสมดุลของชุดข้อมูลของฉันกับลูกค้าประมาณ 4,000 คนแบ่งออกเป็นสองกลุ่มโดยที่หนึ่งในกลุ่มนั้นมีสัดส่วนประมาณ 15% ฉันดู SMOTE ( http://www.inside-r.org/packages/cran/DMwR/docs/SMOTE ) และ ROSE ( http://cran.r-project.org/web/packages/ROSE/) ROSE.pdf ) แต่ทั้งสองอย่างนี้สร้างตัวอย่างสังเคราะห์ใหม่โดยใช้การสังเกตที่มีอยู่และเช่น kNN อย่างไรก็ตามคุณลักษณะหลายอย่างที่เชื่อมโยงกับลูกค้านั้นเป็นหมวดหมู่ฉันไม่คิดว่านี่เป็นวิธีที่ถูกต้อง ตัวอย่างเช่นตัวแปรของฉันจำนวนมากเช่น Region_A และ Region_B นั้นไม่ได้เกิดร่วมกัน แต่การใช้ kNN การสังเกตใหม่อาจถูกวางไว้ทั้งใน Region_A และ Region_B คุณเห็นด้วยหรือไม่ว่านี่เป็นปัญหา ในกรณีดังกล่าว - เราจะทำอย่างใดอย่างหนึ่งการ oversampling ใน R โดยการทำซ้ำการสังเกตที่มีอยู่ซ้ำได้อย่างไร หรือนี่เป็นวิธีที่ผิดที่จะทำ?

9 unbalanced-classes resampling oversampling

1

สามารถใช้ bootstrap resampling ใหม่เพื่อคำนวณช่วงความมั่นใจสำหรับความแปรปรวนของชุดข้อมูลได้หรือไม่?

ฉันรู้ว่าถ้าคุณสุ่มตัวอย่างจากชุดข้อมูลซ้ำหลาย ๆ ครั้งและคำนวณค่าเฉลี่ยในแต่ละครั้งค่าเฉลี่ยเหล่านี้จะเป็นไปตามการแจกแจงแบบปกติ (โดย CLT) ดังนั้นคุณสามารถคำนวณช่วงความมั่นใจในค่าเฉลี่ยของชุดข้อมูลได้โดยไม่ต้องทำการตั้งสมมติฐานใด ๆ เกี่ยวกับการแจกแจงความน่าจะเป็นของชุดข้อมูล ฉันสงสัยว่าถ้าคุณสามารถทำสิ่งที่คล้ายกันกับความแปรปรวน นั่นคือถ้าฉันต้องสุ่มตัวอย่างใหม่จากชุดข้อมูลหลาย ๆ ครั้งและคำนวณความแปรปรวนในแต่ละครั้งความแปรปรวนเหล่านี้จะเป็นไปตามการแจกแจงที่แน่นอน (ไม่ว่าการแจกแจงความน่าจะเป็นดั้งเดิมของชุดข้อมูลนั้นคืออะไร) ฉันรู้ว่าถ้าชุดข้อมูลดั้งเดิมนั้นเป็นเรื่องปกติความแปรปรวนจะเป็นไปตามการแจกแจงแบบไคสแควร์ แต่ในกรณีที่มันไม่ปกติ

9 distributions confidence-interval bootstrap resampling

คำถามติดแท็ก resampling