คำถามติดแท็ก bootstrap

bootstrap เป็นวิธี resampling เพื่อประเมินการกระจายตัวตัวอย่างของสถิติ

1
การใช้ bootstrap เพื่อรับการกระจายตัวตัวอย่างของค่าร้อยละที่ 1
ฉันมีกลุ่มตัวอย่าง (ขนาด 250) จากประชากร ฉันไม่ทราบว่าการกระจายตัวของประชากร คำถามหลัก:ฉันต้องการประมาณจุดของ 1 เซนต์ - เปอร์เซ็นไทล์ของประชากรแล้วฉันต้องการช่วงความมั่นใจ 95% รอบการประเมินจุดของฉัน ประมาณการจุดของฉันจะเป็นตัวอย่าง 1 เซนต์ -percentile ผมหมายถึงมันxxxx หลังจากนั้นฉันพยายามสร้างช่วงความมั่นใจรอบค่าประมาณจุด ฉันสงสัยว่ามันสมเหตุสมผลหรือไม่ที่จะใช้ bootstrap ที่นี่ ฉันไม่มีประสบการณ์มากกับ bootstrap ดังนั้นขออภัยถ้าฉันไม่สามารถใช้คำศัพท์ที่เหมาะสมเป็นต้น นี่คือวิธีที่ฉันพยายามทำ ฉันดึงตัวอย่างสุ่ม 1,000 ตัวอย่างโดยแทนที่จากตัวอย่างดั้งเดิมของฉัน ฉันได้รับอันดับ 1 จากแต่ละคน ดังนั้นฉันมี 1,000 คะแนน - "1 เซนต์ - เปอร์เซ็นไทล์" ฉันดูการกระจายเชิงประจักษ์ของ 1,000 คะแนน ผมหมายถึงความหมายของมัน{} ผมหมายถึงว่า "อคติ" ดังต่อไปนี้: \ฉันใช้เวลา 2.5 วัน -percentile …

1
จะตีความตัวแปรที่ถูกแยกออกจากหรือรวมอยู่ในรูปแบบ lasso ได้อย่างไร?
ฉันได้รับจากการโพสต์อื่น ๆ ว่าไม่มีความสำคัญ 'ความสำคัญ' หรือ 'ความสำคัญ' เพื่อทำนายตัวแปรที่เข้าสู่แบบจำลองเชือกเนื่องจากการคำนวณค่า p หรือค่าเบี่ยงเบนมาตรฐานของตัวแปรเหล่านั้นยังคงทำงานอยู่ ภายใต้การใช้เหตุผลนั้นถูกต้องหรือไม่ที่จะยืนยันว่าไม่สามารถพูดได้ว่าตัวแปรที่ถูกแยกออกจากตัวแบบเชือกเป็น 'ไม่เกี่ยวข้อง' หรือ 'ไม่สำคัญ'? ถ้าเป็นเช่นนั้นฉันสามารถเรียกร้องอะไรได้บ้างเกี่ยวกับตัวแปรที่ถูกแยกออกหรือรวมไว้ในแบบจำลองเชือก ในกรณีเฉพาะของฉันฉันเลือกแลมบ์ดาพารามิเตอร์การปรับแต่งโดยทำซ้ำการตรวจสอบความถูกต้องข้าม 10 เท่า 100 ครั้งเพื่อลด randonmess และเฉลี่ยโค้งข้อผิดพลาด UPDATE1: ฉันได้ทำตามคำแนะนำด้านล่างและเรียกใช้ lasso อีกครั้งโดยใช้ตัวอย่าง bootstrap ฉันได้ไปกับตัวอย่าง 100 รายการ (จำนวนนั้นเป็นสิ่งที่พลังคอมพิวเตอร์ของฉันสามารถจัดการข้ามคืนได้) และรูปแบบบางอย่างก็ปรากฏ 2 ใน 41 ตัวแปรของฉันเข้าสู่โมเดลมากกว่า 95% ของเวลา, 3 ตัวแปรมากกว่า 90% และ 5 ตัวแปรมากกว่า 85% ตัวแปร 5 ตัวนั้นเป็นหนึ่งใน 9 ที่เข้าสู่แบบจำลองเมื่อฉันรันด้วยตัวอย่างดั้งเดิมและเป็นตัวแปรที่มีค่าสัมประสิทธิ์สูงสุดแล้ว หากฉันใช้บ่วงบาศพร้อมกับตัวอย่าง …

1
สามารถใช้ bootstrap resampling ใหม่เพื่อคำนวณช่วงความมั่นใจสำหรับความแปรปรวนของชุดข้อมูลได้หรือไม่?
ฉันรู้ว่าถ้าคุณสุ่มตัวอย่างจากชุดข้อมูลซ้ำหลาย ๆ ครั้งและคำนวณค่าเฉลี่ยในแต่ละครั้งค่าเฉลี่ยเหล่านี้จะเป็นไปตามการแจกแจงแบบปกติ (โดย CLT) ดังนั้นคุณสามารถคำนวณช่วงความมั่นใจในค่าเฉลี่ยของชุดข้อมูลได้โดยไม่ต้องทำการตั้งสมมติฐานใด ๆ เกี่ยวกับการแจกแจงความน่าจะเป็นของชุดข้อมูล ฉันสงสัยว่าถ้าคุณสามารถทำสิ่งที่คล้ายกันกับความแปรปรวน นั่นคือถ้าฉันต้องสุ่มตัวอย่างใหม่จากชุดข้อมูลหลาย ๆ ครั้งและคำนวณความแปรปรวนในแต่ละครั้งความแปรปรวนเหล่านี้จะเป็นไปตามการแจกแจงที่แน่นอน (ไม่ว่าการแจกแจงความน่าจะเป็นดั้งเดิมของชุดข้อมูลนั้นคืออะไร) ฉันรู้ว่าถ้าชุดข้อมูลดั้งเดิมนั้นเป็นเรื่องปกติความแปรปรวนจะเป็นไปตามการแจกแจงแบบไคสแควร์ แต่ในกรณีที่มันไม่ปกติ

2
ความแปรปรวนของค่าเฉลี่ยตัวอย่างของตัวอย่างบู๊ตสแตรป
ให้เป็นข้อสังเกตที่ชัดเจน (ไม่มีความสัมพันธ์) ให้แสดงตัวอย่าง bootstrap (ตัวอย่างจาก CDF เชิงประจักษ์) และให้{*} ค้นหาและ{*})X1,...,XnX1,...,XnX_{1},...,X_{n}X∗1,...,X∗nX1∗,...,Xn∗X_{1}^{*},...,X_{n}^{*}X¯* * * *n=1nΣni = 1X* * * *ผมX¯n∗=1n∑i=1nXi∗\bar{X}_{n}^{*}=\frac{1}{n}\sum_{i=1}^{n}X_{i}^{*}E(X¯* * * *n)E(X¯n∗)E(\bar{X}_{n}^{*})V a r (X¯* * * *n)Var(X¯n∗)\mathrm{Var}(\bar{X}_{n}^{*}) สิ่งที่ฉันมีอยู่คือคือแต่ละอันมีความน่าจะเป็นดังนั้น and ซึ่งให้ X* * * *ผมXi∗X_{i}^{*}X1, . . . ,XnX1,...,XnX_{1},...,X_{n}1n1n\frac{1}{n}E(X* * * *ผม) =1nE(X1) + . . . +1nE(Xn) =n μn= μE(Xi∗)=1nE(X1)+...+1nE(Xn)=nμn=μ E(X_{i}^{*})=\frac{1}{n}E(X_{1})+...+\frac{1}{n}E(X_{n})=\frac{n\mu}{n}=\mu …


3
วิธีการทดสอบ / พิสูจน์ข้อมูลเป็นศูนย์ที่สูงเกินจริง?
ฉันมีปัญหาที่ฉันคิดว่าควรจะง่าย แต่ไม่สามารถเข้าใจได้ ฉันกำลังดูการผสมเกสรของเมล็ดฉันมีพืช (n = 36) ดอกไม้ที่อยู่ในกลุ่มฉันลองกลุ่มดอกไม้ 3 กลุ่มจากแต่ละต้นและฝัก 6 เมล็ดจากแต่ละกลุ่ม (18 ฝักทั้งหมดจากแต่ละต้น) ฝักสามารถมีได้ระหว่าง 0 ถึงมากที่สุด 4 เมล็ดเรณู ดังนั้นข้อมูลจะถูกนับด้วยขอบเขตบน ฉันกำลังหาค่าเฉลี่ยของเมล็ดประมาณ 10% ของเรณู แต่ที่ใดก็ได้ระหว่าง 1 - 30% ในพืชที่กำหนดดังนั้นมากกว่าข้อมูลที่กระจัดกระจายและแน่นอนว่ามีคลัสเตอร์ที่หายไป 4 ต้นใน 3 พืชดังนั้นจึงไม่สมมาตรอย่างสมบูรณ์ . คำถามที่ฉันถามคือถ้าข้อมูลนี้สนับสนุนความคิดที่โรงงานนี้ต้องการการถ่ายละอองเรณูสำหรับชุดเมล็ด ฉันพบว่าการกระจายของจำนวนเมล็ดในฝักดูเหมือนจะมีมากกว่า 0 ฝักเรณู (6-9 ฝักจาก 16) และอื่น ๆ 3 และ 4 พอดเรณูเมล็ด (2-4 สำหรับแต่ละ) กว่าจะ จะคาดหวังถ้าเมล็ดในประชากรเป็นเพียงการผสมเกสรแบบสุ่ม โดยพื้นฐานแล้วฉันคิดว่านี่เป็นตัวอย่างแบบคลาสสิกสำหรับข้อมูลที่สูงเกินจริงศูนย์แมลงตัวแรกทำอย่างใดอย่างหนึ่งหรือไม่ได้เยี่ยมชมดอกไม้เลย …

2
พารามิเตอร์การบูตแบบกึ่งพารามิเตอร์และแบบไม่มีพารามิเตอร์สำหรับรุ่นผสม
ตัดต่อไปนี้จะนำมาจากบทความนี้ ฉันเป็นมือใหม่ในการบู๊ตสแตรปและพยายามที่จะใช้การบู๊ตสแปปปิ้งแบบกึ่งพารามิเตอร์แบบกึ่งพารามิเตอร์และแบบไม่มีพารามิเตอร์สำหรับแบบจำลองเชิงเส้นผสมกับR bootแพ็คเกจ รหัส R นี่คือRรหัสของฉัน: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

1
การกระจายตัวของค่าสัมประสิทธิ์การถดถอย
สมมติว่าเรามีโมเดลเชิงเส้น Yผม=β0+β1xผม+εผมyi=β0+β1xi+ϵiy_i = \beta_0 + \beta_1 x_i + \epsilon_iที่ตรงตามสมมติฐานการถดถอยมาตรฐาน (Gauss-Markov) ทั้งหมด เราสนใจθ = 1 /β1θ=1/β1\theta = 1/\beta_1. คำถามที่ 1:ข้อสมมติฐานอะไรที่จำเป็นสำหรับการแจกแจงθ^θ^\hat{\theta} ที่จะกำหนดไว้อย่างดี? β1≠ 0β1≠0\beta_1 \neq 0 จะมีความสำคัญ --- คนอื่น ๆ ? คำถามที่ 2:เพิ่มการสันนิษฐานว่าข้อผิดพลาดเป็นไปตามการแจกแจงแบบปกติ เรารู้ว่าถ้าβ^1β^1\hat{\beta}_1 คือ MLE และ ก.( ⋅ )g(⋅)g(\cdot) เป็นฟังก์ชั่นโมโนโทน ก.(β^1)g(β^1)g\left(\hat{\beta}_1\right) เป็น MLE สำหรับ ก.(β1)g(β1)g(\beta_1). เป็นสิ่งที่จำเป็นต้องมีเพียงอย่างเดียวในพื้นที่ใกล้เคียงของβ1β1\beta_1? ในคำอื่น ๆ คือθ^= 1 /β^θ^=1/β^\hat{\theta} …

1
ประมาณช่วงความมั่นใจของค่าเฉลี่ยโดยวิธี bootstrap t หรือเพียงแค่โดย bootstrap?
เมื่อประเมินช่วงความมั่นใจของค่าเฉลี่ยฉันคิดว่าทั้งวิธี bootstrap t และวิธี bootstrap แบบ nonparametric นั้นสามารถใช้ได้ แต่วิธีแรกนั้นต้องใช้การคำนวณมากกว่าเล็กน้อย ฉันสงสัยว่าข้อดีและข้อเสียของ bootstrap ที่มากกว่า bootstrap nonparametric ปกติคืออะไร? ทำไม? มีการอ้างอิงบางอย่างสำหรับการอธิบายเรื่องนี้หรือไม่?

4
วิธีการทดสอบไคสแควร์หลังการทดสอบหลายตารางในตาราง 2 X 3
ชุดข้อมูลของฉันประกอบด้วยการเสียชีวิตโดยรวมหรือการอยู่รอดของสิ่งมีชีวิตที่ไซต์สามประเภททั้งฝั่งกลางและกลาง ตัวเลขในตารางด้านล่างแสดงถึงจำนวนเว็บไซต์ 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 ฉันต้องการทราบว่า # ของเว็บไซต์ที่มีอัตราการตาย 100% มีความสำคัญตามประเภทของไซต์หรือไม่ ถ้าฉันใช้ไคสแควร์ 2 x 3 ฉันจะได้ผลลัพธ์ที่สำคัญ มีการเปรียบเทียบแบบคู่หลังที่ฉันสามารถเรียกใช้หรือฉันควรใช้ ANOVA จิสติกส์หรือการถดถอยด้วยการแจกแจงแบบทวินามหรือไม่ ขอบคุณ!

1
มีชื่อสำหรับ bootstrapping ประเภทนี้หรือไม่?
พิจารณาการทดสอบกับผู้เข้าร่วมหลายคนแต่ละคนวัดหลายครั้งในสองเงื่อนไข รูปแบบเอฟเฟกต์แบบผสมสามารถกำหนดได้ (ใช้ไวยากรณ์lme4 ) เป็น: fit = lmer( formula = measure ~ (1|participant) + condition ) ตอนนี้บอกว่าฉันต้องการสร้างช่วงความมั่นใจบูตสแตรปสำหรับการคาดการณ์ของรุ่นนี้ ฉันคิดว่าฉันคิดวิธีที่ง่ายและมีประสิทธิภาพในการคำนวณและฉันแน่ใจว่าฉันไม่ใช่คนแรกที่คิด แต่ฉันมีปัญหาในการค้นหาสิ่งพิมพ์ก่อนหน้าใด ๆ ที่อธิบายวิธีการนี้ นี่มันคือ: พอดีกับรุ่น (ตามด้านบน) เรียกสิ่งนี้ว่า "แบบจำลองดั้งเดิม" รับการทำนายจากแบบจำลองต้นฉบับเรียกว่า "การคาดการณ์ดั้งเดิม" เหล่านี้ รับส่วนที่เหลือจากรูปแบบดั้งเดิมที่เชื่อมโยงกับการตอบสนองแต่ละครั้งจากผู้เข้าร่วมแต่ละคน resample the residual, สุ่มตัวอย่างผู้เข้าร่วมที่มีการแทนที่ พอดีกับโมเดลเอฟเฟกต์แบบเชิงเส้นที่มีข้อผิดพลาดแบบเกาส์กับส่วนที่เหลือเรียกสิ่งนี้ว่า "โมเดลชั่วคราว" คำนวณการทำนายจากตัวแบบชั่วคราวสำหรับแต่ละเงื่อนไข (การคาดการณ์เหล่านี้จะใกล้เคียงกับศูนย์มาก) เรียกสิ่งเหล่านี้ว่า "การทำนายระหว่างกาล" เพิ่มการคาดการณ์ระหว่างกาลลงในการคาดการณ์ดั้งเดิมเรียกผลการค้นหา "resample ทำนาย" ทำซ้ำขั้นตอนที่ 4 ถึง 7 หลาย ๆ ครั้งสร้างการกระจายการคาดการณ์ตัวอย่างสำหรับแต่ละเงื่อนไขซึ่งครั้งหนึ่งสามารถคำนวณ …

1
ฉันควรสลับข้อมูลของฉันอีกครั้งหรือไม่
เรามีตัวอย่างชีวภาพชุดหนึ่งที่ค่อนข้างแพง เราวางตัวอย่างเหล่านี้ผ่านชุดการทดสอบเพื่อสร้างข้อมูลที่ใช้สำหรับสร้างแบบจำลองการทำนาย เพื่อจุดประสงค์นี้เราได้แบ่งกลุ่มตัวอย่างเป็นชุดฝึกอบรม (70%) และชุดทดสอบ (30%) เราสร้างแบบจำลองได้สำเร็จและนำไปใช้กับชุดการทดสอบเพื่อค้นหาว่าประสิทธิภาพนั้น "น้อยกว่าความเหมาะสม" ผู้ทำการทดลองต้องการปรับปรุงการทดสอบทางชีวภาพเพื่อสร้างแบบจำลองที่ดีขึ้น โดยมีเงื่อนไขว่าเราไม่สามารถรับตัวอย่างใหม่ได้คุณขอแนะนำให้เราสุ่มตัวอย่างใหม่เพื่อสร้างชุดการฝึกอบรมและการตรวจสอบความถูกต้องใหม่หรือติดกับส่วนเดิม (เราไม่มีข้อบ่งชี้ว่าการแบ่งนั้นเป็นปัญหาอย่างหนึ่ง)

3
เราจะสร้างช่วงความมั่นใจสำหรับพารามิเตอร์ของการทดสอบการเปลี่ยนรูปได้อย่างไร
การทดสอบการเปลี่ยนรูปเป็นการทดสอบที่สำคัญโดยพิจารณาจากการสุ่มตัวอย่างซ้ำซากจากข้อมูลต้นฉบับ Resamples resamples จะถูกวาดโดยไม่มีการแทนที่ตรงกันข้ามกับ bootstrap ตัวอย่างซึ่งถูกวาดด้วยการแทนที่ นี่คือตัวอย่างที่ฉันทำในการทดสอบการเปลี่ยนรูปแบบง่าย ๆ (ความคิดเห็นของคุณยินดีต้อนรับ) การทดสอบการเปลี่ยนรูปมีข้อดีอย่างมาก พวกเขาไม่ต้องการรูปร่างประชากรที่เฉพาะเจาะจงเช่นภาวะปกติ มันใช้กับสถิติที่หลากหลายไม่ใช่แค่สถิติที่มีการแจกแจงอย่างง่ายภายใต้สมมติฐานว่าง พวกเขาสามารถให้ค่า p ที่แม่นยำมากโดยไม่คำนึงถึงรูปร่างและขนาดของประชากร (หากมีการใช้การเปลี่ยนลำดับมากพอ) ฉันได้อ่านด้วยว่ามันมักจะมีประโยชน์ที่จะให้ช่วงความมั่นใจพร้อมกับการทดสอบซึ่งสร้างขึ้นโดยใช้การเปลี่ยนรูป bootstrap แทนการเปลี่ยนรูปแบบการเปลี่ยนรูปแบบใหม่ คุณสามารถอธิบาย (หรือเพียงแค่ให้รหัส R) ว่าจะสร้างช่วงความมั่นใจอย่างไร (เช่นสำหรับความแตกต่างระหว่างค่าเฉลี่ยของตัวอย่างสองตัวอย่างในตัวอย่างด้านบน) แก้ไข หลังจาก googling ฉันพบการอ่านที่น่าสนใจนี้

7
การบูตสแตรป - คนที่สามารถให้คำอธิบายง่ายๆเพื่อให้ฉันเริ่มต้นได้อย่างไร
แม้จะมีความพยายามหลายครั้งในการอ่านเกี่ยวกับ bootstrapping แต่ดูเหมือนว่าฉันจะชนกำแพงอิฐเสมอ ฉันสงสัยว่าใครสามารถให้คำจำกัดความที่ไม่ใช่ด้านเทคนิคของการบูตสแตรปหรือไม่? ฉันรู้ว่ามันเป็นไปไม่ได้ในฟอรั่มนี้เพื่อให้รายละเอียดมากพอที่จะช่วยให้ฉันเข้าใจมัน แต่การผลักดันอ่อนโยนในทิศทางที่เหมาะสมกับเป้าหมายหลักและกลไกของความร่วมมือจะมากชื่นชม! ขอบคุณ

1
ฉันสามารถตัวอย่างชุดข้อมูลขนาดใหญ่ที่การทำซ้ำ MCMC ทุกครั้งได้หรือไม่
ปัญหา:ฉันต้องการทำการสุ่มตัวอย่างของกิ๊บส์เพื่อสรุปหลังชุดข้อมูลขนาดใหญ่ โชคไม่ดีโมเดลของฉันไม่ง่ายนักและการสุ่มตัวอย่างช้าเกินไป ฉันจะพิจารณาแนวทางที่หลากหลายหรือขนาน แต่ก่อนที่จะไปไกล ... คำถาม:ฉันต้องการทราบว่าฉันสามารถสุ่มตัวอย่างตัวอย่าง (พร้อมการแทนที่) จากชุดข้อมูลของฉันที่การวนซ้ำของกิ๊บส์ทุกครั้งหรือไม่ สัญชาตญาณของฉันคือแม้ว่าฉันจะเปลี่ยนตัวอย่างฉันจะไม่เปลี่ยนความหนาแน่นของความน่าจะเป็นและดังนั้นตัวอย่างกิ๊บส์ไม่ควรสังเกตเห็นเคล็ดลับ ฉันถูกไหม? มีผู้อ้างอิงบางคนที่ทำสิ่งนี้หรือไม่?
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.