คำถามติดแท็ก bootstrap

bootstrap เป็นวิธี resampling เพื่อประเมินการกระจายตัวตัวอย่างของสถิติ

2
จะสร้างช่วงความมั่นใจ 95% ของความแตกต่างระหว่างค่ามัธยฐานได้อย่างไร
ปัญหาของฉัน: กลุ่มทดลองแบบสุ่มมีการแจกแจงเบ้อย่างถูกต้องของผลลัพธ์หลัก ฉันไม่ต้องการใช้กฎเกณฑ์ปกติและใช้ CIs พื้นฐาน 95% (เช่นใช้ 1.96 X SE) ฉันรู้สึกสะดวกสบายที่จะแสดงการวัดแนวโน้มกลางว่าเป็นค่ามัธยฐาน แต่คำถามของฉันคือวิธีการสร้าง 95% CI ของความแตกต่างในค่ามัธยฐานระหว่างสองกลุ่ม สิ่งแรกที่อยู่ในใจคือ bootstrapping (ลองสุ่มใหม่พร้อมการแทนที่กำหนดค่ามัธยฐานในแต่ละกลุ่มและลบหนึ่งจากกลุ่มอื่นทำซ้ำ 1,000 ครั้งและใช้ Bias ที่ได้รับการแก้ไข 95%) นี่เป็นวิธีที่ถูกต้องหรือไม่? ข้อเสนอแนะอื่น ๆ ?

4
เหตุใด RANSAC จึงไม่ใช้กันอย่างแพร่หลายในสถิติ
มาจากมุมมองของคอมพิวเตอร์ฉันมักจะใช้วิธีRANSAC (Random Sample Consensus) สำหรับการปรับโมเดลให้เหมาะสมกับข้อมูลที่มีค่าผิดปกติจำนวนมาก อย่างไรก็ตามฉันไม่เคยเห็นมันใช้โดยนักสถิติและฉันมักจะอยู่ภายใต้ความประทับใจว่ามันไม่ได้ถือว่าเป็นวิธี "สถิติเสียง" เหตุผลที่เป็นเช่นนั้น? มันเป็นการสุ่มในธรรมชาติซึ่งทำให้ยากต่อการวิเคราะห์ แต่เป็นวิธีการบูตสแตรป หรือเป็นเพียงกรณีของนักวิชาการที่ไม่ได้พูดคุยกัน

1
มีผลลัพธ์ที่ให้ bootstrap ถูกต้องหรือไม่หากสถิตินั้นราบรื่นหรือไม่?
ตลอดเราคิดของเราสถิติเป็นฟังก์ชั่นบางข้อมูลซึ่งถูกดึงมาจากฟังก์ชันการกระจาย ; ฟังก์ชั่นการกระจายเชิงประจักษ์ของกลุ่มตัวอย่างของเราคือ{F} ดังนั้นคือสถิติที่ถูกมองว่าเป็นตัวแปรสุ่มและเป็นเวอร์ชั่นบูตของสถิติ เราใช้เป็นระยะทาง KSX 1 , ... X n F F θ ( F )θ(⋅)θ(⋅)\theta(\cdot)X1,…XnX1,…XnX_1, \ldots X_nFFFF^F^\hat{F}θ(F)θ(F)\theta(F)d ∞θ(F^)θ(F^)\theta(\hat{F})d∞d∞d_\infty มีผลลัพธ์ "if and only ถ้า" สำหรับความถูกต้องของ bootstrap หากสถิติเป็นสถิติเชิงเส้นอย่างง่าย ตัวอย่างเช่นทฤษฎีบทที่ 1 จาก Mammen "bootstrap ทำงานเมื่อไหร่?" ถ้าสำหรับบางฟังก์ชั่นโดยพลการจากนั้น bootstrap ทำงานในแง่ที่ถ้าและ เฉพาะในกรณีที่มีและเช่นนั้น เราสามารถนิยามเป็นฟังก์ชั่นบางอย่างของตัวอย่างของเราและเอชnd∞[L(θ( F ) -เสื้อ n),L(θ(F)-เสื้อn)]→หน้า0σnTnd∞[L(θ(F)-tn)θ(F)=1n∑ni−1hn(Xi)θ(F)=1n∑i−1nhn(Xi)\theta(F) = \frac{1}{n} \sum_{i-1}^n h_n(X_i)hnhnh_nd∞[L(θ(F^)−t^n),L(θ(F)−tn)]→p0d∞[L(θ(F^)−t^n),L(θ(F)−tn)]→p0d_\infty\big[\mathscr{L}(\theta(\hat{F})-\hat{t}_n), \mathscr{L}(\theta(F)-t_n)\big] \underset{p}{\rightarrow} 0σnσn\sigma_ntntnt_nd∞[L(θ(F)−tn),N(0,σ2n)]→p0d∞[L(θ(F)−tn),N(0,σn2)]→p0d_\infty\big[\mathscr{L}(\theta(F)-t_n), …

1
Multinomial (1 / n, …, 1 / n) สามารถแสดงลักษณะเป็นดิริเคิต (1, .. , 1) ที่แยกส่วนได้หรือไม่?
ดังนั้นคำถามนี้จะยุ่งเล็กน้อย แต่ฉันจะรวมกราฟสีสันเพื่อชดเชย ก่อนอื่นมาที่พื้นหลังของคำถาม พื้นหลัง สมมติว่าคุณมีการแจกแจงพหุคูณแบบหลายมิติแบบมิติที่มีโพรไบท์เท่ากันในประเภทให้เป็นจำนวนปกติ ( ) จากการแจกแจงนั่นคือ:nnnnnnπ=(π1,…,πn)π=(π1,…,πn)\pi = (\pi_1, \ldots, \pi_n)ccc (c1,…,cn)∼Multinomial(1/n,…,1/n)πi=cin(c1,…,cn)∼Multinomial(1/n,…,1/n)πi=cin(c_1, \ldots, c_n) \sim \text{Multinomial}(1/n, \ldots, 1/n) \\ \pi_i = {c_i \over n} ตอนนี้การกระจายทั่วมีการสนับสนุนใน -simplex แต่มีขั้นตอนแบบแยก ตัวอย่างเช่นด้วยการกระจายนี้มีการสนับสนุนดังต่อไปนี้ (จุดสีแดง):ππ\pinnnn=3n=3n = 3 การแจกแจงอื่นที่มีการรองรับที่คล้ายกันคือการแจกแจงแบบ -dimensionalนั่นคือการกระจายแบบสม่ำเสมอทั่วหน่วย simplex ตัวอย่างเช่นนี่คือการสุ่มจับจาก 3-dimesional :nnnDirichlet(1,…,1)Dirichlet(1,…,1)\text{Dirichlet}(1, \ldots, 1)Dirichlet(1,1,1)Dirichlet(1,1,1)\text{Dirichlet}(1, 1, 1) ตอนนี้ฉันมีความคิดว่าการกระจายของจากการแจกแจงอาจมีลักษณะเหมือนวาดจากที่มี discretized การสนับสนุนต่อเนื่องของ\ต่อเนื่องผมมีอยู่ในใจ (และที่ดูเหมือนว่าจะทำงานได้ดี) คือการใช้เวลาในแต่ละจุดในเริมและ "รอบมันออก" เพื่อจุดที่ใกล้ที่สุดที่อยู่ในการสนับสนุนของ\สำหรับ simplex …

3
การตรวจสอบข้ามระบบหรือการบูตสแตรปเพื่อประเมินประสิทธิภาพการจัดหมวดหมู่?
วิธีการสุ่มตัวอย่างที่เหมาะสมที่สุดในการประเมินประสิทธิภาพของตัวจําแนกในชุดข้อมูลเฉพาะและเปรียบเทียบกับตัวจําแนกอื่น ๆ คืออะไร? การตรวจสอบความถูกต้องไขว้นั้นดูเหมือนจะเป็นแบบมาตรฐาน แต่ฉันได้อ่านวิธีการเช่น. 632 bootstrap เป็นตัวเลือกที่ดีกว่า การติดตามผล: การเลือกตัวชี้วัดประสิทธิภาพส่งผลกระทบต่อคำตอบหรือไม่ (ถ้าฉันใช้ AUC แทนความแม่นยำ) เป้าหมายสูงสุดของฉันคือสามารถพูดด้วยความมั่นใจว่าวิธีการเรียนรู้ของเครื่องวิธีหนึ่งดีกว่าอีกชุดหนึ่งสำหรับชุดข้อมูลเฉพาะ

2
bootstrapping ใน R ทำงานอย่างไร
ฉันได้ดูแพ็คเกจการบูตใน R และในขณะที่ฉันพบไพรเมอร์จำนวนมากเกี่ยวกับวิธีใช้มันฉันยังไม่พบสิ่งใดที่อธิบายสิ่งที่เกิดขึ้น "เบื้องหลัง" ตัวอย่างเช่นในตัวอย่างนี้คู่มือแสดงวิธีการใช้สัมประสิทธิ์การถดถอยมาตรฐานเป็นจุดเริ่มต้นสำหรับการถดถอย bootstrap แต่ไม่ได้อธิบายว่าขั้นตอนการ bootstrap กำลังทำอยู่เพื่อให้ได้สัมประสิทธิ์การถดถอย bootstrap ดูเหมือนว่ามีกระบวนการวนซ้ำบางอย่างที่เกิดขึ้น แต่ฉันไม่สามารถเข้าใจได้อย่างชัดเจนว่าเกิดอะไรขึ้น

1
Bootstrapping เทียบกับ Bayesian
ฉันมีปัญหาในการทำความเข้าใจว่ากระบวนการบูตสเตปแบบเบย์คืออะไรและสิ่งนั้นแตกต่างจากการบูตสแตรปปกติของคุณอย่างไร และถ้ามีใครบางคนสามารถนำเสนอการทบทวนและการเปรียบเทียบทั้งสองอย่างง่าย ลองยกตัวอย่าง สมมติว่าเรามีชุดข้อมูล X นั่นคือ [1,2,5,7,3] หากเราสุ่มตัวอย่างด้วยการแทนที่หลาย ๆ ครั้งเพื่อสร้างขนาดตัวอย่างเท่ากับขนาดของ X (ดังนั้น [7,7,2,5,7], [3,5,2,2,7] ฯลฯ ) จากนั้นเรา คำนวณค่าเฉลี่ยของแต่ละวิธีนั่นคือการกระจาย bootstrap ของค่าเฉลี่ยตัวอย่างหรือไม่ อะไรคือการกระจาย bootstrap แบบเบส์ของสิ่งนั้น? และการกระจาย bootstrap แบบเบย์ของพารามิเตอร์อื่น ๆ (ความแปรปรวน ฯลฯ ) ทำในวิธีเดียวกันได้อย่างไร?

1
สองวิธีในการใช้ bootstrap เพื่อประเมินช่วงความมั่นใจของสัมประสิทธิ์ในการถดถอย
ฉันกำลังใช้โมเดลเชิงเส้นกับข้อมูลของฉัน: yi=β0+β1xi+ϵi,ϵi∼N(0,σ2).yi=β0+β1xi+ϵi,ϵi∼N(0,σ2). y_{i}=\beta_{0}+\beta_{1}x_{i}+\epsilon_{i}, \quad\epsilon_{i} \sim N(0,\sigma^{2}). ฉันต้องการประเมินช่วงความมั่นใจ (CI) ของสัมประสิทธิ์ ( , ) โดยใช้วิธี bootstrap มีสองวิธีที่ฉันสามารถใช้วิธี bootstrap:β0β0\beta_{0}β1β1\beta_{1} ตัวอย่างการตอบสนอง - ทำนายการจับคู่: สุ่มสุ่มคู่ของและนำการถดถอยเชิงเส้นไปใช้กับการวิ่งแต่ละครั้ง หลังจากที่วิ่งเราได้รับคอลเลกชันของสัมประสิทธิ์ประมาณเมตร สุดท้ายคำนวณ quantile ของ{J}}}yi−xiyi−xiy_{i}-x_{i}mmmβj^,j=1,...mβj^,j=1,...m{\hat{\beta_{j}}}, j=1,...mβj^βj^{\hat{\beta_{j}}} ข้อผิดพลาดตัวอย่าง: ครั้งแรกที่ใช้การถดถอยเชิงเส้นกับข้อมูลที่สังเกตเดิมจากรุ่นนี้เราได้รับและข้อผิดพลาด{i} หลังจากนั้นให้สุ่มข้อผิดพลาดอีกครั้งและคำนวณข้อมูลใหม่ด้วยและ {i} ใช้การถดถอยเชิงเส้นอีกครั้ง หลังจากที่วิ่งเราได้รับคอลเลกชันของ coefficeints ประมาณม. สุดท้ายคำนวณ quantile ของ{J}}}βo^βo^\hat{\beta_{o}}ϵiϵi\epsilon_{i}ϵ∗iϵi∗\epsilon^{*}_{i}βo^βo^\hat{\beta_{o}}y∗i=βo^xi+ϵ∗iyi∗=βo^xi+ϵi∗y^{*}_{i}=\hat{\beta_{o}}x_{i}+\epsilon^{*}_{i}mmmβj^,j=1,...,mβj^,j=1,...,m{\hat{\beta_{j}}}, j=1,...,mβj^βj^{\hat{\beta_{j}}} คำถามของฉันคือ: วิธีการทั้งสองนี้แตกต่างกันอย่างไร ภายใต้สมมติฐานสองข้อใดที่ให้ผลลัพธ์เหมือนกัน

2
Bootstrapping - ฉันต้องลบค่าผิดปกติก่อนหรือไม่
เราได้ทำการทดสอบแยกคุณลักษณะของผลิตภัณฑ์ใหม่และต้องการวัดว่าการเพิ่มขึ้นของรายได้นั้นสำคัญหรือไม่ โดยทั่วไปการสังเกตของเราจะไม่ได้รับการเผยแพร่อย่างแน่นอน (ผู้ใช้ส่วนใหญ่ของเราไม่ใช้จ่ายและภายในที่ทำนั้นจะมีการบิดเบือนอย่างมากต่อผู้ใช้รายย่อยจำนวนมากและผู้ใช้รายใหญ่สองสามราย) เราได้ตัดสินใจใช้ bootstrapping เพื่อเปรียบเทียบวิธีการเพื่อให้ได้ข้อมูลที่ไม่ได้รับการเผยแพร่ตามปกติ (คำถามด้านข้าง: นี่เป็นการใช้ bootstrapping ที่ถูกกฎหมายหรือไม่) คำถามของฉันคือฉันจำเป็นต้องตัดค่าชุดข้อมูล (เช่นผู้ใช้จ่ายจำนวนน้อยมาก) ก่อนที่จะเรียกใช้ bootstrapping หรือไม่นั้นสำคัญหรือไม่?

1
การใช้ข้อผิดพลาดมาตรฐานของการกระจาย bootstrap
(เพิกเฉยต่อรหัส R หากจำเป็นเนื่องจากคำถามหลักของฉันคือภาษาที่ไม่ขึ้นต่อกัน) หากฉันต้องการดูความแปรปรวนของสถิติอย่างง่าย (เช่นค่าเฉลี่ย) ฉันรู้ว่าฉันสามารถทำได้ผ่านทางทฤษฎีเช่น: x = rnorm(50) # Estimate standard error from theory summary(lm(x~1)) # same as... sd(x) / sqrt(length(x)) หรือด้วย bootstrap เช่น: library(boot) # Estimate standard error from bootstrap (x.bs = boot(x, function(x, inds) mean(x[inds]), 1000)) # which is simply the standard *deviation* of the bootstrap distribution... …

3
ฉันจะคำนวณช่วงความมั่นใจของค่าเฉลี่ยในตัวอย่างที่ไม่ได้กระจายแบบทั่วไปได้อย่างไร
ฉันจะคำนวณช่วงความมั่นใจของค่าเฉลี่ยในตัวอย่างที่ไม่ได้กระจายแบบทั่วไปได้อย่างไร ฉันเข้าใจว่าวิธีการ bootstrap มักใช้ที่นี่ แต่ฉันเปิดให้ตัวเลือกอื่น ๆ ในขณะที่ฉันกำลังมองหาตัวเลือกที่ไม่ใช่พารามิเตอร์หากใครบางคนสามารถโน้มน้าวใจฉันได้ว่าการแก้ปัญหาแบบพารามิเตอร์นั้นใช้ได้อย่างถูกต้อง ขนาดตัวอย่างคือ> 400 ถ้าใครสามารถให้ตัวอย่างใน R มันจะได้รับการชื่นชมมาก

1
การใช้ bootstrap ภายใต้ H0 เพื่อทำการทดสอบความแตกต่างของสองวิธี: การเปลี่ยนภายในกลุ่มหรือภายในกลุ่มตัวอย่าง
สมมติว่าฉันมีข้อมูลที่มีสองกลุ่มอิสระ: g1.lengths <- c (112.64, 97.10, 84.18, 106.96, 98.42, 101.66) g2.lengths <- c (84.44, 82.10, 83.26, 81.02, 81.86, 86.80, 85.84, 97.08, 79.64, 83.32, 91.04, 85.92, 73.52, 85.58, 97.70, 89.72, 88.92, 103.72, 105.02, 99.48, 89.50, 81.74) group = rep (c ("g1", "g2"), c (length (g1.lengths), length (g2.lengths))) lengths = data.frame( lengths …

2
ค่าเฉลี่ยของตัวอย่างบู๊ตสแตรปเทียบกับสถิติของตัวอย่าง
บอกว่าผมมีตัวอย่างและตัวอย่างบูตจากตัวอย่างนี้สำหรับ stastitic χχ\chi (เช่นค่าเฉลี่ย) ในฐานะที่เราทุกคนรู้ว่าตัวอย่างบูตนี้ประมาณการกระจายการสุ่มตัวอย่างของประมาณการของสถิติที่ ทีนี้ค่าเฉลี่ยของตัวอย่าง bootstrapนี้เป็นการประมาณค่าสถิติประชากรได้ดีกว่าสถิติของตัวอย่างดั้งเดิมหรือไม่? ภายใต้เงื่อนไขใดที่เป็นเช่นนั้น

1
ช่วงความเชื่อมั่นที่ใช้ Bootstrap
ในขณะที่ศึกษาช่วงความเชื่อมั่นตาม bootstrap ฉันเคยอ่านข้อความต่อไปนี้: หากการกระจายบูทสแตรปเอียงไปทางขวาช่วงความมั่นใจตามบู๊ตสแตรปจะรวมการแก้ไขเพื่อย้ายจุดสิ้นสุดแม้อยู่ไกลไปทางขวา สิ่งนี้อาจดูขัดกับความเป็นจริง แต่เป็นการกระทำที่ถูกต้อง ฉันพยายามที่จะเข้าใจตรรกะที่อยู่ภายใต้ข้อความข้างต้น

3
ทำไมเราต้องใช้ Bootstrapping
ขณะนี้ฉันกำลังอ่าน "สถิติทั้งหมด" ของ Larry Wasserman และสับสนกับบางสิ่งที่เขาเขียนในบทเกี่ยวกับการประเมินฟังก์ชันทางสถิติของแบบจำลองที่ไม่ใช่พารามิเตอร์ เขาเขียน "บางครั้งเราสามารถค้นหาข้อผิดพลาดมาตรฐานโดยประมาณของฟังก์ชันทางสถิติโดยทำการคำนวณบางอย่างอย่างไรก็ตามในกรณีอื่น ๆ มันไม่ชัดเจนว่าจะประมาณข้อผิดพลาดมาตรฐานได้อย่างไร" ฉันต้องการจะชี้ให้เห็นว่าในบทถัดไปเขาพูดถึง bootstrap เพื่อแก้ไขปัญหานี้ แต่เนื่องจากฉันไม่เข้าใจคำแถลงนี้จริง ๆ ฉันจึงไม่ได้รับแรงจูงใจเบื้องหลัง Bootstrapping? มีตัวอย่างอะไรบ้างเมื่อไม่ทราบวิธีการประเมินข้อผิดพลาดมาตรฐานอย่างชัดเจน ตัวอย่างทั้งหมดที่ฉันเคยเห็น "ชัดเจน" เช่นดังนั้น^ s E ( P n ) = √X1,...Xn Ber(p)X1,...Xn Ber(p)X_1,...X_n ~Ber(p)se^(p^n)=p^⋅(1−p^)/n−−−−−−−−−−√se^(p^n)=p^⋅(1−p^)/n \hat{se}(\hat{p}_n )=\sqrt{\hat{p}\cdot(1-\hat{p})/n}

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.