คำตอบที่ Miura ให้ไว้นั้นไม่ถูกต้องทั้งหมดดังนั้นฉันจึงตอบคำถามเก่า ๆ นี้เพื่อลูกหลาน:
(2) สิ่งเหล่านี้แตกต่างกันมาก empirical cdf เป็นค่าประมาณของ CDF (การกระจาย) ซึ่งสร้างข้อมูล แม่นยำมันเป็น CDF ที่ไม่ต่อเนื่องซึ่งกำหนดความน่าจะเป็นให้กับแต่ละจุดข้อมูลที่สังเกตสำหรับแต่ละxเครื่องมือประมาณค่านี้มาบรรจบกับ cdf จริง:เกือบแน่นอนสำหรับแต่ละ (ในความเป็นจริงเหมือนกัน)F ( x ) = 11/nx F (x)→F(x)=P(Xฉัน≤x)xF^(x)=1n∑ni=1I(Xi≤x)xF^(x)→F(x)=P(Xi≤x)x
การกระจายตัวตัวอย่างของสถิติแทนการกระจายตัวของสถิติที่คุณคาดว่าจะเห็นภายใต้การทดลองซ้ำ นั่นคือคุณดำเนินการทดสอบของคุณทันทีและเก็บข้อมูลX_n} เป็นหน้าที่ของข้อมูลของคุณ:X_n) ตอนนี้สมมติว่าคุณทำซ้ำการทดลองและเก็บข้อมูลX'_n} คำนวณ T บนตัวอย่างใหม่ให้X'_n}) ถ้าเราเก็บรวบรวม 100 ตัวอย่างเราจะมี 100 ประมาณการของTการสังเกตของเป็นการกระจายตัวตัวอย่างของX 1 , … , X n T T = T ( X 1 , … , X n ) X ′ 1 , … , X ′ n T ′ = T ( X ′ 1 , … , X ′ n ) T T T E ( T ) V a r ( T )TX1,…,XnTT=T(X1,…,Xn)X′1,…,X′nT′=T(X′1,…,X′n)TTT. เป็นการกระจายที่แท้จริง ขณะที่จำนวนของการทดลองไปที่อินฟินิตี้ลู่เฉลี่ยในการและความแปรปรวนในการ(T)E(T)Var(T)
โดยทั่วไปแล้วเราจะไม่ทำการทดลองซ้ำเช่นนี้เราจะเห็นตัวอย่างหนึ่งของเท่านั้น การหาว่าความแปรปรวนของมาจากการสังเกตเพียงครั้งเดียวนั้นยากมากถ้าคุณไม่รู้ฟังก์ชันความน่าจะเป็นพื้นฐานของ a นิรนัย ร่วมมือเป็นวิธีที่จะประเมินว่าการกระจายการสุ่มตัวอย่างของโดยเทียมทำงาน "การทดลองใหม่" ที่จะคำนวณอินสแตนซ์ใหม่ของTตัวอย่างใหม่แต่ละตัวอย่างเป็นเพียงตัวอย่างจากข้อมูลต้นฉบับ สิ่งนี้ให้ข้อมูลมากกว่าที่คุณมีในข้อมูลดั้งเดิมนั้นลึกลับและยอดเยี่ยมมากT T T TTTTTT
(1) คุณถูกต้อง - คุณจะไม่ทำเช่นนี้ ผู้เขียนพยายามที่จะกระตุ้นการบูตพารามิเตอร์โดยอธิบายว่าเป็นการทำ "สิ่งที่คุณจะทำถ้าคุณรู้ว่าการกระจาย" แต่แทนที่ตัวประมาณที่ดีมากของฟังก์ชั่นการกระจาย - cdf เชิงประจักษ์
ตัวอย่างเช่นสมมติว่าคุณรู้ว่าสถิติการทดสอบของคุณถูกกระจายโดยปกติด้วยค่าเฉลี่ยศูนย์ความแปรปรวนหนึ่ง คุณจะประเมินการกระจายตัวตัวอย่างของอย่างไร ทีนี้, เมื่อคุณรู้ว่าการกระจาย, วิธีโง่และซ้ำซ้อนในการประมาณการกระจายตัวตัวอย่างคือการใช้ R เพื่อสร้างตัวแปรสุ่มปกติประมาณ 10,000 ตัวหรือมากกว่านั้น, จากนั้นใช้ค่าเฉลี่ยตัวอย่างและความแปรปรวนจากนั้นใช้ค่าเฉลี่ยของเรา ความแปรปรวนของการกระจายตัวอย่างของTT TTTT
หากเราไม่ทราบค่าพารามิเตอร์เบื้องต้นของแต่เรารู้ว่ามันกระจายตามปกติสิ่งที่เราสามารถทำได้คือสร้างตัวอย่าง 10,000 ตัวอย่างจาก cir เชิงประจักษ์ให้คำนวณบนแต่ละตัวแล้วใช้ค่าเฉลี่ยตัวอย่าง และความแปรปรวนของเหล่านี้ 10,000 s และใช้พวกเขาเป็นประมาณการมูลค่าที่คาดหวังและความแปรปรวนของเราTเนื่องจาก empirical cdf เป็นตัวประมาณที่ดีของ cdf จริงพารามิเตอร์ตัวอย่างควรมาบรรจบกับพารามิเตอร์จริง นี่คือพารามิเตอร์บูต: คุณวางโมเดลบนสถิติที่คุณต้องการประเมิน แบบจำลองถูกทำดัชนีโดยพารามิเตอร์เช่นซึ่งคุณประเมินจากการสุ่มตัวอย่างซ้ำจาก ecdfTTTT(μ,σ)
(3) bootstrap ที่ไม่ใช่พารามิเตอร์ไม่ได้กำหนดให้คุณต้องทราบก่อนว่าจะกระจายตามปกติ แต่คุณเพียงแค่ดึงตัวอย่างซ้ำจาก ecdf และคำนวณในแต่ละอัน หลังจากคุณดึงตัวอย่างประมาณ 10,000 ตัวอย่างและคำนวณ 10,000 s แล้วคุณสามารถพล็อตกราฟฮิสโตแกรมของค่าประมาณของคุณได้ นี่คือการมองเห็นการกระจายตัวตัวอย่างของTTTT. bootstrap ที่ไม่ใช่พารามิเตอร์จะไม่บอกคุณว่าการแจกแจงการสุ่มตัวอย่างเป็นเรื่องปกติหรือแกมม่าหรืออื่น ๆ แต่ช่วยให้คุณสามารถประเมินการกระจายตัวตัวอย่าง (โดยปกติ) ได้อย่างแม่นยำตามที่ต้องการ มันทำให้สมมติฐานน้อยลงและให้ข้อมูลน้อยกว่า bootstrap พารามิเตอร์ มันมีความแม่นยำน้อยกว่าเมื่อการสันนิษฐานว่าพารามิเตอร์เป็นจริง แต่แม่นยำยิ่งขึ้นเมื่อมันเป็นเท็จ สถานการณ์ใดที่คุณใช้ในแต่ละสถานการณ์ที่คุณพบนั้นขึ้นอยู่กับบริบททั้งหมด ผู้คนจำนวนมากยอมรับว่าคุ้นเคยกับ bootstrap nonparametric แต่บ่อยครั้งที่ข้อสันนิษฐานเกี่ยวกับพารามิเตอร์ที่อ่อนแอทำให้แบบจำลองที่ยากจะคล้อยตามคล้อยตามการประมาณซึ่งน่ารัก