หากปริมาณความสนใจซึ่งโดยปกติจะเป็นหน้าที่ของการแจกแจงนั้นเป็นไปอย่างราบรื่นและมีข้อมูลของคุณเป็นจำนวนมากคุณมักจะอยู่ในพื้นที่ที่ปลอดภัย แน่นอนว่ามีสถานการณ์อื่น ๆ เมื่อบูตสแตรปจะทำงานเช่นกัน
ความหมายสำหรับ bootstrap เพื่อ "ล้มเหลว" คืออะไร
ในวงกว้างการพูดของจุดเริ่มต้นคือการสร้างการกระจายตัวอย่างโดยประมาณสำหรับสถิติที่น่าสนใจ มันไม่เกี่ยวกับการประมาณค่าที่แท้จริงของพารามิเตอร์ ดังนั้นหากสถิติของความสนใจ (ภายใต้การลดขนาดและการจัดตำแหน่งกึ่งกลาง) คือและในการกระจายเราต้องการกระจาย bootstrap ของเราไปที่ มาบรรจบกันเพื่อการกระจายของX_หากเราไม่มีสิ่งนี้เราก็ไม่สามารถเชื่อถือการอนุมานที่เกิดขึ้นได้X^nX^n→X∞X∞
บัญญัติตัวอย่างเมื่อบูตสามารถล้มเหลวแม้จะอยู่ในกรอบ IID คือเมื่อพยายามที่จะใกล้เคียงกับการกระจายการสุ่มตัวอย่างจากสถิติการสั่งซื้อมาก ด้านล่างเป็นการสนทนาสั้น ๆ
สถิติการสั่งซื้อสูงสุดของตัวอย่างที่สุ่มจากกระจายU[0,θ]
ให้เป็นลำดับของตัวแปรสุ่ม IID เครื่องแบบบนtheta] Letx_k การกระจายของคือ
(โปรดสังเกตว่าด้วยเหตุผลที่ง่ายมากสิ่งนี้ก็แสดงให้เห็นว่าความเป็นไปได้และแม้เกือบจะแน่นอนถ้าตัวแปรสุ่มทั้งหมดถูกกำหนดในพื้นที่เดียวกัน)X1,X2,…[0,θ]X(n)=max1≤k≤nXkX(n)
P(X(n)≤x)=(x/θ)n.
X(n)→θ
การคำนวณเบื้องต้นจะให้ผลผลิต
หรือในคำอื่น ๆ ที่ลู่ในการกระจายไปยังตัวแปรสุ่มชี้แจงที่มีค่าเฉลี่ย\
P(n(θ−X(n))≤x)=1−(1−xθn)n→1−e−x/θ,
n(θ−X(n))θ
ตอนนี้เราสร้างการประมาณbootstrap (ไร้เดียงสา) ของการกระจายตัวของโดยการสุ่มใหม่เพื่อแทนที่รับและใช้การกระจาย ของเงื่อนไขในX_1n(θ−X(n))X1,…,XnX⋆1,…,X⋆nn(X(n)−X⋆(n))X1,…,Xn
แต่สังเกตว่าด้วยความน่าจะเป็นและดังนั้นการกระจายบูทสแตรปมีมวลเป็นจุดที่ศูนย์แม้จะไม่แสดงอาการความจริงที่ว่าการกระจายข้อ จำกัด ที่แท้จริงนั้นต่อเนื่องX⋆(n)=X(n)1−(1−1/n)n→1−e−1
อย่างชัดเจนมากขึ้น แต่การกระจายการ จำกัด ที่แท้จริงคือการชี้แจงที่มีค่าเฉลี่ยการกระจายบูต จำกัด สถานที่มวลจุดที่ศูนย์ขนาดอิสระของมูลค่าที่แท้จริงของ \โดยการใช้ใหญ่พอเราสามารถทำให้ความน่าจะเป็นของการ จำกัด การกระจายที่แท้จริงโดยพลเล็กสำหรับช่วงเวลาคงที่ใด ๆแต่ bootstrap จะ ( ยัง !) รายงานว่ามีความน่าจะเป็นอย่างน้อย 0.632 ในช่วงนี้! จากนี้ควรชัดเจนว่า bootstrap สามารถทำงานโดยไม่ตั้งใจในการตั้งค่านี้θ1−e−1≈0.632 θθ[0,ε)
โดยสรุป bootstrap ล้มเหลว (อย่างน่าสังเวช) ในกรณีนี้ สิ่งต่าง ๆ มีแนวโน้มที่จะผิดพลาดเมื่อจัดการกับพารามิเตอร์ที่ขอบของพื้นที่พารามิเตอร์
ตัวอย่างจากตัวอย่างของตัวแปรสุ่มปกติ
มีตัวอย่างอื่น ๆ ที่คล้ายคลึงกันของความล้มเหลวของ bootstrap ในสถานการณ์ที่เรียบง่ายอย่างน่าประหลาดใจ
พิจารณาตัวอย่างจากที่มีพื้นที่พารามิเตอร์สำหรับจะมีการ จำกัดinfty) MLE ในกรณีนี้คือ0) อีกครั้งที่เราใช้ประมาณการบูต0) อีกครั้งมันจะแสดงให้เห็นว่าการกระจายของ (เงื่อนไขในตัวอย่างที่สังเกต) ไม่ได้มาบรรจบกันกับการกระจาย จำกัด เช่นเดียวกับMU)X1,X2,…N(μ,1)μ[0,∞)X^n=max(X¯,0)X^⋆n=max(X¯⋆,0)n−−√(X^⋆n−X^n)n−−√(X^n−μ)
อาร์เรย์ที่แลกเปลี่ยนได้
บางทีหนึ่งในตัวอย่างที่น่าทึ่งที่สุดก็คืออาร์เรย์ ปล่อยเป็นอาร์เรย์ของตัวแปรสุ่มแบบนั้นสำหรับทุกคู่ของการเปลี่ยนแปลงการฝึกอบรมและ , อาร์เรย์และมีการแจกแจงแบบเดียวกัน นั่นคือการอนุญาตให้แถวและคอลัมน์ของคงการกระจายตัว (คุณสามารถคิดถึงรูปแบบเอฟเฟกต์แบบสุ่มสองทางโดยมีหนึ่งการสังเกตต่อเซลล์เป็นตัวอย่างแม้ว่าแบบจำลองนั้นมีความทั่วไปมากกว่า)Y=(Yij)PQYPYQY
สมมติว่าเราต้องการประเมินช่วงความมั่นใจสำหรับค่าเฉลี่ย (เนื่องจากข้อสมมติฐานการแลกเปลี่ยนที่อธิบายข้างต้นวิธีการทั้งหมด เซลล์ต้องเหมือนกัน)μ=E(Yij)=E(Y11)
McCullagh (2000) พิจารณาสองวิธีที่แตกต่างกันตามธรรมชาติ ทั้งคู่ไม่มีความแปรปรวนแบบซีมโทติคสำหรับค่าเฉลี่ยตัวอย่างที่ถูกต้อง นอกจากนี้เขายังพิจารณาตัวอย่างของอาร์เรย์แบบแลกเปลี่ยนได้ทางเดียวและการถดถอยเชิงเส้น
อ้างอิง
น่าเสียดายที่เนื้อหาไม่น่าสนใจดังนั้นจึงไม่มีการอ่านเหล่านี้เป็นพิเศษ
พีบิซเคลและ D อิสระบางทฤษฎี asymptotic สำหรับบูต แอน สถิติ ฉบับ 9 หมายเลข 6 (1981), 1196–1717
DWK Andrews, ความไม่สอดคล้องกันของ bootstrap เมื่อพารามิเตอร์อยู่บนขอบเขตของพื้นที่พารามิเตอร์ , Econometrica , vol. หมายเลข 68 2 (2000), 399–405
P. McCullagh, Resampling และ exchangeable arrays , Bernoulli , vol. 6 ไม่ใช่ 2 (2000), 285–301
EL Lehmann และ JP Romano การทดสอบสมมติฐานทางสถิติอันดับ 3 ed., Springer (2005) [บทที่ 15: วิธีการตัวอย่างขนาดใหญ่ทั่วไป]