มีผลลัพธ์ที่ให้ bootstrap ถูกต้องหรือไม่หากสถิตินั้นราบรื่นหรือไม่?


25

ตลอดเราคิดของเราสถิติเป็นฟังก์ชั่นบางข้อมูลซึ่งถูกดึงมาจากฟังก์ชันการกระจาย ; ฟังก์ชั่นการกระจายเชิงประจักษ์ของกลุ่มตัวอย่างของเราคือ{F} ดังนั้นคือสถิติที่ถูกมองว่าเป็นตัวแปรสุ่มและเป็นเวอร์ชั่นบูตของสถิติ เราใช้เป็นระยะทาง KSX 1 , ... X n F F θ ( F )θ()X1,XnFF^θ(F)d θ(F^)d

มีผลลัพธ์ "if and only ถ้า" สำหรับความถูกต้องของ bootstrap หากสถิติเป็นสถิติเชิงเส้นอย่างง่าย ตัวอย่างเช่นทฤษฎีบทที่ 1 จาก Mammen "bootstrap ทำงานเมื่อไหร่?"

ถ้าสำหรับบางฟังก์ชั่นโดยพลการจากนั้น bootstrap ทำงานในแง่ที่ถ้าและ เฉพาะในกรณีที่มีและเช่นนั้น เราสามารถนิยามเป็นฟังก์ชั่นบางอย่างของตัวอย่างของเราและเอชnd[L(θ( F ) -เสื้อ n),L(θ(F)-เสื้อn)]หน้า0σnTnd[L(θ(F)-tn)θ(F)=1ni1nhn(Xi)hn

d[L(θ(F^)t^n),L(θ(F)tn)]p0
σntn
d[L(θ(F)tn),N(0,σn2)]p0
ttn^tn=E(t^n)

นอกจากนี้ยังมีผลลัพธ์ทั่วไปเพิ่มเติมที่ bootstrap ใช้งานได้กับสถิติทั่วไปเช่นทฤษฎีบท 1.6.3 จาก Subsampling โดย Politis Romano และ Wolf:

สมมติว่าดึงมาจากคลาสของการแจกแจงทั้งหมดด้วยการสนับสนุน จำกัด สมมติสถิติคือFréchetอนุพันธ์ได้ที่ด้วยความเคารพต่อบรรทัดฐาน supremum และอนุพันธ์ตอบสนอง<\ จากนั้นเป็นอาการปกติและ bootstrap ทำงานในความหมายของทฤษฎีบทก่อนหน้าθ ( ) F F 0 < Var F [ กรัมF ( x ) ] < θ ( F )Fθ()FgF0<VarF[gF(x)]<θ(F)

ฉันต้องการ `ถ้าเพียงถ้า 'รุ่นของทฤษฎีบทที่สอง สิ่งนี้จะต้องใช้ความคิดของความเรียบที่แตกต่างจากความแตกต่างของ Frechet เนื่องจาก Politis, Romano และ Wolf (1999) แสดงว่าค่ามัธยฐานตัวอย่างไม่ได้เป็นค่าที่แตกต่างของ Frechet แต่บูตยังคงทำงาน อย่างไรก็ตามค่ามัธยฐานตัวอย่างยังคงเป็นฟังก์ชันที่ราบรื่นของข้อมูล

มีความคิดเห็นที่ไม่เป็นทางการใน Mammen ว่าจำเป็นต้องมีความเรียบ

โดยทั่วไปเชิงเส้นตรงเชิงเส้นกำกับเชิงเส้นดูเหมือนจะจำเป็นสำหรับความสอดคล้องของ bootstrap

การอ้างอิงคือ:

van Zwet, W (1989) พูดคุยที่ได้รับในการประชุมเรื่อง "วิธี Asymptotic สำหรับขั้นตอนการใช้คอมพิวเตอร์ในสถิติ" ใน Olberwolfach

แต่ฉันไม่พบร่องรอยของคำพูดนี้นอกเหนือจากการอ้างอิงจำนวนหนึ่ง


1
หัวข้อยอดเยี่ยม มันถูกต้องหรือไม่ว่าผลลัพธ์ที่ถูกอ้างถึงทั้งหมดนั้นเป็นซีมโทติคสำหรับขนาดตัวอย่างที่ไม่มีที่สิ้นสุด
Michael M

3
@Michael ขอบคุณและใช่ทุกอย่างเป็น asymptotic เป็น\ บังเอิญมีงานล่าสุดที่มีผลลัพธ์สำหรับตัวอย่าง จำกัด (เช่นarxiv.org/pdf/1212.6906.pdf ) แต่มันเป็นเรื่องเทคนิค n
orizon

1
หัวข้อที่ซับซ้อน บางคนบอกว่า bootstrap ไม่ทำงานโดยทั่วไป Van Zwer และคณะ ไม่พูดหนึ่งที่มีการระวังสิ่งที่จะ bootstraped ฉันคิดว่าต้องสร้างสิ่งที่จะ bootstrap และสิ่งที่ไม่ควร bootstrap ก่อนที่จะทำการทดสอบเพิ่มเติม
Carl

ตอนนี้ฉันอัปเดตคำตอบเพื่อตอบสนองต่อความคิดเห็นของ Mammen หวังว่าจะทำให้คุณสับสนมากขึ้น และถ้าคุณต้องการคุณสามารถอธิบายเกี่ยวกับแอปพลิเคชั่นที่กระตุ้นให้คุณถามถึงความจำเป็น นั่นจะช่วยฉันปรับปรุงคำตอบของฉัน
Henry.L

คำตอบ:


12

(1) เหตุใดตัวประมาณค่าสถานะของ Quantile จึงไม่สามารถเปลี่ยนค่า Frechet ให้แตกต่างกันได้ แต่ตัวประมาณบูตสแตรปของพวกเขายังคงสอดคล้องกัน

คุณต้องการ Hadamard อนุพันธ์ (หรือความแตกต่างที่มีขนาดกะทัดรัดขึ้นอยู่กับแหล่งอ้างอิงของคุณ) เป็นเงื่อนไขเพียงพอที่จะทำให้ bootstrap ทำงานในกรณีนั้นค่ามัธยฐานและควอไทล์ใด ๆ คือ Hadamard ความแตกต่างของ Frechet นั้นแข็งแกร่งเกินไปในการใช้งานส่วนใหญ่

เนื่องจากโดยปกติแล้วมันจะพอเพียงเพื่อหารือเกี่ยวกับพื้นที่โปแลนด์ดังนั้นคุณจึงต้องการฟังก์ชั่นเชิงเส้นในพื้นที่เพื่อใช้อาร์กิวเมนต์ความเป็นปึกแผ่นทั่วไปเพื่อขยายผลความสอดคล้องของคุณกับสถานการณ์ทั่วโลก ดูความคิดเห็นเชิงเส้นตรงด้านล่าง

ทฤษฎีบทที่ 2.27 จาก [Wasserman] จะให้ความรู้แก่คุณว่าอนุพันธ์ของ Hadamard เป็นแนวคิดที่อ่อนแอกว่า และทฤษฎีบท 3.6 และ 3.7 ของ [Shao & Tu] จะให้เงื่อนไขที่เพียงพอเพื่อความมั่นคงที่อ่อนแอในแง่ของ -Hadamard อนุพันธ์ของการทำงานทางสถิติมีขนาดสังเกตnT n nρTnn

(2) อะไรจะมีผลต่อความสอดคล้องของตัวประมาณการบูตระบบ?

[Shao & Tu] pp.85-86 สถานการณ์ที่แสดงซึ่งอาจเกิดความไม่สอดคล้องกันของตัวประมาณการบูตสแตรป

(1) เงินทุนมีความไวต่อพฤติกรรมหางของประชากรFความสอดคล้องของต้องใช้เงื่อนไขช่วงเวลาที่มีความเข้มงวดกว่าที่จำเป็นสำหรับการดำรงอยู่ของวงเงินของH_0H B O O T H 0FHBOOTH0

(2) ความสอดคล้องของบูตประมาณการต้องมีองศาที่แน่นอนของความเรียบเนียนจากสถิติที่กำหนด (ทำงาน){n}Tn

(3) พฤติกรรมของตัวประมาณ bootstrap ขึ้นอยู่กับวิธีที่ใช้ในการรับข้อมูล bootstrap

K

สำหรับความคิดเห็นที่ "เส้นตรงเชิงเส้นกำกับเชิงเส้นในท้องถิ่นโดยทั่วไปดูเหมือนจะจำเป็นสำหรับความสอดคล้องของ bootstrap" ที่ทำโดย Mammen ตามที่คุณกล่าวถึง ความคิดเห็นจาก [Shao & Tu] p.78 มีดังต่อไปนี้ตามที่พวกเขาแสดงความคิดเห็นเชิงเส้น (ทั่วโลก) เป็นเพียงเทคนิคที่อำนวยความสะดวกในการพิสูจน์ความมั่นคงและไม่ได้ระบุความจำเป็นใด ๆ :

Zn¯=1ni=1nϕ(Xn)ϕ(X)X

Tn=θ+Zn¯+oP(1n)
Tn Tn ¯ Z n {X 1 ,,X n }T n T n =θ+ ¯Zn¯TnZn¯{X1,,Xn}TnHBOOT
Tn=θ+Zn¯+oP(1n)
HBOOT(x)x=P{n(TnTn)x} ¯ Z nP{n(Zn¯Zn¯)x}. เราได้ลดปัญหาดังกล่าวเป็นปัญหาเกี่ยวกับ "sample mean"ซึ่งตัวประมาณการกระจาย bootstrap สามารถแสดงให้สอดคล้องกันโดยใช้วิธีการในส่วน 3.1.2-3.1.4Zn¯

และพวกเขายกตัวอย่าง 3.3 ของการได้รับความสอดคล้อง bootstrap สำหรับการเริ่มต้นประเภท MLE อย่างไรก็ตามหากการกระจายตัวเชิงเส้นโลกมีประสิทธิภาพในวิธีการดังกล่าวเป็นการยากที่จะจินตนาการว่าจะพิสูจน์ความมั่นคงได้อย่างไร ฉันเดาว่านั่นคือสิ่งที่ Mammen ต้องการพูด

(4) ความคิดเห็นเพิ่มเติม

นอกเหนือจากการอภิปรายที่จัดทำโดย [Shao & Tu] ข้างต้นฉันคิดว่าสิ่งที่คุณต้องการคือเงื่อนไขของลักษณะความสอดคล้องของตัวประมาณการเริ่มระบบ

อย่างน่าสมเพชผมไม่ทราบว่าหนึ่งในลักษณะของความสอดคล้องของประมาณการบูตสำหรับการเรียนทั่วไปมากของการจัดจำหน่ายใน(X) M(X)แม้ว่าจะมีหนึ่งที่ผมรู้สึกว่ามันต้องไม่เพียง แต่ความเรียบเนียนของTแต่จะมีการจำแนกลักษณะของแบบจำลองทางสถิติบางคลาสเช่นคลาสใน [Gine & Zinn]; หรือคลาสที่มีการสนับสนุนแบบปกติ (โดยตรงจากการอภิปรายด้านบน) ที่กำหนดเหนือพื้นที่โปแลนด์CLTTCLT

ยิ่งไปกว่านั้นระยะทาง Kolmogorov-Smirnov ตามรสนิยมของฉันคือระยะทางที่ผิดถ้าเราให้ความสำคัญกับ asymptotics แบบคลาสสิก เนื่องจาก KS-distance ไม่ได้ทำให้โทโพโลยีแบบอ่อนซึ่งเป็นพื้นธรรมชาติสำหรับการศึกษาพฤติกรรมแบบอะซิมโทติคทำให้โทโพโลยีแบบอ่อนในพื้นที่ถูกเหนี่ยวนำโดยระยะทาง Lipschitz ที่ จำกัด (หรือระยะทาง Prohorov-Levy) และนักเขียนคนอื่น ๆ อีกมากมายเมื่อการมุ่งเน้นไม่ใช่กระบวนการเชิงประจักษ์ บางครั้งการอภิปรายเกี่ยวกับการ จำกัด พฤติกรรมของกระบวนการเชิงประจักษ์ก็เกี่ยวข้องกับ BL-distance เช่น [Gine & Zinn]M(X)

ฉันเกลียดที่จะเหยียดหยาม แต่ฉันก็ยังรู้สึกว่านี่ไม่ใช่การเขียนเชิงสถิติเพียงอย่างเดียวที่ "อ้างจากโมฆะ" เมื่อพูดแบบนี้ฉันก็รู้สึกว่าการพูดคุยของ Van Zwet นั้นไร้ความรับผิดชอบมากแม้ว่า Van Zwet จะเก่งมาก

อ้างอิง

[Wasserman] Wasserman, Larry สถิติที่ไม่ใช่พารามิเตอร์ทั้งหมด, สปริงเกอร์, 2010

[Shao & Tu] Shao, Jun และ Dongsheng Tu jackknife และ bootstrap Springer, 1995

[Gine & Zinn] Gine, Evarist และ Joel Zinn "Bootstrapping มาตรการเชิงประจักษ์ทั่วไป" พงศาวดารแห่งความน่าจะเป็น (1990): 851-869

[Huber] Huber สถิติ Peter J. Robust ไวลีย์ 2528

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.