เราสามารถใช้ตัวอย่างบูตสแตรปที่มีขนาดเล็กกว่าตัวอย่างดั้งเดิมได้หรือไม่?


12

ฉันต้องการใช้ bootstrapping เพื่อประเมินช่วงความมั่นใจสำหรับพารามิเตอร์โดยประมาณจากชุดข้อมูลพาเนลที่มี บริษัท = N 250 บริษัท และ T = 50 เดือน การประมาณค่าพารามิเตอร์มีราคาแพง (ไม่กี่วันของการคำนวณ) เนื่องจากการใช้ตัวกรองคาลมานและการประเมินแบบไม่เชิงเส้นที่ซับซ้อน ดังนั้นการวาด (แทนที่) B (เป็นร้อยหรือมากกว่า) ตัวอย่างของ M = N = 250 บริษัท จากตัวอย่างดั้งเดิมและการประมาณค่าพารามิเตอร์ B ครั้งนั้นเป็นไปไม่ได้ที่คำนวณได้แม้ว่านี่จะเป็นวิธีพื้นฐานสำหรับการบูต

ดังนั้นฉันกำลังพิจารณาใช้ M ขนาดเล็กกว่า (เช่น 10) สำหรับตัวอย่าง bootstrap (แทนที่จะเป็นขนาดเต็มของ N = 250) วาดแบบสุ่มด้วยการแทนที่จาก บริษัท ดั้งเดิมจากนั้นปรับขนาดเมทริกซ์ความแปรปรวนร่วมประมาณ bootstrap ของพารามิเตอร์โมเดลด้วย (ในตัวอย่างข้างต้นด้วย 1/25) เพื่อคำนวณเมทริกซ์ความแปรปรวนร่วมสำหรับพารามิเตอร์ตัวแบบที่ประมาณไว้ในตัวอย่างเต็ม1NM

ช่วงความเชื่อมั่นที่ต้องการนั้นสามารถประมาณขึ้นอยู่กับสมมติฐานของภาวะปกติหรือเชิงประจักษ์สำหรับตัวอย่างขนาดเล็กโดยใช้กระบวนการที่คล้ายกัน (เช่นลดขนาดลงด้วยปัจจัย .1NM

วิธีแก้ปัญหานี้สมเหตุสมผลหรือไม่? มีผลทางทฤษฎีที่จะพิสูจน์สิ่งนี้หรือไม่ ทางเลือกอื่นในการรับมือกับความท้าทายนี้?

คำตอบ:


4

คำถามนี้ถูกถามมานานแล้ว แต่ฉันโพสต์คำตอบในกรณีที่ทุกคนค้นพบในอนาคต ในระยะสั้นคำตอบคือใช่คุณสามารถทำเช่นนี้ในการตั้งค่าต่างๆและคุณจะมีความชอบธรรมในการแก้ไขสำหรับการเปลี่ยนแปลงในขนาดของกลุ่มตัวอย่างโดยที่{N}} วิธีการนี้มักจะเรียกว่าตัวเสริมจากและมันทำงานในการตั้งค่าส่วนใหญ่ที่ bootstrap `` ดั้งเดิม '' 'ทำเช่นเดียวกับการตั้งค่าบางอย่างที่มันไม่ได้ทำMNMN

เหตุผลที่เหตุผลคืออาร์กิวเมนต์ที่สอดคล้องกันของ bootstrap จำนวนมากใช้ตัวประมาณของรูปแบบโดยที่เป็นตัวแปรสุ่มและเป็นพารามิเตอร์บางส่วนของ การกระจายพื้นฐาน ตัวอย่างเช่นสำหรับค่าเฉลี่ยตัวอย่างและ(X_1)1N(TNμ)X1,,XNμTN=1Ni=1NXiμ=E(X1)

พยานหลายบูตสอดคล้องยืนยันว่าเป็นให้บางตัวอย่างแน่นอนและประมาณการจุดเชื่อมโยง , ที่ถูกดึงมาจากการกระจายต้นแบบที่แท้จริงและจะมีการวาดด้วยการเปลี่ยนจาก\}N{x1,,xN}μ N = T N ( x 1 , ... , x N ) μ^N=TN(x1,,xN)

(1)N(TN(X1,,XN)μ^N)DN(TN(X1,,XN)μ)
XiXi{x1,,xN}

อย่างไรก็ตามเราสามารถใช้ตัวอย่างความยาวที่สั้นกว่าและพิจารณาตัวประมาณ ปรากฎว่าในขณะที่ตัวประมาณ ( ) มีการ จำกัด การกระจายแบบเดียวกับการตั้งค่าส่วนใหญ่ที่ ( ) การถือครองและบางอย่างที่มันไม่ได้ ในกรณีนี้ ( ) และ ( ) มีการกระจายที่ จำกัด เหมือนกันกระตุ้นให้เกิดปัจจัยการแก้ไขในตัวอย่างค่าเบี่ยงเบนมาตรฐานตัวอย่างM<N

(2)M(TM(X1,,XM)μ^N).
M,N2112MN

ข้อโต้แย้งเหล่านี้ทั้งหมดasymptoticค้างไว้เฉพาะในวงเงิน\ เพื่อให้สามารถใช้งานได้สิ่งสำคัญคือต้องไม่เลือกขนาดเล็กเกินไป มีทฤษฎีบางอย่าง (เช่น Bickel & Sakov ด้านล่าง) เกี่ยวกับวิธีการเลือกเหมาะสมที่สุดในฐานะฟังก์ชันของ เพื่อให้ได้ผลลัพธ์ทางทฤษฎีที่ดีที่สุด แต่ในกรณีของคุณทรัพยากรการคำนวณอาจเป็นปัจจัยในการตัดสินใจM,NM MN

สำหรับสัญชาตญาณ: ในหลายกรณีเรามีเป็นดังนั้น สามารถคิดได้เล็กน้อยเช่นจาก bootstrap ด้วยและ (ฉันใช้ตัวพิมพ์เล็กเพื่อหลีกเลี่ยงความสับสน ) ด้วยวิธีนี้เลียนแบบการกระจายของ ( ) โดยใช้bootstrap out ofกับเป็นสิ่งที่ถูกต้องมากกว่า `` `แบบดั้งเดิม ( out ofμ^NDμN

(3)N(TN(X1,,XN)μ),
mnm=Nn=MNM<NNN N3MNM<NNN) ชนิด โบนัสเพิ่มเติมในกรณีของคุณก็คือมันมีค่าใช้จ่ายในการคำนวณน้อยกว่า

ดังที่คุณพูดถึง Politis และ Romano เป็นบทความหลัก ฉันพบ Bickel et al (1997) ด้านล่างเป็นภาพรวมที่ดีของจาก bootstrap เช่นกันMN

แหล่งข้อมูล :

PJ Bickel, F Goetze, WR van Zwet 1997. การสังเกตซ้ำน้อยกว่าการสังเกตซ้ำ : กำไรขาดทุนและการเยียวยาสำหรับความสูญเสีย Statistica Sinican

PJ Bickel, Sakov 2008 ในทางเลือกของใน ouf ของบูตและความเชื่อมั่นขอบเขตสำหรับ extrema Statistica Sinicammn


3

หลังจากอ่านเพิ่มเติมในหัวข้อดูเหมือนว่ามีทฤษฎีที่จัดตั้งขึ้นภายใต้ "การสุ่มตัวอย่างย่อย" ช่วยให้การประมาณช่วงความเชื่อมั่นประเภทนี้ การอ้างอิงที่สำคัญคือ "Politis, DN; Romano, JP (1994) ภูมิภาคตัวอย่างความเชื่อมั่นขนาดใหญ่ขึ้นอยู่กับตัวอย่างย่อยภายใต้สมมติฐานที่น้อยที่สุดพงศาวดารของสถิติ, 22, 2031-2050"

แนวคิดคือการวาดตัวอย่างขนาด M <N, "โดยไม่มีการแทนที่" สำหรับแต่ละตัวอย่าง (แต่มีการแทนที่ตัวอย่างขนาดต่างๆ B) จากจุดข้อมูลเริ่มต้น N (ชุดในกรณีของฉัน) และประเมินช่วงความมั่นใจของ พารามิเตอร์ที่น่าสนใจโดยใช้ตัวอย่างเหล่านี้และวิธีการ bootstrap ทั่วไป จากนั้นปรับขนาดช่วงความเชื่อมั่นตามอัตราการเปลี่ยนแปลงในความแปรปรวนของการแจกแจงพื้นฐานของพารามิเตอร์กับการเปลี่ยนแปลงใน M อัตรานั้นคือ 1 / M ในการตั้งค่าทั่วไปจำนวนมาก แต่สามารถประมาณเชิงประจักษ์ได้ ค่าและดูการเปลี่ยนแปลงในขนาดของช่วงเปอร์เซ็นต์ระหว่าง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.