3
Bootstrap: ปัญหาการ overfitting
สมมติว่าหนึ่งดำเนินการ bootstrap ที่ไม่ใช่พารามิเตอร์โดยการวาดตัวอย่างของขนาดnแต่ละจากต้นฉบับnBBBnnnnnnสังเกตพร้อมการแทนที่ ฉันเชื่อว่ากระบวนการนี้เทียบเท่ากับการประมาณฟังก์ชันการแจกแจงสะสมโดย cdf เชิงประจักษ์: http://en.wikipedia.org/wiki/Empirical_distribution_function จากนั้นรับตัวอย่าง bootstrap โดยจำลองการสังเกตจาก cdf BโดยประมาณnnnBBBในแถว ถ้าฉันพูดถูกสิ่งนี้จะต้องจัดการกับปัญหาเรื่องการล้นเพราะเอกสารเชิงประจักษ์มีพารามิเตอร์เกี่ยวกับ N แน่นอนว่ามันไม่แปรเปลี่ยนไปเป็นประชากร cdf แต่แล้วกลุ่มตัวอย่าง จำกัด ? เช่นถ้าฉันบอกคุณว่าฉันมีการสังเกต 100 ครั้งและฉันจะประมาณ cdf เป็นด้วยสองพารามิเตอร์คุณจะไม่ตื่นตระหนก อย่างไรก็ตามหากจำนวนพารามิเตอร์สูงถึง 100 ดูเหมือนจะไม่สมเหตุสมผลเลยN(μ,σ2)N(μ,σ2)N(\mu, \sigma^2) ในทำนองเดียวกันเมื่อมีพนักงานหลายมาตรฐานการถดถอยเชิงเส้นการกระจายของระยะข้อผิดพลาดเป็นที่คาดกันว่าเป็น ) หากมีใครตัดสินใจที่จะเปลี่ยนเป็นการบูตสต็อกส่วนที่เหลือเขาต้องรู้ว่าตอนนี้มีประมาณnN(0,σ2)N(0,σ2)N(0, \sigma^2)nnnพารามิเตอร์ใช้เพื่อจัดการกับการแจกแจงข้อผิดพลาด คุณช่วยบอกทางฉันถึงแหล่งข้อมูลบางแห่งที่จัดการปัญหานี้อย่างชัดเจนหรือบอกสาเหตุที่ไม่ใช่ปัญหาถ้าคุณคิดว่าฉันทำผิด