Bootstrap: ปัญหาการ overfitting


14

สมมติว่าหนึ่งดำเนินการ bootstrap ที่ไม่ใช่พารามิเตอร์โดยการวาดตัวอย่างของขนาดnแต่ละจากต้นฉบับnBnnสังเกตพร้อมการแทนที่ ฉันเชื่อว่ากระบวนการนี้เทียบเท่ากับการประมาณฟังก์ชันการแจกแจงสะสมโดย cdf เชิงประจักษ์:

http://en.wikipedia.org/wiki/Empirical_distribution_function

จากนั้นรับตัวอย่าง bootstrap โดยจำลองการสังเกตจาก cdf BโดยประมาณnBในแถว

ถ้าฉันพูดถูกสิ่งนี้จะต้องจัดการกับปัญหาเรื่องการล้นเพราะเอกสารเชิงประจักษ์มีพารามิเตอร์เกี่ยวกับ N แน่นอนว่ามันไม่แปรเปลี่ยนไปเป็นประชากร cdf แต่แล้วกลุ่มตัวอย่าง จำกัด ? เช่นถ้าฉันบอกคุณว่าฉันมีการสังเกต 100 ครั้งและฉันจะประมาณ cdf เป็นด้วยสองพารามิเตอร์คุณจะไม่ตื่นตระหนก อย่างไรก็ตามหากจำนวนพารามิเตอร์สูงถึง 100 ดูเหมือนจะไม่สมเหตุสมผลเลยN(μ,σ2)

ในทำนองเดียวกันเมื่อมีพนักงานหลายมาตรฐานการถดถอยเชิงเส้นการกระจายของระยะข้อผิดพลาดเป็นที่คาดกันว่าเป็น ) หากมีใครตัดสินใจที่จะเปลี่ยนเป็นการบูตสต็อกส่วนที่เหลือเขาต้องรู้ว่าตอนนี้มีประมาณnN(0,σ2)nพารามิเตอร์ใช้เพื่อจัดการกับการแจกแจงข้อผิดพลาด

คุณช่วยบอกทางฉันถึงแหล่งข้อมูลบางแห่งที่จัดการปัญหานี้อย่างชัดเจนหรือบอกสาเหตุที่ไม่ใช่ปัญหาถ้าคุณคิดว่าฉันทำผิด


วิธีหนึ่งในการดู bootstrap "ที่ไม่ใช่พารามิเตอร์" นี้คือการแปลงสมมติฐานเชิงพารามิเตอร์ของภาวะปกติเป็น "ปริมาณความสนใจ" ในประชากรขนาดใหญ่ที่มีจำนวน จำกัด (เช่นค่าเฉลี่ยของการสำรวจสำมะโนประชากร) ในความเป็นจริงคุณสามารถแสดงให้เห็นว่า bootstrap รุ่นนี้มีพื้นฐานมาจากการประเมิน "ความน่าจะเป็นสูงสุด" ของโมเดลมัลติโนเมียลโดยมี 1 หมวดหมู่สำหรับ "ประเภท" แต่ละประเภทที่แตกต่างกันในประชากร
ความน่าจะเป็นทางการที่

คำตอบ:


2

ฉันไม่แน่ใจว่าฉันเข้าใจคำถามของคุณถูกต้องหรือไม่ ... ฉันสมมติว่าคุณสนใจลำดับการรวมตัวหรือไม่

เพราะ cdf เชิงประจักษ์มีพารามิเตอร์เกี่ยวกับ N แน่นอนว่ามันไม่แปรเปลี่ยนไปเป็นประชากร cdf แต่แล้วกลุ่มตัวอย่าง จำกัด ?

คุณได้อ่านพื้นฐานเกี่ยวกับทฤษฎี bootstrap บ้างไหม? ปัญหาคือว่ามันค่อนข้างบ้าคลั่ง (ทางคณิตศาสตร์) อย่างรวดเร็ว

อย่างไรก็ตามฉันขอแนะนำให้ดู

van der Vaart "สถิติเชิงเส้น" บทที่ 23

ฮอลล์ "Bootstrap และการขยาย Edgeworth" (มีความยาว แต่รัดกุมและมีน้อยกว่า handwaving กว่า van der Vaart ฉันว่า)

สำหรับพื้นฐาน

Chernick "Bootstrap Methods" มีวัตถุประสงค์เพื่อผู้ใช้มากกว่านักคณิตศาสตร์ แต่มีส่วนใน "ที่ bootstrap ล้มเหลว"

Efron / Tibshirani แบบคลาสสิกมีเหตุผลเล็กน้อยว่าทำไม bootstrap จึงใช้งานได้จริง ...


4

Janssen และ Paulsแสดงให้เห็นว่า bootstrapping ผลงานเชิงสถิติแบบ asymptotically, iff สามารถใช้ทฤษฎีบทขีด จำกัด กลางได้เช่นกัน ดังนั้นหากคุณเปรียบเทียบการประมาณค่าพารามิเตอร์ของN(μ,σ2)แจกแจงเป็นการกระจายของสถิติและการประเมินการกระจายของสถิติผ่าน bootstrap ก็จะได้คะแนน

โดยสังเขป bootstrapping จากตัวอย่าง จำกัด ดูถูกหางหนักของการกระจายพื้นฐาน ชัดเจนเนื่องจากตัวอย่าง จำกัด มีช่วง จำกัด แม้ว่าช่วงการกระจายที่แท้จริงของพวกมันจะไม่มีที่สิ้นสุดหรือยิ่งแย่กว่านั้นมีหางหนา ดังนั้นพฤติกรรมของสถิติการบูตจะไม่เป็น "ป่า" เหมือนสถิติเดิม คล้ายกับการหลีกเลี่ยงการ overfitting เนื่องจากพารามิเตอร์มากเกินไปในการถดถอย (พารามิเตอร์) เราสามารถหลีกเลี่ยงการ overfitting โดยใช้การแจกแจงปกติแบบพารามิเตอร์น้อย

แก้ไขการตอบกลับความคิดเห็น:จำไว้ว่าคุณไม่จำเป็นต้องใช้ bootstrap เพื่อประเมิน cdf คุณมักจะใช้ bootstrap เพื่อรับการแจกแจง (ในแง่กว้างที่สุดรวมถึง quantiles, โมเมนต์, เวลาใด ๆ ที่จำเป็น) ของสถิติบางอย่าง ดังนั้นคุณไม่จำเป็นต้องมีปัญหาการ overfitting (ในแง่ของ "การประมาณค่าเนื่องจากข้อมูล จำกัด ของฉันดูดีเกินไปเมื่อเทียบกับสิ่งที่ฉันควรเห็นด้วยการกระจายตัวจริง") แต่เมื่อมันปรากฏออกมา (จากรายงานที่อ้างถึงและโดยความคิดเห็นของ Frank Harrel ด้านล่าง) การได้รับปัญหา overfitting ดังกล่าวเชื่อมโยงกับปัญหาเกี่ยวกับการประมาณค่าพารามิเตอร์ของสถิติเดียวกัน

ดังนั้นตามคำถามของคุณโดยนัย bootstrapping ไม่ใช่ยาครอบจักรวาลสำหรับปัญหาเกี่ยวกับการประมาณค่าพารามิเตอร์ หวังว่า bootstrap จะช่วยให้มีปัญหาเกี่ยวกับพารามิเตอร์โดยการควบคุมการกระจายทั้งหมดเป็นเก๊


1
ยังไม่ชัดเจนว่า bootstrap จัดการอย่างไรเนื่องจากจำนวนพารามิเตอร์ที่มีประสิทธิภาพที่เกี่ยวข้องใน bootstrap นั้นใกล้เคียงกับขนาดตัวอย่าง ฉันเดาไปแล้ว: เป้าหมายสูงสุดของ bootstrap ไม่ได้เป็นการประเมินการกระจายตัวทั้งหมด แต่เพื่อประมาณ 1-2 สถิติของการกระจาย ดังนั้นแม้จะมี cdf เชิงประจักษ์ที่ฝังอยู่ใน bootstrap มีการติดตั้งอย่างไม่มีการลดลงอย่างมากสถิติ 1-2 ที่ประมาณไว้ก็จบลงด้วยดี ฉันเข้าใจถูกไหม?
James

4
จำนวนของพารามิเตอร์ที่มีประสิทธิภาพไม่เหมือนกับขนาดตัวอย่าง ความแปรปรวนของฟังก์ชันการแจกแจงสะสมเชิงประจักษ์มีค่าใกล้เคียงกับความแปรปรวนของตัวแปรที่เหมาะกับการแจกแจงเมื่อการแจกแจงมีพารามิเตอร์ที่ไม่รู้จัก 4 ตัวเพื่อประเมิน เหตุผลหนึ่งคือการประมาณการ CDF เชิงประจักษ์ถูกบังคับให้อยู่ในลำดับจากน้อยไปมาก
Frank Harrell

จุดดี. คุณสามารถให้การอ้างอิงได้หรือไม่?
James

ฉันหวังว่าฉันมี ฉันได้แสดงสิ่งนี้ในอดีตโดยการจำลอง Monte Carlo
Frank Harrell

L2F^FF^(x)F(x)

0

แหล่งที่มาของการหยั่งรู้อาจเปรียบเทียบอัตราการลู่เข้าสำหรับพารามิเตอร์ CDF เทียบกับ ECDF สำหรับข้อมูล iid

โดย DKW, CDF เชิงประจักษ์จะแปลงเป็น CDF จริงที่ a n1/2

n1/2σμ

ดังนั้นในแง่หนึ่งอัตราที่คุณต้องได้รับตัวอย่างมากขึ้นไม่เหมือนกันไม่ว่าคุณจะประมาณ CDF โดยใช้ CDF เชิงประจักษ์หรือว่าคุณกำลังประเมินพารามิเตอร์โดยตรงโดยใช้ตัวประมาณค่าเฉลี่ยประเภทตัวอย่าง สิ่งนี้อาจช่วยปรับความคิดเห็นของ Frank Harrell ได้ว่า "จำนวนพารามิเตอร์ที่มีประสิทธิภาพไม่เหมือนกับขนาดตัวอย่าง"

แน่นอนว่าไม่ใช่เรื่องทั้งหมด แม้ว่าอัตราจะไม่แตกต่างกันค่าคงที่ทำ และมีอีกมากมายสำหรับ bootstrap nonparametric มากกว่า ECDF --- คุณยังต้องทำอะไรกับ ECDF เมื่อคุณประมาณ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.