หากสิ่งที่คุณทำคือการสุ่มตัวอย่างใหม่จากการกระจายเชิงประจักษ์ทำไมไม่เพียงแค่ศึกษาการกระจายเชิงประจักษ์? ตัวอย่างเช่นแทนที่จะศึกษาความแปรปรวนโดยการสุ่มตัวอย่างซ้ำ ๆ ทำไมไม่เพียงแค่หาค่าความแปรปรวนจากการแจกแจงเชิงประจักษ์
หากสิ่งที่คุณทำคือการสุ่มตัวอย่างใหม่จากการกระจายเชิงประจักษ์ทำไมไม่เพียงแค่ศึกษาการกระจายเชิงประจักษ์? ตัวอย่างเช่นแทนที่จะศึกษาความแปรปรวนโดยการสุ่มตัวอย่างซ้ำ ๆ ทำไมไม่เพียงแค่หาค่าความแปรปรวนจากการแจกแจงเชิงประจักษ์
คำตอบ:
Bootstrapping (หรือ resampling อื่น ๆ ) เป็นวิธีการทดลองเพื่อประเมินการกระจายตัวของสถิติ
มันเป็นวิธีที่ง่ายและตรงไปตรงมามาก (มันหมายถึงคุณคำนวณด้วยตัวแปรสุ่มจำนวนมากของข้อมูลตัวอย่างเพื่อให้ได้ค่าประมาณการกระจายตัวของสถิติที่ต้องการ)
คุณมักจะใช้มันเมื่อนิพจน์ 'เชิงทฤษฎี / เชิงวิเคราะห์' นั้นยากเกินกว่าที่จะรับ / คำนวณ (หรืออย่างเช่น aksakal บอกว่าบางครั้งพวกมันไม่เป็นที่รู้จัก)
ตัวอย่างที่ 1: หากคุณทำการวิเคราะห์ PCA และต้องการเปรียบเทียบผลลัพธ์กับ'การประมาณค่าเบี่ยงเบนของค่าลักษณะเฉพาะ'ให้สมมติฐานว่าไม่มีความสัมพันธ์ในตัวแปร
คุณสามารถช่วงชิงข้อมูลได้หลายครั้งและคำนวณค่า pca ซ้ำอีกครั้งเพื่อให้คุณได้รับการแจกแจง (ตามการทดสอบแบบสุ่มกับข้อมูลตัวอย่าง) สำหรับค่าลักษณะเฉพาะ
โปรดทราบว่าการปฏิบัติปัจจุบันจ้องมองที่แผนการหินกรวดและใช้กฎของหัวแม่มือเพื่อ 'ตัดสินใจ' ว่าค่าลักษณะเฉพาะบางอย่างมีความสำคัญ / สำคัญหรือไม่
ตัวอย่างที่ 2: คุณทำการถดถอยแบบไม่เชิงเส้น y ~ f (x) โดยให้คุณประมาณค่าพารามิเตอร์สำหรับฟังก์ชัน f ตอนนี้คุณต้องการทราบข้อผิดพลาดมาตรฐานสำหรับพารามิเตอร์เหล่านั้น
ดูอย่างง่าย ๆ ที่ส่วนที่เหลือและพีชคณิตเชิงเส้นเช่นใน OLS เป็นไปไม่ได้ที่นี่ อย่างไรก็ตามวิธีที่ง่ายที่สุดคือการคำนวณการถดถอยแบบเดียวกันหลายครั้งโดยมีการตกค้าง / ข้อผิดพลาดซ้ำอีกครั้งเพื่อให้ทราบว่าพารามิเตอร์จะแตกต่างกันอย่างไร
เขียนโดยStackExchangeStrike
สิ่งสำคัญคือ bootstrap ไม่ได้เกี่ยวกับการหาคุณสมบัติของการกระจายข้อมูลแต่เป็นการหาคุณสมบัติของตัวประมาณที่ใช้กับข้อมูล
ฟังก์ชันการกระจายเชิงประจักษ์จะบอกคุณว่าการประเมิน CDF ที่ดีนั้นมาจากไหน ... แต่จากการแยกมันจะบอกอะไรคุณได้เลยเกี่ยวกับความน่าเชื่อถือของตัวประมาณที่เราสร้างจากข้อมูลนั้นจะเป็นอย่างไร นี่คือคำถามที่ตอบโดยใช้ bootstrap
หากคุณรู้แน่ชัดว่าการกระจายต้นแบบคืออะไรคุณไม่จำเป็นต้องศึกษา บางครั้งในวิทยาศาสตร์ธรรมชาติที่คุณรู้ว่าการกระจาย
หากคุณทราบประเภทของการแจกแจงคุณจะต้องประมาณค่าพารามิเตอร์และศึกษาในแง่ที่คุณต้องการ ตัวอย่างเช่นบางครั้งคุณก็รู้เบื้องต้นว่าการแจกแจงพื้นฐานเป็นเรื่องปกติ ในบางกรณีคุณก็รู้ว่ามันหมายถึงอะไร ดังนั้นสำหรับปกติสิ่งเดียวที่เหลืออยู่ให้หาคือค่าเบี่ยงเบนมาตรฐาน คุณได้ค่าเบี่ยงเบนมาตรฐานตัวอย่างจากตัวอย่างและ voila คุณจะได้การแจกแจงเพื่อศึกษา
ถ้าคุณไม่รู้ว่าการกระจายตัวคืออะไร แต่คิดว่ามันเป็นหนึ่งในหลาย ๆ อย่างในรายการคุณสามารถลองปรับการกระจายเหล่านั้นให้เข้ากับข้อมูลและเลือกอันที่เหมาะที่สุด จากนั้นคุณศึกษาการกระจายตัวนั้น
ในที่สุดบ่อยครั้งที่คุณไม่รู้จักประเภทของการกระจายที่คุณกำลังเผชิญอยู่ และคุณไม่มีเหตุผลที่จะเชื่อว่ามันเป็นของหนึ่งใน 20 การแจกแจงที่ R สามารถใส่ข้อมูลของคุณได้ คุณกำลังจะทำอะไร? ตกลงคุณดูค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานดี แต่ถ้ามันเอียงมาก เกิดอะไรขึ้นถ้า kurtosis มีขนาดใหญ่มาก? และอื่น ๆ คุณจำเป็นต้องรู้ทุกช่วงเวลาของการกระจายเพื่อรู้และศึกษามัน ดังนั้นในกรณีนี้การบูตสต็อกแบบไม่มีพารามิเตอร์จึงมีประโยชน์ คุณไม่ได้คิดมากและตัวอย่างง่ายๆจากนั้นศึกษาช่วงเวลาและคุณสมบัติอื่น ๆ
แม้ว่าการบูตสแตรปแบบไม่มีพารามิเตอร์ไม่ใช่เครื่องมือวิเศษ แต่ก็มีปัญหา ตัวอย่างเช่นมันสามารถลำเอียง ฉันคิดว่าการบูตสแตรปแบบอิงพารามิเตอร์ไม่เอนเอียง