ทำไมการบูตสแตรปมีประโยชน์หรือไม่


13

หากสิ่งที่คุณทำคือการสุ่มตัวอย่างใหม่จากการกระจายเชิงประจักษ์ทำไมไม่เพียงแค่ศึกษาการกระจายเชิงประจักษ์? ตัวอย่างเช่นแทนที่จะศึกษาความแปรปรวนโดยการสุ่มตัวอย่างซ้ำ ๆ ทำไมไม่เพียงแค่หาค่าความแปรปรวนจากการแจกแจงเชิงประจักษ์


6
" (ในแง่นี้) การแจกแจงบูทสแตรปแสดงถึงการแจกแจงหลังพารามิเตอร์และพารามิเตอร์แบบ noninformative สำหรับพารามิเตอร์ของเรา แต่การกระจายบูทสแตรปนี้ได้รับอย่างไม่ลำบากโดยไม่ต้องระบุอย่างเป็นทางการก่อนและไม่ต้องสุ่มตัวอย่าง เราอาจคิดว่าการกระจาย bootstrap เป็น "คนจน" Bayes หลัง "Hastie et al องค์ประกอบของการเรียนรู้ทางสถิติ "ส่วน 8.4
usεr11852

8
เราจะหาปริมาณความไม่แน่นอนของการประมาณของเราจากการกระจายเชิงประจักษ์ได้อย่างไร
usεr11852

2
"ภายใต้สภาพที่ไม่เป็นระเบียบ, bootstrap ให้ผลประมาณการกระจายตัวของตัวประมาณค่าหรือสถิติการทดสอบที่อย่างน้อยแม่นยำเท่ากับการประมาณที่ได้รับจากทฤษฎีเชิงเส้นกำกับอันดับแรก" unc.edu/~saraswat/teaching/econ870/fall11/JH_01.pdf
jbowman

10
คุณกำลังโต้เถียงไม่พยายามที่จะเข้าใจ เชื่อฉันเถอะคุณไม่ได้ตระหนักว่า bootstrap นั้นไร้ค่าหากเทียบกับนักสถิติหลายพันคนในช่วงสี่ทศวรรษหรือมากกว่านั้น คุณไม่ได้อ่านคำพูดอย่างระมัดระวัง ฉันคิดว่าคุณล้มเหลวที่จะเข้าใจบทบาทสำคัญของการเล่นแบบสุ่มในสถิติ ข้อความเช่น "ทำไมต้องรำคาญ !!" ด้วยความเคารพต่อ "รับการแจกแจงแบบคือ ... ผิดปกติ, พูดน้อยที่สุดถ้าคุณไม่คิดว่ามันสำคัญที่จะต้องเข้าใจการกระจายตัวของค่าประมาณของคุณคุณอาจต้องการพิจารณาว่าทำไมสนามสถิติ เลยและคิดใหม่T(X)
jbowman

4
@ztyh คุณพูดว่า "ถ้าคุณจับคู่แต่ละตัวอย่างถึงคุณจะได้รับการแจกแจง " บางทีคุณควรคิดเกี่ยวกับเรื่องนี้คุณจะแมปจุดเดียวกับอย่างไร หรือฟังก์ชั่นใด ๆสำหรับเรื่องนั้น T ( X ) T ( X ) X i T ( X ) = ˉ X T ( X 1 , X 2 , X n )XT(X)T(X)XiT(X)=X¯T(X1,X2,Xn)
knrumsey

คำตอบ:


18

Bootstrapping (หรือ resampling อื่น ๆ ) เป็นวิธีการทดลองเพื่อประเมินการกระจายตัวของสถิติ

มันเป็นวิธีที่ง่ายและตรงไปตรงมามาก (มันหมายถึงคุณคำนวณด้วยตัวแปรสุ่มจำนวนมากของข้อมูลตัวอย่างเพื่อให้ได้ค่าประมาณการกระจายตัวของสถิติที่ต้องการ)

คุณมักจะใช้มันเมื่อนิพจน์ 'เชิงทฤษฎี / เชิงวิเคราะห์' นั้นยากเกินกว่าที่จะรับ / คำนวณ (หรืออย่างเช่น aksakal บอกว่าบางครั้งพวกมันไม่เป็นที่รู้จัก)

  • ตัวอย่างที่ 1: หากคุณทำการวิเคราะห์ PCA และต้องการเปรียบเทียบผลลัพธ์กับ'การประมาณค่าเบี่ยงเบนของค่าลักษณะเฉพาะ'ให้สมมติฐานว่าไม่มีความสัมพันธ์ในตัวแปร

    คุณสามารถช่วงชิงข้อมูลได้หลายครั้งและคำนวณค่า pca ซ้ำอีกครั้งเพื่อให้คุณได้รับการแจกแจง (ตามการทดสอบแบบสุ่มกับข้อมูลตัวอย่าง) สำหรับค่าลักษณะเฉพาะ

    โปรดทราบว่าการปฏิบัติปัจจุบันจ้องมองที่แผนการหินกรวดและใช้กฎของหัวแม่มือเพื่อ 'ตัดสินใจ' ว่าค่าลักษณะเฉพาะบางอย่างมีความสำคัญ / สำคัญหรือไม่

  • ตัวอย่างที่ 2: คุณทำการถดถอยแบบไม่เชิงเส้น y ~ f (x) โดยให้คุณประมาณค่าพารามิเตอร์สำหรับฟังก์ชัน f ตอนนี้คุณต้องการทราบข้อผิดพลาดมาตรฐานสำหรับพารามิเตอร์เหล่านั้น

    ดูอย่างง่าย ๆ ที่ส่วนที่เหลือและพีชคณิตเชิงเส้นเช่นใน OLS เป็นไปไม่ได้ที่นี่ อย่างไรก็ตามวิธีที่ง่ายที่สุดคือการคำนวณการถดถอยแบบเดียวกันหลายครั้งโดยมีการตกค้าง / ข้อผิดพลาดซ้ำอีกครั้งเพื่อให้ทราบว่าพารามิเตอร์จะแตกต่างกันอย่างไร


เขียนโดยStackExchangeStrike


2
ฉันคิดว่าตัวอย่างของคุณไม่ใช่ bootstrap มันสุ่มตัวอย่างจากการแจกแจงโมฆะที่รู้จัก Bootstrap เป็นที่ที่คุณมีตัวอย่างหนึ่งตัวอย่างและทำซ้ำอีกครั้งจากตัวอย่างนั้น
ztyh

3
ในคำถามของคุณคุณจินตนาการถึงการคำนวณความแปรปรวนของตัวอย่างซึ่งเป็นเรื่องง่ายและไม่ต้องใช้การบูตสแตรป ในตัวอย่างของฉันฉันพูดเกี่ยวกับสถานการณ์ที่เรามีค่าซึ่งได้มาจากตัวอย่าง จากนั้นเราไม่สามารถคำนวณความแปรปรวนได้อีกต่อไป แต่เรายังต้องการทราบว่ามันแตกต่างกันอย่างไร ด้วยการตรวจสอบข้อมูลซ้ำหลายครั้งและคำนวณค่า pca ซ้ำอีกครั้งคุณจะได้รับข้อมูลการแจกจ่าย (สุ่ม) ที่ตามหลังการกระจายตัวอย่างของคุณ ถ้าฉันไม่ผิดนี้ คือที่เรียกว่าความร่วมมือ
Sextus Empiricus

ตกลงฉันเห็นสิ่งที่ฉันเข้าใจผิด ตัวอย่างของคุณสมเหตุสมผลแล้ว ขอบคุณ
ztyh

8

สิ่งสำคัญคือ bootstrap ไม่ได้เกี่ยวกับการหาคุณสมบัติของการกระจายข้อมูลแต่เป็นการหาคุณสมบัติของตัวประมาณที่ใช้กับข้อมูล

ฟังก์ชันการกระจายเชิงประจักษ์จะบอกคุณว่าการประเมิน CDF ที่ดีนั้นมาจากไหน ... แต่จากการแยกมันจะบอกอะไรคุณได้เลยเกี่ยวกับความน่าเชื่อถือของตัวประมาณที่เราสร้างจากข้อมูลนั้นจะเป็นอย่างไร นี่คือคำถามที่ตอบโดยใช้ bootstrap


1
การใช้ bootstrap (ไม่ใช่พารามิเตอร์) เพื่อค้นหา "การกระจายของข้อมูล" จะเป็นการหัวเราะ: มันเกิดขึ้นกับฟังก์ชันการกระจายเชิงประจักษ์ซึ่งเป็นชุดของข้อมูลที่นักวิเคราะห์เริ่มต้น เตือนฉันถึงพีชคณิตวิทยาลัยเมื่อฉัน "แก้หา X" และหา "X = X"
AdamO

3

หากคุณรู้แน่ชัดว่าการกระจายต้นแบบคืออะไรคุณไม่จำเป็นต้องศึกษา บางครั้งในวิทยาศาสตร์ธรรมชาติที่คุณรู้ว่าการกระจาย

หากคุณทราบประเภทของการแจกแจงคุณจะต้องประมาณค่าพารามิเตอร์และศึกษาในแง่ที่คุณต้องการ ตัวอย่างเช่นบางครั้งคุณก็รู้เบื้องต้นว่าการแจกแจงพื้นฐานเป็นเรื่องปกติ ในบางกรณีคุณก็รู้ว่ามันหมายถึงอะไร ดังนั้นสำหรับปกติสิ่งเดียวที่เหลืออยู่ให้หาคือค่าเบี่ยงเบนมาตรฐาน คุณได้ค่าเบี่ยงเบนมาตรฐานตัวอย่างจากตัวอย่างและ voila คุณจะได้การแจกแจงเพื่อศึกษา

ถ้าคุณไม่รู้ว่าการกระจายตัวคืออะไร แต่คิดว่ามันเป็นหนึ่งในหลาย ๆ อย่างในรายการคุณสามารถลองปรับการกระจายเหล่านั้นให้เข้ากับข้อมูลและเลือกอันที่เหมาะที่สุด จากนั้นคุณศึกษาการกระจายตัวนั้น

ในที่สุดบ่อยครั้งที่คุณไม่รู้จักประเภทของการกระจายที่คุณกำลังเผชิญอยู่ และคุณไม่มีเหตุผลที่จะเชื่อว่ามันเป็นของหนึ่งใน 20 การแจกแจงที่ R สามารถใส่ข้อมูลของคุณได้ คุณกำลังจะทำอะไร? ตกลงคุณดูค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานดี แต่ถ้ามันเอียงมาก เกิดอะไรขึ้นถ้า kurtosis มีขนาดใหญ่มาก? และอื่น ๆ คุณจำเป็นต้องรู้ทุกช่วงเวลาของการกระจายเพื่อรู้และศึกษามัน ดังนั้นในกรณีนี้การบูตสต็อกแบบไม่มีพารามิเตอร์จึงมีประโยชน์ คุณไม่ได้คิดมากและตัวอย่างง่ายๆจากนั้นศึกษาช่วงเวลาและคุณสมบัติอื่น ๆ

แม้ว่าการบูตสแตรปแบบไม่มีพารามิเตอร์ไม่ใช่เครื่องมือวิเศษ แต่ก็มีปัญหา ตัวอย่างเช่นมันสามารถลำเอียง ฉันคิดว่าการบูตสแตรปแบบอิงพารามิเตอร์ไม่เอนเอียง


1
ฉันคิดว่าแม้ว่าคุณจะไม่ทราบว่าการกระจายตัวที่แท้จริงนั้นมีหลายช่วงเวลาที่คำนวณได้ง่าย ดังนั้นฉันคิดว่าปัญหาไม่ได้อยู่ที่การไม่รู้ประเภทของการแจกจ่ายที่คุณกำลังเผชิญอยู่ แต่มันเกี่ยวกับสถิติแบบไหนที่คุณพยายามศึกษา สถิติบางอย่างอาจยากต่อการคำนวณและจากนั้นจะมีประโยชน์ bootstrap
ztyh

เช่นเดียวกับในการแสดงความคิดเห็นกับคำถามสำหรับเรา 11 r11852 ที่จริงฉันมีข้อสงสัยเกี่ยวกับผลประโยชน์เกี่ยวกับการคำนวณสถิติเช่นกัน ...
ztyh

ln(x3+x)

1
xzf(x,z)x,z

1
fxzf(x,z)
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.