เป็นไปได้ไหมที่จะตีความ bootstrap จากมุมมองแบบเบย์?


43

ตกลงนี่เป็นคำถามที่ทำให้ฉันตื่นขึ้นมาในตอนกลางคืน

ขั้นตอนการบู๊ตสแตรปสามารถตีความได้ว่าใกล้เคียงกับโพรซีเดอร์แบบเบย์บางอย่าง (ยกเว้นเบย์แบบสแตรปบูต)

ฉันชอบ "การตีความ" ของสถิติแบบเบย์ซึ่งฉันพบว่าสอดคล้องกันและเข้าใจง่าย อย่างไรก็ตามฉันมีจุดอ่อนสำหรับโพรซีเดอร์ bootstrap ซึ่งง่ายมาก แต่ให้ข้อสรุปที่สมเหตุสมผลในหลาย ๆ สถานการณ์ ฉันจะมีความสุขมากขึ้นกับ bootstrapping แต่ถ้าฉันรู้ว่า bootstrap นั้นประมาณการกระจายด้านหลังในบางแง่

ฉันรู้ว่า "Bayesian bootstrap" (Rubin, 1981) แต่จากมุมมองของฉันว่า bootstrap เวอร์ชันนั้นมีปัญหาเช่นเดียวกับ bootstrap มาตรฐาน ปัญหาคือสมมุติฐานที่แปลกประหลาดจริง ๆ ที่คุณทำทั้งในขณะที่ทำ bootstrap แบบคลาสสิคและแบบเบย์นั่นคือค่าที่เป็นไปได้ของการแจกแจงนั้นเป็นเพียงค่าที่ฉันเคยเห็นมาแล้วเท่านั้น สมมติฐานของตัวแบบจำลองแปลก ๆ เหล่านี้ยังคงให้ผลการอนุมานที่สมเหตุสมผลซึ่งโพรซีเดอร์บูทสแตรปให้ผลอย่างไร? ฉันกำลังมองหาบทความที่ตรวจสอบคุณสมบัติของ bootstrap (เช่น Weng, 1989) แต่ฉันไม่พบคำอธิบายที่ชัดเจนว่าฉันมีความสุข

อ้างอิง

โดนัลด์บี. รูบิน (1981) รองเท้าบู๊ทเบย์ แอน statist เล่มที่ 9, หมายเลข 1, 130-134

Chung-Sing Weng (1989) ในคุณสมบัติแบบซีติโทติคอันดับสองของค่าเฉลี่ย Bootstrap แบบเบย์ พงศาวดารของสถิติฉบับที่ 17, ลำดับที่ 2, หน้า 705-710


3
ฉันเพิ่งเขียนโพสต์บล็อกใน "bootstrap เป็นแบบจำลอง Bayesian" ( sumsar.net/blog/2015/04/… ) ที่สำรวจ Bayesian "คำอธิบาย" ของ bootstrap ไม่ตอบคำถามข้างต้นโดยตรง แต่ฉันหวังว่ามันจะทำให้ชัดเจนว่า bootstrap คืออะไรและทำอะไร
Rasmus Bååth

อ่าน muliere และ secchi (1996) การอนุมานแบบไม่อิงพารามิเตอร์แบบเบย์และเทคนิคการบูต พวกเขาพูดถึงประเด็นของคุณอย่างแม่นยำ!

คำตอบ:


30

มาตรา 8.4 องค์ประกอบของการเรียนรู้ทางสถิติโดย Hastie, Tibshirani และ Friedman คือ "ความสัมพันธ์ระหว่าง Bootstrap และการอนุมานแบบเบย์" นั่นอาจเป็นเพียงสิ่งที่คุณกำลังมองหา ฉันเชื่อว่าหนังสือเล่มนี้ให้บริการฟรีผ่านเว็บไซต์ของ Stanford แม้ว่าฉันจะไม่มีลิงก์อยู่ในมือ

แก้ไข:

นี่คือลิงค์ไปยังหนังสือซึ่งผู้แต่งจัดทำขึ้นออนไลน์ฟรี:

http://www-stat.stanford.edu/~tibs/ElemStatLearn/

บนหน้า 272 ผู้เขียนเขียน:

ในแง่นี้การกระจาย bootstrap แสดงให้เห็นถึงการกระจายหลังพารามิเตอร์ที่ไม่ใช่พารามิเตอร์และไม่ประมาณพารามิเตอร์สำหรับพารามิเตอร์ของเรา แต่การกระจาย bootstrap นี้ได้รับอย่างไม่ลำบาก - โดยไม่ต้องระบุอย่างเป็นทางการก่อนและไม่ต้องสุ่มตัวอย่างจากการกระจายหลัง ดังนั้นเราอาจคิดว่าการกระจาย bootstrap เป็น "คนจน" Bayes หลัง ด้วยการรบกวนข้อมูล bootstrap จะใกล้เคียงกับผลของ Bayesian ของการรบกวนพารามิเตอร์และโดยทั่วไปแล้วจะง่ายกว่ามากในการดำเนินการ

อีกหนึ่งชิ้นส่วนของปริศนาถูกพบในคำถามที่ผ่านการตรวจสอบซึ่งกล่าวถึงความไม่เท่าเทียมกันของDvoretzky-Kiefer – Wolfowitzว่า "แสดง [... ] ว่าฟังก์ชันการกระจายเชิงประจักษ์มาบรรจบกับฟังก์ชันการแจกแจงที่แท้จริงอย่างรวดเร็ว

ดังนั้นทั้งหมดใน bootstrap ที่ไม่ใช่พารามิเตอร์อาจถูกมองว่าเป็นวิธี asymptotic ที่ก่อให้เกิด "an (โดยประมาณ) nonparametric, การกระจายด้านหลังแบบ noninformative สำหรับพารามิเตอร์ของเรา" และเมื่อการประมาณนี้ดีขึ้น "เร็วชี้แจง" เมื่อจำนวนตัวอย่างเพิ่มขึ้น


3
ในขณะที่เราชื่นชมการอ้างอิงถึงเนื้อหาที่เกี่ยวข้องเสมอคำตอบนี้จะดีขึ้นอย่างมากหากมีการสรุปโดยย่อของส่วนนั้น
พระคาร์ดินัล

1
บิตสุดท้ายจากส่วนนั้นอาจมีประโยชน์มากกว่า: bootstrap คือการกระจายด้านหลังแบบไม่มีพารามิเตอร์แบบไม่มีพารามิเตอร์และไม่มีข้อมูลสำหรับพารามิเตอร์โดยประมาณ ส่วนทั้งหมดมีมูลค่าการอ่าน
Fraijo

2
ขอบคุณสำหรับลิงค์! ถ้าฉันอ่าน Hastie และคณะ พวกเขาแสดงให้เห็นถึงการติดต่อระหว่างบูสแทปรัดแบบไม่อิงพารามิเตอร์และบูทสแตรปแบบเบย์และอ้างว่าในอดีตมีความใกล้เคียงกัน พวกเขาไม่ได้เขียนอะไรมากเกี่ยวกับสาเหตุที่ bootstrap (Bayesian หรือไม่) ส่งผลให้มีการอนุมานที่สมเหตุสมผลในตอนแรก สิ่งที่ฉันหวังไว้คือ: "ภายใต้ [บางสถานการณ์ทั่วไป] bootstrap นั้นใกล้เคียงกับการกระจายพารามิเตอร์ / สถิติหลังที่แท้จริงด้วยข้อผิดพลาดที่ [บางสิ่ง] และนั่นขึ้นอยู่กับ [สิ่งนี้และ]"
Rasmus Bååth

ขอบคุณสำหรับความช่วยเหลือในการปรับปรุงคำตอบของฉัน คำอธิบายที่ชัดเจนที่สุดที่ฉันเคยได้ยินว่าเพราะเหตุใด bootstrap จึงทำงานได้ตัวอย่างที่คุณเพิ่งเก็บเป็นตัวแทนที่ดีที่สุดที่คุณมีต่อประชากรโดยรวม แต่ฉันก็ยังไม่พอที่จะพิสูจน์ความเป็นไปได้มากกว่านี้
EdM

ถ้าฉันจำได้พวกเขาทำสิ่งนี้โต้แย้งเริ่มต้น NN และดำเนินการต่อเพื่อรับครีม Bayesian NN ทั้งหมดโดย Radford Neal ฉันคิดว่ามันพูดอะไรบางอย่างไม่แน่ใจว่าจะทำอะไร
ผู้ชาย

3

นี่เป็นรายงานล่าสุดที่ฉันได้เห็นในหัวข้อ:

@article{efr13bay,
author={Efron, Bradley},
title={Bayesian inference and the parametric bootstrap},
journal={Annals of Applied Statistics},
volume=6,
number=4,
pages={1971-1997},
year=2012,
doi={10.1214/12-AOAS571},
abstract={Summary: The parametric bootstrap can be used for the efficient
    computation of Bayes posterior distributions. Importance sampling formulas
    take on an easy form relating to the deviance in exponential families and
    are particularly simple starting from Jeffreys invariant prior. Because of
    the i.i.d. nature of bootstrap sampling, familiar formulas describe the
    computational accuracy of the Bayes estimates. Besides computational
    methods, the theory provides a connection between Bayesian and frequentist
    analysis. Efficient algorithms for the frequentist accuracy of Bayesian
    inferences are developed and demonstrated in a model selection example.},
keywords={Jeffreys prior; exponential families; deviance; generalized linear
    models},
classmath={*62F15 (Bayesian inference)
62F40 (Resampling methods)
62J12 (Generalized linear models)
65C60 (Computational problems in statistics)}}

2
การตีความกระดาษของฉันคือมันอธิบายวิธีการบูตสำหรับการคำนวณการกระจายหลังของรูปแบบที่ระบุว่าเป็นวิธีการที่สามารถนำมาใช้แทนการสุ่มตัวอย่างเช่นมหานคร ฉันไม่เห็นว่ากระดาษกล่าวถึงการเชื่อมต่อระหว่างสมมติฐานโมเดลบูตแบบไม่มีพารามิเตอร์และการประมาณแบบเบย์ ...
Rasmus Bååth

1
มันอ้างว่าทำเช่นนั้น ฉันไม่ได้อ่านบทความอย่างละเอียด
Frank Harrell

5
Frank: ฉันไม่ได้อ่านอะไรมากมายจาก Efron - สิ่งที่เขาสามารถมองเห็นได้เป็นเพียงตัวอย่างที่มีความสำคัญต่อเนื่องซึ่งเริ่มจากความน่าจะเป็นและพยายามที่จะไปถึงด้านหลัง (ซึ่งมักจะใช้ได้) จุดประสงค์ของรูบินในกระดาษ 1981 คือการตั้งคำถามถึงความเหมาะสมของ bootstrap แต่ Efron เห็นได้ชัดถึงมุมมองตรงกันข้าม David Draper แก้ไขในช่วงฤดูร้อนนี้ในหลักสูตร JSM ของเขาและสรุปว่าแย่ยกเว้นเมื่อคุณได้เห็นความเป็นไปได้ส่วนใหญ่ในกลุ่มตัวอย่าง แต่ดูที่นี่normaldeviate.wordpress.com/2013/06/12/…
phaneron

1

ฉันก็ถูกล่อลวงด้วยทฤษฏี bootstrapping และ Bayes แต่ฉันก็ไม่เข้าใจเหตุผลของการทำ bootstrapping จนฉันมองจากมุมมองของ Bayesian จากนั้น - ตามที่ฉันอธิบายด้านล่าง - การกระจาย bootstrap สามารถมองเห็นได้จากการแจกแจงแบบเบย์หลังซึ่งทำให้เหตุผล (a?) อยู่เบื้องหลังการบูทสแตรปป์ชัดเจนและมีประโยชน์ในการทำให้สมมติฐานชัดเจน มีรายละเอียดเพิ่มเติมของอาร์กิวเมนต์ด้านล่างและสมมติฐานที่ทำไว้ในhttps://arxiv.org/abs/1803.06214 (หน้า 22-26)

ตัวอย่างซึ่งตั้งอยู่บนสเปรดชีตที่http://woodm.myweb.port.ac.uk/SL/resample.xlsx (คลิกที่แท็บ bootstrap ที่ด้านล่างของหน้าจอ) สมมติว่าเรามี ตัวอย่างการวัด 9 ค่าเฉลี่ย 60 เมื่อฉันใช้สเปรดชีตเพื่อผลิตตัวอย่างใหม่ 1,000 ชิ้นโดยแทนที่จากตัวอย่างนี้และปัดค่าเฉลี่ยออกเป็นเลขคู่ที่ใกล้ที่สุด 82 ของค่าเฉลี่ยเหล่านี้คือ 54 แนวคิดของการเริ่มระบบคือ ใช้ตัวอย่างเป็นประชากร "เสแสร้ง" เพื่อดูว่าตัวแปรค่าเฉลี่ยตัวอย่างของ 9 น่าจะเป็นอย่างไรดังนั้นสิ่งนี้แสดงให้เห็นว่าความน่าจะเป็นของค่าเฉลี่ยตัวอย่างคือ 6 ต่ำกว่าค่าเฉลี่ยประชากร (ในกรณีนี้ประชากรที่ถูกแกล้งตาม ตัวอย่างที่มีค่าเฉลี่ย 60) คือ 8.2% และเราสามารถหาข้อสรุปที่คล้ายกันเกี่ยวกับแท่งอื่น ๆ ในกราฟแสดงตัวอย่างซ้ำ

ทีนี้ลองจินตนาการว่าความจริงคือค่าเฉลี่ยของประชากรจริงคือ 66 ถ้านี่คือค่าประมาณความน่าจะเป็นของค่าเฉลี่ยตัวอย่างคือ 60 (เช่นข้อมูล) คือ 8.2% (โดยใช้ข้อสรุปในย่อหน้าด้านบนความทรงจำ 60 คือ 6 ต่ำกว่าค่าเฉลี่ยประชากรของสมมติฐานที่ 66) ลองเขียนนี่เป็น

P (ข้อมูลที่ได้รับหมายถึง = 66) = 8.2%

และความน่าจะเป็นนี้สอดคล้องกับค่า x เท่ากับ 54 ในการกระจายตัวอย่างซ้ำ อาร์กิวเมนต์แบบเดียวกันนี้ใช้กับค่าเฉลี่ยประชากรที่เป็นไปได้แต่ละค่าจาก 0, 2, 4 ... 100 ในแต่ละกรณีความน่าจะเป็นมาจากการกระจายตัวอย่างซ้ำ - แต่การแจกแจงนี้สะท้อนให้เห็นถึงค่าเฉลี่ยของ 60

ตอนนี้ลองใช้ทฤษฎีบทของเบย์ การวัดที่เป็นปัญหาสามารถรับค่าระหว่าง 0 ถึง 100 เท่านั้นดังนั้นการปัดเศษให้เป็นเลขคู่ที่ใกล้ที่สุดความเป็นไปได้สำหรับค่าเฉลี่ยประชากรคือ 0, 2, 4, 6, .... 100 หากเราสมมติว่าการกระจายก่อนหน้านี้คงที่แต่ละอันมีความน่าจะเป็นก่อน 2% (ต่อ 1 dp) และทฤษฎีบทของเบย์บอกเราว่า

P (PopMean = 66 ได้รับข้อมูล) = 8.2% * 2% / P (ข้อมูล)

ที่ไหน

P (ข้อมูล) = P (PopMean = 0 ข้อมูลที่กำหนด) * 2% + P (PopMean = 2 ข้อมูลที่กำหนด) * 2% + ... + P (PopMean = 100 ข้อมูลที่กำหนด) * 2%

ตอนนี้เราสามารถยกเลิก 2% และจำไว้ว่าผลรวมของความน่าจะเป็นที่ 1 เนื่องจากความน่าจะเป็นนั้นมาจากการกระจายตัวอย่างซ้ำ ซึ่งทำให้เรามีข้อสรุปว่า

P (PopMean = 66) = 8.2%

โปรดจำไว้ว่า 8.2% เป็นความน่าจะเป็นที่ได้จากการกระจายตัวอย่างที่สอดคล้องกับ 54 (แทนที่จะเป็น 66) การกระจายหลังเป็นเพียงการกระจายตัวอย่างซ้ำสะท้อนให้เห็นถึงค่าเฉลี่ยตัวอย่าง (60) นอกจากนี้หากการกระจายตัวอย่างซ้ำมีความสมมาตรในแง่ที่ความไม่สมมาตรเป็นแบบสุ่ม - ตามที่เป็นในกรณีนี้และอีกหลายกรณีเราสามารถใช้การกระจายตัวอย่าง resample เหมือนกับการแจกแจงความน่าจะเป็นหลัง

เรื่องนี้ทำให้สมมติฐานต่าง ๆ หลักที่ว่าการกระจายก่อนหน้านี้เหมือนกัน มีการสะกดรายละเอียดเพิ่มเติมในบทความที่อ้างถึงข้างต้น


มีสิ่งเช่น bootesrap แบบเบย์ที่ Rubin นำมาใช้ แต่ฉันไม่คิดว่านั่นคือสิ่งที่คุณอ้างถึง bootstrap ธรรมดาตามที่ Efron แนะนำเป็นแนวคิดที่ใช้บ่อย
Michael Chernick
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.