Bootstrapping เทียบกับ Bayesian


21

ฉันมีปัญหาในการทำความเข้าใจว่ากระบวนการบูตสเตปแบบเบย์คืออะไรและสิ่งนั้นแตกต่างจากการบูตสแตรปปกติของคุณอย่างไร และถ้ามีใครบางคนสามารถนำเสนอการทบทวนและการเปรียบเทียบทั้งสองอย่างง่าย

ลองยกตัวอย่าง

สมมติว่าเรามีชุดข้อมูล X นั่นคือ [1,2,5,7,3]

หากเราสุ่มตัวอย่างด้วยการแทนที่หลาย ๆ ครั้งเพื่อสร้างขนาดตัวอย่างเท่ากับขนาดของ X (ดังนั้น [7,7,2,5,7], [3,5,2,2,7] ฯลฯ ) จากนั้นเรา คำนวณค่าเฉลี่ยของแต่ละวิธีนั่นคือการกระจาย bootstrap ของค่าเฉลี่ยตัวอย่างหรือไม่

อะไรคือการกระจาย bootstrap แบบเบส์ของสิ่งนั้น?

และการกระจาย bootstrap แบบเบย์ของพารามิเตอร์อื่น ๆ (ความแปรปรวน ฯลฯ ) ทำในวิธีเดียวกันได้อย่างไร?


4
ดูsumsar.net/blog/2015/04/…และprojecteuclid.org/euclid.aos/1176345338หรืออาจ @ rasmus-bååthสามารถตอบคุณได้)
ทิม

คำตอบ:


27

bootstrap (ผู้ใช้บ่อย) ใช้ข้อมูลเป็นการประมาณที่สมเหตุสมผลในการกระจายประชากรที่ไม่รู้จัก ดังนั้นการกระจายตัวตัวอย่างของสถิติ (ฟังก์ชั่นของข้อมูล) สามารถประมาณได้โดยการสุ่มใหม่การสังเกตซ้ำด้วยการแทนที่และคำนวณสถิติสำหรับแต่ละตัวอย่าง

Let แสดงข้อมูลเดิม (ในตัวอย่างที่กำหนดให้n = 5 ) ให้y b = ( y b 1 , , y b n )แสดงถึงตัวอย่างบูตสแตรป ตัวอย่างดังกล่าวน่าจะมีการสังเกตซ้ำหลายครั้งหรือมากกว่าและการสังเกตอื่น ๆ จะหายไป ค่าเฉลี่ยของตัวอย่าง bootstrap ถูกกำหนดโดยm b = 1y=(y1,,yn)n=5yb=(y1b,,ynb) มันคือการกระจายของmb

mb=1ni=1nyib.
mbมากกว่าจำนวนซ้ำของ bootstrap ที่ใช้ในการประมาณการกระจายตัวตัวอย่างจากประชากรที่ไม่รู้จัก

เพื่อให้เข้าใจการเชื่อมต่อระหว่าง bootstrap ที่พบบ่อยและ bootstrap ของ Bayesian มันเป็นคำแนะนำเพื่อดูวิธีการคำนวณmbจากมุมมองที่แตกต่างกัน

ในแต่ละตัวอย่างบูต , การสังเกตแต่ละปีผมเกิดขึ้นที่ใดก็ได้จาก 0 ถึงnครั้ง Let ชั่วโมงฉันหมายถึงจำนวนครั้งที่Y ฉันเกิดขึ้นในปีและปล่อยให้เอช = ( H 1 , ... , เอชn ) ดังนั้นh b i{ 0 , 1 , , n - 1 , n }ybyinhibyiybhb=(h1b,,hnb)hib{0,1,,n1,n}และ n ได้รับชมเราสามารถสร้างคอลเลกชันของค่าลบน้ำหนักว่าผลรวมให้เป็นหนึ่ง: W = H / nที่W ฉัน = H ฉัน / n ด้วยสัญกรณ์นี้เราสามารถแสดงค่าเฉลี่ยของตัวอย่าง bootstrap เป็น m b = n i = 1 w b ii=1nhib=nhwb=hb/nwib=hib/n

mb=i=1nwibyi.

วิธีการที่สังเกตจะถูกเลือกสำหรับตัวอย่างบูตกำหนดร่วมกันจำหน่ายสำหรับ โดยเฉพาะอย่างยิ่งh bมีการกระจายแบบพหุนามและดังนั้น( nwbhbดังนั้นเราจึงสามารถคำนวณโดยการวาด W จากการกระจายและการคำนวณผลิตภัณฑ์จุดด้วยY จากมุมมองใหม่นี้ปรากฏว่าการสังเกตได้รับการแก้ไขในขณะที่น้ำหนักมีการเปลี่ยนแปลง

(nwb)Multinomial(n,(1/n)i=1n).
mbwby

ในการอนุมานแบบเบย์การสังเกตจะได้รับการแก้ไขแน่นอนดังนั้นมุมมองใหม่นี้จึงเป็นที่พอใจของวิธีการแบบเบย์ อันที่จริงการคำนวณค่าเฉลี่ยตาม bootstrap แบบเบย์แตกต่างกันเฉพาะในการกระจายน้ำหนัก (อย่างไรก็ตามจากมุมมองแนวคิด Bootesrap แบบเบย์ค่อนข้างแตกต่างจากเวอร์ชั่นที่ใช้บ่อย) ข้อมูลได้รับการแก้ไขและน้ำหนักที่wเป็นพารามิเตอร์ที่ไม่รู้จัก เราอาจสนใจฟังก์ชั่นของข้อมูลที่ขึ้นอยู่กับพารามิเตอร์ที่ไม่รู้จัก: μ = n i = 1 w iyw

μ=i=1nwiyi.

นี่คือภาพย่อขนาดย่อของแบบจำลองที่อยู่ด้านหลังรองเท้าบู๊ตแบบเบย์: การแจกแจงการสุ่มตัวอย่างสำหรับการสังเกตนั้นมีหลายรูปแบบและน้ำหนักก่อนหน้านี้คือการกระจายตัวแบบดิริชเล็ตที่ จำกัด ซึ่งทำให้น้ำหนักทั้งหมดอยู่บนจุดยอด (ผู้เขียนบางคนอ้างถึงโมเดลนี้ว่าเป็นโมเดลความน่าจะเป็นแบบหลายส่วน)

wDirichlet(1,,1).
(การแจกแจงแบบนี้ค่อนข้างเรียบง่าย) การแจกแจงสองแบบสำหรับตุ้มน้ำหนัก (ผู้ถี่ถ้วนและเบย์) มีลักษณะคล้ายกัน: พวกมันมีวิธีการเหมือนกันและโควาเรียสที่คล้ายกัน การกระจายแบบดิริชเล็ตนั้น 'ราบรื่นกว่าการกระจายแบบมัลติโนเมียลดังนั้นการบูตแบบเบย์อาจเรียกได้ว่าการบูตแบบสมู ธ เราอาจตีความ bootstrap เป็นประจำเพื่อประมาณค่า bootstrap แบบเบย์

μwy

i=1nwig(yi,θ)=0_,
g(yi,θ)θ0_θywwจากการกระจายหลังและประเมินผลการแก้ปัญหาที่ กรอบการประมาณสมการใช้กับโอกาสเชิงประจักษ์และด้วยวิธีการทั่วไปของช่วงเวลา (GMM).)

i=1nwi(yiμ)=0.
θ=(μ,v)
g(yi,θ)=(yiμ(yiμ)2v).

1
ขอบคุณสำหรับคำอธิบายอย่างละเอียด โดยส่วนตัวแล้วฉันขอขอบคุณข้อความสั้น ๆ เมื่อเลือกแต่ละข้อ
ErichBSchulz
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.