ฉันก็ถูกล่อลวงด้วยทฤษฏี bootstrapping และ Bayes แต่ฉันก็ไม่เข้าใจเหตุผลของการทำ bootstrapping จนฉันมองจากมุมมองของ Bayesian จากนั้น - ตามที่ฉันอธิบายด้านล่าง - การกระจาย bootstrap สามารถมองเห็นได้จากการแจกแจงแบบเบย์หลังซึ่งทำให้เหตุผล (a?) อยู่เบื้องหลังการบูทสแตรปป์ชัดเจนและมีประโยชน์ในการทำให้สมมติฐานชัดเจน มีรายละเอียดเพิ่มเติมของอาร์กิวเมนต์ด้านล่างและสมมติฐานที่ทำไว้ในhttps://arxiv.org/abs/1803.06214 (หน้า 22-26)
ตัวอย่างซึ่งตั้งอยู่บนสเปรดชีตที่http://woodm.myweb.port.ac.uk/SL/resample.xlsx (คลิกที่แท็บ bootstrap ที่ด้านล่างของหน้าจอ) สมมติว่าเรามี ตัวอย่างการวัด 9 ค่าเฉลี่ย 60 เมื่อฉันใช้สเปรดชีตเพื่อผลิตตัวอย่างใหม่ 1,000 ชิ้นโดยแทนที่จากตัวอย่างนี้และปัดค่าเฉลี่ยออกเป็นเลขคู่ที่ใกล้ที่สุด 82 ของค่าเฉลี่ยเหล่านี้คือ 54 แนวคิดของการเริ่มระบบคือ ใช้ตัวอย่างเป็นประชากร "เสแสร้ง" เพื่อดูว่าตัวแปรค่าเฉลี่ยตัวอย่างของ 9 น่าจะเป็นอย่างไรดังนั้นสิ่งนี้แสดงให้เห็นว่าความน่าจะเป็นของค่าเฉลี่ยตัวอย่างคือ 6 ต่ำกว่าค่าเฉลี่ยประชากร (ในกรณีนี้ประชากรที่ถูกแกล้งตาม ตัวอย่างที่มีค่าเฉลี่ย 60) คือ 8.2% และเราสามารถหาข้อสรุปที่คล้ายกันเกี่ยวกับแท่งอื่น ๆ ในกราฟแสดงตัวอย่างซ้ำ
ทีนี้ลองจินตนาการว่าความจริงคือค่าเฉลี่ยของประชากรจริงคือ 66 ถ้านี่คือค่าประมาณความน่าจะเป็นของค่าเฉลี่ยตัวอย่างคือ 60 (เช่นข้อมูล) คือ 8.2% (โดยใช้ข้อสรุปในย่อหน้าด้านบนความทรงจำ 60 คือ 6 ต่ำกว่าค่าเฉลี่ยประชากรของสมมติฐานที่ 66) ลองเขียนนี่เป็น
P (ข้อมูลที่ได้รับหมายถึง = 66) = 8.2%
และความน่าจะเป็นนี้สอดคล้องกับค่า x เท่ากับ 54 ในการกระจายตัวอย่างซ้ำ อาร์กิวเมนต์แบบเดียวกันนี้ใช้กับค่าเฉลี่ยประชากรที่เป็นไปได้แต่ละค่าจาก 0, 2, 4 ... 100 ในแต่ละกรณีความน่าจะเป็นมาจากการกระจายตัวอย่างซ้ำ - แต่การแจกแจงนี้สะท้อนให้เห็นถึงค่าเฉลี่ยของ 60
ตอนนี้ลองใช้ทฤษฎีบทของเบย์ การวัดที่เป็นปัญหาสามารถรับค่าระหว่าง 0 ถึง 100 เท่านั้นดังนั้นการปัดเศษให้เป็นเลขคู่ที่ใกล้ที่สุดความเป็นไปได้สำหรับค่าเฉลี่ยประชากรคือ 0, 2, 4, 6, .... 100 หากเราสมมติว่าการกระจายก่อนหน้านี้คงที่แต่ละอันมีความน่าจะเป็นก่อน 2% (ต่อ 1 dp) และทฤษฎีบทของเบย์บอกเราว่า
P (PopMean = 66 ได้รับข้อมูล) = 8.2% * 2% / P (ข้อมูล)
ที่ไหน
P (ข้อมูล) = P (PopMean = 0 ข้อมูลที่กำหนด) * 2% + P (PopMean = 2 ข้อมูลที่กำหนด) * 2% + ... + P (PopMean = 100 ข้อมูลที่กำหนด) * 2%
ตอนนี้เราสามารถยกเลิก 2% และจำไว้ว่าผลรวมของความน่าจะเป็นที่ 1 เนื่องจากความน่าจะเป็นนั้นมาจากการกระจายตัวอย่างซ้ำ ซึ่งทำให้เรามีข้อสรุปว่า
P (PopMean = 66) = 8.2%
โปรดจำไว้ว่า 8.2% เป็นความน่าจะเป็นที่ได้จากการกระจายตัวอย่างที่สอดคล้องกับ 54 (แทนที่จะเป็น 66) การกระจายหลังเป็นเพียงการกระจายตัวอย่างซ้ำสะท้อนให้เห็นถึงค่าเฉลี่ยตัวอย่าง (60) นอกจากนี้หากการกระจายตัวอย่างซ้ำมีความสมมาตรในแง่ที่ความไม่สมมาตรเป็นแบบสุ่ม - ตามที่เป็นในกรณีนี้และอีกหลายกรณีเราสามารถใช้การกระจายตัวอย่าง resample เหมือนกับการแจกแจงความน่าจะเป็นหลัง
เรื่องนี้ทำให้สมมติฐานต่าง ๆ หลักที่ว่าการกระจายก่อนหน้านี้เหมือนกัน มีการสะกดรายละเอียดเพิ่มเติมในบทความที่อ้างถึงข้างต้น