การบูตสแตรปปิ้งประมาณการกระจายตัวตัวอย่างของตัวประมาณได้ดีเพียงใด


29

หลังจากศึกษา bootstrap มาฉันมีคำถามแนวความคิดที่ยังคงไขปริศนาฉันอยู่:

คุณมีประชากรและคุณต้องการทราบแอตทริบิวต์ของประชากรนั่นคือซึ่งฉันใช้เพื่อเป็นตัวแทนของประชากร นี้อาจจะหมายถึงประชากรตัวอย่างเช่น โดยปกติแล้วคุณไม่สามารถรับข้อมูลทั้งหมดจากประชากร คุณวาดตัวอย่างขนาดจากประชากร สมมติว่าคุณมีตัวอย่าง iid เพื่อความง่าย แล้วคุณจะได้รับการประมาณการของคุณ(X) คุณต้องการที่จะใช้ที่จะทำให้การหาข้อสรุปเกี่ยวกับดังนั้นคุณอยากจะรู้ว่าความแปรปรวนของ theta}θ=g(P)PθXNθ^=g(X)θ^θθ^

ครั้งแรกมีความเป็นจริงการกระจายตัวอย่างของtheta} ตามแนวคิดคุณสามารถวาดตัวอย่างจำนวนมาก (แต่ละอันมีขนาด ) จากประชากร ในแต่ละครั้งที่คุณมีการรับรู้ตั้งแต่แต่ละครั้งคุณจะมีตัวอย่างที่แตกต่างกัน จากนั้นในท้ายที่สุดแล้วคุณจะสามารถที่จะกู้จริงการกระจายของtheta} ตกลงนี้อย่างน้อยเป็นมาตรฐานแนวคิดสำหรับการประมาณค่าการกระจายของtheta} ผมขอย้ำว่ามัน: เป้าหมายสูงสุดคือการใช้วิธีการต่างๆในการประมาณการหรือใกล้เคียงกับความจริงการกระจายของtheta}θ^Nθ^=g(X)θ^θ^θ^

ตอนนี้ที่นี่คำถามมา โดยปกติคุณจะมีหนึ่งตัวอย่างที่มีจุดข้อมูลแล้วคุณ resample จากนี้ตัวอย่างหลายครั้งและคุณจะเกิดขึ้นกับการกระจายของบูตtheta} คำถามของฉันคือการกระจาย bootstrap นี้ใกล้กับการแจกแจงตัวอย่างที่แท้จริงของแค่ไหน มีวิธีหาปริมาณหรือไม่XNθ^θ^


1
คำถามที่เกี่ยวข้องอย่างมากนี้ประกอบด้วยข้อมูลเพิ่มเติมมากมายจนถึงจุดที่ทำให้คำถามนี้อาจซ้ำซ้อน
ซีอาน

ก่อนอื่นขอขอบคุณทุกท่านที่ตอบคำถามของฉันทันที นี่เป็นครั้งแรกที่ฉันใช้เว็บไซต์นี้ ฉันไม่เคยคาดหวังว่าคำถามของฉันจะดึงดูดความสนใจของทุกคนอย่างตรงไปตรงมา ฉันมีคำถามเล็ก ๆ ที่นี่ 'OP' คืออะไร @ Silverfish
KevinKim

@Chen Jin: "OP" = โปสเตอร์ต้นฉบับ (เช่นคุณ!) ขออภัยในการใช้ตัวย่อที่ฉันยอมรับอาจทำให้สับสน
Silverfish

1
ฉันได้แก้ไขชื่อเพื่อให้ใกล้ชิดมากขึ้นตรงกับคำสั่งของคุณที่ "คำถามของฉันคือวิธีการปิดนี้คือการกระจายที่แท้จริงของθมีวิธีที่จะหาจำนวนมันได้หรือไม่" อย่าลังเลที่จะเปลี่ยนกลับหากคุณไม่คิดว่าการแก้ไขของฉันจะสะท้อนความตั้งใจของคุณ θ^
Silverfish

@Silverfish ขอบคุณมาก เมื่อฉันเริ่มโปสเตอร์นี้ฉันไม่ค่อยแน่ใจเกี่ยวกับคำถามของฉัน ชื่อใหม่นี้ดี
KevinKim

คำตอบ:


20

ในทฤษฎีข้อมูลวิธีการทั่วไปในการหาจำนวนวิธี "ปิด" การแจกแจงแบบหนึ่งไปยังอีกแบบคือการใช้KL-divergence

เรามาลองอธิบายด้วยชุดข้อมูลหางยาวที่บิดเบือนอย่างมาก - ความล่าช้าของการมาถึงของเครื่องบินในสนามบินฮูสตัน (จากแพ็คเกจhflights ) ให้θจะประมาณการค่าเฉลี่ย ครั้งแรกที่เราพบว่าการกระจายการสุ่มตัวอย่างของθและจากนั้นการกระจายบูตของθθ^θ^θ^

นี่คือชุดข้อมูล:

ป้อนคำอธิบายรูปภาพที่นี่

ค่าเฉลี่ยจริงคือ 7.09 นาที

ครั้งแรกที่เราทำจำนวนหนึ่งของกลุ่มตัวอย่างที่จะได้รับการกระจายตัวอย่างของθแล้วเราใช้เวลาหนึ่งตัวอย่างและนำตัวอย่างบูตมากมายจากมันθ^

ตัวอย่างเช่นลองดูที่สองการแจกแจงด้วยการทำซ้ำขนาดตัวอย่าง 100 และ 5000 เราเห็นว่าการแจกแจงเหล่านี้แยกออกจากกันและค่าเบี่ยงเบนของ KL คือ 0.48

ป้อนคำอธิบายรูปภาพที่นี่

แต่เมื่อเราเพิ่มขนาดตัวอย่างเป็น 1,000 พวกเขาก็เริ่มมาบรรจบกัน (KL divergence คือ 0.11)

ป้อนคำอธิบายรูปภาพที่นี่

และเมื่อขนาดของกลุ่มตัวอย่างเป็น 5,000 พวกเขาอยู่ใกล้มาก (ค่าเบี่ยงเบนของ KL คือ 0.01)

ป้อนคำอธิบายรูปภาพที่นี่

นี้แน่นอนขึ้นอยู่กับว่ากลุ่มตัวอย่างบูตคุณจะได้รับ แต่ผมเชื่อว่าคุณจะเห็นว่าแตกต่าง KL ไปลงในขณะที่เราเพิ่มขนาดตัวอย่างและการกระจายของบูตจึงθแนวทางการกระจายตัวอย่างθในแง่ของ KL Divergence เพื่อให้แน่ใจว่าคุณสามารถลองบูตหลาย ๆ อันและใช้ค่าเฉลี่ยของ KL divergenceθ^θ^

นี่คือรหัส R ของการทดลองนี้: https://gist.github.com/alexeygrigorev/0b97794aea78eee9d794


5
+1 และสิ่งนี้ยังแสดงให้เห็นว่าสำหรับขนาดตัวอย่างใด ๆ ที่กำหนด (เช่นเช่น 100) อคติบูตที่สามารถมีขนาดใหญ่และหลีกเลี่ยงไม่ได้
อะมีบาพูดว่า Reinstate Monica

อันนี้ยอดเยี่ยม! ดังนั้นเพื่อให้การกระจายตัวของθจากบูตจะใกล้เคียงกับการจัดจำหน่ายที่แท้จริงของθเราต้องตัวอย่างขนาดใหญ่ไม่มีใช่มั้ย? สำหรับขนาดตัวอย่างที่คงที่การกระจายที่สร้างจาก bootstrap อาจแตกต่างจากการกระจาย TRUE ตามที่ระบุโดย @amoeba θ^θ^N
KevinKim

คำถามต่อไปของฉันคือ: ถ้าฉันกำหนดให้มีขนาดใหญ่พอแล้วฉันได้ bootstraps 2 อันอันหนึ่งเพิ่งลองใหม่B =Nครั้งและอื่น ๆ resample B = 10000 ความแตกต่างระหว่างการกระจายของ θออกมาของทั้ง 2 วัฏจักร? คำถามนี้เป็นหลักถามว่าเราจะแก้ไขปัญหายังไม่มีอะไรบทบาทที่เล่นโดย Bในการสร้างการกระจายของθ @GrigorevB=10B=10000θ^NBθ^
KevinKim

1
@ เฉิน แต่การกระจายของคือสิ่งที่คุณได้รับจากการทำ resamples ใช่มั้ย? ดังนั้นความแตกต่างระหว่างB=10และB=10000คือว่าในกรณีหนึ่งคุณจะได้รับ10หมายเลขในการสร้างการกระจายของคุณ (ไม่ได้ข้อมูลมากประมาณการไม่น่าเชื่อถือมากของส่วนเบี่ยงเบนมาตรฐาน) และในกรณีอื่น ๆ ที่คุณได้รับ10000ตัวเลข (มากขึ้น เชื่อถือได้) θ^B=10B=100001010000
อะมีบาพูดว่า Reinstate Monica

1
@ เฉินฉันคิดว่าคุณสับสนเล็กน้อยหรือไม่ชัดเจนเกี่ยวกับสิ่งที่ในความคิดเห็นของคุณควรจะเป็น หากคุณสุ่มตัวอย่างซ้ำ5ครั้งคุณจะได้รับชุดจำนวน5ตัว การกระจายตัวเป็นอย่างไร มันเป็นชุดของตัวเลข! ตัวเลขเหล่านี้มาจากสิ่งที่คุณเรียกว่าการแจกแจงF B ยิ่งคุณได้รับตัวเลขมากเท่าไหร่คุณจะสามารถประเมินF Bได้ดีขึ้น F555FBFB
อะมีบาพูดว่า Reinstate Monica

23

เงินทุนจะขึ้นอยู่กับการบรรจบกันของ CDF เชิงประจักษ์กับ CDF ลู่(เป็น nไปที่อินฟินิตี้)เพื่อ F ( x )สำหรับทุกx ดังนั้นการบรรจบกันของการกระจาย bootstrap ของ

F^n(x)=1ni=1nIXixXiiidF(x)
nF(x)x คือการขับเคลื่อนด้วยการบรรจบกันนี้ซึ่งเกิดขึ้นในอัตราที่θ^(X1,,Xn)=g(F^n)สำหรับแต่ละxตั้งแต่n xแม้ว่าอัตรานี้และการ จำกัด การกระจายไม่โอนโดยอัตโนมัติเพื่อกรัม( F n). ในทางปฏิบัติในการประเมินความแปรปรวนของการประมาณที่คุณสามารถผลิตการประเมินผลการบูตของการกระจายของกรัม( F n
n{F^n(x)F(x)}distN(0,F(x)[1F(x)])
g(F^n)โดย double-bootstrap เช่นโดย bootstrapping การประเมิน bootstrapg(F^n)

ขณะที่การปรับปรุงที่นี่คือการใช้งานที่ฉันภาพประกอบในชั้นเรียน: enter image description here ที่ LHS เปรียบเทียบ CDF จริงกับ CDF เชิงประจักษ์Fสำหรับn=100สังเกตและ RHS แปลง250แบบจำลองของ LHS สำหรับ 250 ตัวอย่างที่แตกต่างกันในการสั่งซื้อ เพื่อวัดความแปรปรวนของการประมาณ cdf ในตัวอย่างฉันรู้ความจริงและด้วยเหตุนี้ฉันสามารถจำลองจากความจริงเพื่อประเมินความแปรปรวน ในสถานการณ์จริงผมไม่ทราบว่าFและด้วยเหตุนี้ฉันต้องเริ่มต้นจาก F nแทนในการผลิตกราฟที่คล้ายกันF^nn=100250FF^n

การปรับปรุงเพิ่มเติม:นี่คือลักษณะของหลอดภาพเมื่อเริ่มจาก cdf เชิงประจักษ์: enter image description here


5
ปมของคำตอบนี้ก็คือว่าบูตทำงานเพราะมันเป็นประมาณขนาดใหญ่ตัวอย่าง ฉันไม่คิดว่าจุดนี้จะเน้นพอ
shadowtalker

2
ฉันหมายถึง "เน้นโดยทั่วไปบ่อยพอ"
shadowtalker

@ ซีอานขอบคุณมาก ฉันเหมือนที่ผ่านมา 2 แผงดังนั้นในตัวอย่างนี้เราจะมาหลอกเราไม่ทราบ CDF จริงคือเส้นโค้งสีแดงบน LHS ที่ฉันเพิ่งมี F^n=100

3
FnF

@ ซีอานดีมาก! มันจะดีกว่านี้หากรูปที่ 2 และ 3 สามารถรวมเข้าด้วยกันเป็นรูปเดียว
KevinKim
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.