ตัวอย่างอะไรบ้างที่“ ไร้เดียงสา bootstrap” ล้มเหลว?


86

สมมติว่าฉันมีชุดข้อมูลตัวอย่างจากการแจกแจงที่ไม่รู้จักหรือซับซ้อนและฉันต้องการทำการอนุมานบนสถิติTของข้อมูล ความโน้มเอียงเริ่มต้นของฉันเป็นเพียงการสร้างพวงของตัวอย่างบูตด้วยการเปลี่ยนและคำนวณสถิติของฉันTในแต่ละตัวอย่างบูตเพื่อสร้างการกระจายประมาณสำหรับTT

ตัวอย่างอะไรที่นี่เป็นความคิดที่ไม่ดี?

ตัวอย่างเช่นกรณีหนึ่งที่การทำบูทสแตรปอย่างไร้เดียงสาจะล้มเหลวคือถ้าฉันพยายามใช้ bootstrap ในข้อมูลอนุกรมเวลา (พูดเพื่อทดสอบว่าฉันมีความสัมพันธ์อัตโนมัติที่สำคัญ) bootstrap ไร้เดียงสาที่อธิบายไว้ข้างต้น (การสร้างชุดข้อมูลที่iของชุดตัวอย่าง bootstrap ที่ n โดยการสุ่มตัวอย่างด้วยการแทนที่จากชุดเดิมของฉัน) จะ (ฉันคิดว่า) จะไม่ได้รับคำแนะนำเพราะมันละเว้นโครงสร้างในอนุกรมเวลาเดิมของฉัน รับเทคนิค bootstrap ที่นักเล่นชอบมากเช่น bootstrap บล็อก

หากต้องการใช้วิธีอื่น Bootstrap จะมีอะไรอีกนอกเหนือจาก "การสุ่มตัวอย่างด้วยการแทนที่"


ถ้าคุณต้องการอนุมานค่าเฉลี่ยของข้อมูล iid bootstrap เป็นเครื่องมือที่ยอดเยี่ยม ทุกสิ่งทุกอย่างเป็นที่น่าสงสัยและต้องการการพิสูจน์แบบบรรจบกันเป็นกรณี ๆ ไป
StasK

คำตอบ:


67

หากปริมาณความสนใจซึ่งโดยปกติจะเป็นหน้าที่ของการแจกแจงนั้นเป็นไปอย่างราบรื่นและมีข้อมูลของคุณเป็นจำนวนมากคุณมักจะอยู่ในพื้นที่ที่ปลอดภัย แน่นอนว่ามีสถานการณ์อื่น ๆ เมื่อบูตสแตรปจะทำงานเช่นกัน

ความหมายสำหรับ bootstrap เพื่อ "ล้มเหลว" คืออะไร

ในวงกว้างการพูดของจุดเริ่มต้นคือการสร้างการกระจายตัวอย่างโดยประมาณสำหรับสถิติที่น่าสนใจ มันไม่เกี่ยวกับการประมาณค่าที่แท้จริงของพารามิเตอร์ ดังนั้นหากสถิติของความสนใจ (ภายใต้การลดขนาดและการจัดตำแหน่งกึ่งกลาง) คือและในการกระจายเราต้องการกระจาย bootstrap ของเราไปที่ มาบรรจบกันเพื่อการกระจายของX_หากเราไม่มีสิ่งนี้เราก็ไม่สามารถเชื่อถือการอนุมานที่เกิดขึ้นได้X^nX^nXX

บัญญัติตัวอย่างเมื่อบูตสามารถล้มเหลวแม้จะอยู่ในกรอบ IID คือเมื่อพยายามที่จะใกล้เคียงกับการกระจายการสุ่มตัวอย่างจากสถิติการสั่งซื้อมาก ด้านล่างเป็นการสนทนาสั้น ๆ

สถิติการสั่งซื้อสูงสุดของตัวอย่างที่สุ่มจากกระจายU[0,θ]

ให้เป็นลำดับของตัวแปรสุ่ม IID เครื่องแบบบนtheta] Letx_k การกระจายของคือ (โปรดสังเกตว่าด้วยเหตุผลที่ง่ายมากสิ่งนี้ก็แสดงให้เห็นว่าความเป็นไปได้และแม้เกือบจะแน่นอนถ้าตัวแปรสุ่มทั้งหมดถูกกำหนดในพื้นที่เดียวกัน)X1,X2,[0,θ]X(n)=max1knXkX(n)

P(X(n)x)=(x/θ)n.
X(n)θ

การคำนวณเบื้องต้นจะให้ผลผลิต หรือในคำอื่น ๆ ที่ลู่ในการกระจายไปยังตัวแปรสุ่มชี้แจงที่มีค่าเฉลี่ย\

P(n(θX(n))x)=1(1xθn)n1ex/θ,
n(θX(n))θ

ตอนนี้เราสร้างการประมาณbootstrap (ไร้เดียงสา) ของการกระจายตัวของโดยการสุ่มใหม่เพื่อแทนที่รับและใช้การกระจาย ของเงื่อนไขในX_1n(θX(n))X1,,XnX1,,Xnn(X(n)X(n))X1,,Xn

แต่สังเกตว่าด้วยความน่าจะเป็นและดังนั้นการกระจายบูทสแตรปมีมวลเป็นจุดที่ศูนย์แม้จะไม่แสดงอาการความจริงที่ว่าการกระจายข้อ จำกัด ที่แท้จริงนั้นต่อเนื่องX(n)=X(n)1(11/n)n1e1

อย่างชัดเจนมากขึ้น แต่การกระจายการ จำกัด ที่แท้จริงคือการชี้แจงที่มีค่าเฉลี่ยการกระจายบูต จำกัด สถานที่มวลจุดที่ศูนย์ขนาดอิสระของมูลค่าที่แท้จริงของ \โดยการใช้ใหญ่พอเราสามารถทำให้ความน่าจะเป็นของการ จำกัด การกระจายที่แท้จริงโดยพลเล็กสำหรับช่วงเวลาคงที่ใด ๆแต่ bootstrap จะ ( ยัง !) รายงานว่ามีความน่าจะเป็นอย่างน้อย 0.632 ในช่วงนี้! จากนี้ควรชัดเจนว่า bootstrap สามารถทำงานโดยไม่ตั้งใจในการตั้งค่านี้θ1e10.632 θθ[0,ε)

โดยสรุป bootstrap ล้มเหลว (อย่างน่าสังเวช) ในกรณีนี้ สิ่งต่าง ๆ มีแนวโน้มที่จะผิดพลาดเมื่อจัดการกับพารามิเตอร์ที่ขอบของพื้นที่พารามิเตอร์

ตัวอย่างจากตัวอย่างของตัวแปรสุ่มปกติ

มีตัวอย่างอื่น ๆ ที่คล้ายคลึงกันของความล้มเหลวของ bootstrap ในสถานการณ์ที่เรียบง่ายอย่างน่าประหลาดใจ

พิจารณาตัวอย่างจากที่มีพื้นที่พารามิเตอร์สำหรับจะมีการ จำกัดinfty) MLE ในกรณีนี้คือ0) อีกครั้งที่เราใช้ประมาณการบูต0) อีกครั้งมันจะแสดงให้เห็นว่าการกระจายของ (เงื่อนไขในตัวอย่างที่สังเกต) ไม่ได้มาบรรจบกันกับการกระจาย จำกัด เช่นเดียวกับMU)X1,X2,N(μ,1)μ[0,)X^n=max(X¯,0)X^n=max(X¯,0)n(X^nX^n)n(X^nμ)

อาร์เรย์ที่แลกเปลี่ยนได้

บางทีหนึ่งในตัวอย่างที่น่าทึ่งที่สุดก็คืออาร์เรย์ ปล่อยเป็นอาร์เรย์ของตัวแปรสุ่มแบบนั้นสำหรับทุกคู่ของการเปลี่ยนแปลงการฝึกอบรมและ , อาร์เรย์และมีการแจกแจงแบบเดียวกัน นั่นคือการอนุญาตให้แถวและคอลัมน์ของคงการกระจายตัว (คุณสามารถคิดถึงรูปแบบเอฟเฟกต์แบบสุ่มสองทางโดยมีหนึ่งการสังเกตต่อเซลล์เป็นตัวอย่างแม้ว่าแบบจำลองนั้นมีความทั่วไปมากกว่า)Y=(Yij)PQYPYQY

สมมติว่าเราต้องการประเมินช่วงความมั่นใจสำหรับค่าเฉลี่ย (เนื่องจากข้อสมมติฐานการแลกเปลี่ยนที่อธิบายข้างต้นวิธีการทั้งหมด เซลล์ต้องเหมือนกัน)μ=E(Yij)=E(Y11)

McCullagh (2000) พิจารณาสองวิธีที่แตกต่างกันตามธรรมชาติ ทั้งคู่ไม่มีความแปรปรวนแบบซีมโทติคสำหรับค่าเฉลี่ยตัวอย่างที่ถูกต้อง นอกจากนี้เขายังพิจารณาตัวอย่างของอาร์เรย์แบบแลกเปลี่ยนได้ทางเดียวและการถดถอยเชิงเส้น

อ้างอิง

น่าเสียดายที่เนื้อหาไม่น่าสนใจดังนั้นจึงไม่มีการอ่านเหล่านี้เป็นพิเศษ

พีบิซเคลและ D อิสระบางทฤษฎี asymptotic สำหรับบูต แอน สถิติ ฉบับ 9 หมายเลข 6 (1981), 1196–1717

DWK Andrews, ความไม่สอดคล้องกันของ bootstrap เมื่อพารามิเตอร์อยู่บนขอบเขตของพื้นที่พารามิเตอร์ , Econometrica , vol. หมายเลข 68 2 (2000), 399–405

P. McCullagh, Resampling และ exchangeable arrays , Bernoulli , vol. 6 ไม่ใช่ 2 (2000), 285–301

EL Lehmann และ JP Romano การทดสอบสมมติฐานทางสถิติอันดับ 3 ed., Springer (2005) [บทที่ 15: วิธีการตัวอย่างขนาดใหญ่ทั่วไป]


พฤติกรรมของ bootstrap สถิติการสั่งซื้อดูเหมือนว่าสมเหตุสมผลสำหรับฉันเนื่องจากการแจกแจงแบบเอ็กซ์โพเนนเชียลมี "จุดมวล" ที่คล้ายกันที่ศูนย์ - โหมดของการแจกแจงแบบเลขชี้กำลังเป็น 0 ดังนั้นจึงดูเหมือนสมเหตุสมผลที่ความน่าจะเป็นไม่ควรเป็นศูนย์ คุ้มค่ามากที่สุด! bootstrap อาจเป็นอะไรที่มากกว่าการกระจายตัวทางเรขาคณิตซึ่งเป็นแบบอะนาล็อกที่แยกกันของเลขชี้กำลัง ฉันจะไม่ใช้สิ่งนี้เป็น "ความล้มเหลว" ของ bootstrap ที่นี่ - สำหรับปริมาณโดยประมาณของจะอยู่ในช่วงเวลาที่เหมาะสมθθX(n)
ความน่าจะเป็นทาง

1
@cardinal - การแจกแจงเชิงเส้นกำกับนั้นไม่ใช่เกณฑ์มาตรฐานที่เหมาะสม - เว้นแต่คุณจะมีตัวอย่างไม่สิ้นสุด การกระจาย bootstrap ควรนำมาเปรียบเทียบกับการกระจายตัวอย่าง จำกัด ที่มันถูกออกแบบมาเพื่อประมาณ สิ่งที่คุณต้องการที่จะแสดงให้เห็นว่าเป็นตัวเลขของการทำซ้ำบูตไปที่อินฟินิตี้, การกระจายบูตลู่กับการกระจายการสุ่มตัวอย่าง จำกัด การให้เป็นวิธีแก้ปัญหาโดยประมาณไม่ใช่วิธีที่แน่นอน n
ความน่าจะเป็นของระบบ

5
@ cardinal +1 ฉันได้อัปเดตคำถามก่อนหน้านี้ แต่ฉันแค่อยากจะขอบคุณสำหรับคำตอบที่ดีมากตัวอย่างและลิงก์ไปยังบทความ
mpiktas

@ ความน่าจะเป็นเชิงตรรกะของหลักสูตรในการประยุกต์ทั่วไปของทฤษฎีแบบอะซิมโทติคขึ้นอยู่กับอัตราการบรรจบกันถ้ามันช้าก็ไม่สามารถใช้ได้ แต่คุณต้องแสดงให้เห็นว่าอัตรานั้นช้าเพราะฉันสงสัยว่าเช่นการกระจายแบบสม่ำเสมอที่มีขนาดตัวอย่าง 100 คุณจะพบปัญหา @ cardinal ที่ระบุไว้
mpiktas

3
@probabilityislogic ตอนแรกฉันเห็นเฉพาะความคิดเห็นล่าสุดสองรายการของคุณ ในการพูดถึงอดีตคุณสามารถดูสองประโยคแรกของส่วนด้านบนด้วยหัวเรื่อง "การบู๊ตสแตรปถึง 'ล้มเหลว' หมายความว่าอะไร bootstrap ไม่ได้เกี่ยวกับการประมาณค่าพารามิเตอร์ เราคิดว่าเรามีวิธีที่ดีในการประมาณค่าพารามิเตอร์ที่ต้องการ (ในกรณีนี้งานได้ดี) bootstrap นั้นเกี่ยวกับการรู้บางอย่างเกี่ยวกับการแจกแจงพารามิเตอร์เพื่อให้เราสามารถอนุมานได้ ที่นี่ bootstrap ทำให้การกระจาย ( มาก! ) ผิด X(n)
พระคาร์ดินัล

8

หนังสือต่อไปนี้มีบท (Ch.9) ที่อุทิศให้กับ "เมื่อการบูตสแตรปล้มเหลวพร้อมกับการเยียวยาสำหรับความล้มเหลว":

MR Chernick วิธี Bootstrap: คู่มือสำหรับผู้ปฏิบัติงานและนักวิจัย 2nd ed Hoboken NJ: Wiley-Interscience, 2008

หัวข้อคือ:

  1. ขนาดตัวอย่างเล็กเกินไป
  2. การแจกแจงกับช่วงเวลาที่ไม่มีที่สิ้นสุด
  3. การประมาณค่าสุดขีด
  4. การสำรวจตัวอย่าง
  5. ลำดับข้อมูลที่M -อิสระ
  6. กระบวนการตอบโต้อัตโนมัติที่ไม่เสถียร
  7. การพึ่งพาระยะยาว

1
คุณเคยเห็นความคิดเห็นนี้ต่อคำตอบในหัวข้อนี้หรือไม่? ความคิดเห็นนั้นเชื่อมโยงไปยังหน้า Amazon สำหรับหนังสือของ Chernick ความคิดเห็นของผู้อ่านกำลังตรัสรู้
whuber

@whuber ฉันไม่ได้สังเกตเห็นความคิดเห็นนั้น ฉันควรลบคำตอบของฉันออกไหม
Sadeghd

1
เนื่องจากคำตอบของคุณมีรายละเอียดมากกว่าการอ้างอิงในความคิดเห็นมันอาจมีค่า: แต่เพื่อให้สอดคล้องกับนโยบายและจุดมุ่งหมายของ SE คุณควรที่จะเห็นมันขยายด้วยคำอธิบายว่าทำไมคุณถึงแนะนำหนังสือเล่มนี้หรือดีกว่า - หากต้องการรวมข้อมูลสรุปไว้ในนั้น มิฉะนั้นจะเพิ่มเพียงเล็กน้อยและควรลบหรือแปลงเป็นความคิดเห็นสำหรับคำถาม
whuber

1

ความไร้เดียงสา bootstrap ขึ้นอยู่กับขนาดตัวอย่างที่มีขนาดใหญ่เพื่อให้ประจักษ์ CDF สำหรับข้อมูลเป็นการประมาณที่ดีกับ "จริง" CDF สิ่งนี้ทำให้มั่นใจได้ว่าการสุ่มตัวอย่างจาก CDF เชิงประจักษ์นั้นเหมือนกับการสุ่มตัวอย่างจาก CDF "ของจริง" กรณีที่รุนแรงคือเมื่อคุณมีจุดเก็บตัวอย่างเพียงจุดเดียวเท่านั้น มันจะไร้ประโยชน์มากขึ้นเรื่อย ๆ เมื่อมันเข้าใกล้กรณีความเลวร้ายนี้

การเริ่มต้นอย่างไร้เดียงสาจะไม่จำเป็นต้องล้มเหลวในการวิเคราะห์อนุกรมเวลา (แม้ว่ามันอาจจะไม่มีประสิทธิภาพ) - ถ้าคุณสร้างแบบจำลองโดยใช้ฟังก์ชันพื้นฐานของเวลาต่อเนื่อง (เช่นชื่อพหุนามพหุนาม) สำหรับองค์ประกอบของเทรนด์ ส่วนประกอบ (รวมถึงข้อผิดพลาดของเสียงรบกวนปกติ) จากนั้นคุณก็ใส่อะไรก็ตามที่คุณเคยลองเข้าไปฟังก์ชั่นความน่าจะเป็น ไม่มีความเสียหายจากการบูตสแตรปที่นี่

auto-correlation หรือโมเดล ARIMA มีการแสดงในรูปแบบนี้ด้านบน - โมเดลนี้ใช้งานง่ายกว่าและฉันคิดว่าเข้าใจและตีความ (ง่ายต่อการเข้าใจรอบในฟังก์ชันไซน์และโคไซน์ยากที่จะเข้าใจค่าสัมประสิทธิ์ของโมเดล ARIMA) ตัวอย่างเช่นฟังก์ชั่นความสัมพันธ์อัตโนมัติคือการแปลงฟูริเยร์ผกผันของสเปกตรัมพลังงานของอนุกรมเวลา


@probabilityislogic -1 ฉันได้อัปเดตคำตอบก่อนหน้านี้โดยไม่ตั้งใจ (ตำหนิ Opera mini) ดังนั้นฉันต้องแก้ไขมันเพื่อให้สามารถลงคะแนนได้ฉันขอโทษที่ใช้กลยุทธ์ดังกล่าว ฉันทำสิ่งนี้เพียงเพราะฉันไม่ชอบคำตอบในตอนแรก แต่ไม่ได้ลงคะแนนเพราะฉันต้องการเตรียมการโต้แย้งของฉันซึ่งฉันจะให้ในความคิดเห็นต่อไปนี้
mpiktas

1
@probabilityislogic สำหรับอนุกรมเวลาประมวลผลเวลาที่มีบทบาทสำคัญเพื่อให้การกระจายตัวของเวกเตอร์จะแตกต่างจากX_t) resampling เป็นทำในบูตไร้เดียงสาทำลายโครงสร้างนี้ดังนั้นสำหรับตัวอย่างเช่นถ้าคุณพยายามที่จะพอดีกับ AR (1) รูปแบบหลังจาก resampling คุณอาจได้รับว่าคุณกำลังพยายามที่จะพอดีกับเป็นซึ่งเป็น ดูเหมือนจะไม่เป็นธรรมชาติ หากคุณ google สำหรับ "อนุกรมเวลาความร่วมมือ" บทความที่สองให้ตัวอย่างของวิธีการประมาณการความแปรปรวนของอนุกรมเวลามี ...(Xt,Xt+1)(Xt+1,Xt)Y10ρY15
mpiktas

2
@probabilityislogic เป็นไปได้ไหมที่คุณจะแสดงความคิดของคุณในคำตอบของคุณในการคาดคะเน bootstrap ที่ไร้เดียงสาของในรุ่น AR (1) ? ฉันไม่คิดว่ามันเป็นไปได้ดังนั้นเหตุผลพื้นฐานสำหรับ downvote ฉันยินดีที่จะพิสูจน์ว่าผิด ρYt=ρYt1+ut
mpiktas

1
@probabilityislogic และ? ในกรณีนั้นจะมีค่าประมาณของไหร่? ฉันขอโทษสำหรับการรบกวน แต่ฉันไม่เห็นวิธีที่คุณสามารถแสดงให้เห็นว่า bootstrap ไร้เดียงสาจะไม่ล้มเหลวในกรณีนี้ rho
mpiktas

4
หนังสือของฉันที่นี่มีตอนหนึ่งเมื่อ bootstrap ล้มเหลวและอีกบทหนึ่งเกี่ยวกับวิธีที่ bootstrap ใช้ในอนุกรมเวลา สำหรับอนุกรมเวลา bootstrap สามารถนำไปใช้กับส่วนที่เหลือจากรูปแบบในวิธีการตามแบบ อีกวิธีที่ไม่เกี่ยวกับโดเมนเวลาคือบล็อก bootstrap ซึ่งมีหลายประเภท
Michael Chernick
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.