สองวิธีของการทดสอบนัยสำคัญ bootstrap


11

การใช้ bootstrap ฉันคำนวณค่า p ของการทดสอบนัยสำคัญโดยใช้สองวิธี:

  1. resampling ภายใต้สมมติฐานว่างและนับผลลัพธ์อย่างน้อยที่สุดเท่าที่ผลลัพธ์มาจากข้อมูลต้นฉบับ
  2. การ resampling ใหม่ภายใต้สมมติฐานทางเลือกและการนับผลลัพธ์อย่างน้อยที่สุดห่างจากผลลัพธ์ดั้งเดิมเป็นค่าที่สอดคล้องกับสมมติฐานว่าง

ผมเชื่อว่า 1 เซนต์วิธีการที่ถูกต้องทั้งหมดเป็นไปตามความหมายของค่าเอพี ฉันไม่ค่อยแน่ใจเกี่ยวกับวินาที แต่มักจะให้ผลลัพธ์ที่คล้ายกันมากและเตือนให้ฉันทดสอบ Wald

ฉันถูกไหม? วิธีการทั้งสองถูกต้องหรือไม่ พวกเขาเหมือนกัน (สำหรับตัวอย่างขนาดใหญ่) หรือไม่


ตัวอย่างสำหรับทั้งสองวิธี (แก้ไขหลังจากคำถามของ DWIN และคำตอบของ Erik):
ตัวอย่างที่ 1 ลองสร้างการทดสอบบูตสแตรปเหมือนกับการทดสอบ T สองตัวอย่าง วิธีที่ 1 จะสุ่มตัวอย่างจากตัวอย่างหนึ่ง (ได้จากการรวมสองต้นฉบับ) วิธีที่ 2 จะสุ่มตัวอย่างจากตัวอย่างทั้งสองอย่างอิสระ

ตัวอย่างที่ 2 เรามาสร้าง bootstrap test ของสหสัมพันธ์ระหว่างx₁…xₐและy₁…yₐ วิธีที่ 1 จะไม่ถือว่ามีความสัมพันธ์และการสุ่มตัวอย่างใหม่อนุญาตสำหรับคู่ (xₑ, yₔ) โดยที่≠ e วิธีที่ 2 จะรวบรวมตัวอย่าง bootstrap ของคู่ดั้งเดิม (x, y)

ตัวอย่างที่ 3 ลองสร้างการทดสอบ bootstrap เพื่อตรวจสอบว่าเหรียญมีความยุติธรรมหรือไม่ วิธีที่ 1 จะสร้างการสุ่มตัวอย่างการตั้งค่า Pr (หัว) = Pr (หาง) = ½ วิธีที่ 2 จะสุ่มตัวอย่างตัวอย่างของค่าหัว / หางทดลองและเปรียบเทียบสัดส่วนกับ½


"สมมติฐานทางเลือก" อันไหน ในระบบการตั้งชื่อแบบดั้งเดิมของชาวประมงจะไม่มีทางเลือกเพียงทางเดียว แต่เป็นทางเลือกที่ไม่มีที่สิ้นสุดในตระกูล และคุณ "ตัวอย่างภายใต้สมมติฐาน" สำหรับเรื่องนั้นอย่างไร ทำการสุ่มตัวอย่างกับข้อมูล สมมติฐานเป็นเรื่องเกี่ยวกับพารามิเตอร์
DWIN

@DWin: ขอบคุณโปรดดูตัวอย่างของฉันเพิ่มลงในคำถามของฉัน
winerd

คำตอบ:


8

วิธีแรกเป็นแบบคลาสสิกและเชื่อถือได้ แต่ไม่สามารถใช้ได้เสมอไป ในการรับตัวอย่างบูตสแตรปสมมติว่าสมมติฐานว่างคุณต้องเต็มใจที่จะสมมติการกระจายเชิงทฤษฎีให้ถือ ( นี่คือตัวเลือกแรกของคุณ ) หรือสมมติว่าสถิติที่คุณสนใจมีรูปร่างกระจายตัวแบบเดียวกันเมื่อเปลี่ยนเป็นสมมติฐานว่าง ( ตัวเลือกที่สองของคุณ ) ตัวอย่างเช่นภายใต้สมมติฐานปกติการแจกแจงแบบ t มีรูปร่างเหมือนกันเมื่อเลื่อนไปที่ค่าเฉลี่ยอื่น อย่างไรก็ตามเมื่อเปลี่ยนความถี่ว่าง 0.5 ของการแจกแจงทวินามเป็น 0.025 ก็จะเปลี่ยนรูปร่าง

จากประสบการณ์ของฉันมิฉะนั้นในกรณีที่คุณยินดีที่จะตั้งสมมติฐานเหล่านี้คุณมักจะมีตัวเลือกอื่น ๆ ในตัวอย่างของคุณ 1) ที่คุณคิดว่าทั้งสองตัวอย่างอาจมาจากประชากรฐานเดียวกันการทดสอบการเปลี่ยนรูปจะดีกว่าในความคิดของฉัน

มีตัวเลือกอื่น (ซึ่งคุณน่าจะเป็นตัวเลือกที่สองของคุณ) ซึ่งขึ้นอยู่กับช่วงความมั่นใจในการบูตบู๊ต โดยทั่วไปสิ่งนี้จะถือว่าหากความครอบคลุมที่คุณระบุไว้มีความสำคัญในระดับα เทียบเท่ากับสมมติฐานว่างที่ไม่รวมอยู่ใน (1-α)ช่วงเวลาที่มั่นใจ ดูตัวอย่างคำถามนี้ความแตกต่างระหว่างช่วงความมั่นใจและการทดสอบสมมติฐานคืออะไร

นี่เป็นวิธีการที่ยืดหยุ่นมากและสามารถใช้ได้กับการทดสอบหลายประเภท อย่างไรก็ตามมันสำคัญมากที่ต้องสร้างช่วงความมั่นใจในการบูตที่ดีและไม่ใช่เพียงแค่ใช้การประมาณค่าแบบ Wald หรือวิธีเปอร์เซ็นต์ไทล์ ข้อมูลบางอย่างอยู่ที่นี่: ช่วงความมั่นใจตาม Bootstrap


1
คำตอบที่ดี ดังนั้นตัวเลือกที่สองนั้นต้องการความสมมาตรใช่ไหม? สมมติว่าค่าเฉลี่ยของช่วงความมั่นใจของคุณมีค่ามากกว่า 0 และคุณกำลังพิจารณาว่า H ไม่ควรเป็น 0 จากนั้นให้ดูว่า 0 อยู่ในช่วงความมั่นใจของคุณแตกต่างจากการดูว่าค่าเฉลี่ยเป็นอย่างไรมากที่สุด สิ่งเหล่านี้อยู่ในสองทิศทางที่แตกต่างกันหากคุณคิดว่าคุณกำลังเปลี่ยนช่วงความเชื่อมั่น)
michal

@erik เพิ่งเริ่มให้รางวัลกับคำถามที่คล้ายกัน - ซึ่งโดยทั่วไปแล้วจะเป็นรุ่นที่มีลมแรงของความคิดเห็นข้างต้น - เมื่อตัวเลือกที่ 2 สามารถใช้ได้และอยู่ภายใต้เงื่อนไขใด stats.stackexchange.com/questions/175659/…
Xavier Bourret Sicotte
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.