bootstrap p-values ​​ที่ไม่ใช่พารามิเตอร์เทียบกับช่วงความมั่นใจ


11

บริบท

มันค่อนข้างคล้ายกับคำถามนี้แต่ฉันไม่คิดว่ามันจะซ้ำกันแน่นอน

เมื่อคุณมองหาคำแนะนำเกี่ยวกับวิธีการทดสอบสมมติฐานบู๊ตสแตรปมันมักจะกล่าวว่ามันเป็นเรื่องปกติที่จะใช้การแจกแจงเชิงประจักษ์สำหรับช่วงความเชื่อมั่น แต่คุณต้องบูตสแตรปจากการกระจายภายใต้สมมติฐานว่างเพื่อให้ได้ ราคา. เป็นตัวอย่างดูคำตอบที่ยอมรับสำหรับคำถามนี้ การค้นหาทั่วไปบนอินเทอร์เน็ตส่วนใหญ่ดูเหมือนจะเป็นคำตอบที่คล้ายกัน

เหตุผลที่ไม่ใช้ค่า p ตามการกระจายเชิงประจักษ์คือส่วนใหญ่เราไม่มีค่าคงที่การแปล

ตัวอย่าง

ขอยกตัวอย่างสั้น ๆ เรามีเหรียญและเราต้องการทดสอบด้านเดียวเพื่อดูว่าความถี่ของหัวใหญ่กว่า 0.5 หรือไม่

เราทำการทดลองและรับหัว จริง p-value สำหรับการทดสอบนี้จะเป็น0.058n=20k=14พี=0.058

ในทางกลับกันถ้าเราบูต 14 จาก 20 หัวของเราเราได้อย่างมีประสิทธิภาพตัวอย่างจากการกระจายทวินามกับและ\ การเลื่อนการกระจายตัวนี้โดยการลบ 0.2 เราจะได้ผลลัพธ์ที่มีนัยสำคัญแทบเมื่อทดสอบค่าที่สังเกตได้ของเราที่ 0.7 กับการกระจายเชิงประจักษ์ที่ได้รับn=20พี=1420=0.7

ในกรณีนี้ความคลาดเคลื่อนมีขนาดเล็กมาก แต่จะมีขนาดใหญ่ขึ้นเมื่ออัตราความสำเร็จที่เราทดสอบเทียบได้ใกล้เคียงกับ 1

คำถาม

ตอนนี้ให้ฉันมาถึงจุดที่แท้จริงของคำถามของฉัน: ข้อบกพร่องเดียวกันมากยังถือเป็นช่วงความมั่นใจ ในความเป็นจริงถ้าเป็นช่วงความเชื่อมั่นที่มีระดับความเชื่อมั่นที่ระบุไว้แล้วช่วงความเชื่อมั่นไม่ได้มีพารามิเตอร์ที่อยู่ภายใต้สมมติฐานที่เทียบเท่ากับการปฏิเสธสมมติฐานในระดับความสำคัญของ\α1-α

ทำไมช่วงความเชื่อมั่นที่ยึดตามการกระจายเชิงประจักษ์ได้รับการยอมรับอย่างกว้างขวางและค่า p ไม่เป็นเช่นนั้น?

มีเหตุผลที่ลึกกว่าหรือเป็นคนที่ไม่อนุรักษ์นิยมกับช่วงความมั่นใจหรือไม่?

ในคำตอบนี้Peter Dalgaard ให้คำตอบที่ดูเหมือนจะเห็นด้วยกับข้อโต้แย้งของฉัน เขาพูดว่า:

ไม่มีอะไรผิดปกติโดยเฉพาะอย่างยิ่งเกี่ยวกับเหตุผลในบรรทัดนี้หรืออย่างน้อยก็ไม่มากไปกว่าการคำนวณ CI

(มาก) มาจากไหน? มันบอกเป็นนัยว่าการสร้างค่า p ด้วยวิธีนั้นแย่กว่าเล็กน้อย แต่ไม่ได้อธิบายรายละเอียดอย่างชัดเจน

ความคิดสุดท้าย

นอกจากนี้ในAn Introduction to Bootstrapโดย Efron และ Tibshirani พวกเขาอุทิศพื้นที่จำนวนมากให้กับช่วงความเชื่อมั่น แต่ไม่ให้ค่า p เว้นแต่ว่าพวกเขาจะถูกสร้างขึ้นภายใต้การแจกแจงสมมติฐานที่ถูกต้อง ช่วงความเชื่อมั่นและค่า p ในบทที่เกี่ยวกับการทดสอบการเปลี่ยนแปลง

ให้เรากลับมาที่คำถามแรกที่ฉันเชื่อมโยง ฉันเห็นด้วยกับคำตอบของ Michael Chernick แต่อีกครั้งเขายังยืนยันว่าทั้งช่วงความมั่นใจและค่า p ตามการกระจาย bootstrap เชิงประจักษ์ไม่น่าเชื่อถือเท่ากันในบางสถานการณ์ มันไม่ได้อธิบายว่าทำไมคุณถึงพบว่ามีคนมากมายบอกคุณว่าช่วงเวลานั้นโอเค แต่ค่า p ไม่ได้


ฉันกำลังเริ่มรับความโปรดปรานจากคำถามนี้เพราะฉันสนใจที่จะรับความกระจ่างในวิธีและเวลาที่ bootstrap CIs สามารถใช้เพื่อยอมรับ / ปฏิเสธสมมติฐานได้ บางทีคุณสามารถใช้ถ้อยคำใหม่ / ฟอร์แมตคำถามใหม่เพื่อให้กระชับและน่าสนใจมากขึ้น? ขอบคุณมาก!
Xavier Bourret Sicotte

ฉันคิดว่าคนส่วนใหญ่จะยอมรับว่าเมื่อมีการใช้สมมติฐานต่อไปนี้แล้วใช้ CI สำหรับการทดสอบสมมติฐานก็โอเค: การแจกแจงแบบสมมาตรของสถิติการทดสอบสถิติการทดสอบสำคัญการใช้ CLT การใช้พารามิเตอร์รำคาญหรือไม่กี่ แต่สิ่งที่เกิดขึ้นเมื่อสถิติ แปลกหรือไม่ได้รับการพิสูจน์ว่าเป็นการพิจาณา นี่คือตัวอย่างจริงที่ฉันกำลังทำงาน: เช่นสองตัวอย่างที่แตกต่างกันระหว่างเปอร์เซนต์ไทล์ 75 ของสถิติอัตราส่วน (อัตราส่วนของผลรวมสอง)
Xavier Bourret Sicotte

ไม่ใช่คำตอบง่ายๆที่ชัดเจนว่าจะสุ่มตัวอย่างภายใต้สมมติฐานว่างได้อย่างไรจึงมีวิธีอื่นที่ดีกว่าอย่างเห็นได้ชัด การสุ่มตัวอย่างภายใต้ bootstrap มักเกิดขึ้นภายใต้การแจกแจงเชิงประจักษ์ดังนั้นกลไกการสร้างข้อมูลที่แท้จริงดังนั้นจึงไม่ควรใช้อย่างชัดเจนแทนการสุ่มตัวอย่างภายใต้ค่า null bootstrapped CI พบได้จากการแปลงการกระจายตัวตัวอย่างภายใต้กลไกการสร้างข้อมูลที่แท้จริง เป็นเรื่องจริงที่ CI นี้อาจทำงานได้ไม่ดีนัก แต่อย่างที่ Dalgaard กล่าวว่าไม่จำเป็นต้องมีวิธีการแก้ไขที่ชัดเจน
jsk

ฉันควรชี้แจงว่าการกระจายเชิงประจักษ์เป็นเพียงการประมาณกลไกการสร้างข้อมูลที่แท้จริง ขอบเขตที่ไม่ได้เป็นตัวแทนของความจริงในเชิงลบจะส่งผลกระทบในเชิงลบต่อ bootstrapped CI ในทิศทางที่ไม่รู้จักนำไปสู่การครอบคลุมน้อยกว่า 95%
jsk

1
การสุ่มตัวอย่างภายใต้ค่า null นั้นชัดเจนเมื่อการทดสอบมีความแตกต่างของค่าเฉลี่ย แต่ในหลายกรณีมันไม่ชัดเจนว่าจะทำซ้ำค่า null ได้อย่างไรตัวอย่างเช่นค่า null คือเปอร์เซ็นต์เปอร์เซ็นที่ 75 ของสองอัตราส่วนนั้นเหมือนกันอย่างไร ฉันจะเลื่อนตัวเศษและอัตราส่วนในแต่ละตัวอย่างเพื่อให้ได้ นอกจากนี้ฉันจะแน่ใจได้อย่างไรว่าการเปลี่ยนองค์ประกอบของอัตราส่วนนั้นจะทำให้เกิดผลเป็นโมฆะจริง ๆ
Xavier Bourret Sicotte

คำตอบ:


3

ในฐานะ @MichaelChernick กล่าวว่าในการตอบสนองต่อความคิดเห็นเกี่ยวกับคำตอบของเขาสำหรับคำถามที่เชื่อมโยง :

มีการติดต่อกัน 1-1 โดยทั่วไประหว่างช่วงความมั่นใจและการทดสอบสมมติฐาน ตัวอย่างเช่นช่วงความมั่นใจ 95% สำหรับพารามิเตอร์รุ่นแสดงถึงภูมิภาคที่ไม่ถูกปฏิเสธสำหรับการทดสอบสมมติฐานระดับ 5% ที่สอดคล้องกันเกี่ยวกับค่าของพารามิเตอร์นั้น ไม่มีข้อกำหนดเกี่ยวกับรูปร่างของการแจกแจงของประชากร เห็นได้ชัดว่ามันใช้กับช่วงความเชื่อมั่นโดยทั่วไปมันจะนำไปใช้กับช่วงความเชื่อมั่น bootstrap

ดังนั้นคำตอบนี้จะอยู่ที่สองประเด็นที่เกี่ยวข้อง: (1) เหตุผลที่นำเสนออาจของผลการบูตดูเหมือนบ่อยครั้งมากขึ้นเพื่อระบุช่วงความเชื่อมั่น (CI) มากกว่าพี -values ตามที่แนะนำในคำถามและ (2) เมื่อทั้งสองอาจP -values และ CI ที่พิจารณาโดย bootstrap นั้นสงสัยว่าไม่น่าเชื่อถือดังนั้นจึงต้องมีแนวทางอื่น

ฉันไม่ทราบข้อมูลที่สนับสนุนการอ้างสิทธิ์ในคำถามนี้ในประเด็นแรกโดยเฉพาะ บางทีในทางปฏิบัติหลาย ๆ จุดที่ได้มาจาก bootstrap คือ (หรืออย่างน้อยก็ดูเหมือนจะ) จนถึงขอบเขตการตัดสินใจทดสอบว่ามีความสนใจเพียงเล็กน้อยในค่าpของค่าของสมมติฐานว่างที่สอดคล้องกันโดยมีความสนใจหลักในการประเมินจุดเองและ การวัดที่เหมาะสมของขนาดของความแปรปรวนที่เป็นไปได้

ด้วยความเคารพต่อประเด็นที่สองการใช้งานจริงจำนวนมากเกี่ยวข้องกับ "การกระจายสมมาตรของสถิติการทดสอบสถิติการทดสอบที่สำคัญการใช้ CLT ไม่มีพารามิเตอร์รำคาญหรือไม่กี่ ฯลฯ " (ตามที่แสดงความคิดเห็นโดย @XavierBourretSicotte ข้างต้น) จากนั้นคำถามก็จะกลายเป็นวิธีการตรวจสอบความเบี่ยงเบนที่อาจเกิดขึ้นจากเงื่อนไขเหล่านี้และวิธีการจัดการกับพวกเขาเมื่อพวกเขาเกิดขึ้น

การเบี่ยงเบนที่เป็นไปได้เหล่านี้จากพฤติกรรมในอุดมคติได้รับการชื่นชมมานานหลายทศวรรษด้วยวิธี bootstrap CI หลายวิธีที่พัฒนาขึ้นตั้งแต่ต้นเพื่อจัดการกับพวกเขา Studentized bootstrap ช่วยจัดทำสถิติการพิจาณาและวิธี BCa เกี่ยวข้องกับทั้งความเอนเอียงและความเบ้ในแง่ของการได้รับ CI ที่เชื่อถือได้มากขึ้นจาก bootstraps การเปลี่ยนแปลงความแปรปรวนของความแปรปรวนของข้อมูลก่อนกำหนด CI ที่บูตแล้วตามด้วยการแปลงสภาพกลับสู่ระดับเดิมก็สามารถช่วยได้เช่นกัน

ตัวอย่างในคำถามนี้เกี่ยวกับการสุ่มตัวอย่างจาก 14 หัวจาก 20 โยนจากเหรียญที่ยุติธรรมได้รับการจัดการอย่างดีโดยใช้ CI จากวิธี BCa; ใน R:

> dat14 <- c(rep(1,14),rep(0,6))
> datbf <- function(data,index){d <- data[index]; sum(d)}
> set.seed(1)
> dat14boot <- boot(dat14,datbf,R=999)
> boot.ci(dat14boot)
BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
Based on 999 bootstrap replicates

CALL : 
boot.ci(boot.out = dat14boot)

Intervals : 
Level      Normal              Basic         
95%     (9.82, 18.22 )   (10.00, 18.00 )  

Level     Percentile            BCa          
95%       (10, 18 )         ( 8, 17 )  
Calculations and Intervals on Original Scale

ประมาณการ CI อื่น ๆ ก่อให้เกิดปัญหาที่ระบุไว้ว่าอยู่ใกล้มากหรือใกล้กับขอบของค่าประชากร 10 หัวต่อการโยน 20 ครั้ง บัญชี BCa CI สำหรับความเบ้ (ตามที่ได้รับการแนะนำโดยการสุ่มตัวอย่างแบบทวินามห่างจากอัตราต่อรองได้) ดังนั้นพวกเขาจึงรวมถึงค่าประชากร 10

แต่คุณต้องมองหาการเบี่ยงเบนดังกล่าวจากพฤติกรรมในอุดมคติก่อนที่คุณจะสามารถใช้ประโยชน์จากโซลูชั่นเหล่านี้ได้ ในการฝึกฝนเชิงสถิติมากมายการดูข้อมูลมากกว่าการเสียบเข้ากับอัลกอริทึมอาจเป็นกุญแจสำคัญได้ ตัวอย่างเช่นคำถามนี้เกี่ยวกับ CI สำหรับผลลัพธ์บูตสแตรปแสดงผลลัพธ์สำหรับ 3 CI แรกที่แสดงในรหัสข้างต้น แต่ไม่รวม BCa CI เมื่อฉันพยายามสร้างการวิเคราะห์ที่แสดงในคำถามนั้นเพื่อรวม BCa CI ฉันได้ผลลัพธ์:

> boot.ci(boot(xi,H.boot,R=1000))
Error in bca.ci(boot.out, conf, index[1L], L = L, t = t.o, t0 = t0.o,  : 
estimated adjustment 'w' is infinite

ที่ 'w' เกี่ยวข้องในการแก้ไขอคติ สถิติที่กำลังตรวจสอบมีค่าสูงสุดคงที่และการประมาณปลั๊กอินที่บูตสแตรปก็มีอคติโดยเนื้อแท้เช่นกัน การได้รับผลลัพธ์เช่นนั้นควรระบุว่าข้อสันนิษฐานทั่วไปที่อยู่ภายใต้ bootstrapped CI นั้นถูกละเมิด

การวิเคราะห์ปริมาณการพิจาณาหลีกเลี่ยงปัญหาดังกล่าว; แม้ว่าการกระจายเชิงประจักษ์จะไม่สามารถมีสถิติที่เป็นประโยชน์ได้อย่างเด็ดขาด แต่การเข้าใกล้ความสมเหตุสมผลเป็นเป้าหมายสำคัญ ย่อหน้าสุดท้ายของคำตอบนี้ให้ลิงก์ไปยังเครื่องช่วยเพิ่มเติมเช่นจุดหมุนเพื่อประเมินผ่าน bootstrap ไม่ว่าจะเป็นสถิติ (อาจเกิดขึ้นหลังจากการแปลงข้อมูลบางอย่าง) ใกล้เคียงกับจุดสำคัญและมีราคาแพง แต่อาจแตกหัก


ขอบคุณ edm! หากมี 1-1 rekation ระหว่าง CI และการทดสอบสมมติฐาน - แล้วทำไมการทดสอบ bootstrap มักจะเกี่ยวข้องกับการขยับชุดข้อมูลเพื่อทำซ้ำโมฆะ? โดยการทำเช่นนั้นเราจะไม่ได้ผลลัพธ์ที่แตกต่างจากสิ่งที่เราจะได้รับโดยการคำนวณ CI ของการกระจายความแตกต่างตัวอย่างเช่น
Xavier Bourret Sicotte

@ XavierBourretSicotte ฉันไม่คิดว่ามันค่อนข้างถูกต้องว่า "การทดสอบบูตสแตรปมักจะเกี่ยวข้องกับการเปลี่ยนชุดข้อมูลเพื่อทำซ้ำโมฆะ" ตัวอย่าง Bootstrap แต่ละอันเป็นความพยายามในการทำซ้ำการสุ่มตัวอย่าง / การทดลองดั้งเดิมโดยใช้ตัวอย่างในมือเพื่อเป็นตัวแทนประชากรพื้นฐาน ถ้าสถิติที่เป็นปัญหานั้นไม่สำคัญ แต่อย่างใด CI ที่พัฒนาขึ้นจากตัวอย่าง bootstrapped จะไม่ได้เป็นตัวแทนของ CI ที่พัฒนาจากประชากรที่อยู่ภายใต้ ดังนั้นคุณจำเป็นต้องแก้ไขการกระจายตัวของสถิติไปสู่สิ่งที่มันจะได้รับภายใต้โมฆะด้วย BCa หรือวิธีการอื่น ๆ
EdM
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.