ถ้าการกระจายตัวของสถิติทดสอบเป็น bimodal, p-value จะมีความหมายอะไรไหม?


12

P-value ถูกกำหนดความน่าจะเป็นที่จะได้รับสถิติการทดสอบอย่างน้อยที่สุดเท่าที่จะสังเกตได้โดยสมมติว่าสมมติฐานว่างเป็นจริง ในคำอื่น ๆ

P(Xt|H0)
แต่จะเป็นอย่างไรถ้าสถิติการทดสอบนั้นมีค่า bimodal ในการแจกแจง? p-value มีความหมายอะไรในบริบทนี้หรือไม่? ตัวอย่างเช่นฉันจะจำลองข้อมูล bimodal ใน R:
set.seed(0)
# Generate bi-modal distribution
bimodal <- c(rnorm(n=100,mean=25,sd=3),rnorm(n=100,mean=100,sd=5)) 
hist(bimodal, breaks=100)

ป้อนคำอธิบายรูปภาพที่นี่

และสมมติว่าเราสังเกตค่าสถิติทดสอบ 60 และที่นี่เรารู้จากภาพค่านี้ไม่น่ามาก ดังนั้นฉันต้องการให้ขั้นตอนสถิติที่ฉันใช้ (พูด p-value) เปิดเผยสิ่งนี้ แต่ถ้าเราคำนวณค่า p ตามที่กำหนดเราจะได้ค่าสูงมาก

observed <- 60

# Get P-value
sum(bimodal[bimodal >= 60])/sum(bimodal)
[1] 0.7991993

หากฉันไม่ทราบว่าการแจกแจงฉันจะสรุปได้ว่าสิ่งที่ฉันสังเกตคือการสุ่มโดยบังเอิญ แต่เรารู้ว่านี่ไม่เป็นความจริง

ฉันเดาคำถามที่ฉันมีคือ: ทำไมเมื่อคำนวณ p-value เราคำนวณความน่าจะเป็นของค่าต่างๆอย่างน้อยที่สุดเท่าที่สังเกต และถ้าฉันเจอสถานการณ์แบบเดียวกับที่ฉันจำลองไว้ข้างต้นโซลูชันทางเลือกคืออะไร?


7
ยินดีต้อนรับสู่โลกมหัศจรรย์ของ Null Hypothesis Significance Testing! อย่างจริงจัง: ฉันไม่สามารถนึกถึงสถิติทดสอบที่มีการแจกแจงแบบ bimodal ภายใต้สมมติฐานว่าง (ซึ่งเป็นสิ่งที่เราใส่ใจใน NHST) ดังนั้น +1 สำหรับคำถามที่น่าสนใจ แต่ฉันสงสัยว่ามันเกี่ยวข้องกับการปฏิบัติจริงหรือไม่เว้นแต่คุณจะมีตัวอย่างเฉพาะอยู่ในใจ
Stephan Kolassa

1
ฉันเห็นด้วยกับ @StephanKolassa; มีการแจกแจงของข้อมูลที่เป็น bimodal แต่สถิติการทดสอบประเภทใด
Peter Flom - Reinstate Monica

7
ฉันไม่เห็นด้วยกับลักษณะของค่า p ที่แนะนำโดยสูตรแรก ความรู้สึกที่ถูกต้องของ "อย่างน้อยที่สุด" ในทฤษฎีของเนย์แมน - เพียร์สันอยู่ในแง่ของความน่าจะเป็นและไม่ใช่ในแง่ของการสั่งซื้อตามปกติของ reals (ตามที่ระบุไว้ในสูตร) ทั้งสองมีความเท่าเทียมกันในหลาย ๆ สถานการณ์การทดสอบมาตรฐาน แต่แตกต่างกันอย่างมากเมื่อการกระจายตัวตัวอย่างเป็น bimodal ความแตกต่างนี้จะแก้ไขปัญหาได้อย่างน่าพอใจฉันคิดว่า
whuber

@whuber คุณช่วยอธิบายเกี่ยวกับเรื่องนี้หน่อยได้ไหมกับตัวอย่างง่ายๆ?
Szabolcs

2
@Sababcs ปล่อยให้เป็นรุ่นเบต้าและสำหรับปล่อยให้ผสมกันเท่ากับและ ( ) รูปแบบไฟล์ PDF ของเป็นชุดในขณะที่รูปแบบไฟล์ PDF ของการพูด,เป็น bimodal มียอดที่1/2 สมมติว่าF_ เขตการปฏิเสธสำหรับการทดสอบ LRของเทียบกับประกอบด้วยสองช่วงห่างจากสุดขั้วหนึ่งรอบGθ(θ,θ)θ1Fθ(x)Gθ(x)Gθ(x)x[1,1]F1F2±1/2XFθH0:XF1 HA:XF21 / 2 - 1 / 2 θ = 2±11/2และอีกรอบเนื่องจากหลักฐานสำหรับนั้นแข็งแกร่งที่สุด 1/2θ=2
whuber

คำตอบ:


5

สิ่งที่ทำให้สถิติการทดสอบ "สุดขีด" นั้นขึ้นอยู่กับทางเลือกของคุณซึ่งกำหนดให้มีการสั่งซื้อ (หรืออย่างน้อยก็เป็นคำสั่งบางส่วน) ในพื้นที่ตัวอย่าง - คุณพยายามที่จะปฏิเสธกรณีเหล่านั้นที่สอดคล้องกันมากที่สุด ทางเลือก

เมื่อคุณไม่ได้จริงๆมีทางเลือกที่จะทำให้คุณมีบางสิ่งบางอย่างเพื่อให้สอดคล้องมากที่สุดกับคุณซ้ายเป็นหลักที่มีความเป็นไปได้ที่จะให้การสั่งซื้อส่วนใหญ่มักจะเห็นในการทดสอบที่แน่นอนฟิชเชอร์ ที่นั่นความน่าจะเป็นของผลลัพธ์ (ตาราง 2x2) ภายใต้ null จะสั่งสถิติการทดสอบ (เพื่อให้ 'สุดขีด' คือ 'ความน่าจะเป็นต่ำ')

หากคุณอยู่ในสถานการณ์ที่การกระจายตัวโมฆะ bimodal เป็นโมฆะไปทางซ้ายสุด (หรือขวาสุดหรือทั้งสองอย่าง) มีความสัมพันธ์กับทางเลือกอื่น ๆ ที่คุณสนใจคุณจะไม่พยายามปฏิเสธสถิติทดสอบ 60 คุณอยู่ในสถานการณ์ที่คุณไม่มีทางเลือกเช่นนั้นดังนั้น 60 นั้นไม่น่าเป็นไปได้ - มันมีโอกาสน้อย ค่า 60 ไม่สอดคล้องกับรุ่นของคุณและจะนำคุณไปสู่การปฏิเสธ

[สิ่งนี้จะเห็นได้ว่าบางคนเป็นความแตกต่างสำคัญอย่างหนึ่งระหว่างการทดสอบสมมติฐานฟิชเชอร์กับ Neyman-Pearson ด้วยการแนะนำทางเลือกที่ชัดเจนและอัตราส่วนของความน่าจะเป็นโอกาสที่ต่ำภายใต้ค่า Null นั้นไม่จำเป็นว่าคุณจะต้องปฏิเสธในกรอบการทำงานของ Neyman-Pearson คุณไม่มีทางเลือกและความเป็นไปได้ที่จะเป็นสิ่งที่คุณสนใจ]

ฉันไม่ได้แนะนำวิธีการใดถูกหรือผิดที่นี่ - คุณไปข้างหน้าและทำงานให้กับตัวเองชนิดของทางเลือกที่คุณแสวงหาอำนาจไม่ว่าจะเป็นวิธีเฉพาะหรือสิ่งที่ไม่น่าพอภายใต้ null เมื่อคุณรู้ว่าคุณต้องการอะไรส่วนที่เหลือ (รวมถึงความหมายของ 'อย่างน้อยที่สุดก็สุดโต่ง') ก็จะตามมาจากนั้น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.