ข้อสมมติฐานเชิงบรรทัดฐานอะไรบ้างที่จำเป็นสำหรับการทดสอบแบบไม่มีคู่ แล้วพวกเขาจะพบกันเมื่อไหร่?


12

หากเราต้องการทำการทดสอบแบบจับคู่ความต้องการคือ (ถ้าฉันเข้าใจอย่างถูกต้อง) ว่าความแตกต่างเฉลี่ยระหว่างหน่วยการวัดที่ตรงกันจะถูกกระจายตามปกติ

ในการทดสอบ t-test แบบคู่ซึ่งเป็นข้อต่อ (AFAIK) ในความต้องการว่าความแตกต่างระหว่างหน่วยการวัดที่ตรงกันจะถูกกระจายตามปกติ (แม้ว่าการกระจายตัวของกลุ่มเปรียบเทียบทั้งสองกลุ่มจะไม่ปกติ)

อย่างไรก็ตามในการทดสอบแบบไม่จับคู่เราไม่สามารถพูดคุยเกี่ยวกับความแตกต่างระหว่างหน่วยที่ตรงกันดังนั้นเราต้องการให้การสังเกตจากทั้งสองกลุ่มเป็นเรื่องปกติเพื่อให้ความแตกต่างของค่าเฉลี่ยของพวกเขาเป็นเรื่องปกติ ซึ่งทำให้ฉันคำถามของฉัน:

เป็นไปได้หรือไม่สำหรับการแจกแจงแบบไม่ปกติสองแบบเพื่อให้ความแตกต่างของค่าเฉลี่ยถูกกระจายตามปกติ (และตอบสนองความต้องการที่จำเป็นของเราในการดำเนินการทดสอบ t ที่ไม่มีคู่กับพวกเขา - อีกครั้ง - เท่าที่ฉันเข้าใจ)

อัปเดต: (ขอบคุณทุกคำตอบ) ฉันเห็นว่ากฎทั่วไปที่เรากำลังมองหาคือความแตกต่างของค่าเฉลี่ยจะเป็นเรื่องปกติซึ่งน่าจะเป็นข้อสันนิษฐานที่ดี (ต่ำกว่าพอ n) เนื่องจาก CLT นี่เป็นสิ่งที่น่าอัศจรรย์สำหรับฉัน (ไม่น่าแปลกใจเพียงแค่น่าอัศจรรย์) สำหรับวิธีการนี้สำหรับการทดสอบแบบไม่ใช้คู่ แต่ไม่ได้ผลสำหรับการทดสอบตัวอย่างแบบเดี่ยว นี่คือรหัส R เพื่อแสดง:

n1 <- 10
n2 <- 10
mean1 <- 50
mean2 <- 50
R <- 10000

# diffs <- replicate(R, mean(rexp(n1, 1/mean1)) - mean(runif(n2, 0, 2*mean2)))
# hist(diffs)

P <- numeric(R)
MEAN <- numeric(R)
for(i in seq_len(R))
{
    y1 <- rexp(n1, 1/mean1)
    y2 <- runif(n2, 0, 2*mean2)
    MEAN[i] <- mean(y1) - mean(y2)
    P[i] <- t.test(y1,y2)$p.value
}
# diffs <- replicate(R, mean(rexp(n1, 1/mean1)) - mean(runif(n2, 0, 2*mean2)))
par(mfrow = c(1,2))
hist(P)
qqplot(P, runif(R)); abline(0,1)
sum(P<.05) / R # for n1=n2=10 -> 0.0715 # wrong type I error, but only for small n1 and n2 (for larger ones, this effect disappears)



n1 <- 100
mean1 <- 50
R <- 10000
P_y1 <- numeric(R)

for(i in seq_len(R))
{
    y1 <- rexp(n1, 1/mean1)
    P_y1[i] <- t.test(y1 , mu = mean1)$p.value
}

par(mfrow = c(1,2))
hist(P_y1)
qqplot(P_y1, runif(R)); abline(0,1)
sum(P_y1<.05) / R # for n1=n2=10 -> 0.057  # "wrong" type I error

ขอบคุณ


5
แน่นอนค่ะ ให้เป็นตัวอย่าง iid bivariate ของคุณ ให้มีพลกระจายและใช้ที่มี IID2) (Xi,Yi) FXiF { Z i } N N ( 0 , σ 2 )Yi=Xi+Zi{Zi}N(0,σ2)
พระคาร์ดินัล

คำตอบ:


17

ในทางปฏิบัติทฤษฎีขีด จำกัด กลางทำให้เรามั่นใจว่าภายใต้สมมติฐานที่หลากหลายการแจกแจงของตัวอย่างทั้งสองหมายความว่าการทดสอบจะเข้าหาการแจกแจงแบบปกติเมื่อขนาดตัวอย่างใหญ่ขึ้นโดยไม่คำนึงถึง (นี่คือที่มาของสมมติฐาน) การแจกแจงของข้อมูลพื้นฐาน ด้วยเหตุนี้เมื่อขนาดของกลุ่มตัวอย่างใหญ่ขึ้นความแตกต่างของค่าเฉลี่ยจะกลายเป็นการแจกแจงแบบปกติและข้อกำหนดที่จำเป็นสำหรับสถิติ t-t ของ t-test แบบไม่มีคู่ซึ่งมีการแจกแจงค่า t เล็กน้อย ดังนั้นคำถามที่ใช้งานได้จริงอาจเป็นไปได้ขนาดตัวอย่างต้องมีขนาดใหญ่แค่ไหนก่อนที่ฉันจะสามารถเพิกเฉยต่อความแตกต่างระหว่างการกระจายตัวจริงของสถิติและการแจกแจงที

ในหลายกรณีคำตอบคือ "ไม่ใหญ่มาก" โดยเฉพาะอย่างยิ่งเมื่อการแจกแจงพื้นฐานใกล้เคียงกับสมมาตร ตัวอย่างเช่นฉันจำลองการทดสอบ 100,000 ครั้งเปรียบเทียบวิธีการแจกแจงชุดเครื่องแบบ (0,1) สองชุดแต่ละชุดมีขนาดตัวอย่าง 10 และเมื่อทดสอบที่ระดับความเชื่อมั่น 95% ปฏิเสธจริงแล้วโมฆะ 5.19% ของเวลา - แตกต่างกันเล็กน้อย จากอัตราการปฏิเสธ 5% เล็กน้อยที่เราหวังไว้ (แม้ว่าจะเป็นค่าเบี่ยงเบนมาตรฐานประมาณ 2.7 สูงกว่า 5%)

นี่คือเหตุผลที่ผู้คนใช้การทดสอบ t ในทุกสถานการณ์ที่สมมติฐานไม่ตรงตามจริง แต่แน่นอนว่าระยะของคุณอาจแตกต่างกันไปขึ้นอยู่กับลักษณะเฉพาะของปัญหาของคุณ อย่างไรก็ตามมีการทดสอบอื่น ๆ ที่ไม่ต้องการ Normality เช่นการทดสอบ Wilcoxon ซึ่งแม้เมื่อข้อมูลถูกแจกจ่ายตามปกติคือ asymptotically ประมาณ 95% มีประสิทธิภาพเท่ากับการทดสอบ t (เช่นต้องใช้ขนาดตัวอย่าง ของ N / 0.95 เพื่อให้มีอำนาจเช่นเดียวกับ t-test ที่มีขนาดตัวอย่างของ N เป็น N ไปที่อินฟินิตี้) เมื่อข้อมูลไม่ได้ถูกกระจายตามปกติมันจะดีกว่าการทดสอบ t


6
จากประสบการณ์ของฉันขนาดของตัวอย่างที่จำเป็นสำหรับการแจกแจงแบบนั้นแม่นยำมักจะใหญ่กว่าขนาดตัวอย่างในมือ การทดสอบ Wilcoxon ที่ได้รับการจัดอันดับนั้นมีประสิทธิภาพอย่างที่คุณพูดและมีความทนทานดังนั้นฉันจึงมักจะชอบมากกว่าการทดสอบttt
Frank Harrell

ขอบคุณ Frank - ความคิดเห็นของคุณช่วยให้ฉันสามารถระบุคำถามที่ใกล้เคียงกับสิ่งที่ฉันเป็น: stats.stackexchange.com/questions/19681/…
Tal Galili

1

แน่นอน. หากไม่เป็นเช่นนั้นตัวอย่างอิสระ t-test จะไม่ใช้งานมากนัก เราต้องการตัวอย่างขนาดที่ใหญ่กว่าจริง ๆ เพราะสำหรับเราที่จะทดสอบความแตกต่างของค่าเฉลี่ยระหว่างประชากรสองกลุ่มที่ไม่ใช่คนปกติเราจำเป็นต้องดึงดูด CLT

สำหรับตัวอย่างรวดเร็วสมมติว่าเรามีประชากร 1 มาจากเลขชี้กำลังด้วยค่าเฉลี่ย 25 ​​และประชากร 2 ถูกกระจายอย่างสม่ำเสมอด้วยค่าเฉลี่ย 30 เราจะให้ขนาดตัวอย่างที่ต่างกัน เราสามารถตรวจสอบว่าการกระจายของความแตกต่างในตัวอย่างหมายความว่าการใช้ R ค่อนข้างง่ายโดยใช้ฟังก์ชั่นการทำซ้ำ

n1 <- 30
n2 <- 25
mean1 <- 25
mean2 <- 30

diffs <- replicate(10000, mean(rexp(n1, 1/mean1)) - mean(runif(n2, 0, 2*mean2)))
hist(diffs)

การเล่นกับขนาดตัวอย่างจะแสดงว่าที่ขนาดตัวอย่างต่ำเราไม่มีมาตรฐาน แต่การเพิ่มขนาดตัวอย่างจะทำให้เรากระจายการสุ่มตัวอย่างที่ดูเป็นปกติมากขึ้นสำหรับความแตกต่างในค่าเฉลี่ย แน่นอนคุณสามารถเปลี่ยนการแจกแจงที่ใช้ในตัวอย่างนี้เพื่อสำรวจเพิ่มเติม hist (diffs)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.