วิธี Z-คะแนนของ Stouffer: สิ่งที่ถ้าเราสรุป


22

ฉันกำลังทำการทดสอบทางสถิติอิสระด้วยสมมติฐานว่างเดียวกันและต้องการรวมผลลัพธ์เป็นค่าpเดียว มันดูเหมือนว่าจะมีสอง "ได้รับการยอมรับ" วิธีการ: วิธีการฟิชเชอร์และวิธีการของ StoufferNp

คำถามของฉันเกี่ยวกับวิธีการของ Stouffer สำหรับการทดสอบแต่ละแยกต่างหากที่ผมได้รับคะแนน Z- ฉัน ภายใต้สมมติฐานแต่ละของพวกเขามีการกระจายและมีการกระจายแบบปกติมาตรฐานดังนั้นผลรวมΣ Z ฉันต่อไปนี้การแจกแจงแบบปกติที่มีความแปรปรวนN ดังนั้นวิธีของ Stouffer แนะนำให้คำนวณΣ z i / ziΣziNซึ่งควรกระจายตามปกติด้วยความแปรปรวนของหน่วยแล้วใช้สิ่งนี้เป็นคะแนน z ร่วมΣzi/N

นี่เป็นเหตุผล แต่นี่เป็นอีกแนวทางหนึ่งที่ฉันคิดขึ้นและนั่นก็สมเหตุสมผลกับฉันเช่นกัน ในฐานะที่เป็นแต่ละมาจากการกระจายปกติมาตรฐานผลรวมของสี่เหลี่ยมS = Σ Z 2 ฉันควรมาจากการกระจายไคสแควร์กับNองศาอิสระ ดังนั้นเราสามารถคำนวณSและแปลงเป็นp-valueโดยใช้ฟังก์ชันการแจกแจงสะสมแบบ chi-squared ที่มีองศาอิสระN ( p = 1 - X N ( S )โดยที่X Nคือ CDF)ziS=Σzi2NSpNp=1XN(S)XN

อย่างไรก็ตามไม่มีที่ไหนที่ฉันสามารถหาวิธีนี้ได้แม้จะกล่าวถึง เคยใช้ไหม? มันมีชื่อหรือไม่? อะไรคือข้อดี / ข้อเสียเมื่อเทียบกับวิธีของ Stouffer หรือมีข้อบกพร่องในการให้เหตุผลของฉัน?


ข้อบกพร่องหนึ่งที่กระโดดออกมาเป็นวิธีของ Stouffer สามารถตรวจจับการเปลี่ยนแปลงอย่างเป็นระบบในซึ่งเป็นสิ่งที่เรามักจะคาดหวังว่าจะเกิดขึ้นเมื่อมีทางเลือกหนึ่งที่เป็นจริงเสมอในขณะที่วิธีไคสแควร์จะมีพลังน้อยกว่า การจำลองอย่างรวดเร็ว ( N = 100 , 10 4ซ้ำ) แสดงสิ่งนี้เป็นกรณี วิธีไคสแควร์เป็นอย่างจริงจังมีประสิทธิภาพน้อยในการตรวจสอบทางเลือกด้านเดียว ziN=100104
whuber

2
ขอบคุณมาก! คุณช่วยอธิบายการจำลองในรายละเอียดเพิ่มเติมได้ไหมฉันอยากรู้ ในทางตรงกันข้ามถ้ามีอาการแตกต่างกัน แต่ค่าแน่นอนขนาดใหญ่แล้ววิธีการของ Stouffer สามารถจบลงด้วยโดยรวมZ 0ในขณะที่วิธีการของฉันจะรายงานอย่างมีนัยสำคัญมากหน้า ฉันเดาว่าในบางกรณีมันอาจสมเหตุสมผลมากกว่า (และฉันสงสัยว่าในกรณีของฉันทำ แต่ฉันไม่แน่ใจ) ziz0p
อะมีบาพูดว่า Reinstate Monica

1
คุณถูกต้องซึ่งเป็นสาเหตุที่ฉันไม่ได้โพสต์ความคิดเห็นของฉันเป็นคำตอบ แต่มีสถานการณ์แบบไหนบ้างที่ทางเลือกต่างกันอย่างสิ้นเชิงจากโมฆะทั้งสองทิศทางยกเว้นเนื่องจากโอกาสเพียงอย่างเดียว
whuber

สถานการณ์ที่ฉันมีอยู่ในใจคือสิ่งที่เหมือนในการทดสอบไคสแควร์ของเพียร์สันที่หนึ่งมีความสนใจว่าการกระจายเชิงประจักษ์แตกต่างจากโมฆะ จากนั้นเบี่ยงเบนไม่ว่าในทิศทางใด แต่หลังจากให้ความคิดที่สองฉันคิดว่าสัญชาตญาณของคุณถูกต้องและในกรณีของฉันเบี่ยงเบนที่น่าสงสัยทั้งหมดในทิศทางเดียว หากคุณโพสต์ความคิดเห็นของคุณเป็นคำตอบและให้รายละเอียดเกี่ยวกับการจำลองอย่างรวดเร็วของคุณ (ฉันอยากรู้มากว่าทำไมวิธีการไคสแควร์กลายเป็นว่ามีประสิทธิภาพน้อยลง!) ฉันยินดีที่จะยอมรับมัน
อะมีบาพูดว่า Reinstate Monica

ผลรวมของคะแนน n Z มีการแจกแจงที่มีความแปรปรวนเป็น n? ทำไมความแปรปรวนของกำลังสองของความคลาดเคลื่อนมาตรฐานของค่าเฉลี่ยไม่ ผลรวมของตามนัยในชื่อมีความแปรปรวนของ N บางทีฉันอาจจะพลาดอะไรบางอย่างไป Z2
russellpierce

คำตอบ:


17

ข้อบกพร่องอย่างหนึ่งที่กระโดดออกมาคือวิธีของ Stouffer สามารถตรวจจับการเปลี่ยนแปลงอย่างเป็นระบบในซึ่งเป็นสิ่งที่เรามักจะคาดหวังว่าจะเกิดขึ้นเมื่อทางเลือกหนึ่งเป็นจริงอย่างต่อเนื่องในขณะที่วิธีไคสแควร์จะมีพลังน้อยลง การจำลองแบบรวดเร็วแสดงให้เห็นว่าสิ่งนี้เป็นจริง วิธีการไคสแควร์มีประสิทธิภาพน้อยกว่าในการตรวจหาทางเลือกด้านเดียว นี่คือฮิสโทแกรมของค่า p โดยทั้งสองวิธี (สีแดง = Stouffer, สีน้ำเงิน = chi-squared) สำหรับการทำซ้ำ10 5ครั้งโดยอิสระด้วยN = 10และเอฟเฟกต์มาตรฐานด้านเดียวแบบต่างๆμตั้งแต่ไม่มี ( μ = 0 ) ถึง0.6 SD ( μ =zi105N=10μμ=00.6 )μ=0.6

รูป

μ


รหัส R

รวมถึงวิธีการของฟิชเชอร์ (ใส่ความเห็น) เพื่อเปรียบเทียบ

n <- 10
n.iter <- 10^5
z <- matrix(rnorm(n*n.iter), ncol=n)

sim <- function(mu) {
  stouffer.sim <- apply(z + mu, 1, 
                    function(y) {q <- pnorm(sum(y)/sqrt(length(y))); 2*min(q, 1-q)})
  chisq.sim <- apply(z + mu, 1, 
                    function(y) 1 - pchisq(sum(y^2), length(y)))
  #fisher.sim <- apply(z + mu, 1,
  #                  function(y) {q <- pnorm(y); 
  #                     1 - pchisq(-2 * sum(log(2*pmin(q, 1-q))), 2*length(y))})
  return(list(stouffer=stouffer.sim, chisq=chisq.sim, fisher=fisher.sim))
}

par(mfrow=c(2, 3))
breaks=seq(0, 1, .05)
tmp <- sapply(c(0, .1, .2, .3, .4, .6), 
              function(mu) {
                x <- sim(mu); 
                hist(x[[1]], breaks=breaks, xlab="p", col="#ff606060",
                     main=paste("Mu =", mu)); 
                hist(x[[2]], breaks=breaks, xlab="p", col="#6060ff60", add=TRUE)
                #hist(x[[3]], breaks=breaks, xlab="p", col="#60ff6060", add=TRUE)
                })

ขอบคุณอีกครั้งนี่เป็นสิ่งที่ดีมาก และจะเกิดอะไรขึ้นถ้าคุณไม่แสดงความคิดเห็นกับวิธีการของฟิชเชอร์ ฉันสงสัยว่าคุณได้ลองไปแล้ว Stouffer ชนะอย่างสม่ำเสมอหรือไม่? (ขออภัยที่ไม่ได้ลองด้วยตัวเอง แต่ฉันไม่มีประสบการณ์กับ R และไม่สามารถทำได้)
อะมีบากล่าว Reinstate Monica

μNN

1
คุณสามารถแก้ไขการRจำลองเพื่อทดสอบสิ่งนี้ได้อย่างง่ายดาย มันจะเป็นวิธีที่ดีในการแนะนำตัวเองกับแพลตฟอร์มการคำนวณเชิงสถิตินี้ :-)
whuber

2
ZผมZผม

การอภิปรายที่ยอดเยี่ยมและการประกันคุณภาพ! หนึ่งคำถามอย่างรวดเร็ว: สิ่งที่ถ้าหนึ่งในรูปแบบปัญหานี้เป็นค่าผิดปกติ / ความผิดปกติการตรวจสอบโดยการคำนวณระยะทาง Mahalanobis และสิ่งที่ติดตามเช่นนี้ ?
NULL

10

วิธีทั่วไปในการรับข้อมูลเชิงลึกเกี่ยวกับสถิติการทดสอบคือการได้มาซึ่งสมมติฐานพื้นฐาน (โดยนัย) ที่จะนำไปสู่สถิติการทดสอบที่มีประสิทธิภาพมากที่สุด สำหรับกรณีนี้นักเรียนและฉันเพิ่งทำสิ่งนี้เมื่อเร็ว ๆ นี้: http://arxiv.org/abs/1111.1210v2 (ฉบับแก้ไขจะปรากฏในบันทึกประวัติศาสตร์ของสถิติประยุกต์)

เพื่อสรุปสั้น ๆ (และสอดคล้องกับผลการจำลองในคำตอบอื่น) วิธี Stouffer จะทรงพลังที่สุดเมื่อเอฟเฟ็กต์ "จริง" พื้นฐานทั้งหมดเท่ากัน; ผลรวมของ Z ^ 2 จะทรงพลังที่สุดเมื่อเอฟเฟกต์พื้นฐานมีการกระจายประมาณ 0 นี่เป็นความเรียบง่ายเล็กน้อยที่ละเว้นรายละเอียด: ดูหัวข้อ 2.5 ในการพิมพ์ล่วงหน้าของ arxiv ที่เชื่อมโยงด้านบนสำหรับรายละเอียดเพิ่มเติม


2
(+1) ฉันคิดว่าฉันเขียนมานานแล้ว แต่ดูเหมือนว่าฉันไม่ได้: ขอบคุณมากสำหรับการลงทะเบียนที่นี่โดยเฉพาะเพื่อตอบคำถามของฉัน! ฉันรู้สึกทราบซึ้ง. ข้อ 2.5 ในเอกสารของคุณมีความเกี่ยวข้องมาก
อะมีบาพูดว่า Reinstate Monica

3

o / t เล็กน้อย: หนึ่งในปัญหาที่มีวิธีการทั้งสองนี้คือการสูญเสียพลังงานเนื่องจากองศาอิสระ (N สำหรับ stouffer's; 2N สำหรับ Fisher's) มีวิธีการวิเคราะห์ meta-analytical ที่พัฒนาขึ้นสำหรับเรื่องนี้ซึ่งคุณอาจต้องการพิจารณา (ตัวอย่างเช่น meta-analysis ถ่วงน้ำหนัก meta-analysis)

หากคุณกำลังมองหาหลักฐานของการทดสอบทางเลือกภายในกลุ่มคุณอาจต้องการดูสถิติการวิจารณ์ที่สูงขึ้นของ Donoho และ Jin: https://projecteuclid.org/euclid.aos/1085408492


1

หากต้องการตอบคำถามและสำหรับผู้อ่านเพิ่มเติม: เคยมีการใช้เอกสารฉบับนี้โดยCousins ​​(2008)บน arXiv หรือไม่ซึ่งมีการระบุและทบทวนแนวทางอื่นสองแนวทาง ดูเหมือนจะไม่ปรากฏขึ้น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.