การวิเคราะห์อภิมานรวมถึงการศึกษาจำนวนมากซึ่งทั้งหมดนี้รายงานค่า P มากกว่า 0.05 เป็นไปได้หรือไม่ที่การวิเคราะห์อภิมานโดยรวมรายงานค่า P น้อยกว่า 0.05 ภายใต้สถานการณ์ใด
(ฉันค่อนข้างมั่นใจว่าคำตอบคือใช่ แต่ฉันต้องการอ้างอิงหรือคำอธิบาย)
การวิเคราะห์อภิมานรวมถึงการศึกษาจำนวนมากซึ่งทั้งหมดนี้รายงานค่า P มากกว่า 0.05 เป็นไปได้หรือไม่ที่การวิเคราะห์อภิมานโดยรวมรายงานค่า P น้อยกว่า 0.05 ภายใต้สถานการณ์ใด
(ฉันค่อนข้างมั่นใจว่าคำตอบคือใช่ แต่ฉันต้องการอ้างอิงหรือคำอธิบาย)
คำตอบ:
ผลการศึกษารายบุคคลอาจไม่มีนัยสำคัญ แต่ดูด้วยกันผลลัพธ์อาจมีนัยสำคัญ
ในทางทฤษฎีคุณสามารถดำเนินการโดยการรักษาผลของการศึกษาที่ฉันชอบตัวแปรสุ่มอื่น ๆ
ขอให้จะเป็นตัวแปรสุ่ม (เช่น. ประมาณการจากการศึกษาฉัน ) ดังนั้นถ้าy iเป็นอิสระและE [ y i ] = μคุณสามารถประมาณค่าเฉลี่ยด้วย:
เพิ่มสมมติฐานเพิ่มเติมให้จะแปรปรวนของประมาณการปีฉัน จากนั้นคุณสามารถประมาณμอย่างมีประสิทธิภาพด้วยการถ่วงน้ำหนักค่าความแปรปรวนแบบผกผัน:
μอาจจะมีนัยสำคัญทางสถิติที่ระดับความเชื่อมั่นบางแม้ว่าประมาณการของแต่ละบุคคลไม่ได้
ถ้าดังนั้นการวิเคราะห์เมตาอาจไม่มาบรรจบกับμ (เช่นค่าเฉลี่ยของการวิเคราะห์เมตาคือตัวประมาณที่ไม่สอดคล้องกัน)
ตัวอย่างเช่นหากมีอคติต่อการเผยแพร่ผลลัพธ์เชิงลบการวิเคราะห์เมตาง่ายๆนี้อาจไม่สอดคล้องกันและมีอคติอย่างน่ากลัว! มันก็เหมือนกับการประเมินความน่าจะเป็นที่เหรียญพลิกหัวขึ้นโดยการสังเกตเพียงแค่พลิกที่มันไม่ได้หางที่ดิน!
และ y jอาจไม่เป็นอิสระ ตัวอย่างเช่นหากมีการศึกษาสองงานที่ฉันและ jอยู่บนพื้นฐานของข้อมูลเดียวกันดังนั้นการรักษา y iและ y jให้เป็นอิสระในการวิเคราะห์อภิมานอาจประเมินค่าความผิดพลาดมาตรฐานและประเมินนัยสำคัญทางสถิติอย่างมาก การประมาณการของคุณจะยังคงสอดคล้องกัน แต่ข้อผิดพลาดมาตรฐานจำเป็นต้องมีเหตุผลบัญชีสำหรับความสัมพันธ์ข้ามในการศึกษา
การรวม (1) และ (2) อาจไม่ดีเป็นพิเศษ
ตัวอย่างเช่นการวิเคราะห์เมตาของการสำรวจความคิดเห็นเฉลี่ยมีแนวโน้มที่จะแม่นยำยิ่งขึ้นกว่าการสำรวจความคิดเห็นของแต่ละบุคคล แต่การหาค่าเฉลี่ยการสำรวจด้วยกันยังคงเสี่ยงต่อข้อผิดพลาดที่สัมพันธ์กัน สิ่งที่เกิดขึ้นในการเลือกตั้งที่ผ่านมาก็คือคนงานโพลทางออกวัยหนุ่มสาวมักจะสัมภาษณ์คนหนุ่มสาวมากกว่าคนชรา หากโพลทางออกทั้งหมดทำผิดพลาดเหมือนกันคุณมีการประเมินที่ไม่ดีซึ่งคุณอาจคิดว่าเป็นการประเมินที่ดี (โพลการออกนั้นมีความสัมพันธ์กันเพราะพวกเขาใช้วิธีการเดียวกันในการดำเนินการโพลทางออกและวิธีการนี้ทำให้เกิดข้อผิดพลาดเหมือนกัน)
ไม่ต้องสงสัยเลยว่าผู้คนที่คุ้นเคยกับการวิเคราะห์อภิมานอาจมีตัวอย่างที่ดีกว่าปัญหาที่มีความซับซ้อนมากขึ้นเทคนิคการประมาณค่าที่ซับซ้อนยิ่งขึ้น ฯลฯ แต่สิ่งนี้ได้มาจากทฤษฎีพื้นฐานที่สุดและปัญหาที่ใหญ่กว่า หากการศึกษาที่แตกต่างกันทำให้เกิดข้อผิดพลาดแบบสุ่มการวิเคราะห์เมตาอาจมีประสิทธิภาพอย่างไม่น่าเชื่อ หากข้อผิดพลาดเป็นระบบในการศึกษา (เช่นทุกคนมีจำนวนผู้ลงคะแนนต่ำกว่า ฯลฯ ) การศึกษาโดยเฉลี่ยก็จะถูกปิดเช่นกัน หากคุณดูถูกดูแคลนว่าการศึกษาที่มีความสัมพันธ์กันเป็นอย่างไรหรือข้อผิดพลาดที่มีความสัมพันธ์กันเป็นอย่างไรคุณประเมินขนาดตัวอย่างโดยรวมของคุณได้อย่างมีประสิทธิภาพและประเมินข้อผิดพลาดมาตรฐานของคุณต่ำไป
นอกจากนี้ยังมีปัญหาในทางปฏิบัติทุกชนิดของคำจำกัดความที่สอดคล้องกัน ฯลฯ ...
Yes. Suppose you have p-values from independent studies.
Fisher's test
(EDIT - in response to @mdewey's useful comment below, it is relevant to distinguish between different meta tests. I spell out the case of another meta test mentioned by mdewey below)
The classical Fisher meta test (see Fisher (1932), "Statistical Methods for Research Workers" ) statistic
Let denote the -quantile of the null distribution.
> exp(-qchisq(0.95, df = 40)/40)
[1] 0.2480904
nulls is false.
EDIT:
Here is a plot of the "admissible" p-values against , which confirms that grows in , although it seems to level off at .
I found an upper bound for the quantiles of the distribution
Inverse Normal test (Stouffer et al., 1949)
The test statistic is given by
More specifically, if , which tends to from below as .
The answer to this depends on what method you use for combining -values. Other answers have considered some of these but here I focus on one method for which the answer to the original question is no.
The minimum method, also known as Tippett's method, is usually described in terms of a rejection at the level of the null hypothesis. Define
It is easy to see the since the th root of a number less than unity is closer to unity the last term is greater than and hence the overall result will be non-significant unless is already less than .
It is possible to work out the critical value and for example if we have ten primary studies each with a -values of 00.05 so as close to significant as can be then the overall critical value is 0.40. The method can be seen as a special case of Wilkinson's method which uses for and in fact for the particular set of primary studies even is not significant ()
L H C Tippett's method is described in a book The methods of statistics. 1931 (1st ed) and Wilkinson's method is here in an article "A statistical consideration in psychological research"