เมื่อรวม p-values ​​ทำไมไม่เฉลี่ยเพียงค่าเฉลี่ย


44

ฉันเพิ่งเรียนรู้เกี่ยวกับวิธีการของฟิชเชอร์ในการรวมค่า p นี่คือความจริงที่ว่าตามตัวอักษรตามตัวอักษร - ตามตัวอักษร p- ตามตัวอักษรกระจายและ ซึ่งฉันคิดว่าเป็นอัจฉริยะ แต่คำถามของฉันคือทำไมไปทางที่ซับซ้อนนี้ และทำไมไม่ (มีอะไรผิดปกติ) เพียงแค่ใช้ค่าเฉลี่ยของค่า p และใช้ทฤษฎีบทขีด จำกัด กลาง? หรือค่ามัธยฐาน? ฉันพยายามที่จะเข้าใจความเป็นอัจฉริยะของ RA Fisher หลังโครงการอันยิ่งใหญ่นี้

2i=1nlogXiχ2(2n), given XUnif(0,1)

24
มันมาถึงความจริงพื้นฐานของความน่าจะเป็น: ค่า p คือความน่าจะเป็นและความน่าจะเป็นสำหรับผลลัพธ์ของการทดลองอิสระไม่ได้เพิ่มเข้าไปคูณพวกเขา ไหนคูณเป็นห่วงลอการิทึมลดความซับซ้อนของผลิตภัณฑ์เพื่อผลรวม: ที่ที่มาจาก (ว่ามันมีการแจกแจงแบบไคสแควร์นั้นเป็นผลทางคณิตศาสตร์ที่ไม่สามารถปฏิเสธได้) ไกลจากจุดเริ่มต้นที่ "สับสน" นี่อาจเป็นขั้นตอนที่ง่ายและเป็นธรรมชาติที่สุด log(Xi)
whuber

5
สมมติว่าฉันมีตัวอย่างอิสระ 2 ตัวอย่างจากประชากรเดียวกัน (สมมุติว่าเรามีตัวอย่างหนึ่งตัวอย่างทดสอบ) ลองนึกภาพค่าเฉลี่ยตัวอย่างและค่าเบี่ยงเบนมาตรฐานใกล้เคียงกัน ดังนั้นค่า p สำหรับตัวอย่างแรกคือ 0.0666 และสำหรับตัวอย่างที่สองคือ 0.0668 ค่า p โดยรวมควรเป็นอย่างไร มันควรเป็น 0.0667 ไหม จริงๆแล้วมันค่อนข้างชัดเจนว่ามันจะต้องเล็กกว่า ในกรณีนี้สิ่งที่ "ถูกต้อง" คือการรวมตัวอย่างถ้าเรามี เราจะต้องเกี่ยวกับการเบี่ยงเบนค่าเฉลี่ยและเป็นมาตรฐานเดียวกัน แต่สองเท่าของขนาดของกลุ่มตัวอย่าง มาตรฐาน ข้อผิดพลาดของค่าเฉลี่ยนั้นเล็กกว่าและค่า p ต้องน้อยกว่า
Glen_b

3
มีวิธีอื่นในการรวมค่า p แน่นอนแม้ว่าผลิตภัณฑ์เป็นวิธีที่เป็นธรรมชาติที่สุดในการทำ หนึ่งสามารถเพิ่มค่า p ตัวอย่างเช่น ใต้โมฆะร่วมผลรวมของพวกเขาควรมีการแจกแจงสามเหลี่ยม หรืออาจแปลงค่า p เป็นค่า z และเพิ่มค่าเหล่านั้น (และถ้าคุณรวมผลลัพธ์จากตัวอย่างขนาดไม่เล็กเกินไปจากประชากรปกติสิ่งนี้จะสมเหตุสมผลมาก) แต่ผลิตภัณฑ์เป็นวิธีที่ชัดเจนในการดำเนินการ; มันสมเหตุสมผลทุกครั้ง
Glen_b

1
โปรดทราบว่าวิธีการของฟิชเชอร์นั้นขึ้นอยู่กับผลิตภัณฑ์ซึ่งเป็นสิ่งที่ฉันอธิบายว่าเป็นธรรมชาติ - เพราะคุณคูณความน่าจะเป็นอิสระในการค้นหาความน่าจะเป็นร่วมของพวกเขา การพิจารณาว่าจีเอ็มไม่ได้แตกต่างจากผลิตภัณฑ์อื่น ๆ จริงๆนอกจากนั้นยังมีขั้นตอนเพิ่มเติมในการหาค่า p-value ที่สอดคล้องกันเนื่องจากการทำงาน GM (พูด) โดยใช้ผลิตภัณฑ์คุณต้องดูที่รับค่า p รวมกัน ซึ่งก็คือบอกว่าคุณจะแปลง GM กลับไปเป็นผลิตภัณฑ์ก่อนที่จะทำการบันทึกเพื่อค้นหาค่า p รวมกัน - 2 n log g = - 2 log ( g n )g2nlogg=2log(gn)
Glen_b

1
ฉันจะขอให้ทุกคนอ่านชิ้นส่วน "ค่า P เป็นค่าตัวแปรสุ่ม" ของดันแคนเมอร์ด็อกใน "นักสถิติชาวอเมริกัน" ฉันพบสำเนาออนไลน์ได้ที่: hypergeometric.files.wordpress.com/2013/09/…
DWIN

คำตอบ:


35

คุณสมบูรณ์แบบสามารถใช้ค่าเฉลี่ย -valuep

ชุดวิธีการของฟิชเชอร์ตั้งค่าขีด จำกัดบนเช่นถ้าสมมุติฐาน :ทั้งหมดคือถือแล้วเกินกับความน่าจะเป็น\ถูกปฏิเสธเมื่อเกิดเหตุการณ์นี้ - 2 Σ n ฉัน= 1บันทึกหน้าฉันH 0 P ~ U ( 0 , 1 ) - 2 Σ ฉันเข้าสู่ระบบP ฉันs α α H 0sα2i=1nlogpiH0pU(0,1)2ilogpisααH0

โดยปกติจะใช้เวลาหนึ่งและจะได้รับโดย quantile ของ(2n) เท่าหนึ่งสามารถทำงานในสินค้าซึ่งต่ำกว่ากับความน่าจะเป็น\นี่คือสำหรับกราฟแสดงเขตการปฏิเสธ (สีแดง) (ที่นี่เราใช้เขตการปฏิเสธมีพื้นที่ = 0.05α=0.05sαχ2(2n)ipiesα/2αn=2sα=9.49

ชาวประมง

ตอนนี้คุณสามารถเลือกที่จะทำงานในแทนหรือเท่ากันในp_i คุณเพียงแค่ต้องค้นหาขีด จำกัดซึ่งต่ำกว่ามีความน่าจะเป็น ; การคำนวณที่แน่นอนน่าเบื่อ - สำหรับใหญ่พอที่คุณสามารถพึ่งพาทฤษฎีบทขีด จำกัด กลาง สำหรับ ,2} กราฟต่อไปนี้แสดงเขตการปฏิเสธ (พื้นที่ = 0.05 อีกครั้ง)1ni=1npiipitαpitααtαnn=2tα=(2α)12

ผลรวมของค่า p

อย่างที่คุณสามารถจินตนาการได้รูปร่างอื่น ๆ สำหรับเขตการปฏิเสธเป็นของมีค่าและได้รับการเสนอ ไม่ชัดเจนซึ่งจะดีกว่า - เช่นที่มีพลังมากขึ้น

สมมติว่า ,มาจากทวิภาคี -test ที่ไม่ใช่ศูนย์กลางพารามิเตอร์ 1:p1p2z

> p1 <- pchisq( rnorm(1e4, 1, 1)**2, df=1, lower.tail=FALSE )
> p2 <- pchisq( rnorm(1e4, 1, 1)**2, df=1, lower.tail=FALSE )

เรามาดู scatterplot ด้วยสีแดงเพื่อหาจุดที่สมมติฐานว่างถูกปฏิเสธ

scatterplot

พลังของวิธีการผลิตภัณฑ์ของฟิชเชอร์อยู่ที่ประมาณ

> sum(p1*p2<exp(-9.49/2))/1e4
[1] 0.2245

กำลังของวิธีการนั้นขึ้นอยู่กับผลรวมของ value โดยประมาณp

> sum(p1+p2<sqrt(0.1))/1e4
[1] 0.1963

ดังนั้นวิธีการของฟิชเชอร์จึงชนะ - อย่างน้อยก็ในกรณีนี้


2
ขอขอบคุณการแก้ไขที่ดี (+1) สำหรับกระจาย null คือการกระจายสามเหลี่ยมดังนั้นแน่นอนalpha} สำหรับกระจาย null ที่มีอยู่แล้วมีส่วนร่วมค่อนข้าง (ความหนาแน่นสามเป็นส่วนหนึ่งของมัน) แต่โชคดีสำหรับก็สามารถอยู่แล้วเป็นห้วงเป็นอย่างดีโดยการแจกแจงแบบปกติที่มีค่าเฉลี่ยและความแปรปรวนnn=2tα=2αn=3n>30.5nn/12
Momo

1
+1 โปรดทราบว่าการเพิ่มค่าเรียกว่าวิธีการของ Edgingtonโปรดดูคำตอบของฉันด้านล่างสำหรับบรรณานุกรม p
อะมีบาพูดว่า Reinstate Monica

26

ผิดปกติกับข้อสรุปทั้งหมดของแต่ละบุคคลคืออะไร -values?p

เนื่องจาก @whuber และ @Glen_b โต้แย้งในความคิดเห็นวิธีการของฟิชเชอร์จึงเพิ่มค่าแต่ละบุคคลเป็นหลักและความน่าจะเป็นทวีคูณเป็นสิ่งที่เป็นธรรมชาติมากกว่าการเพิ่มเข้าไปp

ยังมีอีกหนึ่งอันที่สามารถเพิ่มเข้าไปได้ อันที่จริงแล้วสิ่งนี้ได้รับการแนะนำโดยEdgington (1972) วิธีการเพิ่มเติมสำหรับการรวมค่าความน่าจะเป็นจากการทดลองที่เป็นอิสระ (ภายใต้กำแพงจ่าย) และบางครั้งเรียกว่าวิธีการของ Edgington สรุปบทความโดยอ้างว่า

วิธีการเติมจะแสดงให้เห็นว่ามีประสิทธิภาพมากกว่าวิธีการคูณซึ่งมีความน่าจะเป็นมากกว่าวิธีการคูณของการให้ผลลัพธ์ที่มีนัยสำคัญเมื่อมีผลการรักษาที่แท้จริง

แต่เนื่องจากวิธีการยังคงไม่เป็นที่ทราบแน่ชัดฉันสงสัยว่านี่เป็นอย่างน้อย เช่นภาพรวมล่าสุดCousins ​​(2008) บรรณานุกรมบันทึกย่อของเอกสารบางอย่างเกี่ยวกับการรวมความสำคัญหรือค่า pไม่ได้กล่าวถึงวิธีการของ Edgington เลยและดูเหมือนว่าคำนี้ไม่เคยถูกกล่าวถึงใน CrossValidated เช่นกัน

มันง่ายที่จะเกิดขึ้นกับหลาย ๆ วิธีในการรวมค่า (ฉันเคยคิดขึ้นมาเองแล้วถามว่าทำไมมันไม่เคยใช้: วิธีการให้คะแนนของ Stouffer: ถ้าเรารวมแทน ? ), และวิธีการที่ดีกว่าคือคำถามเชิงประจักษ์ โปรดดูคำตอบ @ whuber ของที่นั่นสำหรับการเปรียบเทียบเชิงประจักษ์ของพลังทางสถิติของสองวิธีที่แตกต่างกันในสถานการณ์ที่เฉพาะเจาะจง; มีผู้ชนะที่ชัดเจนpz2z

ดังนั้นคำตอบสำหรับคำถามทั่วไปเกี่ยวกับสาเหตุที่ใช้วิธี "convoluted" ใด ๆ เลยก็คือมันสามารถเพิ่มพลังงานได้

Zaykin et al (2002) วิธีการตัดทอนผลิตภัณฑ์สำหรับการรวมค่า pเรียกใช้การจำลองบางอย่างและรวมถึงวิธีการของ Edgington ในการเปรียบเทียบ แต่ฉันไม่แน่ใจเกี่ยวกับข้อสรุป

วิธีหนึ่งในการมองเห็นวิธีการดังกล่าวทั้งหมดคือการวาดขอบเขตการปฏิเสธสำหรับตามที่ @Elvis ทำในคำตอบที่ดีของเขา (+1) นี่เป็นอีกรูปแบบหนึ่งที่รวมวิธีการของ Edgington อย่างชัดเจนจากสิ่งที่ดูเหมือนจะเป็นโปสเตอร์Winkler et al (2013) การรวมกันแบบไม่อิงพารามิเตอร์สำหรับการวิเคราะห์การถ่ายภาพหลายแบบ :n=2

การรวมค่า p

ฉันคิดว่ายังคงมีคำถามว่าทำไมวิธีการของ Edgington (บ่อยครั้ง) จะไม่ดีขึ้นดังนี้จากวิธีที่คลุมเครือ

บางทีเหตุผลหนึ่งที่ทำให้เกิดความสับสนก็คือมันไม่สอดคล้องกับสัญชาตญาณของเราเป็นอย่างดี: สำหรับ , ถ้า (หรือสูงกว่า) ดังนั้นไม่ว่าค่าของคืออะไร, ค่า null ที่รวมกันจะไม่ถูกปฏิเสธที่นั่นคือแม้ว่าเช่น0.00000001n=2p1=0.4p2α=0.05p2=0.00000001

โดยทั่วไปแล้วการรวมค่าค่าแทบจะแยกแยะตัวเลขที่มีขนาดเล็กมากเช่นจากแต่ความแตกต่างในความน่าจะเป็นเหล่านี้มีขนาดใหญ่มากpp=0.001p=0.00000001


ปรับปรุง นี่คือสิ่งที่ Hedges และ Olkin เขียนเกี่ยวกับวิธีการของ Edgintgon (หลังจากตรวจสอบวิธีอื่นสำหรับการรวมค่า value) ในวิธีการทางสถิติสำหรับการวิเคราะห์ Meta (1985) โดยเน้นที่เหมือง:p

ขั้นตอนการทดสอบแบบรวมที่แตกต่างกันค่อนข้างถูกเสนอโดย Edgington (1972a, b) Edgington เสนอการรวม -values โดยการรวมและให้เป็นวิธีที่น่าเบื่อ แต่ตรงไปตรงมาสำหรับการได้รับระดับนัยสำคัญสำหรับSการประมาณกลุ่มตัวอย่างขนาดใหญ่ถึงระดับนัยสำคัญของนั้นกำหนดไว้ใน Edgington (1972b) แม้ว่ามันจะเป็นกระบวนการรวมกันเสียงเดียวดังนั้นจึงเป็นที่ยอมรับได้วิธีการของ Edgington โดยทั่วไปถือว่าเป็นกระบวนการที่ไม่ดีเนื่องจากค่ามีขนาดใหญ่สามารถเอาชนะค่าขนาดเล็กจำนวนมากที่ประกอบกันเป็นสถิติได้ อย่างไรก็ตามยังไม่มีการตรวจสอบเชิงตัวเลขของกระบวนการนี้S = p 1 + + p k , S S หน้าp

S=p1++pk,
SSp

1
ขอบคุณ @Glen_b! ฉันดีใจที่กระทู้นี้มีทัศนวิสัยเพิ่มเติมและสมควรได้รับ โดยวิธีการที่ฉันไม่ทราบว่าขั้นตอนนี้เรียกว่า "วิธี Edgington" จนกว่าฉันจะเริ่มค้นคว้าคำตอบนี้
อะมีบาพูดว่า Reinstate Monica

9

ดังนั้นถ้าคุณศึกษาขนาดใกล้เคียงกันสามครั้งและมีค่า p-0.05 ทั้งสามครั้งสัญชาตญาณของคุณคือ "ค่าจริง" ควรเป็น 0.05? สัญชาตญาณของฉันแตกต่าง ผลลัพธ์ที่คล้ายคลึงกันหลายรายการดูเหมือนจะทำให้ความสำคัญสูงขึ้น (และดังนั้นค่า p ซึ่งเป็นความน่าจะเป็นต่ำกว่า) ค่า P ไม่ใช่ความน่าจะเป็นจริง พวกเขาเป็นงบเกี่ยวกับการกระจายตัวอย่างของค่าสังเกตภายใต้สมมติฐานที่เฉพาะเจาะจง ฉันเชื่อว่ามันอาจให้การสนับสนุนต่อความคิดที่ว่าคน ๆ นั้นสามารถใช้พวกเขาในทางที่ผิดได้ ฉันเสียใจที่ยืนยันว่า

ภายใต้สมมติฐานว่างไม่มีความแตกต่างโอกาสที่จะได้รับค่า p ที่มากที่สุดดูเหมือนจะไม่น่าเป็นไปได้ ทุกครั้งที่ฉันเห็นข้อความว่า p-value มีการกระจายอย่างสม่ำเสมอจาก 0-1 ภายใต้สมมติฐานว่างฉันรู้สึกว่าถูกบังคับให้ทดสอบด้วยการจำลองสถานการณ์ เห็นได้ชัดว่าฉันไม่ได้คิดอย่างมีสติในระดับลอการิทึมแม้ว่าอย่างน้อยส่วนหนึ่งของโครงข่ายประสาทสมองของฉันต้อง

หากคุณต้องการคำนวณปริมาณสัญชาตญาณสูตรที่คุณเสนอ (โดยมีการแก้ไขเล็กน้อย) จะปรากฏในหน้า Wikipedia: http://th.wikipedia.org/wiki/Fisher%27s_methodและกราฟิกที่เกี่ยวข้องช่วยให้คุณสามารถหาปริมาณสายตาและกึ่ง ผลกระทบเชิงปริมาณจากการรับค่า p สองค่าต่อนัยสำคัญโดยรวม ตัวอย่างเช่นการอ่านจากกราฟิกรหัสสีค่า p พร้อมกัน 2 ค่าคือ 0.05 จะให้ค่า p สังเคราะห์ประมาณ. 02 คุณสามารถตรวจสอบผลกระทบที่มีต่อสถิติของการเพิ่มขนาดตัวอย่างของคุณเป็นสองเท่า ขนาดตัวอย่างเข้าสู่กลุ่มตัวอย่าง t-statistic เป็น 1 / sqrt (n-1) ดังนั้นคุณสามารถดูผลกระทบของปัจจัยนั้นได้จาก 50 ถึง 100 (ใน R :)

 plot(1:100, 1/sqrt(1:100) ,ylim=c(0,1) )
 abline(h=1/sqrt(c(50,100)))

ทั้งสองวิธีให้ผลลัพธ์เชิงปริมาณที่แตกต่างกันเนื่องจากอัตราส่วนค่า 1 / sqrt (n) สำหรับ 50 และ 100 นั้นไม่เหมือนกับอัตราส่วน 0.05 ถึง 0.02 ทั้งสองวิธีสนับสนุนสัญชาตญาณของฉัน แต่ต่างกัน บางทีคนอื่นสามารถแก้ไขข้อขัดแย้งนี้ได้ แต่วิธีที่สามคือการพิจารณาความน่าจะเป็นที่จะได้รับการสุ่มจับสองครั้งของ "จริง" เมื่อความน่าจะเป็นทวินามของการจับแต่ละครั้งคือ. 05 (ลูกเต๋าที่ไม่ยุติธรรมอย่างยิ่ง) เหตุการณ์ร่วมนั้นควรมีความน่าจะเป็น. 05 * .05 = .002 ซึ่งผลการพิจารณานั้นอยู่ใน "อีกด้านหนึ่ง" ของการประเมินฟิชเชอร์ ฉันเพิ่งจำลองการทดสอบ 50,000 รายการพร้อมกัน หากคุณพล็อตผลลัพธ์มันดูเหมือนแผนที่ของสนามรังสีพื้นหลังของจักรวาล ... เช่น ส่วนใหญ่เป็นการสุ่ม

 t1 <- replicate(50000, t.test(rnorm(50))$p.value )
     t2 <- replicate(50000, t.test(rnorm(50))$p.value )
 table(t1 < 0.05, t2 < 0.05)
 plot(t1, t2, cex=0.1)
#        FALSE  TRUE
#  FALSE 45099  2411
#  TRUE   2380   110
 110/(50000-110)
#[1] 0.002204851

ขอบคุณสำหรับคำตอบ. สัญชาตญาณที่คุณพูดถึงทำให้เข้าใจได้จริง ฉันจะพิจารณากรณีเหล่านั้นที่คุณพูดถึงว่ามีความสำคัญมากกว่า แต่มีวิธีที่จะแสดงความคิดนี้อย่างจริงจังมากขึ้นทางคณิตศาสตร์หรือไม่
Alby

คำตอบนี้ (ประโยคแรก) สันนิษฐานว่าเมื่อค่าเฉลี่ย -values อย่างมีนัยสำคัญตัดจะอยู่ที่เดียวกัน แต่ไม่เป็นความจริง การหาค่าเฉลี่ยสามารถทำงานได้ดี ดูคำตอบโดย @Elvis a l p h apalpha
อะมีบาพูดว่า Reinstate Monica

ฉันเห็นมัน. ไม่มั่นใจ
DWIN

1
คุณดูเหมือนจะไม่สังเกตเห็นว่าด้วย "วิธีเฉลี่ย" และการทดลองสองครั้งด้วยและสมมติฐานว่างถูกปฏิเสธ (ดูรูปวาดที่สองในคำตอบของฉันด้านบน) p 2 = 0.05p1=0.05p2=0.05
Elvis

วิธีการหาค่าเฉลี่ย "เน้น" หรือทำให้น้ำหนักรวมของสมมติฐานที่ทั้งสองปฏิเสธกับสมมติฐานร่วมกัน ที่ดูเหมือนจะเป็นข้อ จำกัด ที่ไม่ได้พูด
DWIN
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.