ความแปรปรวนสูงของการกระจายของค่า p (อาร์กิวเมนต์ใน Taleb 2016)


16

ฉันพยายามที่จะเข้าใจการเรียกร้องภาพใหญ่ทำในTaleb 2016, The Meta-การแพร่กระจายของมาตรฐาน P-ค่า

ในนั้น Taleb ทำให้อาร์กิวเมนต์ต่อไปนี้สำหรับความไม่น่าเชื่อถือของค่า p (ตามที่ฉันเข้าใจ):

ขั้นตอนการประเมินดำเนินการกับจุดข้อมูลที่มาจากการแจกจ่ายX outputs ค่า ap หากเราดึงจุด n เพิ่มเติมจากการกระจายนี้และส่งออกค่า p อื่นเราสามารถหาค่า p-values ​​เหล่านี้ที่ได้รับในขีด จำกัด ที่เรียกว่า "ค่า p จริง"nX

"ค่า p จริง" นี้แสดงว่ามีความแปรปรวนสูงรบกวนดังนั้นการแจกแจง + โพรซีเดอร์ที่มี "ค่า p จริง" จะ 60% ของเวลารายงานค่า p-. 05.12

คำถาม : วิธีนี้จะสามารถคืนดีกับอาร์กิวเมนต์ดั้งเดิมในความโปรดปรานของค่า ดังที่ฉันเข้าใจแล้วค่า p ควรบอกคุณว่าเปอร์เซ็นต์ของเวลาที่กระบวนการของคุณจะให้ช่วงเวลาที่ถูกต้อง (หรืออะไรก็ตาม) อย่างไรก็ตามบทความนี้ดูเหมือนจะโต้แย้งว่าการตีความนี้ทำให้เข้าใจผิดเนื่องจากค่า p จะไม่เหมือนกันถ้าคุณเรียกใช้ขั้นตอนอีกครั้งp

ฉันไม่มีจุดหรือไม่


1
คุณสามารถอธิบายได้ว่า "การโต้เถียงแบบดั้งเดิม" นี้คืออะไร? ฉันไม่แน่ใจว่าฉันชัดเจนว่าคุณกำลังพิจารณาข้อโต้แย้งใด
Glen_b -Reinstate Monica

คำถามนี้น่าสนใจและเกี่ยวข้องกับวรรณกรรมที่ CV มีแท็กรวมถึงค่า pซึ่งคุณอาจต้องการเพิ่มถ้าคุณคิดว่าเหมาะสม
mdewey

1
ฉันเชื่อว่าคำถามเกี่ยวกับความสามารถในการทำซ้ำของค่า pอาจเกี่ยวข้องอย่างใกล้ชิดกับค่านี้ บางทีการวิเคราะห์มีความคล้ายคลึงกับ (หรือเหมือนกัน) ตามที่กล่าวไว้ที่นี่
whuber

คำตอบ:


13

p-value เป็นตัวแปรสุ่ม

H0

H1

H0H1

H1

ป้อนคำอธิบายรูปภาพที่นี่

นี่เป็นวิธีที่ p-values ​​ควรประพฤติ - สำหรับ null ที่ผิดเมื่อขนาดตัวอย่างเพิ่มขึ้นค่า p ควรมีสมาธิมากกว่าที่ค่าต่ำ แต่ไม่มีอะไรจะบอกว่าการกระจายของค่าจะเกิดขึ้นเมื่อคุณ ทำให้เกิดข้อผิดพลาด type II - เมื่อ p-value สูงกว่าระดับความสำคัญของคุณ - อย่างใดควรท้าย "ปิด" ถึงระดับความสำคัญนั้น

α=0.05

บ่อยครั้งที่มีประโยชน์ในการพิจารณาว่าเกิดอะไรขึ้นทั้งกับการกระจายตัวของสถิติการทดสอบอะไรก็ตามที่คุณใช้ภายใต้ทางเลือกและสิ่งที่การใช้ cdf ภายใต้ค่า Null เป็นการแปลงให้ทำเพื่อการกระจายตัว (ซึ่งจะทำให้การกระจายของ ทางเลือกเฉพาะ) เมื่อคุณคิดในแง่เหล่านี้มักจะไม่ยากที่จะเห็นว่าทำไมพฤติกรรมจึงเป็นเช่นนั้น

ปัญหาที่ฉันเห็นมันไม่มากว่ามีปัญหาใด ๆ ที่เกิดขึ้นกับค่า p หรือการทดสอบสมมติฐานเลยมันเป็นกรณีของการทดสอบสมมติฐานว่าเป็นเครื่องมือที่ดีสำหรับปัญหาเฉพาะของคุณหรือไม่หรืออย่างอื่นจะเหมาะสมกว่า ไม่ว่าในกรณีใด - นั่นไม่ใช่สถานการณ์สำหรับการโต้เถียงอย่างถี่ถ้วน แต่เป็นหนึ่งในการพิจารณาอย่างรอบคอบถึงประเภทของคำถามที่สมมติฐานทดสอบที่อยู่และความต้องการเฉพาะของสถานการณ์ของคุณ น่าเสียดายที่การพิจารณาอย่างรอบคอบเกี่ยวกับปัญหาเหล่านี้ไม่ค่อยเกิดขึ้น - บ่อยครั้งที่เราเห็นคำถามของแบบฟอร์มว่า "ฉันใช้การทดสอบแบบใดกับข้อมูลเหล่านี้" หากไม่มีการพิจารณาว่าคำถามที่น่าสนใจน่าจะเป็นอะไรให้นับประสาว่าการทดสอบสมมติฐานบางอย่างเป็นวิธีที่ดีในการจัดการหรือไม่

สิ่งหนึ่งที่ยากคือการทดสอบสมมติฐานนั้นมีการเข้าใจผิดกันอย่างกว้างขวางและใช้ผิดวิธีอย่างกว้างขวาง ผู้คนมักคิดว่าพวกเขาบอกเราถึงสิ่งที่พวกเขาทำ ค่า p อาจเป็นสิ่งที่เข้าใจผิดมากที่สุดเพียงอย่างเดียวเกี่ยวกับการทดสอบสมมติฐาน


pnm

nnn

1
H1H1

3
n

3
+1 การวิเคราะห์ที่เกี่ยวข้องอย่างหนึ่งและความสนุกที่อยู่ในใจของฉันคือสิ่งที่เจฟฟ์คัมมิงเรียกว่า "การเต้นรำของค่า p": ดูyoutube.com/watch?v=5OL1RqHrZQ8 (การเต้น "เกิดขึ้นที่ประมาณ 9 นาที) . งานนำเสนอเล็ก ๆ น้อย ๆ ทั้งหมดนี้เน้นถึงความแตกต่างของตัวแปรค่า p แม้จะให้พลังงานค่อนข้างสูง ฉันไม่ค่อยเห็นด้วยกับประเด็นหลักของคัมมิงว่าช่วงความเชื่อมั่นดีกว่าค่า p มาก (และฉันเกลียดที่เขาเรียกว่า "สถิติใหม่") แต่ฉันคิดว่าความแปรปรวนจำนวนนี้น่าแปลกใจสำหรับคนจำนวนมากและ "การเต้นรำ" เป็นวิธีที่น่ารักในการสาธิต
อะมีบาพูดว่า Reinstate Monica

10

คำตอบของ Glen_b เป็นจุดที่ (+1; พิจารณาเสริมของฉัน) บทความที่คุณอ้างอิงโดย Taleb นั้นคล้ายคลึงกับเอกสารในจิตวิทยาและสถิติเกี่ยวกับข้อมูลที่คุณสามารถรวบรวมได้จากการวิเคราะห์การแจกแจงค่า p (สิ่งที่ผู้เขียนเรียกว่าp-curveดูเว็บไซต์ของพวกเขาด้วย แหล่งข้อมูลรวมถึงแอพการวิเคราะห์เส้นโค้งที่นี่ )

ผู้เขียนเสนอให้ใช้ p-curve สองวิธี:

  1. คุณสามารถประเมินมูลค่าพยานหลักฐานของวรรณกรรมโดยการวิเคราะห์ P-โค้งวรรณกรรมของ นี่เป็นครั้งแรกที่พวกเขาใช้ p-curve เป็นหลักตามที่ Glen_b อธิบายเมื่อคุณจัดการกับขนาดเอฟเฟกต์ที่ไม่เป็นศูนย์คุณควรเห็น p-curves ที่เบ้ในเชิงบวกต่ำกว่าเกณฑ์ปกติของp <.05 เนื่องจากค่า p ที่น้อยกว่าน่าจะมีแนวโน้มมากกว่า p- ค่าใกล้เคียงกับp= .05 เมื่อเอฟเฟกต์ (หรือกลุ่มของเอฟเฟกต์) เป็น "ของจริง" คุณสามารถทดสอบเส้นโค้ง p เพื่อหาค่าความเบ้เป็นบวกอย่างมีนัยสำคัญเพื่อทดสอบค่าที่เห็นได้ชัด ในทางกลับกันนักพัฒนาเสนอว่าคุณสามารถทำการทดสอบความเบ้เชิงลบ (กล่าวคือมีความสำคัญน้อยกว่าค่า p-valueesthan ที่เล็กกว่า) เป็นวิธีการทดสอบว่าชุดของเอฟเฟกต์ที่กำหนดนั้นมี
  2. คุณสามารถคำนวณประมาณการอภิวิเคราะห์สิ่งพิมพ์อคติฟรีขนาดผลโดยใช้ P-โค้งที่มีการตีพิมพ์ P-ค่า อันนี้ค่อนข้างยากที่จะอธิบายรวบรัดและผมขอแนะนำให้คุณตรวจสอบเอกสารที่เน้นขนาดของเอฟเฟกต์ (Simonsohn, Nelson, & Simmons, 2014a, 2014b) และอ่านวิธีการด้วยตนเอง แต่โดยพื้นฐานแล้วผู้เขียนแนะนำว่าสามารถใช้เส้นโค้ง p เพื่อแยกแยะปัญหาของเอฟเฟ็กต์ไฟล์ลิ้นชักเมื่อทำการวิเคราะห์อภิมาน

ดังนั้นตามคำถามที่กว้างขึ้นของคุณ:

สิ่งนี้จะสามารถคืนดีกับการโต้แย้งแบบดั้งเดิมในความโปรดปรานของค่า p-?

ฉันจะบอกว่าวิธีการเช่น Taleb's (และอื่น ๆ ) พบวิธีที่จะเปลี่ยนค่า p เพื่อให้เราได้รับข้อมูลที่เป็นประโยชน์เกี่ยวกับวรรณกรรมทั้งหมดโดยการวิเคราะห์กลุ่มของค่า p ในขณะที่ค่า p-value อาจเป็นหนึ่ง มีข้อ จำกัด ในด้านประโยชน์มากมาย

อ้างอิง

Simonsohn, U. , Nelson, LD, & Simmons, JP (2014a) P-curve: กุญแจสู่ลิ้นชักไฟล์ วารสารจิตวิทยาการทดลอง: ทั่วไป , 143 , 534–547

Simonsohn, U. , Nelson, LD, & Simmons, JP (2014b) P-Curve และขนาดเอฟเฟกต์: การแก้ไขอคติสิ่งพิมพ์โดยใช้ผลลัพธ์ที่สำคัญเท่านั้น มุมมองทางวิทยาศาสตร์จิตวิทยา , 9 , 666-681

Simonsohn, U. , Simmons, JP, & Nelson, LD (2015) Better P-curves: ทำให้การวิเคราะห์ P-curve มีประสิทธิภาพมากขึ้นสำหรับข้อผิดพลาดการฉ้อโกงและการแฮ็ก P-hacking ที่มีความทะเยอทะยานตอบกลับไปที่ Ulrich และ Miller (2015) วารสารจิตวิทยาการทดลอง: ทั่วไป , 144 , 1146-1152

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.