ทำไม 0.05 <p <0.95 ผลลัพธ์จึงเรียกว่าผลบวกผิด?


9

แก้ไข:พื้นฐานของคำถามของฉันมีข้อบกพร่องและฉันจำเป็นต้องใช้เวลาในการพิจารณาว่าจะสามารถทำให้เข้าใจได้หรือไม่

แก้ไข 2:ชี้แจงว่าฉันรับรู้ว่า p-value ไม่ใช่การวัดโดยตรงของความน่าจะเป็นของสมมติฐานว่าง แต่ฉันสมมติว่ายิ่งค่า p-value ใกล้ถึง 1 ยิ่งมีโอกาสมากขึ้นที่สมมติฐานจะมี ถูกเลือกสำหรับการทดสอบทดลองที่มีสมมติฐานว่างตรงกันเป็นจริงในขณะที่ค่า p-value ใกล้เคียงกับ 0 ยิ่งมีโอกาสมากขึ้นที่จะมีการเลือกสมมติฐานสำหรับการทดสอบทดลองที่มีสมมติฐานว่างเป็นเท็จ ฉันไม่สามารถเห็นได้ว่านี่เป็นความผิดอย่างไรเว้นแต่ชุดของสมมติฐานทั้งหมด (หรือสมมติฐานทั้งหมดที่เลือกสำหรับการทดลอง) เป็นพยาธิสภาพ

แก้ไข 3:ฉันคิดว่าฉันยังไม่ได้ใช้คำศัพท์ที่ชัดเจนเพื่อถามคำถามของฉัน เมื่อตัวเลขลอตเตอรีถูกอ่านออกมาและคุณจับคู่กับตั๋วของคุณทีละรายการการเปลี่ยนแปลงบางอย่าง ความน่าจะเป็นที่คุณชนะไม่เปลี่ยนแปลง แต่ความน่าจะเป็นที่คุณสามารถปิดวิทยุได้ มีการเปลี่ยนแปลงที่คล้ายกันซึ่งเกิดขึ้นเมื่อทำการทดลอง แต่ฉันมีความรู้สึกว่าคำศัพท์ที่ฉันใช้ - "ค่า p เปลี่ยนโอกาสในการเลือกสมมติฐานที่แท้จริง" - ไม่ใช่คำศัพท์ที่ถูกต้อง

แก้ไข 4:ฉันได้รับคำตอบอย่างละเอียดและให้ข้อมูลที่น่าอัศจรรย์สองอย่างที่มีข้อมูลมากมายให้ฉันทำงาน ฉันจะโหวตให้พวกเขาทั้งคู่แล้วและกลับมาตอบรับเมื่อฉันได้เรียนรู้มากพอจากคำตอบทั้งสองเพื่อที่จะรู้ว่าพวกเขาตอบหรือทำให้คำถามของฉันไม่ถูกต้อง คำถามนี้เปิดเวิร์มกระป๋องที่ใหญ่กว่าที่ฉันคาดไว้กินมาก

ในเอกสารที่ฉันอ่านฉันได้เห็นผลลัพธ์ด้วย p> 0.05 หลังจากการตรวจสอบความถูกต้องที่เรียกว่า "ผลบวกปลอม" อย่างไรก็ตามมันก็ยังไม่น่าเป็นไปได้มากกว่าที่ฉันได้เลือกสมมติฐานเพื่อทดสอบด้วยสมมติฐานว่างที่สอดคล้องกันเท็จเมื่อข้อมูลการทดลองมี ap <0.50ซึ่งต่ำ แต่> 0.05 และไม่ใช่ทั้งสมมติฐานว่างและ สมมติฐานการวิจัยมีความไม่แน่นอน / ไม่มีนัยสำคัญทางสถิติ (จากการตัดนัยสำคัญทางสถิติแบบธรรมดา) ที่ใดก็ได้ระหว่าง 0.05 <p < 0.95ไม่ว่าอินเวอร์สของ p <0.05 จะเป็นเท่าใดก็ตามเนื่องจากความไม่สมดุลชี้ไปที่ลิงก์ของ @ NickStauner ?

ลองเรียกหมายเลขนั้น A และกำหนดว่าเป็นค่า p ซึ่งบอกสิ่งเดียวกันเกี่ยวกับความน่าจะเป็นที่คุณเลือกสมมติฐานว่างเปล่าที่แท้จริงสำหรับการทดลอง / การวิเคราะห์ของคุณว่าค่า p-0.05 บอกถึงความน่าจะเป็นที่คุณ ' ได้เลือกสมมติฐานที่ไม่เป็นจริงสำหรับการทดสอบ / การวิเคราะห์ของคุณ ไม่ 0.05 <p <เพียงแค่พูดว่า "ขนาดตัวอย่างของคุณไม่ใหญ่พอที่จะตอบคำถามและคุณจะไม่สามารถตัดสินความสำคัญของแอปพลิเคชัน / โลกแห่งความจริงจนกว่าคุณจะได้รับตัวอย่างที่ใหญ่กว่าและรับสถิติของคุณ นัยสำคัญแยกออก "?

กล่าวอีกนัยหนึ่งมันไม่ถูกต้องที่จะเรียกผลลัพธ์ที่ผิดพลาดอย่างแน่นอน (แทนที่จะได้รับการสนับสนุนเพียงอย่างเดียว) ถ้าหาก p> A?

ดูเหมือนว่าจะตรงไปตรงมากับฉัน แต่การใช้งานที่แพร่หลายเช่นนั้นบอกฉันว่าฉันอาจผิด ฉัน:

a) ตีความคณิตศาสตร์อย่างผิดพลาด
b) บ่นเกี่ยวกับการประชุมที่ไม่เป็นอันตรายถ้าไม่ถูกต้อง
c) ถูกต้องสมบูรณ์หรือ
ง) อื่น ๆ

ฉันรู้ว่าสิ่งนี้ฟังดูเหมือนเป็นการเรียกร้องความคิดเห็น แต่ดูเหมือนว่าคำถามที่มีคำตอบที่ถูกต้องทางคณิตศาสตร์แน่นอน (เมื่อมีการตั้งค่า cutoff ที่สำคัญ) ที่ฉันหรือเกือบทุกคนอื่นจะผิด


1
สวัสดีเดวิด นี่คือกระดาษที่ทำให้ฉันนึกถึง: ลิงค์
Andrew Klaassen

2
ในบรรทัดแรกของคุณคุณไม่ได้ตั้งใจจะเขียนว่า "... ผลลัพธ์ตั้งแต่แรกด้วยp<0.05 แต่ต่อมาด้วย p0.05 หลังจากการตรวจสอบความถูกต้อง ... "ผลลัพธ์ด้วย p มากกว่าเกณฑ์ αมิฉะนั้นจะเรียกว่าผลลบ แม้หลังจากที่คุณแก้ไขตัวละครของคุณของการตีความของpไม่ถูกต้องดังนั้นฉันขอแนะนำให้คุณสละเวลาสักครู่เพื่อทบทวนโพสต์ของเราบางส่วนเกี่ยวกับการตีความค่า pและพิจารณาสิ่งที่คุณต้องการถามอีกครั้ง
whuber

1
คุณสามารถลบคำถามของคุณหากคุณต้องการ แต่เมื่อคุณได้รับ upvotes สอง (โอ้ heck ให้มัน 3) คำตอบ upvote และกำลังจะได้รับคำตอบอื่นจาก "ของคุณอย่างแท้จริง" ฉันขอให้คุณออก ใช้งานและทำงานตามที่คุณเห็นสมควร แต่ฉันเคารพสิทธิของคุณที่จะทำตามที่คุณต้องการ ไชโย!
Nick Stauner

1
ฉันเห็นด้วยกับ @Nick, Andrew: คุณมีคำถามที่ตรงไปตรงมาและเร้าใจที่ดึงดูดความคิดและความสนใจดังนั้นเราจะขอบคุณมากที่สุดถ้าคุณจะโพสต์ไว้และหากคุณสามารถปรับแต่งเล็กน้อยเพื่อมุ่งเน้นไปที่ ประเด็นสำคัญเกี่ยวกับวิธีตีความค่า p ส่วนที่แปลกใหม่จากสิ่งที่ฉันสามารถบอกได้คือข้อเสนอแนะว่าเกณฑ์การปฏิเสธควรเป็นไปตามค่า p ที่มีขนาดใหญ่ ความคิดเห็นของคุณอีกครั้ง: ผลบวกปลอมเกิดขึ้นเมื่อการทดสอบมีความสำคัญ แต่เป็นที่รู้กันว่าสมมติฐานว่างนั้นเป็นจริง
whuber

1
@whuber: การเน้นพื้นหลังที่น่าสนใจยิ่งขึ้นสำหรับฉันคือสิ่งที่ผลลัพธ์จะแนะนำว่าการทดสอบติดตามผลด้วยขนาดตัวอย่างที่ใหญ่กว่าน่าจะมีประสิทธิผล จากคำตอบจนถึงตอนนี้ดูเหมือนว่าฉันต้องถามว่าค่า p อาจเกี่ยวข้องกับคำถามนั้นได้หรือไม่ รู้อีกหรือไม่ว่าสมมติฐานว่างนั้นเป็นจริงเหมือนกับการวัดค่าบวกเท็จ: เมื่อใดจะบอกว่าสมมติฐานว่างนั้นเป็นจริงนอกสถานการณ์ p> (1 - α)?
Andrew Klaassen

คำตอบ:


15

คำถามของคุณอยู่บนพื้นฐานของข้อเท็จ:

ไม่ใช่สมมติฐานว่างยังคงมีแนวโน้มมากกว่าที่จะไม่ผิดเมื่อ p <0.50

p-value ไม่ใช่ความน่าจะเป็นที่สมมติฐานว่างเป็นจริง p < .5ตัวอย่างเช่นถ้าคุณเอาพันกรณีที่สมมติฐานเป็นจริงครึ่งหนึ่งของพวกเขาจะมี ครึ่งหนึ่งนั้นทั้งหมดจะเป็นโมฆะ

อันที่จริงความคิดที่p > .95หมายความว่าสมมติฐานว่างคือ "อาจเป็นจริง" ก็ทำให้เข้าใจผิดอย่างเท่าเทียมกัน หากสมมติฐานเป็นจริงน่าจะเป็นที่เป็นเหมือนกับน่าจะเป็นที่p > .95p < .05

การทางพิเศษแห่งประเทศไทย: การแก้ไขของคุณทำให้ชัดเจนว่าปัญหาคืออะไร: คุณยังคงมีปัญหาดังกล่าวข้างต้น (ที่คุณกำลังรักษาค่า p เป็นค่าความน่าจะเป็นหลังเมื่อมันไม่ได้) เป็นสิ่งสำคัญที่จะต้องทราบว่านี่ไม่ใช่ความแตกต่างทางปรัชญาที่ละเอียดอ่อน (อย่างที่ฉันคิดว่าคุณกำลังพูดถึงเรื่องการจับสลาก): มันมีความหมายเชิงปฏิบัติอย่างมากสำหรับการตีความค่า p ใด ๆ

แต่มีคือการเปลี่ยนแปลงที่คุณสามารถดำเนินการเกี่ยวกับ P-ค่าที่คุณจะได้รับสิ่งที่คุณกำลังมองหาและก็เรียกว่าอัตราการค้นพบที่ผิดพลาดในท้องถิ่น (ตามที่อธิบายไว้ในบทความดีนี้มันเทียบเท่ากับ "ความน่าจะเป็นข้อผิดพลาดหลัง" บ่อยครั้งดังนั้นลองคิดดูถ้าคุณชอบ)

มาทำงานกับตัวอย่างที่เป็นรูปธรรม สมมติว่าคุณกำลังทำการทดสอบแบบ t เพื่อตรวจสอบว่าตัวอย่างของตัวเลข 10 ตัว (จากการแจกแจงแบบปกติ) มีค่าเฉลี่ยเป็น 0 (ตัวอย่างหนึ่งแบบทดสอบสองด้าน) ก่อนอื่นเรามาดูว่าการแจกแจงค่า p เป็นอย่างไรเมื่อค่าเฉลี่ยเป็นศูนย์จริง ๆด้วยการจำลอง R แบบสั้น:

null.pvals = replicate(10000, t.test(rnorm(10, mean=0, sd=1))$p.value)
hist(null.pvals)

ป้อนคำอธิบายรูปภาพที่นี่

อย่างที่เราเห็นค่า p-null มีการแจกแจงแบบสม่ำเสมอ (มีแนวโน้มเท่ากันทุกจุดระหว่าง 0 ถึง 1) นี่เป็นเงื่อนไขที่จำเป็นของค่า p: จริง ๆ แล้วมันคือความหมายของค่า p! (เนื่องจากค่า null นั้นเป็นจริงจะมีโอกาส 5% ที่จะน้อยกว่า. 05 และโอกาส 10% จะน้อยกว่า. 1 ... )

ทีนี้ลองพิจารณาสมมุติฐานทางเลือก - กรณีที่ค่า Null เป็นเท็จ ทีนี้มันซับซ้อนกว่านี้เล็กน้อย: เมื่อโมฆะเป็นเท็จ "มันเท็จแค่ไหน" ค่าเฉลี่ยของตัวอย่างไม่ใช่ 0 แต่มันคือ 0.5 1? 10? มันแตกต่างกันแบบสุ่มบางครั้งเล็กและใหญ่บ้างไหม? เพื่อความเรียบง่ายสมมติว่ามันเสมอเท่ากับ. 5 (แต่จำไว้ว่าภาวะแทรกซ้อนมันจะมีความสำคัญในภายหลัง):

alt.pvals = replicate(10000, t.test(rnorm(10, mean=.5, sd=1))$p.value)
hist(alt.pvals)

ป้อนคำอธิบายรูปภาพที่นี่

โปรดสังเกตว่าการแจกแจงตอนนี้ไม่เหมือนกัน: มันเปลี่ยนเป็น 0! ในความคิดเห็นของคุณคุณพูดถึง "ความไม่สมดุล" ที่ให้ข้อมูล: นี่คือความไม่สมดุล

ลองจินตนาการว่าคุณรู้ทั้งการแจกแจงเหล่านั้น แต่คุณกำลังทำงานกับการทดสอบใหม่และคุณมีก่อนหน้านี้ว่ามีโอกาส 50% ที่เป็นโมฆะและ 50% เป็นทางเลือก คุณจะได้รับค่า p .7 คุณจะได้รับจากสิ่งนั้นและค่า p เป็นความน่าจะเป็นได้อย่างไร

สิ่งที่คุณควรทำคือเปรียบเทียบความหนาแน่น :

lines(density(alt.pvals, bw=.02))
plot(density(null.pvals, bw=.02))

และดูค่า p ของคุณ:

abline(v=.7, col="red", lty=2)

ป้อนคำอธิบายรูปภาพที่นี่

อัตราส่วนนั้นระหว่างความหนาแน่นของค่า null และความหนาแน่นทางเลือกสามารถใช้ในการคำนวณอัตราการค้นพบที่ผิดพลาดในท้องถิ่น : ยิ่งค่า Null สัมพันธ์กับทางเลือกมากเท่าใดยิ่ง FDR ในท้องถิ่นสูงขึ้น นั่นเป็นความน่าจะเป็นที่สมมติฐานนั้นเป็นโมฆะ (ในทางเทคนิคมันมีการตีความบ่อย ๆ ที่เข้มงวดกว่า แต่เราจะทำให้มันง่ายขึ้นที่นี่) ถ้าว่ามูลค่าที่สูงมากแล้วคุณสามารถทำให้การตีความ "สมมติฐานเป็นจริงเกือบจะแน่นอน." อันที่จริงคุณสามารถสร้างเกณฑ์. 05 และ. 95 ของ FDR ในพื้นที่: สิ่งนี้จะมีคุณสมบัติที่คุณกำลังมองหา (และเนื่องจาก FDR ในท้องถิ่นเพิ่มขึ้นแบบ monotonically ด้วย p-value อย่างน้อยถ้าคุณทำถูกต้องสิ่งเหล่านี้จะแปลไปยังขีด จำกัด A และ B ที่คุณสามารถพูดได้ "

ตอนนี้ฉันได้ยินคุณถามแล้ว "ทำไมเราไม่ใช้สิ่งนั้นแทนค่า p?" เหตุผลสองประการ:

  1. คุณต้องตัดสินใจเกี่ยวกับความน่าจะเป็นก่อนหน้านี้ว่าการทดสอบนั้นเป็นโมฆะ
  2. คุณจำเป็นต้องรู้ความหนาแน่นภายใต้ทางเลือกอื่น นี้เป็นมากยากที่จะคาดเดาเพราะคุณจะต้องกำหนดวิธีการที่มีขนาดใหญ่ขนาดอิทธิพลของคุณและความแปรปรวนสามารถและวิธีพวกเขามักจะเป็นอย่างนั้น!

คุณไม่จำเป็นต้องใช้ข้อใดข้อหนึ่งในการทดสอบค่า p-value และการทดสอบค่า p ยังคงช่วยให้คุณหลีกเลี่ยงผลบวกปลอม (ซึ่งเป็นจุดประสงค์หลัก) ตอนนี้เป็นไปได้ที่จะประเมินค่าทั้งสองในการทดสอบสมมติฐานหลายครั้งเมื่อคุณมีค่า p หลายพันค่า (เช่นการทดสอบหนึ่งครั้งสำหรับแต่ละยีนนับพัน: ดูบทความนี้หรือบทความนี้ ) แต่ไม่ใช่เมื่อคุณ กำลังทำการทดสอบเดี่ยว

สุดท้ายคุณอาจพูดว่า "กระดาษยังไม่ผิดที่จะบอกว่าการจำลองแบบที่นำไปสู่ค่า p ด้านบน. 05 จำเป็นต้องเป็นค่าบวกผิดหรือไม่" ในขณะที่มันเป็นความจริงที่ได้ค่า p-value หนึ่งจาก. 04 และ p-value อีกค่าของ. 06 ไม่ได้หมายความว่าผลลัพธ์ดั้งเดิมนั้นผิดในทางปฏิบัติมันเป็นตัวชี้วัดที่สมเหตุสมผล แต่ในกรณีใด ๆ คุณอาจดีใจที่รู้ว่าคนอื่นมีความสงสัยเกี่ยวกับมัน! กระดาษที่คุณอ้างถึงค่อนข้างขัดแย้งในสถิติ: บทความนี้ใช้วิธีการที่แตกต่างกันและมาถึงข้อสรุปที่แตกต่างกันอย่างมากเกี่ยวกับ P-ค่าจากการวิจัยทางการแพทย์แล้วว่าการศึกษาได้รับการวิพากษ์วิจารณ์โดยบาง Bayesians ที่โดดเด่น (และรอบและรอบมันไป ...) ดังนั้นในขณะที่คำถามของคุณตั้งอยู่บนสมมติฐานที่ผิดพลาดบางประการเกี่ยวกับค่า p แต่ฉันคิดว่ามันตรวจสอบสมมติฐานที่น่าสนใจในส่วนของเอกสารที่คุณอ้างถึง


สวัสดีเดวิด จุดยุติธรรม ฉันจะพยายามเขียนคำถามอีกครั้งเพื่อไม่ให้ส่วนนั้นผิดและดูว่าฉันยังเห็นปัญหาอยู่หรือไม่
Andrew Klaassen

@David_Robinson: ถูกต้องหรือไม่ที่จะใช้ค่า p เป็นค่า false-alarm ในกฎ Bayesian และสามารถสรุปได้เกี่ยวกับความน่าจะเป็นของการวิจัยและ / หรือสมมติฐานว่างจากนั้น ตั้งไว้ก่อน 50% และเล่นอย่างรวดเร็วและหลวมจากที่นั่น? :-)
Andrew Klaassen

1
ใช่น่าหลงใหล! คุณสามารถใช้มันเป็นคำตอบของคุณได้ไหม? แต่มีความไม่สมดุลระหว่างวิธีการทำงานของ p เมื่อ null เป็นจริงเมื่อเทียบกับเมื่อมันเป็นเท็จที่ ~ ต้อง ~ ให้ข้อมูลบางอย่างเกี่ยวกับความเป็นไปได้ที่สมมติฐานว่างจะเป็นจริงขึ้นอยู่กับค่า p ที่สกัดจากข้อมูล หากสมมุติฐานว่างจริงสร้างค่า p ที่กระจายอย่างสม่ำเสมอและสมมติฐานที่ไม่ใช่ศูนย์จริงให้สร้างค่า p ที่เอียงไปที่ 0 ให้ดึง ap = 0.01 หินอ่อน ~ ต้องบอกว่าคุณมีแนวโน้มที่จะเลือก - การทดลองที่ไม่มีค่าศูนย์ถึงแม้ว่าความน่าจะเป็นจะไม่เปลี่ยนแปลงโดยทำการทดลอง
Andrew Klaassen

1
@AndrewKlaassen: คุณอาจสนใจในแนวคิดของ "อัตราการค้นพบที่ผิดพลาดในท้องถิ่น" มันเทียบเท่ากับความน่าจะเป็นหลังเบย์บ่อยๆว่าค่านั้นเป็นจริง a) ความน่าจะเป็นก่อนหน้านี้ที่เป็นจริง (บางครั้งเรียกว่า pi0) และ b) การประมาณความหนาแน่นสำหรับสมมติฐานทางเลือก ในการทดสอบสมมติฐานหลายรายการ (หากคุณมีค่า p หลายพันค่า) คุณสามารถประมาณค่าทั้งสองได้โดยดูที่ความหนาแน่น หากฉันมีเวลาอีกเล็กน้อยฉันอาจสร้างคำอธิบายที่ลึกลงไปในคำตอบของฉัน
David Robinson

1
@AndrewKlaassen: ดูการแก้ไขของฉันที่ฉันอธิบาย FDR ในรายละเอียดว่าทำไมมันจึงเป็นวิธีในการคำนวณค่าของคุณ "A" (แม้ว่าคุณอาจต้องการเปลี่ยน. 05 ในขณะที่คุณคำนวณ A) และทำไมมันจึงไม่ค่อยถูกใช้ . อย่างไรก็ตามเพื่อชี้แจงจุดหนึ่งที่ไม่เหมาะกับคำตอบจริง: ตัวอย่างของคุณที่มีลอตเตอรีลอตเตอรี่ผิดไปจากจุดที่ฉันและคนอื่นทำ เราไม่ได้ถูกแขวนอยู่กับความคิดที่ว่า "ความน่าจะเป็นเปลี่ยนแปลงไปกับข้อมูลใหม่" (ทั้ง Bayesians และผู้ใช้บ่อยมีการตีความในสิ่งนั้น): ประเด็นก็คือว่าคุณไม่ได้เปลี่ยนวิธีที่ถูกต้อง!
David Robinson

10

เลื่อนเมาส์ไปที่ตำแหน่งใดก็ได้ (เป็นแท็กปลอม) ที่ปรากฏด้านล่างเพื่อดูข้อความที่ตัดตอนมาโดยย่อของวิกิ โปรดยกโทษให้การเว้นวรรคบรรทัด ฉันคิดว่ามันคุ้มค่าเพราะข้อความที่ตัดตอนมาจากแท็กอาจช่วยให้ผู้อ่านตรวจสอบความเข้าใจของศัพท์แสงในขณะที่อ่าน ข้อความที่ตัดตอนมาบางส่วนอาจสมควรได้รับการแก้ไขเช่นกันดังนั้นพวกเขาจึงสมควรได้รับการเผยแพร่ IMHO

p>.05 โดยปกติแล้วเราไม่ควรปฏิเสธ . ตรงกันข้ามหรือบวกเท็จเกิดขึ้นเมื่อหนึ่งปฏิเสธโมฆะเนื่องจาก ข้อผิดพลาดหรือเหตุการณ์ผิดปกติอื่น ๆ ที่ทำให้ ที่ไม่น่าเป็นอย่างอื่น (โดยปกติจะมี p<.05) เพื่อสุ่มตัวอย่างจาก a ซึ่ง null เป็นจริง ผลที่ได้ด้วยp>.05 ที่เรียกว่าบวกปลอมดูเหมือนว่าจะสะท้อนความเข้าใจผิดของสมมติฐานว่าง ไอเอ็นจี (NHST) ความเข้าใจผิดไม่ใช่เรื่องผิดปกติในงานวิจัยที่ตีพิมพ์เนื่องจาก NHST มีชื่อเสียงในทางต่อต้าน นี่เป็นหนึ่งในเสียงร้องของการชุมนุมการบุกรุก (ซึ่งฉันสนับสนุน แต่ไม่ทำตาม ... ยัง) ฉันทำงานกับการแสดงผลที่ไม่ถูกต้องเช่นตัวเองจนกระทั่งเมื่อไม่นานมานี้

@DavidRobinson ถูกต้องในการสังเกตว่า p ไม่ใช่ความน่าจะเป็นของโมฆะที่เป็นเท็จ NHST นี่คือ (อย่างน้อย) หนึ่งในสามีของ(2008) "โหลสกปรก" ความเข้าใจผิดเกี่ยวกับpค่า (เห็นHurlbert & Lombardi 2009 ) ใน NHSTp คือ ว่าจะวาดตัวอย่างสุ่มใด ๆ ในอนาคตด้วยวิธีเดียวกันกับที่จะแสดงความสัมพันธ์หรือความแตกต่าง (หรืออะไรก็ตาม จะถูกทดสอบกับโมฆะหากมีขนาดของเอฟเฟกต์อื่น ๆ อยู่อย่างน้อยแตกต่างจากสมมติฐานว่างในขณะที่ตัวอย่างจากประชากรเดียวกันมีการทดสอบว่ามาถึงที่กำหนด pค่าถ้าเป็นจริง นั่นคือ,pความน่าจะเป็นของการได้รับตัวอย่างเช่นคุณที่ได้รับโมฆะ ; มันไม่ได้สะท้อนความน่าจะเป็นของโมฆะ - อย่างน้อยไม่ใช่โดยตรง ในทางกลับกันวิธีการแบบเบย์มีความภาคภูมิใจในสูตรการวิเคราะห์ทางสถิติที่มุ่งเน้นไปที่การประเมินหลักฐานสำหรับหรือต่อต้านทฤษฎีของผลกระทบที่ได้รับข้อมูลซึ่งพวกเขาอ้างว่าเป็นวิธีที่น่าสนใจยิ่งขึ้น( Wagenmakers, 2007 ) , ในข้อดีอื่น ๆ และการตั้งข้อเสียที่เป็นที่ถกเถียงกัน (เพื่อความเป็นธรรมดู " ข้อเสียของการวิเคราะห์แบบเบย์คืออะไร " คุณยังได้ให้ความเห็นกับบทความที่อาจมีคำตอบที่ดีเช่น: Moyé, 2008; Hurlbert & Lombardi, 2009 )

เนื้อหาที่เป็นโมฆะตามที่ระบุตามตัวอักษรมักจะเป็นไปได้มากกว่าที่จะไม่ผิดเพราะสมมติฐานที่เป็นโมฆะเป็นปกติธรรมดาสมมติฐานของศูนย์ผลแท้จริง (สำหรับตัวอย่างแบบเคาน์เตอร์ที่สะดวกดูคำตอบสำหรับ: " ชุดข้อมูลขนาดใหญ่ไม่เหมาะสมสำหรับการทดสอบสมมติฐานหรือไม่ ") ปัญหาเชิงปรัชญาเช่นผลกระทบจากผีเสื้อคุกคามตัวอักษรของสมมติฐานดังกล่าว ดังนั้นค่า null จึงมีประโยชน์มากที่สุดโดยทั่วไปเป็นพื้นฐานของการเปรียบเทียบสำหรับสมมติฐานทางเลือกของเอฟเฟกต์ที่ไม่ใช่ศูนย์ ดังกล่าวสมมติฐานทางเลือกที่อาจจะยังคงเป็นไปได้มากขึ้นกว่าที่เป็นโมฆะหลังจากที่ข้อมูลได้รับการเก็บว่าจะได้รับที่จะเกิดขึ้นถ้าเป็นโมฆะเป็นความจริง ดังนั้นนักวิจัยมักจะสนับสนุนสมมติฐานทางเลือกจากหลักฐานต่อโมฆะ แต่นั่นไม่ใช่สิ่งที่ปริมาณโดยตรง( Wagenmakers 2007 )

ตามที่คุณสงสัย เป็นหน้าที่ของ เช่นเดียวกับขนาดผลและความสอดคล้อง (ดูคำตอบของ @ gung สำหรับคำถามล่าสุดว่า " การทดสอบแบบทดสอบจะมีนัยสำคัญทางสถิติได้อย่างไรหากความแตกต่างเฉลี่ยเกือบ 0? ") คำถามที่เรามักจะถามจากข้อมูลของเราคือ "ผลของการxเปิดyคืออะไร " ด้วยเหตุผลต่าง ๆ (รวมถึง IMO โปรแกรมการศึกษาที่เข้าใจผิดและมีข้อบกพร่องอย่างอื่นในสถิติโดยเฉพาะอย่างยิ่งที่สอนโดยนักสถิติที่ไม่ใช่) เรามักพบว่าตัวเองแทนที่จะถามคำถามที่เกี่ยวข้องอย่างแท้จริง "ความน่าจะเป็นของการสุ่มตัวอย่างข้อมูล จากประชากรที่xไม่มีผลกระทบyหรือไม่ " นี่คือความแตกต่างที่สำคัญระหว่างการประมาณขนาดผลกระทบและการทดสอบอย่างมีนัยสำคัญตามลำดับ p คุณค่าตอบเพียงคำถามหลังโดยตรง แต่ผู้เชี่ยวชาญหลายคน (@rpierce อาจให้รายชื่อคุณดีกว่าฉันให้อภัยฉันที่ลากคุณเข้ามาในนี้!) แย้งว่านักวิจัยเข้าใจผิด pเป็นคำตอบสำหรับคำถามในอดีตของขนาดเอฟเฟกต์ทั้งหมดบ่อยเกินไป; ฉันเกรงว่าจะต้องเห็นด้วย

เพื่อตอบสนองโดยตรงมากขึ้นเกี่ยวกับความหมายของ .05<p<.95มันคือความน่าจะเป็นที่จะสุ่มตัวอย่างข้อมูลจากประชากรที่เป็นโมฆะ แต่แสดงความสัมพันธ์หรือความแตกต่างที่แตกต่างจากสิ่งที่โมฆะอธิบายตามตัวอักษรอย่างน้อยกว้างและสม่ำเสมอตามที่ข้อมูลของคุณทำ .. <สูดดม> ... อยู่ระหว่าง 5–95% บางคนอาจโต้แย้งว่านี่เป็นผลมาจากขนาดของกลุ่มตัวอย่างเนื่องจากการเพิ่มขนาดของกลุ่มตัวอย่างช่วยเพิ่มความสามารถในการตรวจจับขนาดของเอฟเฟกต์ขนาดเล็กและไม่คงที่และสร้างความแตกต่างจากขนาดศูนย์ อย่างไรก็ตามขนาดของเอฟเฟกต์ที่มีขนาดเล็กและไม่คงที่อาจเป็นไปได้นัยสำคัญทางสถิติ - อีกหนึ่งเรื่องของ Goodman's (2008) โหลสกปรก); สิ่งนี้ขึ้นอยู่กับความหมายของข้อมูลซึ่งนัยสำคัญทางสถิติเกี่ยวข้องกับตัวเองในระดับที่ จำกัด เท่านั้น ดูคำตอบของฉันข้างต้น

มันควรจะถูกต้องหรือไม่ที่จะเรียกผลลัพธ์ออกมาว่าเป็นเท็จอย่างแน่นอน (แทนที่จะได้รับการสนับสนุนเพียงอย่างเดียว) ถ้า ... p> 0.95?

เนื่องจากข้อมูลควรเป็นตัวแทนของการสังเกตเชิงประจักษ์โดยข้อเท็จจริงจึงไม่ควรเป็นเท็จ การอนุมานเกี่ยวกับพวกเขาเท่านั้นที่ควรเผชิญกับความเสี่ยงเช่นนี้ (ข้อผิดพลาดในการวัดเกิดขึ้นแน่นอนเกินไป แต่ปัญหานั้นอยู่นอกขอบเขตของคำตอบนี้ดังนั้นนอกเหนือจากการกล่าวถึงที่นี่ฉันจะปล่อยให้มันอยู่คนเดียว) ความเสี่ยงบางอย่างมีอยู่เสมอในการหาข้อสรุปเชิงบวกที่ผิดพลาด กว่าสมมติฐานทางเลือกอย่างน้อยนอกเสียจากว่าผู้อนุมานรู้ว่าไม่มีจริง เฉพาะในสถานการณ์ที่ยากต่อการเข้าใจความรู้ที่ว่าโมฆะนั้นเป็นจริงอย่างแท้จริงการอนุมานที่สนับสนุนสมมติฐานทางเลือกนั้นเป็นเท็จอย่างแน่นอน ... อย่างน้อยที่สุดเท่าที่ฉันจะจินตนาการได้ในขณะนี้

เห็นได้ชัดว่าการใช้งานหรือการประชุมที่แพร่หลายนั้นไม่ใช่อำนาจที่ดีที่สุดในการรับรองความถูกต้องหรือการอนุมาน แม้แต่แหล่งข้อมูลที่เผยแพร่ก็ยังมีความผิดพลาด ดูตัวอย่างเช่นการเข้าใจผิดในความหมาย p-value การอ้างอิงของคุณ( Hurlbert & Lombardi, 2009 )มีการอธิบายที่น่าสนใจของหลักการนี้ด้วย(หน้า 322):

StatSoft (2007) ภูมิใจนำเสนอบนเว็บไซต์ของพวกเขาว่าคู่มือออนไลน์ของพวกเขา“ เป็นแหล่งข้อมูลทางอินเทอร์เน็ตเพียงแห่งเดียวในสถิติที่แนะนำโดย Encyclopedia Brittanica” 'การเชื่อถือไม่ได้' เป็นสิ่งสำคัญอย่างยิ่งสำหรับสติกเกอร์กันชนที่บอกว่า [URL ที่ใช้งานไม่ได้ถูกแปลงเป็นข้อความไฮเปอร์ลิงก์]

อีกกรณีหนึ่งในจุด: วลีนี้ในบทความข่าวล่าสุดทางธรรมชาติ( Nuzzo, 2014 ) : "ค่า P, ดัชนีทั่วไปเพื่อความแข็งแรงของหลักฐาน ... " ดูWagenmakers ' (2007, หน้า 787) "ปัญหา 3:pค่าอย่าเปิดเผยหลักฐานเชิงสถิติเชิงปริมาณ "... อย่างไรก็ตาม @MichaelLew ( Lew, 2013 )ไม่เห็นด้วยกับวิธีที่คุณอาจพบว่ามีประโยชน์: เขาใช้pฟังก์ชั่นค่าความน่าจะเป็นของดัชนี แต่ในแหล่งข้อมูลที่ตีพิมพ์เหล่านี้ขัดแย้งกันอย่างน้อยก็ต้องผิด! (ในบางระดับฉันคิดว่า ... ) แน่นอนว่านี่ไม่เลวเท่า "ไม่น่าเชื่อถือ" ต่อ se ฉันหวังว่าฉันจะเกลี้ยกล่อมไมเคิลในการตีที่นี่โดยติดแท็กเขาตามที่ฉันมี (แต่ฉันไม่แน่ใจว่าแท็กผู้ใช้ส่งการแจ้งเตือนเมื่อมีการแก้ไข - ฉันไม่คิดว่าคุณใน OP ทำ) เขาอาจเป็นคนเดียวที่สามารถรักษา Nuzzo ได้ - แม้แต่ธรรมชาติเอง! ช่วยพวกเราโอบีวัน! (และให้อภัยฉันถ้าคำตอบของฉันที่นี่แสดงให้เห็นว่าฉันยังคงไม่เข้าใจความหมายของงานของคุณซึ่งฉันแน่ใจว่าฉันมีในกรณีใด ๆ ... ) BTW, Nuzzo ยังมีการป้องกันตัวที่น่าสนใจและการพิสูจน์ Wagenmaakers '"ปัญหา 3": ดู "สาเหตุน่าจะเป็น" ของ Nuzzo( กู๊ดแมน 2001 1992; Gorroochurn ฮ็อดจ์, Heiman, Durner และกรีนเบิร์ก 2007 ) สิ่งเหล่านี้อาจมีคำตอบที่คุณกำลังมองหา แต่ฉันสงสัยว่าฉันจะบอกได้

Re: dคำถามหลายทางเลือกของคุณผมเลือก คุณอาจตีความบางแนวคิดผิดที่นี่ แต่คุณไม่ได้อยู่คนเดียวอย่างแน่นอนและฉันจะตัดสินให้คุณเพราะคุณเท่านั้นที่รู้ว่าคุณเชื่อในสิ่งใด การตีความที่ผิดนั้นหมายถึงความมั่นใจจำนวนหนึ่งในขณะที่การถามคำถามหมายถึงสิ่งที่ตรงกันข้ามและแรงกระตุ้นต่อคำถามเมื่อความไม่แน่นอนค่อนข้างน่ายกย่องและห่างไกลจากความแพร่หลายโชคไม่ดี เรื่องของธรรมชาติของมนุษย์นี้ทำให้ความไม่ถูกต้องของการประชุมของเราเศร้าอย่างไม่เป็นอันตรายและสมควรได้รับการร้องเรียนเช่นที่อ้างถึงที่นี่ (ขอขอบคุณในส่วนของคุณ!) อย่างไรก็ตามข้อเสนอของคุณไม่ถูกต้องสมบูรณ์เช่นกัน

การอภิปรายที่น่าสนใจของปัญหาที่เกี่ยวข้องกับ pค่าที่ฉันได้เข้าร่วมปรากฏในคำถามนี้: รองรับยึดที่มองเห็นวิวของ P-ค่า คำตอบของฉันแสดงรายการอ้างอิงสองสามข้อที่คุณอาจพบว่ามีประโยชน์สำหรับการอ่านเพิ่มเติมเกี่ยวกับปัญหาการตีความและทางเลือกอื่น ๆpค่า จะ forewarned: ฉันยังไม่ได้กดปุ่มด้านล่างนี้โดยเฉพาะอย่างยิ่งหลุมกระต่ายตัวเอง แต่อย่างน้อยผมสามารถบอกคุณได้ว่ามันลึกมาก ฉันยังคงเรียนรู้เกี่ยวกับมันด้วยตัวเอง (อื่นฉันสงสัยว่าฉันจะเขียนจากมุมมองแบบเบย์เพิ่มเติม: หรืออาจจะเป็นมุมมองของ NFSA! Hurlbert & Lombardi, 2009 )ฉันเป็นผู้มีอำนาจที่อ่อนแอที่สุดและฉันยินดีต้อนรับ การแก้ไขหรือนำเสนออย่างละเอียดอื่น ๆ อาจเสนอให้กับสิ่งที่ฉันได้พูดที่นี่ ทั้งหมดที่ฉันสามารถสรุปได้ก็คืออาจมีคำตอบที่ถูกต้องทางคณิตศาสตร์และอาจเป็นไปได้ว่าคนส่วนใหญ่เข้าใจผิด คำตอบที่ถูกต้องไม่ได้มาอย่างง่ายดายแน่นอนเนื่องจากการอ้างอิงต่อไปนี้แสดงให้เห็นถึง ...

ป.ล. ตามที่ได้รับการร้องขอ (เรียงลำดับ ... ฉันยอมรับว่าฉันเพิ่งจะแก้ปัญหานี้แทนการทำงานใน) คำถามนี้เป็นข้อมูลอ้างอิงที่ดีกว่าสำหรับการแจกแจงแบบสม่ำเสมอบางครั้งของpให้เป็นโมฆะ: " ทำไม p- ค่ากระจายอย่างสม่ำเสมอภายใต้สมมติฐานว่าง? " สิ่งที่น่าสนใจเป็นพิเศษคือความคิดเห็นของ @ whuber ซึ่งยกระดับของข้อยกเว้น ในฐานะที่เป็นค่อนข้างจริงกับการอภิปรายโดยรวมฉันไม่ปฏิบัติตามข้อโต้แย้ง 100% นับประสานัยของพวกเขาดังนั้นฉันไม่แน่ใจว่าปัญหาเหล่านั้นด้วยpความสม่ำเสมอของการกระจายนั้นยอดเยี่ยมจริงๆ สาเหตุเพิ่มเติมสำหรับความสับสนทางสถิติที่ฝังลึกฉันกลัว ...

อ้างอิง

- สามี, SN (1992) ความคิดเห็นเกี่ยวกับการจำลองแบบP ค่าและหลักฐาน สถิติทางการแพทย์, 11 (7), 875–879
- Goodman, SN (2001) ของค่า Pและค่า Bayes: ข้อเสนอเล็กน้อย ระบาดวิทยา, 12 (3), 295–297 แปลจากhttp://swfsc.noaa.gov/uploadedFiles/Divisions/PRD/Programs/ETP_Cetacean_Assessment/Of_P_Values_and_Bayes__A_Modest_Proposal.6.pdf
- Goodman, S. (2008) โหลสกปรก: ความเข้าใจผิดสิบสองค่าP สัมมนาทางโลหิตวิทยา, 45 (3), 135–140 แปลจากhttp://xa.yimg.com/kq/groups/18751725/636586767/name/twelve+P+value+misconceptions.pdf
- Gorroochurn, P. , Hodge, SE, Heiman, GA, Durner, M. , & Greenberg, DA (2007) การจำลองแบบของการศึกษาแบบเชื่อมโยง:“ หลอกหลอกล้มเหลว” เพื่อทำซ้ำ? พันธุศาสตร์ทางการแพทย์, 9 (6), 325–331 แปลจากhttp://www.nature.com/gim/journal/v9/n6/full/gim200755a.html
- Hurlbert, SH, & Lombardi, CM (2009) การล่มสลายครั้งสุดท้ายของกรอบการตัดสินใจเชิงทฤษฎีของ Neyman – Pearson และการเพิ่มขึ้นของ neoFisherian Annales Zoologici Fennici, 46 (5), 311–349 แปลจากhttp://xa.yimg.com/kq/groups/1542294/508917937/name/HurlbertLombardi2009AZF.pdf
- Lew, MJ (2013) ถึง P หรือไม่ถึง P: ตามลักษณะเชิงประจักษ์ของค่า P และตำแหน่งในการอนุมานทางวิทยาศาสตร์ arXiv: 1311.0081 [stat.ME] ดึงมาจากhttp://arxiv.org/abs/1311.0081
- Moyé, LA (2008) Bayesians ในการทดลองทางคลินิก: หลับที่สวิตช์ สถิติทางการแพทย์, 27 (4), 469–482
- Nuzzo, R. (2014, 12 กุมภาพันธ์) วิธีการทางวิทยาศาสตร์: ข้อผิดพลาดทางสถิติ ข่าวธรรมชาติ, 506 (7487) แปลจากhttp://www.nature.com/news/scientific-method-statistical-errors-1.14700
- Wagenmakers, EJ (2007) วิธีการแก้ปัญหาในทางปฏิบัติเพื่อแก้ไขปัญหาค่าp แถลงการณ์และการทบทวนทางจิตวิทยา, 14 (5), 779–804 แปลจากhttp://www.brainlife.org/reprint/2007/Wagenmakers_EJ071000.pdf


ฉันยังคงทำงานผ่านคำตอบที่ละเอียดมากของคุณ (ขอบคุณสำหรับมัน) แต่การที่คุณพูดถึง "การบุกรุกแบบเบย์" ทำให้ฉันคิดถึง "Bayesians ในการทดลองทางคลินิก: หลับที่สวิตช์" พิมพ์ซ้ำเป็นบทที่ 12 ที่นี่ซึ่งฉัน ' ฉันก็พันรอบศีรษะฉันช้าๆ
Andrew Klaassen

"คุณมาถึงหน้าที่ไม่สามารถดูได้หรือถึงขีด จำกัด การดูหนังสือเล่มนี้ของคุณ" ... หรือไม่
Nick Stauner

1
นั่นเป็นโชคร้าย หากคุณมีการเข้าถึงวารสารคุณยังสามารถค้นหาได้ที่นี่ การค้นหาวลี "ชาวเบย์กำลังทำลายกำแพงแบบดั้งเดิมในการทดลองทางคลินิก" อาจนำคุณไปที่นั่นด้วย
Andrew Klaassen

1
การล่มสลายครั้งสุดท้ายของกรอบทฤษฎีการตัดสินใจของเนย์แมน - เพียร์สันและการเพิ่มขึ้นของ neoFisherianยังมีประวัติความบันเทิงของค่า p และการโจมตีการใช้การวิเคราะห์แบบเบย์ในการวิจัย ฉันไม่สามารถพูดได้ว่าฉันเข้าใจดีพอที่จะประเมินมัน แต่ฉันคิดว่ามันเป็นเรื่องดีที่อย่างน้อยต้องระวังการแก้ไขความกระตือรือร้นปัจจุบัน
Andrew Klaassen

1
@NickStauner เพิ่งพบการสนทนานี้ มันไม่จำเป็นสำหรับอย่างน้อยหนึ่งบัญชีที่จะผิดถ้ามีชุดของบัญชีที่ไม่เห็นด้วย พวกเขาอาจขึ้นอยู่กับรุ่นที่แตกต่างกัน [หากคุณเป็นเกมคุณควรอ่านหนังสือของ The Nature of Statistics Evidence (2005) หนังสือของ Bill Thompson อย่างไรก็ตามบัญชีของฉันถูกต้องแน่นอน ;-) (แม้ว่าเมื่อเช้านี้ปฏิเสธวารสารอีกครั้ง) ฉันพบกระดาษ Nuzzo ระวังและอาจทำให้เข้าใจผิด
Michael Lew
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.