ค่าที่แน่นอนของ 'p-value' ไม่มีความหมายหรือไม่?


31

ฉันได้พูดคุยกับนักสถิติย้อนกลับไปเมื่อปี 2552 ซึ่งเขากล่าวว่าค่าที่แน่นอนของ p-value นั้นไม่เกี่ยวข้อง: สิ่งเดียวที่สำคัญคือไม่ว่ามันจะสำคัญหรือไม่ก็ตาม เช่นผลลัพธ์หนึ่งจะไม่สำคัญกว่าอีก ตัวอย่างของคุณอาจมาจากประชากรเดียวกันหรือไม่ก็ได้

ฉันมีคุณสมบัติบางอย่างกับสิ่งนี้ แต่บางทีฉันสามารถเข้าใจอุดมการณ์:

  1. ขีด จำกัด 5% นั้นเป็นกฎเกณฑ์นั่นคือ p = 0.051 นั้นไม่มีนัยสำคัญและ p = 0.049 คือไม่ควรเปลี่ยนข้อสรุปของการสังเกตหรือการทดสอบของคุณจริงๆแม้ว่าผลลัพธ์หนึ่งรายการจะสำคัญ

    เหตุผลที่ทำให้ตอนนี้ขึ้นมาก็คือตอนนี้ฉันกำลังศึกษาปริญญาโทด้านชีวสารสนเทศศาสตร์และหลังจากพูดคุยกับผู้คนในภาคสนามดูเหมือนว่าจะมีความมุ่งมั่นที่จะได้รับค่า p ที่แน่นอนสำหรับสถิติทุกชุดที่พวกเขาทำ ตัวอย่างเช่นหากพวกเขา 'บรรลุ' ค่า p ของ p <1.9 × 10 -12พวกเขาต้องการแสดงให้เห็นว่าผลลัพธ์ของพวกเขามีนัยสำคัญอย่างไรและผลลัพธ์นี้เป็นข้อมูลที่ยอดเยี่ยม ปัญหานี้เป็นตัวอย่างที่มีคำถามเช่น: เหตุใดฉันจึงไม่สามารถรับค่า p น้อยกว่า 2.2e-16 ได้ โดยที่พวกเขาต้องการบันทึกค่าที่บ่งชี้ว่าโดยบังเอิญเพียงอย่างเดียวนี่จะน้อยกว่า 1 ในล้านล้าน แต่ฉันเห็นความแตกต่างเล็กน้อยในการแสดงให้เห็นว่าผลลัพธ์นี้จะเกิดขึ้นน้อยกว่า 1 ในล้านล้านเมื่อเทียบกับ 1 ในพันล้าน

  2. ฉันรู้สึกซาบซึ้งที่ p <0.01 แสดงให้เห็นว่ามีโอกาสน้อยกว่า 1% ที่จะเกิดขึ้นในขณะที่ p <0.001 บ่งชี้ว่าผลลัพธ์เช่นนี้ไม่น่าเป็นไปได้มากไปกว่าค่า p-a ดังกล่าวข้างต้น แตกต่างกันอย่างไร หลังจากพวกเขามีทั้งค่า p ที่สำคัญ วิธีเดียวที่ฉันสามารถจินตนาการได้ว่าต้องการบันทึกค่า p-value ที่แน่นอนคือระหว่างการแก้ไข Bonferroni โดยที่เกณฑ์เปลี่ยนไปเนื่องจากจำนวนการเปรียบเทียบที่ทำจึงลดข้อผิดพลาดประเภท I แต่ถึงอย่างนั้นทำไมคุณถึงต้องการแสดงค่า p ที่มีขนาด 12 ออเดอร์น้อยกว่าขีด จำกัด ที่มีนัยสำคัญ?

  3. และไม่ใช้การแก้ไข Bonferroni ในตัวเองโดยพลการเล็กน้อยเช่นกัน? ในแง่ที่ว่าการแก้ไขเริ่มแรกนั้นถูกมองว่าเป็นแบบอนุรักษ์นิยมมากดังนั้นจึงมีการแก้ไขอื่น ๆ ที่เราสามารถเลือกที่จะเข้าถึงระดับนัยสำคัญที่ผู้สังเกตการณ์สามารถใช้สำหรับการเปรียบเทียบหลาย ๆ แต่ด้วยเหตุนี้ไม่ได้เป็นจุดที่บางสิ่งบางอย่างกลายเป็นตัวแปรสำคัญโดยขึ้นอยู่กับสถิติที่นักวิจัยต้องการใช้ สถิติควรเปิดกว้างสำหรับการตีความหรือไม่?

โดยสรุปสถิติไม่ควรเป็นแบบอัตนัยน้อยลง (แม้ว่าฉันเดาว่าความต้องการที่จะทำให้เกิดอัตวิสัยนั้นเป็นผลมาจากระบบหลายตัวแปร) แต่ท้ายที่สุดฉันต้องการคำอธิบายบางอย่าง: สิ่งที่สำคัญกว่าอย่างอื่นหรือไม่? และ p <0.001 จะเพียงพอหรือไม่ในการพยายามบันทึกค่า p ที่แน่นอน


6
สิ่งนี้น่าสนใจทีเดียว: stat.washington.edu/peter/342/nuzzo.pdf
Dan

4
ที่เกี่ยวข้องอย่างอิสระ: ในคำตอบของฉันกับคำถามเมื่อใช้ฟิชเชอร์และกรอบการ Neyman เพียร์สัน , ผมยืนยันว่ามีบทบาทสำหรับกรอบแต่ละ ในการรักษาตำแหน่งของฉันที่นั่นฉันจะบอกว่าค่า p ที่แน่นอนจะไม่สำคัญในกรอบของ NP แต่ฉันสามารถใช้กรอบงานของชาวประมงได้ (เท่าที่จำนวนตัวเลขที่รายงานนั้นเชื่อถือได้จริง)
gung - Reinstate Monica

มันวิเศษมากที่นักสถิติบางคนต้องการที่จะยึดมั่นในแนวคิดของค่า p เมื่อมันมักจะเป็นคำตอบที่ถูกต้องสำหรับคำถามที่ผิด สมมติว่าค่า p ไม่ได้นำไปใช้ในแพคเกจซอฟต์แวร์สถิติใด ๆ ฉันสงสัยว่าคนจะเขียนโค้ดของตัวเองเพื่อรับมัน
ความน่าจะเป็นทางการที่

3
@probabilityislogic - การตัดฟันทางสถิติของฉันในการทดสอบการเปลี่ยนรูปแบบ p-values ​​เป็นวิธีที่เป็นธรรมชาติมากที่จะคิดในกรณีนั้นดังนั้นฉันอาจจะเขียนโค้ดของตัวเองเพื่อรับพวกเขาหากพวกเขาไม่ ... โอกาสที่หายากมากเมื่อฉันทำการทดสอบพวกเขามักจะมีสถานการณ์ผิดปกติที่ต้องมีการจำลองหรือรูปแบบของการสุ่มตัวอย่างอีกครั้งฉันพบว่าจริง ๆ แล้วฉันมักจะทำเช่นนั้น ฉันมักจะพูดแทนว่าการทดสอบสมมติฐานมักตอบคำถามที่ผิด ในโอกาสที่หายากที่พวกเขาทำฉันคิดว่าพวกเขามีคุณค่า (ไม่น้อยกว่าคนอื่น ๆ จะไม่ถูกผูกมัดโดยระดับนัยสำคัญของฉัน)
Glen_b -Reinstate Monica

@glen_b - ปัญหาของฉันกับค่า p คือการที่ไม่ให้ "คำตอบ" สำหรับการทดสอบสมมติฐานใด ๆ ด้วยตัวเองเนื่องจากพวกเขาไม่สนใจทางเลือกอื่น หากคุณถูก จำกัด เพียงหนึ่งหมายเลขค่าความน่าจะเป็นของข้อมูลนั้นจะดีกว่าค่า p-value มาก (เช่นเดียวกับการมีปัญหาเดียวกันกับ p) วิธีนี้ผู้คนจะไม่ถูกผูกมัดด้วยสถิติทดสอบที่คุณเลือก (นอกเหนือจากการไม่ถูก จำกัด ด้วยเกณฑ์สำหรับความสำคัญ)
ความน่าจะเป็นที่จะเกิดขึ้น

คำตอบ:


24
  1. อัตราข้อผิดพลาดการปฏิเสธประเภท 1 / เท็จα=.05α=.051p

    p.05ppfail toreject

  2. ppp

    p

  3. α

    p

fail torejectp- ค่าที่ต้องรายงาน (และทำไม R วางขั้นต่ำไว้ที่ 2.22e-16?) "- ดีกว่าคำตอบสำหรับรุ่นของคำถามที่คุณเชื่อมโยงกับ Stack Overflow!

ข้อมูลอ้างอิง
- Johnson, VE (2013) มาตรฐานที่ปรับปรุงใหม่สำหรับหลักฐานทางสถิติ กิจการของ National Academy of Sciences, 110 (48), 19313–19317 แปลจากhttp://www.pnas.org/content/110/48/19313.full.pdf
- Lew, MJ (2013) ถึง P หรือไม่ถึง P: ตามลักษณะเชิงประจักษ์ของค่า P และตำแหน่งในการอนุมานทางวิทยาศาสตร์ arXiv: 1311.0081 [stat.ME] แปลจากhttp://arxiv.org/abs/1311.0081


3
+1 ความคิดที่ดีมากมายที่นี่ 1 การพูดเล่นลิ้นแม้ว่าอีกครั้ง # 1 ฉันจะบอกว่าเรามักจะมีมาตรฐานที่ต่ำกว่า (เช่นค่า p ที่สูงขึ้น ) เป็นที่ต้องการ บ่อยครั้งที่ยากที่จะได้รับข้อมูลเพียงพอที่จะมีพลังที่ดีในการศึกษาบางสิ่งบางอย่าง ฉันใช้การวิเคราะห์พลังงานจำนวนมากสำหรับแพทย์ที่ต้องการศึกษาสภาพที่หายาก พวกเขาพูดว่า 'นี่เป็นเรื่องจริงฉันมีความคิดสำหรับแนวทางใหม่เราอาจจะได้ผู้ป่วย 50 คนต่อปีในสองปีข้างหน้า' และฉันพูดว่า 'พลังของคุณจะ 45%' และโครงการคือ ถูกปล่อยปละละเลย โรคที่หายากจะยังคงเกิดขึ้นต่อเนื่องหาก p ต้องเป็น. 05 หรือน้อยกว่า
gung - Reinstate Monica

2
@gung: ฉันเห็นด้วยอย่างสมบูรณ์ ฉันอ้างว่า Johnson (2013) เพียงเพราะฉันตระหนักถึงข้อโต้แย้งของเขาไม่ใช่เพราะฉันเห็นด้วยกับมัน :) IMO มีมาตรฐานหนึ่งมาตรฐานที่ไม่ยืดหยุ่นและไม่ตอบสนองต่อข้อกังวลที่คุณอธิบาย (ซึ่งสะท้อนประเด็นของฉันในย่อหน้าที่สองของฉัน การตอบสนองต่อ # 3) เป็นหนึ่งในปัญหาหลักและการปรับขึ้นหรือลงจะไม่สามารถแก้ไขได้ เมื่อไม่มีความต้องการที่แท้จริงหายากและรวดเร็วfail to/ rejectการตัดสินใจของผมคิดว่ามันเป็นเรื่องที่ดีมากที่จะทำให้การตัดสินของวิธีการหนึ่งที่มีคุณค่าของหลักฐานที่จะขึ้นอยู่กับอะไรมากไปกว่าความน่าจะเป็นของกลุ่มตัวอย่างที่ได้รับโมฆะ
Nick Stauner

4
การอภิปรายที่ยอดเยี่ยม บทความที่น่าสนใจของความเกี่ยวข้องบางอย่างคือ Gelman และ Stern's ความแตกต่างระหว่าง "นัยสำคัญ" และ "ไม่สำคัญ" นั้นไม่ได้มีนัยสำคัญทางสถิติ (เผยแพร่ในภายหลังใน American Statisticsian, 2006) ซึ่งฉันจะไม่บอกว่า ไม่มีความหมาย แต่จะฉีดข้อความที่ต้องระวังอย่างมากในเรื่องการให้ความสำคัญกับการเปรียบเทียบค่า p (มากกว่าการคาดการณ์ผลกระทบ) Gelman ได้พูดคุยเกี่ยวกับปัญหาที่เกี่ยวข้องกับเรื่องนี้บ่อยครั้งในบล็อกของเขา
Glen_b -Reinstate Monica

2
ppp

2
ดูเหมือนว่า Gelman จะให้ลิงค์ไปยังpdfของเอกสารเผยแพร่บนเว็บไซต์ของเขาด้วย
Glen_b -Reinstate Monica

13

สำหรับฉันแล้วดูเหมือนว่าถ้าคุณค่ามีความหมายคุณค่าที่แท้จริงของมันก็มีความหมาย

ค่า p ตอบคำถามนี้:

หากในประชากรที่สุ่มตัวอย่างนี้สมมุติฐานว่างเป็นจริงความน่าจะเป็นที่จะได้รับสถิติทดสอบอย่างน้อยที่สุดเท่าที่มากที่สุดเท่าที่เราได้รับในตัวอย่างคืออะไร?

สิ่งที่เกี่ยวกับคำนิยามนี้ทำให้ค่าที่แน่นอนไร้ความหมาย?

นี่เป็นคำถามที่แตกต่างจากคำถามเกี่ยวกับค่าที่สุดของ p ปัญหาเกี่ยวกับข้อความที่เกี่ยวข้องกับ p ที่มี 0 หลายตัวนั้นเกี่ยวกับว่าเราสามารถประมาณค่า p ในค่าสุดขีดได้อย่างไร เนื่องจากเราไม่สามารถทำได้ดีมากมันจึงไม่มีเหตุผลที่จะใช้การประมาณที่แม่นยำของ p นี่เป็นเหตุผลเดียวกันที่เราไม่ได้บอกว่า p = 0.0319281010012981 เราไม่ทราบตัวเลขสุดท้ายเหล่านั้นด้วยความมั่นใจ

ข้อสรุปของเราควรแตกต่างกันหรือไม่ถ้า p <0.001 มากกว่า p <0.05 หรือเพื่อใช้ตัวเลขที่แม่นยำข้อสรุปของเราควรแตกต่างกันหรือไม่ถ้า p = 0.00023 มากกว่า p = 0.035

ฉันคิดว่าปัญหาอยู่ที่ว่าเราจะสรุปสิ่งต่าง ๆ เกี่ยวกับ p อย่างไร เราพูดว่า "สำคัญ" หรือ "ไม่สำคัญ" ตามระดับที่กำหนด หากเราใช้ระดับเหล่านี้ตามอำเภอใจแล้วข้อสรุปของเราจะแตกต่างกัน แต่นี่ไม่ใช่วิธีที่เราควรจะคิดเกี่ยวกับสิ่งเหล่านี้ เราควรดูน้ำหนักของหลักฐานและการทดสอบทางสถิติเป็นเพียงส่วนหนึ่งของหลักฐานนั้น ฉันจะเสียบ "MAGIC criteria" ของ Robert Abelson อีกครั้ง:

ขนาด - เอฟเฟกต์ใหญ่แค่ไหน?

ข้อต่อ - มันระบุไว้อย่างแม่นยำแค่ไหน? มีข้อยกเว้นมากมายหรือไม่?

Generality - ใช้กับกลุ่มใด?

ความน่าสนใจ - ผู้คนจะสนใจหรือไม่

ความน่าเชื่อถือ - เหมาะสมหรือไม่

มันคือการรวมกันของสิ่งเหล่านี้ที่มีความสำคัญ โปรดทราบว่า Abelson ไม่ได้กล่าวถึงค่า p เลยแม้ว่าพวกเขาจะเข้ามาเป็นลูกผสมขนาดและความประกบ


5
เรามักไม่ค่อยพูด แต่เทคนิค p-value สะท้อนสิ่งที่เกี่ยวกับ "ความน่าจะเป็นที่จะได้รับสถิติการทดสอบอย่างน้อยที่สุดเท่าที่เราได้จากตัวอย่าง" ถ้าสมมติฐานว่างเปล่าเป็นจริงการประมาณตัวอย่างของเรา ของความแปรปรวนของประชากรนั้นมีความแม่นยำอย่างสมบูรณ์แบบและเราบรรลุสมมติฐานทั้งหมดอื่น ๆ ของการทดสอบของเรา โยนช่วงความเชื่อมั่นบางส่วนไปรอบ ๆ ค่า p ผ่านการบูตสแตรปและฉันคิดว่าคุณจะเห็นว่าบ่อยครั้งที่เราไม่ได้มีความมั่นใจเกี่ยวกับสถานที่ที่ร้อย
russellpierce

2
ในระยะสั้นมันเป็นเช่น counter-factual convoluted ที่พยายามที่จะหาปริมาณ p-value เป็นตัวนับผลเมื่อเราควร (ตามที่คุณหมายถึง) กลับไปที่ MAGIC
russellpierce

ฉันต้องยอมรับว่าฉันไม่เคยคิดที่จะใส่ช่วงความเชื่อมั่น (หรือช่วงความน่าเชื่อถือ) รอบค่า p ฉันสงสัยว่ามีการทำมากในพื้นที่นี้?
Peter Flom - Reinstate Monica

2
ฉันไม่ได้มีการอ้างอิงที่มีประโยชน์ แต่ฉันรู้ว่ามีการทำงานตามสายเหล่านั้น - ไม่ว่ามันจะเป็นเรื่องทางวิชาการที่ต้องทำเพราะคุณสามารถสร้างช่วงความมั่นใจของช่วงความมั่นใจของคุณเกี่ยวกับช่วงความมั่นใจของคุณเกือบจะไม่มีสิ้นสุด ความแปรปรวนที่ประเมินอย่างสมเหตุสมผลจากชุดข้อมูลใด ๆ ) ฉันมีการสนทนาที่ค่อนข้างยาวและมีรายละเอียดตามบรรทัดเหล่านี้กับ @Nick Stauner กาลครั้งหนึ่ง เขาอาจยังมีบางบทความที่เขาขุดขึ้นมาในระหว่างการสนทนานั้นเพื่อนำมาที่โต๊ะ
russellpierce

1
ไม่มีอะไรในช่วงความมั่นใจสำหรับค่าpที่ฉันจำได้ แต่ฉันอาจได้อ่านส่วนเหล่านั้น ฉันไม่ได้สนใจที่จะสร้างช่วงความมั่นใจสำหรับค่าpเช่นกัน)
Nick Stauner
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.