ความอุดมสมบูรณ์ของค่า P ในกรณีที่ไม่มีสมมติฐาน


28

ฉันเข้าสู่ระบาดวิทยา ฉันไม่ใช่นักสถิติ แต่ฉันพยายามทำการวิเคราะห์ด้วยตัวเองถึงแม้ว่าฉันมักจะประสบปัญหา ฉันทำการวิเคราะห์ครั้งแรกเมื่อ 2 ปีก่อน ค่า P ถูกรวมไว้ทุกที่ในการวิเคราะห์ของฉัน (ฉันเพียงแค่ทำสิ่งที่นักวิจัยคนอื่นทำ) จากตารางเชิงพรรณนาถึงการวิเคราะห์การถดถอย นักสถิติที่ทำงานในอพาร์ทเมนต์ของฉันชักชวนให้ฉันข้ามค่า p ทั้งหมดยกเว้นว่าฉันมีสมมติฐานจริง ๆ

ปัญหาคือว่าค่า p มีมากมายในสิ่งพิมพ์วิจัยทางการแพทย์ มันเป็นเรื่องธรรมดาที่จะรวมค่า p ในบรรทัดที่มากเกินไป ข้อมูลเชิงพรรณนาของวิธีการค่ามัธยฐานหรืออะไรก็ตามที่มักจะไปพร้อมกับค่า p (นักเรียนทดสอบ t, Chi-square ฯลฯ )

ฉันเพิ่งส่งรายงานไปยังวารสารและฉันปฏิเสธ (สุภาพ) เพื่อเพิ่มค่า p ลงในตารางอธิบาย "พื้นฐาน" ของฉัน กระดาษถูกปฏิเสธในที่สุด

หากต้องการเป็นตัวอย่างให้ดูรูปด้านล่าง มันเป็นตารางอธิบายจากบทความที่ตีพิมพ์ล่าสุดในวารสารที่น่าเชื่อถือของอายุรศาสตร์: ป้อนคำอธิบายรูปภาพที่นี่

นักสถิติส่วนใหญ่ (ถ้าไม่เสมอ) มีส่วนร่วมในการตรวจสอบต้นฉบับเหล่านี้ คนธรรมดาอย่างฉันคาดหวังว่าจะไม่พบค่า p ใด ๆ ที่ไม่มีสมมติฐาน แต่พวกเขามีมากมาย แต่เหตุผลของเรื่องนี้ยังคงเข้าใจยากสำหรับฉัน ฉันพบว่ามันยากที่จะเชื่อว่ามันเป็นความเขลา

ฉันรู้ว่านี่เป็นคำถามเชิงสถิติตามแนวเขต แต่ฉันกำลังมองหาเหตุผลเบื้องหลังปรากฏการณ์นี้


12
ค่า p โดยไม่มีสมมติฐานมีข้อบกพร่องโดยเนื้อแท้ ค่า p หมายถึงอะไรแม้ในกรณีที่คุณไม่มีสมมติฐาน
jameselmore

3
คุณสามารถยกตัวอย่างของคนที่ใช้ค่า p โดยไม่มีสมมติฐานได้หรือไม่? ยังไม่ชัดเจน
อะมีบากล่าวว่า Reinstate Monica

4
@amoeba "" ปัญหาคือค่า p มีอยู่ทุกหนทุกแห่งในวารสารการแพทย์ทุกฉบับ มันเป็นเรื่องธรรมดาที่จะรวมค่า p ในทุกบรรทัดที่มีค่าเฉลี่ยมัธยฐานหรือสัดส่วนที่อธิบายไว้ "" พวกมันมักจะเป็นการทดสอบแบบฟิชเชอร์อย่างง่ายหรือการทดสอบไคสแควร์สำหรับความแตกต่างโดยถามว่าแถวใด ๆ ของตารางสรุป . สมมติฐานโดยนัยคือแต่ละแถวมีความสำคัญ
Karl

2
ฉันสงสัยว่าแรงที่สำคัญคือค่า p ให้ความรู้สึกที่เข้าใจผิดเกี่ยวกับวาระสุดท้ายของการอ้างสิทธิ์ที่กำหนด ผู้ตีพิมพ์ในวารสารเหล่านี้ควรจะรักสิ่งนี้เพราะมันหมายถึงพวกเขามีข้อมูลที่จะมีค่าสำหรับอนาคตอันใกล้ วัฒนธรรมที่เกิดขึ้นพร้อมกันของการไม่ให้ทุนหรือเสนอการศึกษาการจำลองแบบยังช่วยลดการปรากฏตัวของผลลัพธ์ที่ขัดแย้งกัน ฉันสงสัยว่าจะเกิดอะไรขึ้นหากผู้คนตระหนักถึงข้อมูลที่พวกเขาเป็นเจ้าของส่วนใหญ่ประกอบด้วย "กิจกรรมไร้จุดหมาย" (คำศัพท์ของ @ glen_b) แม้ว่าจะมีสิ่งที่มีประโยชน์ปะปนอยู่ใน ... ฮิวริสติกส์บอกให้คุณหลีกเลี่ยง
Livid

1
[at] jameselmore: ฉันถามคำถามเดียวกัน; มันไม่มีเหตุผล แต่มันถูกนำไปใช้ทุกวัน [at] amoeba: ฉันสุ่มเลือกหนึ่งในวารสารที่ฉันอ่านตีบทความล่าสุดที่ตีพิมพ์และพบสิ่งนี้: onlinelibrary.wiley.com/doi/10.1111/joim.12230/full [at] Karl: ขอบคุณมาก @ โมโม: ตอนนี้ฉันได้พยายามปรับปรุงการกำหนดคำถาม ฉันคิดว่านี่เป็นคำถามที่สำคัญและฉันขอขอบคุณข้อเสนอแนะของคุณ [at] Livid: ขอบคุณสำหรับความคิดเห็นนี้ อันที่จริงนักวิจัยหลายคนอาจเข้าใจผิดถึงจุดรวมของค่า p
Adam Robinsson

คำตอบ:


29

เห็นได้ชัดว่าฉันไม่จำเป็นต้องบอกคุณว่าค่า p คืออะไรหรือเหตุใดการพึ่งพาพวกเขามากเกินไปจึงเป็นปัญหา เห็นได้ชัดว่าคุณเข้าใจสิ่งเหล่านั้นค่อนข้างดีอยู่แล้ว

ด้วยการเผยแพร่คุณมีแรงกดดันในการแข่งขันสองประการ

สิ่งแรกและสิ่งที่คุณควรผลักดันในโอกาสที่เหมาะสมคือทำสิ่งที่สมเหตุสมผล

ประการที่สองในที่สุดคือความต้องการที่จะเผยแพร่จริง มีประโยชน์เล็กน้อยหากไม่มีใครเห็นความพยายามของคุณในการปฏิรูปการปฏิบัติที่น่ากลัว

ดังนั้นแทนที่จะหลีกเลี่ยงมันทั้งหมด:

  • ทำกิจกรรมเล็ก ๆ น้อย ๆ ที่ไม่มีจุดหมายเท่าที่คุณจะทำได้และยังได้รับการเผยแพร่

  • อาจรวมถึงการกล่าวถึงของบทความวิธีธรรมชาติล่าสุดนี้ [1] ถ้าคุณคิดว่ามันจะช่วยหรืออาจจะดีกว่าหนึ่งหรืออ้างอิงอื่น ๆ อย่างน้อยก็ควรช่วยสร้างให้มีความขัดแย้งกับความเป็นอันดับหนึ่งของค่า p

  • พิจารณาวารสารอื่น ๆ ถ้าอื่นจะเหมาะสม

นี่เป็นสิ่งเดียวกันในสาขาอื่นหรือไม่?

ปัญหามากกว่าการใช้งานของ P-ค่าที่เกิดขึ้นในหลายสาขาวิชา (แม้อาจจะมีปัญหาเมื่อมีเป็นสมมติฐานบางคน) แต่น้อยมากในบางกว่าคนอื่น ๆ บางสาขามีปัญหากับ p-value-itis และปัญหาที่เกิดขึ้นในที่สุดสามารถนำไปสู่ปฏิกิริยาที่ค่อนข้างล้น [2] (และในระดับที่เล็กลง [1] และอย่างน้อยในบางสถานที่ เช่นกัน)

ฉันคิดว่ามันมีเหตุผลหลายอย่างสำหรับมัน แต่การเชื่อมั่นใน p-values ​​ดูเหมือนจะได้รับแรงกระตุ้นของตัวเอง - มีบางอย่างเกี่ยวกับการพูดว่า "สำคัญ" และปฏิเสธโมฆะที่คนดูเหมือนจะน่าสนใจมาก สาขาวิชาต่าง ๆ (เช่นดู [3] [4] [5] [6] [7] [8] [9] [10] [11]) ได้ (ด้วยองศาที่แตกต่างของความสำเร็จ) ต่อสู้กับปัญหาของการพึ่งพา p-values ​​(โดยเฉพาะ = 0.05) เป็นเวลาหลายปีและได้ให้คำแนะนำที่หลากหลาย - ไม่ใช่ทั้งหมดที่ฉันเห็นด้วย แต่ฉันรวมมุมมองที่หลากหลายเพื่อให้ความรู้สึกของสิ่งต่าง ๆ ที่ผู้คนต้องทำ พูด.α

บางคนสนับสนุนการมุ่งเน้นไปที่ช่วงความเชื่อมั่นผู้สนับสนุนบางคนมองที่ขนาดเอฟเฟ็กต์ผู้สนับสนุนวิธีเบย์บางคนค่า p ที่เล็กกว่า มีหลายมุมมองที่แตกต่างกันเกี่ยวกับสิ่งที่ต้องทำ แต่ระหว่างพวกเขามีเนื้อหามากมายเกี่ยวกับปัญหาที่ต้องพึ่งพาค่า p อย่างน้อยก็เป็นวิธีที่มันทำกันโดยทั่วไป

ดูการอ้างอิงเหล่านั้นสำหรับการอ้างอิงเพิ่มเติมในทางกลับกัน นี่เป็นเพียงตัวอย่าง - สามารถพบการอ้างอิงอีกมากมายหลายสิบ ผู้เขียนเพียงไม่กี่คนให้เหตุผลว่าทำไมพวกเขาคิดว่าค่า p เป็นที่แพร่หลาย

ข้อมูลอ้างอิงบางส่วนอาจมีประโยชน์หากคุณต้องการโต้แย้งประเด็นด้วยเครื่องมือแก้ไข

[1] Halsey LG, Curran-Everett D. , Vowler SL & Drummond GB (2015),
"ค่า P ไม่แน่นอนสร้างผลลัพธ์ที่ไม่สามารถแก้ไขได้,"
วิธีธรรมชาติ12 , 179–185 ดอย: 10.1038 / nmeth.3288
http: // www .nature.com / nmeth / วารสาร / V12 / N3 / ABS / nmeth.3288.html

[2] เดวิด Trafimow, D. และ Marks, M. (2015)
บรรณาธิการ
พื้นฐานและประยุกต์ใช้จิตวิทยาสังคม , 37 : 1-2
http://www.tandfonline.com/loi/hbas20
DOI: 10.1080 / 01973533.2015.1012991

[3] โคเฮน, J. (1990),
สิ่งที่ฉันได้เรียนรู้ (จนถึงตอนนี้),
นักจิตวิทยาอเมริกัน , 45 (12), 1304–1312

[4] โคเฮน, J. (1994),
โลกกลม (p <.05),
นักจิตวิทยาอเมริกัน , 49 (12), 997–1003

[5] Valen E. Johnson (2013),
ปรับปรุงมาตรฐานสำหรับหลักฐานทางสถิติ PNAS , ฉบับที่ 5 หมายเลข 110 48, 19313–19317 http://www.pnas.org/content/110/48/19313.full.pdf

[6] Kruschke JK (2010),
อะไรที่จะเชื่อ: วิธีการแบบเบย์สำหรับการวิเคราะห์ข้อมูล,
แนวโน้มในวิทยาศาสตร์พุทธิปัญญา 14 (7), 293-300

[7] Ioannidis, J. (2005)
เหตุใดผลการวิจัยที่ตีพิมพ์ส่วนใหญ่จึงเป็นเท็จ
PLoS Med สิงหาคม; 2 (8): e124
doi: 10.1371 / journal.pmed.0020124

[8] Gelman, A. (2013), ค่า P และการปฏิบัติทางสถิติ,
ระบาดวิทยาอัตรา 24 , ฉบับที่ 1, มกราคม, 69-72

[9] Gelman, A. (2013),
"ปัญหาเกี่ยวกับค่า p คือวิธีการใช้งาน",
(การอภิปรายของ“ การป้องกันค่า P,” โดย Paul Murtaugh, เพื่อนิเวศวิทยา ) ไม่ได้เผยแพร่
http: // citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.300.9053
http://www.stat.columbia.edu/~gelman/research/unpublished/murtaugh2.pdf

[10] Nuzzo R. (2014),
ข้อผิดพลาดทางสถิติ: ค่า P, 'มาตรฐานทองคำ' ของความถูกต้องทางสถิติไม่น่าเชื่อถือเท่าที่นักวิทยาศาสตร์หลายคนคิดเอาไว้
ข่าวและความคิดเห็น
ธรรมชาติฉบับที่ 506 (13), 150-152

[11] Wagenmakers E, (2007)
วิธีแก้ปัญหาเชิงปฏิบัติสำหรับปัญหาค่านิยมทั่วไป,
วารสารจิตวิทยา & การทบทวน 14 (5), 779-804


7
+1 ฉันอ่านกระดาษวิธีธรรมชาติ [1] อีกสัปดาห์และฉันไม่แน่ใจว่าฉันชอบมันมาก พวกเขาให้เหตุผลว่าค่า p สามารถเป็นตัวแปรได้มากในการทดสอบพลังงานต่ำ (ดูที่ "การเต้นรำของค่า p" ใน youtube) - บางสิ่งที่เป็นจริงแน่นอนและไม่จำเป็นต้องเน้น พวกเขาสรุปว่าค่า p เป็น "ไม่ดี" (ชื่อฟังดูค่อนข้างรุนแรง) และผู้คนควรใช้ช่วงความมั่นใจซึ่งเป็น "ดี" แต่แน่นอนว่าช่วงความเชื่อมั่นนั้นก็ผันแปรไปมากในพลังงานต่ำ! สถานการณ์ในรูปที่ 6 (ซ้าย) ของพวกเขาไม่ได้ดูดีกว่าฉันมากนักเมื่อเทียบกับรูปที่ 2
อะมีบาพูดว่า Reinstate Monica

2
@ amoeba ฉันจะไม่พูดว่าฉันไม่เห็นด้วยกับคุณ - มีหลายอย่างที่ฉันไม่เห็นด้วย อย่างไรก็ตามมีบางจุดที่อาจเป็นประโยชน์ต่อ OP ที่จริงแล้วคุณทำให้ฉันนึกถึงการเปลี่ยนแปลงที่ฉันตั้งใจจะทำ แต่ลืมไป
Glen_b -Reinstate Monica

3
ใช่ฉันเห็นด้วยกับประโยชน์ที่อาจเกิดขึ้น - โดยเฉพาะอย่างยิ่งเพราะวิธีการทางธรรมชาติเป็นที่น่านับถือพอที่ผู้คนอาจจะเชื่อว่า "อำนาจ" ของมัน ฉันแค่อยากจะเตือน OP จากการทำทุกอย่างเพื่อรับ (คณิตศาสตร์ของพวกเขาก็โอเคฉันกำลังพูดถึงข้อสรุป / การตีความที่นี่)
อะมีบาพูดว่า Reinstate Monica

1
นอกจากนี้ที่น่าสนใจในบริบทนี้เป็นวิลกินสันและกองเรือรบในทางสถิติอนุมาน, วิธีการทางสถิติในวารสารจิตวิทยาอเมริกันนักจิตวิทยาฉบับ 54, ลำดับที่ 8, 594-604, 1999
A. Donda

Glen_b ฉันโพสต์คำถามเกี่ยวกับการเรียกร้องคนแปลกหน้าหนึ่งในกระดาษ "Fickle P": stats.stackexchange.com/questions/250269 - จะขอบคุณความเข้าใจของคุณเป็นอย่างมาก
อะมีบากล่าวว่า Reinstate Monica

10

p-value หรือโดยทั่วไปการทดสอบนัยสำคัญ null-hypothesis สมมติฐาน (NHST) จะค่อยๆเก็บค่าน้อยลง มากเสียจนเริ่มมีการห้ามในวารสาร

คนส่วนใหญ่ไม่เข้าใจสิ่งที่ p-value บอกเราจริง ๆ และทำไมมันถึงบอกสิ่งนี้กับเรา

P(ข้อมูล|H0)P(H0|ข้อมูล)

H0H0


1
ฉันจะเพิ่มว่า P (H0 | data) มีความหมายเฉพาะถ้า H0 มีความหมาย การศึกษาจะต้องได้รับการออกแบบและรายงานในวิธีที่จะแยกแยะคำอธิบายที่ไม่น่าสนใจอื่น ๆ สำหรับผลลัพธ์ (อคติ, การตก, ความแตกต่างพื้นฐาน) เกินกว่าโอกาส ยิ่งไปกว่านั้นแม้แต่ RCT ที่ตาบอดสมบูรณ์แบบที่มีเอฟเฟกต์ขนาดใหญ่เพียงบอกคุณว่าสิ่งที่น่าสนใจนั้นถูกวัด การพิจารณาว่าคุณวัดสิ่งที่คุณกังวลจริงหรือไม่ก็เป็นอีกประเด็นหนึ่งที่พบบ่อยพร้อมกับความคลั่งไคล้ p-value
Livid

8

นี่เป็นสิ่งเดียวกันในสาขาอื่นหรือไม่? อะไรคือสาเหตุของความหลงใหลที่มีค่า p?

Greenwald และคณะ (1996) พยายามจัดการกับคำถามนี้เกี่ยวกับจิตวิทยา สำหรับการปรับใช้ NHST กับความแตกต่างพื้นฐานผู้แก้ไขจะตัดสิน (ไม่ว่าจะถูกหรือผิด) ซึ่งตัดสินว่าความแตกต่างพื้นฐาน "ไม่สำคัญ" ไม่สามารถอธิบายผลลัพธ์ได้ในขณะที่ "สำคัญ" อาจอธิบายผลลัพธ์ได้ คล้ายกับ "เหตุผล 1" ที่เสนอโดย Greenwald และคณะ :

ทำไม NHT ถึงได้รับความนิยม

"ทำไม NHT ถึงไม่ยอมถูกวิพากษ์วิจารณ์? เพราะขาดคำตอบที่ดีกว่ามันเป็นเรื่องน่าดึงดูดใจที่จะให้ความไว้วางใจ NHT กับพฤติกรรมของนักวิทยาศาสตร์พฤติกรรมที่ขาดนิสัย เป็นเหมือนความไม่เต็มใจของนักดื่มที่จะละทิ้งนิสัยของค็อกเทลก่อนอาหารค่ำ ... "

เหตุผลที่ฉัน: HT ให้ผลลัพธ์ที่เป็นขั้วคู่

"เนื่องจากการยอมรับอย่างกว้างขวางของอนุสัญญาที่ p <.05 แปลว่า" นัยสำคัญทางสถิติ "NHT สามารถใช้เพื่อให้ได้คำตอบแบบแยกขั้ว (ปฏิเสธหรือไม่ปฏิเสธ) กับคำถามเกี่ยวกับสมมติฐานว่างซึ่งมักจะได้รับการพิจารณา เป็นคำตอบที่เป็นประโยชน์สำหรับคำถามเชิงทฤษฎีที่ระบุไว้ในแง่ของทิศทางการทำนายมากกว่าในแง่ของค่าคาดหวังของพารามิเตอร์ ... "

เหตุผลที่ 2: ค่า p เป็นการแปลภาษาทั่วไปที่มีความหมายสำหรับสถิติการทดสอบ

"ไม่เหมือนอะไรที่สามารถรับรู้ได้โดยตรงจากค่า t, F หรือ r (ด้วยค่า df ที่เกี่ยวข้อง) การวัดค่าความประหลาดใจของค่า ap นั้นถูกจับด้วยจำนวนศูนย์ต่อเนื่องทางด้านขวาของจุดทศนิยม ... "

เหตุผลที่ 3: ค่า p ให้การวัดความเชื่อมั่น "ในการทำซ้ำการปฏิเสธสมมติฐานที่เป็นโมฆะ

"[U] nlike ขนาดของเอฟเฟกต์ (หรือช่วงความมั่นใจ), ค่า ap ที่เกิดจาก NHT นั้นเกี่ยวข้องกับการประเมินความซ้ำซ้อนของการค้นหาแบบไม่เป็นโมฆะในคำสั่งนี้ความสามารถในการทำซ้ำ (ซึ่งนิยามไว้อย่างเป็นทางการ เฉพาะในความหมายของ NHT ของการทำซ้ำข้อสรุปการปฏิเสธ - nonreject และไม่ได้อยู่ในการประมาณความรู้สึกของความใกล้ชิดระหว่างการประมาณจุดหรือช่วงเวลา "

ขนาดผลกระทบและค่า p: สิ่งที่ควรรายงานและสิ่งที่ควรทำซ้ำ? แอนโทนี่จีกรีนวอลด์ริชาร์ดกอนซาเลซริชาร์ดเจ. แฮร์ริสและดอนนากัทรี Psychophysiology, 33 (1996) 175-183 สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์ พิมพ์ในสหรัฐอเมริกา ลิขสิทธิ์ O 1996 สมาคมเพื่อการวิจัยทางจิตวิทยา


ขอบคุณสำหรับความคิดเห็นที่สำคัญเหล่านี้ซึ่งฉันจะใช้เพื่อยืนยันกับผู้แสดงความคิดเห็นในครั้งต่อไป
Adam Robinsson

6

ค่า P ให้ข้อมูลเกี่ยวกับความแตกต่างระหว่างสองกลุ่มของผลลัพธ์ ("การรักษา" กับ "การควบคุม", "A" กับ "B" ฯลฯ ) ที่ตัวอย่างจากประชากรสองกลุ่ม ธรรมชาติของความแตกต่างนั้นเป็นทางการในคำแถลงสมมติฐาน - เช่น "ค่าเฉลี่ยของ A มากกว่าค่าเฉลี่ยของ B" ค่า p ต่ำแนะนำว่าความแตกต่างไม่ใช่เนื่องจากการเปลี่ยนแปลงแบบสุ่มในขณะที่ค่า p สูงแนะนำว่าความแตกต่างในตัวอย่างทั้งสองไม่สามารถแยกความแตกต่างจากความแตกต่างที่อาจเกิดขึ้นจากการเปลี่ยนแปลงแบบสุ่ม อะไรคือ "ต่ำ" หรือ "สูง" สำหรับ p-value ในอดีตเคยเป็นเรื่องของการประชุมและการลิ้มรสมากกว่าที่กำหนดโดยตรรกะที่เข้มงวดหรือการวิเคราะห์หลักฐาน

สิ่งที่จำเป็นต้องมีสำหรับการใช้ค่า p คือว่าผลลัพธ์ทั้งสองกลุ่มนั้นมีการเปรียบเทียบกันจริง ๆ นั่นคือแหล่งที่มาของความแตกต่างระหว่างพวกเขาเท่านั้นที่เกี่ยวข้องกับตัวแปรที่คุณกำลังประเมิน เป็นตัวอย่างที่พูดเกินจริงลองจินตนาการว่าคุณมีสถิติเกี่ยวกับโรคสองโรคในช่วงเวลาสองช่วงเวลา: A: อัตราการเสียชีวิตจากอหิวาตกโรคในผู้ชายในเรือนจำอังกฤษ 2463-2473 และ B: การติดเชื้อจากมาลาเรียในไนจีเรีย 2503-2513 การคำนวณค่า p จากชุดข้อมูลทั้งสองนี้จะไร้สาระทีเดียว ตอนนี้ถ้า A: อัตราการเสียชีวิตจากอหิวาตกโรคในผู้ชายในเรือนจำอังกฤษที่ไม่ได้รับการรักษาเทียบกับ B: การเสียชีวิตจากอหิวาตกโรคในหมู่ชายในเรือนจำอังกฤษที่รักษาด้วยการให้ความชุ่มชื้นอีกครั้งคุณมีพื้นฐานสำหรับสมมติฐานทางสถิติที่มั่นคง

ส่วนใหญ่มักจะประสบความสำเร็จผ่านการออกแบบการทดลองอย่างระมัดระวังหรือการออกแบบการสำรวจอย่างระมัดระวังหรือการรวบรวมข้อมูลทางประวัติศาสตร์อย่างระมัดระวังและอื่น ๆ นอกจากนี้ความแตกต่างระหว่างผลลัพธ์ทั้งสองจะต้องถูกทำเป็นกรงเข้าสู่งบสมมติฐานที่เกี่ยวข้องกับสถิติตัวอย่าง เป็นความแปรปรวนตัวอย่างหรือสถิติตัวอย่างอื่น ๆ นอกจากนี้ยังเป็นไปได้ที่จะสร้างคำแถลงสมมติฐานเปรียบเทียบการแจกแจงตัวอย่างทั้งสองโดยใช้การครอบงำแบบสุ่ม เหล่านี้หายาก

การถกเถียงเรื่อง p-values ​​เน้นที่ "สิ่งที่สำคัญจริงๆ" สำหรับการวิจัย? นี่คือที่ขนาดผลกระทบโดยทั่วไปขนาดผลคือขนาดของความแตกต่างระหว่างทั้งสองกลุ่ม เป็นไปได้ที่จะมีนัยสำคัญทางสถิติสูง (ค่า p ต่ำ -> ไม่ใช่เนื่องจากการเปลี่ยนแปลงแบบสุ่ม) แต่ยังมีขนาดเอฟเฟกต์ต่ำ (ความแตกต่างของขนาดเล็กมาก) เมื่อขนาดของเอฟเฟกต์มีขนาดใหญ่มากการอนุญาตให้ใช้ค่า p ที่ค่อนข้างสูงอาจเป็นไปได้

ขณะนี้สาขาวิชาส่วนใหญ่มีการเคลื่อนไหวอย่างมากต่อขนาดของผลการรายงานและการลดหรือลดบทบาทของค่า p พวกเขายังสนับสนุนสถิติเชิงพรรณนาเพิ่มเติมเกี่ยวกับการแจกแจงตัวอย่าง วิธีการบางอย่างรวมถึงสถิติแบบเบย์ทำด้วยค่า p ทั้งหมดพร้อมกัน


คำตอบของฉันย่อและเรียบง่าย มีบทความมากมายในหัวข้อนี้ที่คุณสามารถดูรายละเอียดเพิ่มเติมเหตุผลและรายละเอียดเพิ่มเติมรวมถึงสิ่งเหล่านี้:


@MerMeritology ขอขอบคุณที่ให้การอ้างอิงที่สำคัญเหล่านี้ ฉันจะอ่านพวกเขาโดยเร็ว!
Adam Robinsson

6

"คนธรรมดาอย่างฉันคาดหวังว่าจะไม่พบค่า p ใด ๆ ที่ไม่มีสมมติฐาน"

โดยปริยาย OP บอกว่าในตารางเฉพาะที่เขานำเสนอไม่มีสมมติฐานที่มาพร้อมกับค่า p- รายงาน เพื่อที่จะกำจัดความสับสนเล็กน้อยนี้แน่นอนมีสมมติฐานว่าง แต่พวกเขาค่อนข้าง ... พูดถึงทางอ้อม (สำหรับเศรษฐกิจของอวกาศฉันเข้าใจ)

"p-value" คือความน่าจะเป็นแบบมีเงื่อนไขพูดสำหรับการทดสอบ "right-tail"

p-valP(Tt(S)H0)=1FT|H0(t(S)H0)

TFT|H0(tH0)TH0เสื้อ(S)TTH0TH0H0

ดังนั้นp-value ไม่สามารถคำนวณได้ถ้าไม่มีสมมติฐานว่างและเมื่อใดก็ตามที่เราเห็นรายงาน p-value บางแห่งก็มีสมมติฐานว่าง

ในตารางที่นำเสนอในคำถามที่เราอ่าน

"การทดสอบทั้งหมดสำหรับความแตกต่างระหว่างเทอร์ไทล์ WHR ... "

โมฆะ - สมมติฐานคือ "ซ่อน" ในวลีนี้: มันคือ "ไม่มีความแตกต่างระหว่าง WHR tertiles", (ไม่ว่า "WΗR tertile" คืออะไร) แสดงในรูปแบบทางคณิตศาสตร์ของที่นี่ดูเหมือนจะแตกต่างกันของสองขนาดเท่ากับ ศูนย์.


ฉันเห็นด้วยอาจมีสมมติฐานที่อยู่เบื้องหลังการวิเคราะห์เหล่านี้ อย่างไรก็ตามผู้ที่มีรายละเอียดแนวทางสำหรับงานวิจัย (เช่นคำสั่ง STROBE) ควรจะอยู่ที่ความอุดมสมบูรณ์ของค่า p ฉันคิดว่าควรใช้ค่า ap สำหรับสมมติฐานหลักของบทความ (ซึ่งไม่ค่อยมีมากกว่าหนึ่ง) แต่อย่างไรก็ตามฉันไม่สามารถพูดได้ว่าฉันไม่เห็นด้วยกับคุณ =)
Adam Robinsson

1
@AdamRobinsson อืม ... ฉันไม่แน่ใจ วิธีการ "สงวน" เช่นนี้จะทำให้ความสำคัญที่การทดสอบ p-value มีความสำคัญยิ่งขึ้นสำหรับการสรุป สำหรับฉันแล้วมันเป็นอีกหนึ่งผลลัพธ์ที่จะต้องรวมกับแง่มุมอื่น ๆ ผลลัพธ์ข้อมูลนอกกลุ่มตรรกะและอื่น ๆ ในทางกลับกันหากค่า p กระจัดกระจายไปทั่ว ง่ายกว่าที่จะรู้ว่าพวกเขาไม่ใช่เกณฑ์ที่แน่นอนในการบรรลุข้อสรุป
Alecos Papadopoulos

Alecos ฉันอ่านบางอย่างที่แตกต่างในตารางซึ่งอ้างอิงถึง WHR (เช่นอัตราส่วนเอวต่อสะโพก) มากกว่า WRT ในขณะที่tertilesเป็นค่าที่แบ่งการกระจายออกเป็น 3 ส่วนในความหมายเดียวกับควอไทล์คือค่าที่แบ่งออกเป็น 4 ส่วนและ deciles คือถึงสิบส่วน
Glen_b -Reinstate Monica

@Glen_b ขอบคุณนั่นเป็นเพียงการพิมพ์ผิดจากส่วนของฉัน ซ่อมมัน.
Alecos Papadopoulos

2
ดูตัวอย่างเช่นที่นี่ แต่อาจจะไม่ได้ที่นี่
Glen_b -Reinstate Monica

2

ฉันอยากรู้อยากเห็นและอ่านกระดาษที่ OP ให้เป็นตัวอย่าง: โรคอ้วนในช่องท้องเพิ่มความเสี่ยงของการแตกหักสะโพก ฉันไม่ใช่นักวิจัยทางการแพทย์และปกติแล้วจะไม่อ่านเอกสารทางการแพทย์

พี

pp

ppp

p

ดูเหมือนว่าคำถามนั้นอ้างถึงตารางที่มีลักษณะเฉพาะดังกล่าว ถ้าเป็นเช่นนั้นนี่เป็นข้อปฏิบัติแปลก ๆ (แต่ส่วนใหญ่ไม่เป็นอันตราย?) ในวารสารการแพทย์รอดชีวิตมาได้เนื่องจากประเพณี


pn=43000


@ amoeba ฉันเลือกบทความที่ rando; มันเป็นบทความที่ตีพิมพ์ล่าสุดในระบาดวิทยาในวารสารนั้น ฉันแน่ใจว่าถ้าฉันค้นหาอีกฉันสามารถให้บทความที่มีค่า p ไม่มีจุดหมายมากขึ้น ดังที่คุณสังเกตเห็นว่ามี p-valueitis แต่จากคุณและคำตอบอื่น ๆ ด้านบนและด้านล่างดูเหมือนว่าชุมชนการวิจัยกำลังจัดการกับเรื่องนี้
Adam Robinsson

@ อดัมฉันชอบคำถามของคุณ (+1) และคำตอบของ Glen_b (+1) แต่ถ้ากระดาษ "เลือกแบบสุ่ม" นี้เป็นตัวแทนแล้วคะแนนส่วนใหญ่ที่ Glen_b ทำและเอกสารส่วนใหญ่ที่เขาเชื่อมโยงกับอย่าใช้หรืออ้างถึง สถานการณ์ในการวิจัยทางการแพทย์ที่คุณถาม หากไม่ใช่ตัวแทนแน่นอนว่าฉันไม่สามารถตัดสินได้
อะมีบาพูดว่า Reinstate Monica

ฉันได้รับความช่วยเหลือมากมายจากคำตอบของคุณหลายครั้ง ฉันตัดสินใจตามความเข้าใจของปัญหานี้ ฉันเชื่อว่าคำตอบทั้งหมดที่ให้ไว้นั้นมีประโยชน์
Adam Robinsson

1

ระดับการทบทวนทางสถิติไม่สูงเท่าที่คิดจากประสบการณ์ของฉัน สำหรับเอกสารที่นำมาใช้ทั้งหมดที่ฉันได้ทำไปแล้วความคิดเห็นทางสถิติทั้งหมดมาจากผู้เชี่ยวชาญในสาขาที่นำมาใช้ไม่ใช่จากนักสถิติ สำหรับวารสาร "top" แม้ว่าจะมีการตรวจสอบที่มากขึ้น แต่ก็ไม่ใช่เรื่องแปลกที่จะเห็นผลลัพธ์ที่มีข้อบกพร่องร้ายแรง ฉันคิดว่าส่วนนี้เป็นเพราะส่วนหนึ่งของสถิติอาจเป็นเรื่องยาก (ดังที่เห็นได้จากความไม่ลงรอยกันระหว่างจิตใจที่ยิ่งใหญ่หลายคน)

ประการที่สองผู้อ่านในสาขาคาดหวังที่จะเห็นสิ่งต่าง ๆ ในลักษณะที่แน่นอน จากประสบการณ์ครั้งหนึ่งเมื่อเร็ว ๆ นี้ฉันได้วางแผนความน่าจะเป็นจากแบบจำลอง แต่สิ่งนี้ถูกยิงเพราะผู้ร่วมงานของฉันเดาถูกต้องผู้อ่านของเขาจะรู้สึกสะดวกสบายมากขึ้นกับข้อมูลดิบจำนวนมาก โดยรวมแล้วผู้อ่านหลายคนคาดหวังว่าจะเห็นค่า p พร้อมกับตารางลักษณะพื้นฐาน

ไม่เกี่ยวข้องกับคำถามโดยตรงของคุณ แต่อาจเกี่ยวข้อง: ค่า p ถูกใช้ในเกือบทุกข้อความโดยใช้วิธีการที่ใช้บ่อยหรือเป็นไปได้ ผู้เขียนมักจะมีส่วนร่วมอย่างมากและคิดอย่างลึกซึ้งเกี่ยวกับสถิติ ถึงแม้ว่าจะถูกทารุณกรรมโดยนักทดลอง แต่ก็มีสถิติ


ขอบคุณสำหรับความคิดเห็นนี้ ฉันสามารถใช้คำสั่งของคุณให้ดียิ่งขึ้น ฉันคิดว่าสัดส่วนของการค้นพบที่เผยแพร่อย่างไม่น่าเชื่อมีข้อบกพร่องทางสถิติด้วยเหตุผลหลายประการ หัวหน้างานของฉันมักจะพูดว่า "กระบวนการตรวจสอบขึ้นอยู่กับคำของสุภาพบุรุษ" ค่อนข้างตลกที่ฉันคิด
Adam Robinsson

1

ฉันต้องอ่านบทความทางการแพทย์บ่อยครั้งและฉันรู้สึกว่าลูกตุ้มดูเหมือนจะแกว่งจากที่หนึ่งไปอีกที่หนึ่งมากกว่าที่จะอยู่ในโซนสมดุลกลาง

วิธีการดังต่อไปนี้ดูเหมือนจะทำงานได้ดี หากค่า P มีขนาดเล็กความแตกต่างที่สังเกตได้นั้นไม่น่าจะเกิดขึ้นโดยลำพัง ดังนั้นเราจึงควรดูขนาดของความแตกต่างและตัดสินใจว่ามันมีความสำคัญในทางปฏิบัติใด ๆ ค่า P ขนาดเล็กมากเกิดขึ้นกับตัวอย่างขนาดใหญ่แม้ว่าจะมีความแตกต่างน้อยมากซึ่งอาจไม่มีความเกี่ยวข้องในทางปฏิบัติ

ไม่รวมค่า P ในตารางของข้อมูลพื้นฐานอาจเสียเปรียบ ดังนั้นถ้าในการศึกษามีสองกลุ่มที่มีอายุเฉลี่ย 54 และ 59 ปีฉันอยากรู้ว่าความแตกต่างนี้สามารถเกิดขึ้นได้โดยลำพัง ถ้า P มีขนาดเล็กฉันคิดว่าความแตกต่าง 5 ปีใน 2 กลุ่มนี้อาจส่งผลต่อผลการศึกษาหรือไม่ ถ้า P ไม่เล็กฉันไม่ต้องตอบคำถามนี้

ปัญหาเกิดขึ้นหากเราอาศัยค่า P เพียงอย่างเดียวและไม่ได้ตรวจสอบขนาดของความแตกต่าง (ตัวอย่างเช่นการเปลี่ยนแปลงเปอร์เซ็นต์อย่างง่าย) บางคนรู้สึกว่าค่า P ควรถูกตัดออกโดยสิ้นเชิงเพื่อให้มีเพียงความแตกต่างเท่านั้น ทางออกที่สมดุลจะเน้นการประเมินทั้งสองสิ่งนี้และไม่เพียง แต่ทิ้งค่า P ซึ่งมีความหมายที่ จำกัด แต่ 'สำคัญ' ขนาดของเอฟเฟกต์มีแนวโน้มที่จะสัมพันธ์อย่างใกล้ชิดกับค่า P (เช่นช่วงความเชื่อมั่น) และไม่น่าจะแทนที่ค่า P จากภูมิทัศน์ทางสถิติอย่างสมบูรณ์ ดังที่กล่าวไว้ในบทความต่อไปนี้มีข้อดีหลายประการของการทดสอบสมมติฐานว่างเพราะมันยังคงได้รับความนิยม:

แอนโทนี่จีกรีนวอลด์ริชาร์ดกอนซาเลซริชาร์ดเจฮาร์ริสและดอนเนล GUTHRIE ผลขนาดและค่า p: ควรรายงานสิ่งใดและควรทำอย่างไร Psychophysiology, 33 (1996) 175-183

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.