วารสารจิตวิทยาห้ามค่า p และช่วงความเชื่อมั่น; ควรหยุดใช้พวกเขาจริง ๆ หรือ?


73

25 กุมภาพันธ์ 2015 วารสารจิตวิทยาพื้นฐานและประยุกต์ใช้สังคม ออกบทบรรณาธิการห้าม -values และช่วงความเชื่อมั่นจากเอกสารทั้งหมดในอนาคตp

โดยเฉพาะพวกเขากล่าวว่า (การจัดรูปแบบและเน้นเป็นของฉัน):

  • [... ] ก่อนที่จะตีพิมพ์ผู้เขียนจะต้องลบร่องรอยทั้งหมดของ NHSTP [ขั้นตอนการทดสอบนัยสำคัญสมมติฐานที่ว่างเปล่า] ( -values, t -values, F- Values, แถลงการณ์เกี่ยวกับความแตกต่างของ 'นัยสำคัญ' หรือขาด และอื่น ๆ )ptF

  • คล้ายกับวิธีที่ NHSTP ไม่สามารถให้ความน่าจะเป็นของสมมติฐานว่างซึ่งเป็นสิ่งจำเป็นในการสร้างกรณีที่แข็งแกร่งสำหรับการปฏิเสธช่วงเวลาความเชื่อมั่นไม่ได้ให้กรณีที่แข็งแกร่งสำหรับการสรุปว่าพารามิเตอร์ประชากรที่น่าสนใจน่าจะอยู่ภายในระยะเวลาที่กำหนด ระยะห่าง ดังนั้นช่วงความเชื่อมั่นจึงถูกแบนจาก BASP

  • [... ] ด้วยความเคารพต่อวิธีการแบบเบส์เราขอสงวนสิทธิ์ในการตัดสินเป็นกรณี ๆ ไปและขั้นตอนแบบเบย์นั้นไม่จำเป็นหรือถูกแบนจาก BASP

  • [... ] จำเป็นต้องมีกระบวนการทางสถิติเชิงอนุมานหรือไม่? - ไม่ [... ] อย่างไรก็ตาม BASP จะต้องมีสถิติเชิงพรรณนาที่รัดกุมรวมถึงขนาดผลกระทบ

pp

p

หรือตามที่ @whuber แนะนำให้วางแนวทางนี้ควรได้รับการสนับสนุนโดยทั่วไปว่าเป็นกระบวนทัศน์ของการวิจัยเชิงปริมาณหรือไม่? และถ้าไม่ทำไมไม่

PS โปรดทราบว่าคำถามของฉันไม่ได้เกี่ยวกับการห้ามตัวเอง ; มันเป็นเรื่องของแนวทางที่แนะนำ ฉันไม่ได้ถามเกี่ยวกับการอนุมานประจำกับ Bayesian เช่นกัน บทบรรณาธิการค่อนข้างเป็นเชิงลบเกี่ยวกับวิธีการแบบเบย์เช่นกัน ดังนั้นจึงเป็นเรื่องเกี่ยวกับการใช้สถิติกับการไม่ใช้สถิติเลย


การอภิปรายอื่น ๆ : Reddit , Gelman


14
มีการทำแผนที่แบบหนึ่งต่อหนึ่งระหว่างค่า p และช่วงความมั่นใจในโมเดลการถดถอยเชิงเส้นดังนั้นฉันไม่เห็นเหตุผลที่ดีว่าทำไมการห้ามค่า p แต่การรักษาช่วงความเชื่อมั่นจะสมเหตุสมผลมาก แต่การแบนทั้งค่า p และช่วงความเชื่อมั่นทำให้เกิดช่องว่างในการอธิบายผลลัพธ์ ... ฉันสงสัยว่าพวกเขาอนุญาตให้รายงานข้อผิดพลาดมาตรฐาน (ซึ่งจะเป็นการวัดกลุ่มการทำแผนที่แบบหนึ่งต่อหนึ่งเดียวกันอีก
Richard Hardy

7
ทุกอย่างอาจถูกนำไปใช้ในทางที่ผิดดังนั้นการห้ามสิ่งต่าง ๆ ในสภาพนี้ก็คือ ... แปลกดี ฉันไม่ได้เป็นแฟนของค่า p แต่ดูเหมือนว่าเป็นวิธีการที่ไร้เดียงสาของปัญหา มีสิ่งหนึ่งที่กระตุ้นให้ใช้สิ่งที่เหมาะสม แต่สิ่งที่ห้ามไม่ได้เสียงเหมือนวิธีที่เหมาะสมในการจัดการกับปัญหา ...
ทิม

12
ความคิดที่ดี. การใช้สถิติจะซ่อนธรรมชาติที่ไม่สำคัญของฟิลด์นี้
Aksakal

4
นี่ดูเหมือนจะเป็นการตอบโต้ที่เกินความพอใจในการใช้ค่า p ในทางที่ผิด ฉันจะมีความสุขมากกับการห้ามใช้ค่า p ในทางที่ผิดมากกว่าค่า P โดยทั่วไป
TrynnaDoStat

8
รายการที่ 4 ในรายการของคุณชี้ให้เห็นว่าพวกเขาไม่ต้องการการประมาณจุดซึ่งจะอนุมาน แต่ขนาดผลกระทบที่รายงานเป็นเพียงสถิติเชิงพรรณนา (อย่างไรก็ตามสองสามบรรทัดในบทบรรณาธิการ "เราสนับสนุนให้ใช้ตัวอย่างขนาดใหญ่กว่าปกติในการวิจัยทางจิตวิทยามากเพราะเมื่อขนาดตัวอย่างเพิ่มขึ้นสถิติเชิงพรรณนามีความเสถียรมากขึ้นและการสุ่มตัวอย่างมีปัญหาน้อยลง" ฉันหวังว่าจะได้รับการเรียกร้องจากกองบรรณาธิการปี 2016 เพื่อทำการวิจัยเกี่ยวกับแนวคิดเรื่องความมั่นคงและการบัญชีเชิงปริมาณสำหรับผลกระทบของข้อผิดพลาดในการสุ่มตัวอย่าง)
Scortchi

คำตอบ:


23

ประโยคแรกของกองบรรณาธิการประจำปี 2558 ที่ OP เชื่อมโยงอ่าน:

จิตวิทยาสังคมขั้นพื้นฐานและประยุกต์ (BASP) 2014 บรรณาธิการ * เน้น *ว่าขั้นตอนการทดสอบสมมติฐานที่สำคัญ (NHSTP) นั้นไม่ถูกต้อง ...

(ความสำคัญของฉัน)

กล่าวอีกนัยหนึ่งสำหรับบรรณาธิการมันเป็นความจริงทางวิทยาศาสตร์ที่พิสูจน์แล้วว่า "การทดสอบนัยสำคัญสมมติฐานว่างเปล่า" นั้นไม่ถูกต้องและบรรณาธิการปี 2014 ให้ความสำคัญเท่านั้นดังนั้นในขณะที่บรรณาธิการปี 2015 ปัจจุบันใช้ความจริงนี้เท่านั้น

การใช้งานในทางที่ผิด (แม้จะประสงค์ร้าย) ของ NHSTP นั้นมีการกล่าวถึงและจัดทำเป็นเอกสารไว้อย่างดี และไม่เคยได้ยินมาก่อนในประวัติศาสตร์มนุษย์ว่า "สิ่งต่าง ๆ ถูกแบน" เพราะพบว่าหลังจากพูดและทำเสร็จแล้วพวกเขาถูกนำไปใช้ในทางที่ผิดมากกว่านำไปใช้ให้เป็นประโยชน์ มันอาจเป็นวิธีที่ "ดีที่สุดอันดับสอง" เพื่อลดสิ่งที่โดยเฉลี่ย (สถิติเชิงอนุมาน) ที่ทำให้ขาดทุนมากกว่ากำไรดังนั้นเราจึงทำนาย (สถิติเชิงอนุมาน) ว่าจะเป็นอันตรายในอนาคต

แต่ความกระตือรือร้นเผยให้เห็นด้านหลังประโยคแรกของประโยคข้างต้นทำให้ดูเหมือนว่านี่เป็นวิธีที่กระตือรือร้นมากกว่าการตัดสินใจหัวแข็งที่จะตัดมือที่มีแนวโน้มจะขโมยมากกว่าข้อเสนอ หากมีใครอ่านบทบรรณาธิการที่เก่ากว่าหนึ่งปีที่กล่าวถึงในใบเสนอราคาข้างต้น (DOI: 10.1080 / 01973533.2014.865505) คนหนึ่งจะเห็นว่านี่เป็นเพียงส่วนหนึ่งของการนำนโยบายของวารสารมาใช้ใหม่โดยบรรณาธิการใหม่

เลื่อนลงบรรณาธิการพวกเขาเขียน

... ตรงกันข้ามเราเชื่อว่าแถบ p <.05 นั้นง่ายเกินไปที่จะผ่านและบางครั้งก็เป็นข้อแก้ตัวสำหรับการวิจัยที่มีคุณภาพต่ำกว่า

ดังนั้นจึงสรุปได้ว่าข้อสรุปที่เกี่ยวข้องกับวินัยของพวกเขาก็คือการที่สมมติฐานว่างถูกปฏิเสธ "บ่อยเกินไป" และการค้นพบที่ถูกกล่าวหาเช่นนั้นอาจได้รับนัยสำคัญทางสถิติปลอม นี่ไม่ใช่อาร์กิวเมนต์เดียวกับ dictum "ไม่ถูกต้อง" ในประโยคแรก

ดังนั้นเพื่อตอบคำถามเป็นที่ชัดเจนว่าสำหรับบรรณาธิการของวารสารการตัดสินใจของพวกเขาไม่เพียง แต่ฉลาด แต่ยังถูกนำไปใช้ในการดำเนินการแล้ว: พวกเขาคิดว่าพวกเขาตัดส่วนใดของสถิติที่เป็นอันตรายออกมา ส่วนที่เป็นประโยชน์ - พวกเขาดูเหมือนจะไม่เชื่อว่ามีอะไรที่นี่ที่ต้องการแทนที่ด้วยสิ่งที่ "เทียบเท่า"

Epistemologically นี่คือตัวอย่างที่นักวิชาการสังคมศาสตร์ส่วนหนึ่งถอยกลับจากความพยายามที่จะทำให้ระเบียบวินัยในวัตถุประสงค์และวิธีการของพวกเขาโดยใช้วิธีการเชิงปริมาณมากเพราะพวกเขามาถึงข้อสรุป (อย่างไร?) ว่าในท้ายที่สุด ความพยายามสร้าง "เลวร้ายยิ่งกว่าดี" ฉันจะบอกว่านี่เป็นเรื่องที่สำคัญมากในหลักการที่เป็นไปได้ที่จะเกิดขึ้นและสิ่งหนึ่งที่ต้องใช้เวลาหลายปีในการแสดงให้เห็นว่า "ไม่มีข้อกังขา" และช่วยให้คุณมีวินัย แต่เพียงหนึ่งหรือสองบทบรรณาธิการและเอกสารที่ตีพิมพ์จะมากที่สุด (สถิติเชิงอนุมาน) แค่จุดชนวนสงครามกลางเมือง

ประโยคสุดท้ายของบรรณาธิการปี 2015 อ่าน:

เราหวังและคาดหวังว่าการห้าม NHSTP จะมีผลในการเพิ่มคุณภาพของต้นฉบับที่ส่งมาโดยการปลดปล่อยผู้เขียนจากโครงสร้างที่น่าเบื่อของการคิด NHSTP ซึ่งจะช่วยลดอุปสรรคสำคัญต่อการคิดสร้างสรรค์ NHSTP ได้ครอบงำจิตวิทยามานานหลายทศวรรษ เราหวังว่าการจัดตั้ง NHSTP ครั้งแรกจะแสดงให้เห็นว่าจิตวิทยาไม่จำเป็นต้องใช้ไม้ค้ำของ NHSTP และวารสารอื่น ๆ


5
ใช่ ... เราต้องระวังเมื่อเขียนคำตอบแบบปากต่อปากหรือคำพูดเสียดสีในเว็บไซต์นี้: พวกเขาอาจเข้าใจผิด (สมบูรณ์)!
whuber

4
@ naught101 ... ที่ไม่ดีนัก โปรดสังเกตว่าวิธีที่ NHSTP ถูกประณามมันทำให้นักจิตวิทยาตัวเองว่าพวกเขาได้ใช้มันในช่วงทศวรรษเหล่านี้ ถ้ามันถูกเขียนขึ้นในแบบที่คุณเสนอมันจะดูเหมือนการโจมตีโดยตรงจากเพื่อนร่วมงานของพวกเขาในฐานะนักวิทยาศาสตร์ ขณะที่มันยืนอยู่เป็นหลักข้อความหมายความว่านักจิตวิทยาที่เต็มไปด้วยความตั้งใจดีได้รับโชคร้ายในการใช้วิธีการ "ใครบางคน" ซึ่งใช้ "พลังแห่งอำนาจทางวิทยาศาสตร์" ในทางที่ผิด ... บางทีอาจเป็นเพราะนักสถิติวิทยาศาสตร์ จักรวรรดินิยม?
Alecos Papadopoulos

4
คนงานที่ไม่ดีโทษเครื่องมือของเขา
naught101

3
@BrianDHall ฉันขอแนะนำให้ค้นหาแหล่งข้อมูลที่เชื่อถือได้มากขึ้นเกี่ยวกับปัญหาที่อยู่รอบ ๆ NHSTP (รวมถึงไซต์นี้) แทนที่จะเป็นผลงานของผู้เขียนเฉพาะในเรื่องนี้ เรื่องนี้เป็นเรื่องยากและละเอียดอ่อน - จากความคิดเห็นของคุณคุณควรหารือก่อนความหมายรอบ ๆ "ยอมรับ" และ "ยืนยัน" ...
Alecos Papadopoulos

6
@ naught101: หากคุณสังเกตเห็นว่าคนงานไม่สามารถจัดการเลื่อยโซ่ได้อย่างถูกต้องคุณอาจไม่ตำหนิเครื่องมือ แต่คุณจะยังคงเอามันออกไปจากคนงานเพื่อป้องกันอันตรายเพิ่มเติม ;-)
nikie

19

PP<0.05

การห้ามช่วงเวลาของความเชื่อมั่นนั้นมากเกินไปเช่นกัน แต่ไม่ใช่เพราะเหตุผลอื่น ๆ ที่ระบุไว้ ช่วงความเชื่อมั่นจะมีประโยชน์ก็ต่อเมื่อมีคนแปลความหมายผิดพลาดเป็นระยะเวลาที่น่าเชื่อถือแบบเบย์ (สำหรับนักบวชที่ไม่มีข้อมูลที่เหมาะสม) แต่ก็ยังมีประโยชน์ ความจริงที่ว่าการตีความที่พบบ่อยของพวกเขานำไปสู่อะไร แต่ความสับสนหมายความว่าเราจำเป็นต้อง "ออกจาก Dodge" และไปโรงเรียน Bayesian หรือโรงเรียนโอกาส แต่ผลลัพธ์ที่เป็นประโยชน์สามารถรับได้โดยการตีความข้อ จำกัด ความเชื่อมั่นเก่าที่ดี

มันเป็นความอัปยศที่บรรณาธิการของวารสารเข้าใจผิดสถิติแบบเบย์และไม่ทราบถึงการดำรงอยู่ของการอนุมานโอกาสที่บริสุทธิ์ สิ่งที่พวกเขากำลังมองหาสามารถจัดหาได้ง่าย ๆ โดยการแจกแจงแบบเบย์หลังโดยใช้นักบวชที่สงสัยเล็กน้อย


n3±0.53±1p<0.05

4
ฉันคิดว่าข้อผิดพลาดมาตรฐานนั้นมีขนาดใหญ่เกินไป (เพราะพวกเขาถือว่าการแจกแจงแบบสมมาตร) แต่การวัดความแม่นยำที่เป็นประโยชน์เช่นข้อผิดพลาดกำลังสองเฉลี่ย คุณสามารถคิดถึงช่วงเวลาที่มีความแม่นยำโดยยึดตามข้อผิดพลาดกำลังสองเฉลี่ยของรูทโดยไม่ต้องคาดการณ์ความน่าจะเป็นที่ครอบคลุม ดังนั้นฉันจึงไม่เห็นว่าการสนทนาใดที่แสดงถึงการเน้นข้อผิดพลาดมาตรฐาน และฉันไม่ได้แนะนำให้เราหยุดใช้ CLs แต่ความยากลำบากในการใช้ CLs ส่วนใหญ่มาจากความพยายามในการตีความความน่าจะเป็น
Frank Harrell

อืมม น่าสนใจ สำหรับฉันดูเหมือนว่ามีขั้นตอนเล็ก ๆ น้อย ๆ ตั้งแต่ข้อผิดพลาดมาตรฐานไปจนถึง CI (ปัจจัยคงที่!) ที่การรักษาพวกเขาแตกต่างกันจะแปลก แต่บางทีมันอาจเป็นจุดความหมาย ฉันเดาว่าคุณหมายถึงอะไรคือผู้คนคิดเกี่ยวกับข้อผิดพลาดมาตรฐานและซีไอเอที่แตกต่างกันและมีแนวโน้มที่จะสับสนเกี่ยวกับซีไอเอ ฉันสงสัยว่านโยบายวารสารเฉพาะนี้พูดถึงข้อผิดพลาดมาตรฐานอย่างไร (บรรณาธิการไม่ได้กล่าวถึงอย่างชัดเจน)
อะมีบา

2
ในสถานการณ์ที่สมมาตรข้อผิดพลาดมาตรฐานคือ Building Block สำหรับช่วงความมั่นใจ แต่ในหลายกรณีช่วงความมั่นใจที่ถูกต้องไม่สมมาตรดังนั้นจึงไม่สามารถยึดตามข้อผิดพลาดมาตรฐานได้เลย bootstrap และ back-transform บางชนิดนั้นมีสองวิธี ความน่าจะเป็นของช่วงเวลาในโปรไฟล์นั้นเป็นสิ่งสำคัญ
Frank Harrell

@ Frank Harrell - สำหรับ "การอนุมานความน่าจะเป็นบริสุทธิ์" ฉันยอมรับว่าการเน้นไปที่การสรุปความเป็นไปได้ของข้อมูลโดยไม่ต้องตกแต่งด้วยเกณฑ์ดูเหมือนจะเป็นคำตอบที่บรรณาธิการกำลังจับใจ หนังสือ "ความน่าจะเป็น" ของ AWF Edwards (1972) พูดโดยตรงกับข้อกังวลของบรรณาธิการ: "เราอาจเลื่อนการพิจารณาข้อโต้แย้งเหล่านี้ (เช่นการทดสอบที่สำคัญ) จนกระทั่งบทต่อมาและส่งผ่านไปยังคำอธิบายกระบวนการโดยทันที ซึ่งเปิดให้ไม่มีวัตถุเหล่านี้ซึ่งอาจถูกปรับระดับในการทดสอบความสำคัญ "
John Mark

13

ฉันเห็นว่าวิธีการนี้เป็นความพยายามที่จะจัดการกับความไม่สามารถของจิตวิทยาสังคมในการทำซ้ำหลายสิ่งที่ค้นพบก่อนหน้านี้

ข้อเสียของมันคือ:

  1. ซึ่งไม่ได้ระบุถึงปัจจัยหลายอย่างที่นำไปสู่ผลกระทบปลอม เช่น,

    • A) ผู้คนยังสามารถดูข้อมูลของพวกเขาและหยุดทำการศึกษาเมื่อขนาดของเอฟเฟกต์กระทบกับพวกเขาว่ามีขนาดใหญ่พอที่จะเป็นที่สนใจ

    • B) เอฟเฟกต์ขนาดใหญ่จะยังคงปรากฏว่ามีพลังขนาดใหญ่ในการประเมินพลังงานย้อนหลัง

    • C) ผู้คนจะยังคงจับปลาเพื่อหาผลกระทบที่น่าสนใจและยิ่งใหญ่ (ทดสอบสมมติฐานจำนวนมากในการทดลองแล้วรายงานผลที่เกิดขึ้น) หรือ

    • D) แสร้งว่ามีเอฟเฟกต์แปลก ๆ ที่ไม่คาดคิดมาตลอด

    ไม่ควรพยายามแก้ไขปัญหาเหล่านี้ก่อน

  2. มันจะทำการทบทวนผลการวิจัยในอดีตที่น่ากลัว ไม่มีวิธีใดในการประเมินความน่าเชื่อถือของการศึกษาที่แตกต่างกัน หากวารสารทุกเล่มใช้วิธีการนี้คุณจะมีนักวิทยาศาสตร์สังคมหลายคนบอกว่ามีหลักฐานสำหรับ X เมื่อมันไม่ชัดเจนว่า X น่าเชื่อถือเพียงใดและนักวิทยาศาสตร์โต้เถียงกันเกี่ยวกับวิธีตีความผลที่ตีพิมพ์หรือการโต้แย้งว่ามันสำคัญหรือคุ้มค่า พูดคุยเกี่ยวกับ. นี่เป็นจุดของการมีสถิติหรือไม่? เพื่อให้วิธีการประเมินตัวเลขที่สอดคล้องกัน ในความคิดของฉันวิธีการใหม่นี้จะทำให้เกิดความสับสนหากมีการใช้งานอย่างกว้างขวาง

  3. การเปลี่ยนแปลงนี้ไม่สนับสนุนให้นักวิจัยส่งผลการศึกษาที่มีเอฟเฟกต์ขนาดเล็กดังนั้นจึงไม่ได้ระบุถึงเอฟเฟ็กต์ไฟล์ลิ้นชัก (หรือพวกเขาจะเผยแพร่ผลการวิจัยด้วย n ขนาดใหญ่โดยไม่คำนึงถึงขนาดเอฟเฟกต์) หากเราตีพิมพ์ผลการศึกษาที่ออกแบบมาอย่างระมัดระวังแม้ว่าความเชื่อมั่นของผลการศึกษาแต่ละครั้งอาจไม่แน่นอนการวิเคราะห์อภิมานและการทบทวนการศึกษาที่ให้การวิเคราะห์ทางสถิติจะทำได้ดีกว่าการระบุความจริง


2
@captain_ahab 3 จุดเกี่ยวกับการที่เราจะต้องพูดถึงว่าบรรณาธิการก่อนหน้า (2014) ของบรรณาธิการอย่างชัดเจนได้รับการสนับสนุนการส่งของ "โมฆะเป็นผล" การศึกษา
Alecos Papadopoulos

1
ฉันไม่สามารถหาข้อคิดเห็นในบทบรรณาธิการเกี่ยวกับเกณฑ์การตีพิมพ์ใด ๆ ยกเว้นความต้องการมีขนาดตัวอย่างใหญ่กว่าปกติ (วิธีการที่พวกเขาวางแผนในการระบุตัวตนที่ยอมรับได้โดยไม่มีสถิติเชิงอนุมานนั้นไม่ชัดเจนสำหรับฉัน) สำหรับฉันไม่มีการเน้นในบทบรรณาธิการนี้ที่พวกเขาไม่สนใจว่าขนาดเอฟเฟกต์คืออะไร สำหรับฉันดูเหมือนว่าพวกเขาจะยังคงมองหาเอฟเฟกต์ที่น่าสนใจและเรื่องราวที่น่าสนใจซึ่งฉันคิดว่าเป็นปัญหาที่ใหญ่กว่าในงานสังคมศาสตร์ (เช่นการค้นหาโพสต์เฉพาะกิจสำหรับเอฟเฟกต์และเรื่องราวที่น่าสนใจ)
captain_ahab

2
สิ่งที่ดูเหมือนว่าทางออกที่ดีกว่าคือนักวิทยาศาสตร์ทุกคนจะต้องบันทึกสมมติฐานเหตุผลพื้นฐานพลังและวิธีการวิเคราะห์ของการศึกษาในที่สาธารณะก่อนที่จะทำการศึกษา และจากนั้นถูก จำกัด การเผยแพร่ที่ศึกษาในลักษณะที่กำหนด หากพบว่ามีผลกระทบที่น่าสนใจที่ไม่คาดคิดพวกเขาควรทำการบันทึกต่อสาธารณชนแล้วทำการศึกษาใหม่ที่ตรวจสอบผลกระทบนั้น วิธีการนี้ในขณะที่การควบคุมสำหรับผลบวกปลอมจะช่วยให้นักวิทยาศาสตร์แสดงให้เห็นถึงผลผลิตของพวกเขาโดยไม่ต้องประกาศผลใหม่
captain_ahab

7

ฉันเจอข้อความที่ยอดเยี่ยมที่เกือบจะอ้างถึงจุดเดียวกัน แต่ไม่มาก - เพราะมันเป็นย่อหน้าเปิดในตำราที่ส่วนใหญ่เกี่ยวกับสถิติบ่อยและการทดสอบสมมติฐาน

มันจัดขึ้นอย่างกว้างขวางโดยนักสถิติที่ไม่ใช่เช่นผู้เขียนว่าถ้าคุณทำสถิติการทดลองที่ดีไม่จำเป็น พวกเขาค่อนข้างถูกต้อง [... ] อุปสรรค์แน่นอนว่าการทำการทดลองที่ดีนั้นเป็นเรื่องยาก คนส่วนใหญ่ต้องการความช่วยเหลือทั้งหมดที่พวกเขาสามารถป้องกันไม่ให้พวกเขาทำตัวเองโดยอ้างว่าทฤษฎีที่พวกเขาชื่นชอบนั้นได้รับการพิสูจน์จากการสังเกตที่ไม่ได้ทำอะไรเลย และหน้าที่หลักของส่วนของสถิติที่เกี่ยวข้องกับการทดสอบความสำคัญคือการป้องกันไม่ให้คนทำตัวเองให้โง่ จากมุมมองนี้ฟังก์ชั่นการทดสอบอย่างมีนัยสำคัญคือการป้องกันไม่ให้ผู้คนเผยแพร่การทดสอบไม่ใช่เพื่อสนับสนุนพวกเขา ตามหลักการแล้วการทดสอบที่มีนัยสำคัญไม่ควรปรากฏในสื่อสิ่งพิมพ์ซึ่งมีการใช้หากในระยะเริ่มต้นเพื่อตรวจจับการทดลองที่ไม่เพียงพอ

- David Colquhoun, การบรรยายเกี่ยวกับชีวสถิติ , 1971


1
โพสต์ของคุณเป็นความคิดเห็นจริงๆไม่ใช่คำตอบดังนั้นฉันจึงงดเว้นจากการ upvoting แต่ฉันอยากจะขอบคุณสำหรับการแบ่งปันใบเสนอราคา มีความเข้าใจผิดจำนวนมากที่เห็นได้ชัดในพระธรรมตอนนี้ซึ่งจะต้องใช้ความพยายามอย่างกว้างขวาง (ไม่ต้องพูดเว้นวรรค) เพื่อชี้ให้เห็นและหักล้างพวกเขาทั้งหมด ในคำเดียวแม้ว่าการตอบโต้การยืนยันเหล่านี้คือ "ประสิทธิภาพ" หากทุกคนมีเวลาและงบประมาณไม่ จำกัด เราอย่างน้อยก็มีความปรารถนาที่จะแสดง "การทดลองที่ดี" แต่เมื่อทรัพยากรมี จำกัด มันจะบ้าบิ่น (รวมถึงค่าใช้จ่าย) ในการทำการทดลอง "ขั้นสุดท้าย ... ชัดเจน" เท่านั้น
whuber

2
ขอบคุณสำหรับความคิดเห็นของคุณ @whuber; ฉันเห็นด้วยกับสิ่งที่คุณพูด ถึงกระนั้นฉันต้องเพิ่มว่าฉันพบว่ามันน่าสนใจที่จะบอกว่าข้อมูลการทดลองในอุดมคติควรมีความน่าเชื่อถือเพื่อให้การทดสอบสมมติฐานอย่างเป็นทางการซ้ำซ้อน นี่ไม่ใช่อุดมคติที่ไม่สามารถบรรลุได้! ในเขตของฉัน (ที่ P-ค่าใช้มาก) ผมพบว่าเอกสารที่ดีที่สุดจะโน้มน้าวใจโดยที่พวกเขา: เช่นเพราะพวกเขานำเสนอลำดับของการทดลองหลายเกื้อหนุนซึ่งกันและกันซึ่งนำมารวมกันที่เห็นได้ชัดว่าไม่สามารถเป็นความบังเอิญทางสถิติ ความคิดเห็นใหม่: มันยาวเกินไปสำหรับความคิดเห็นและฉันคิดว่ามันไม่เป็นคำตอบ CW
อะมีบา

ใช่ฉันเข้าใจว่าเหตุใดจึงต้องโพสต์เป็นคำตอบจึงไม่ได้ลงคะแนนเพื่อย้ายความคิดเห็น (ซึ่งจะตัดส่วนสุดท้ายของคำพูดออก) ผมยอมรับว่าเหมาะไม่สามารถบรรลุได้ในกรณีเฉพาะ ฉันยังเห็นด้วยว่ามันเป็นอุดมคติที่ดีที่ควรคำนึงถึง แต่เป็นแนวทางในการออกแบบการทดลอง (ซึ่งโดยรวมแล้วเป็นวินัยในการจัดสรรทรัพยากร) อาจเป็นความผิดพลาดที่ร้ายแรง (ซึ่งเป็นที่ถกเถียงกันอยู่อย่างแน่นอน) ข้อเสนอแนะว่าการทดสอบ "ดี" จะไม่ต้องใช้วิธีการทางสถิติ แต่อย่างใดอย่างหนึ่งที่ไม่ได้ยืนขึ้นแม้จะตรวจสอบคร่าวๆ
whuber

1
บางทีวิธีหนึ่งในการอ่านที่เป็นการบอกว่าการทดสอบความสำคัญเริ่มต้นที่แนะนำสารที่กระตุ้นการตอบสนองทางสรีรวิทยาบางอย่างอาจไม่เกี่ยวข้องกันอีกต่อไปเมื่อคุณเผยแพร่การสืบสวนของคุณลงในผลกระทบของสารยับยั้งชนิดต่าง ๆ
Scortchi
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.