ยูทิลิตี้ของขนาดเอฟเฟ็กต์ที่สัมพันธ์กับค่า p (รวมถึงเมทริกซ์อื่น ๆ ของการอนุมานเชิงสถิติ) ถูกถกเถียงกันเป็นประจำในสาขาของฉัน - จิตวิทยา - และการอภิปรายปัจจุบัน "ร้อนแรง" มากกว่าปกติสำหรับเหตุผลที่เกี่ยวข้องกับคำถามของคุณ และถึงแม้ว่าฉันแน่ใจว่าจิตวิทยาไม่จำเป็นต้องเป็นสาขาวิทยาศาสตร์ที่มีความซับซ้อนทางสถิติมากที่สุด แต่ก็มีการพูดคุยศึกษาและในบางครั้งก็แสดงให้เห็นถึงข้อ จำกัด ของวิธีการต่าง ๆ ในการอนุมานทางสถิติหรืออย่างน้อยพวกมันถูก จำกัด ด้วยการใช้งานของมนุษย์ คำตอบที่โพสต์แล้วรวมถึงข้อมูลเชิงลึกที่ดี แต่ในกรณีที่คุณมีความสนใจในรายการที่กว้างขวางมากขึ้น (และการอ้างอิง) ของเหตุผลและต่อแต่ละคนดูด้านล่าง
ทำไมค่า p ไม่เป็นที่ต้องการ?
- ดังที่ Darren James บันทึกไว้ (และการจำลองของเขาแสดงให้เห็น) ค่า p นั้นขึ้นอยู่กับจำนวนการสังเกตที่คุณมี (ดู Kirk, 2003)
- ในฐานะที่เป็นจอนบันทึกค่า p แสดงถึงความน่าจะเป็นแบบมีเงื่อนไขในการสังเกตข้อมูลว่ารุนแรงหรือสุดขั้วเนื่องจากสมมติฐานว่างเป็นจริง เนื่องจากนักวิจัยส่วนใหญ่ค่อนข้างมีความน่าจะเป็นของสมมติฐานการวิจัยและ / หรือสมมติฐานว่าง, p-values ไม่ได้พูดถึงความน่าจะเป็นที่นักวิจัยสนใจมากที่สุด (เช่นของว่างหรือสมมติฐานการวิจัยดูที่ Dienes, 2008)
- หลายคนที่ใช้ค่า p ไม่เข้าใจสิ่งที่พวกเขาหมายถึง / ไม่ได้หมายถึง (Schmidt & Hunter, 1997) การอ้างอิงของ Michael Lew เกี่ยวกับบทความของ Gelman และ Stern (2006) ได้เน้นย้ำความเข้าใจผิดของนักวิจัยเกี่ยวกับสิ่งที่คนหนึ่งสามารถ (หรือไม่สามารถ) ตีความจากค่า p และเป็นเรื่องราวล่าสุดของ FiveThirtyEight ที่แสดงให้เห็นถึงเรื่องนี้
- ค่า p ไม่ดีในการทำนายค่า p ที่ตามมา (Cumming, 2008)
- p-values มักจะถูกรายงานผิด (บ่อยครั้งที่ความสำคัญเพิ่มขึ้น) และการเชื่อมโยงกับการรายงานข้อมูลที่ไม่เต็มใจ (Bakker & Wicherts, 2011; Nuijten และคณะ, 2016; Wicherts และคณะ, 2011)
- ค่า p สามารถเป็น (และในอดีตเคยเป็น) ถูกบิดเบือนอย่างแข็งขันผ่านความยืดหยุ่นในการวิเคราะห์และดังนั้นจึงไม่น่าเชื่อถือ (John et al., 2012; Simmons et al., 2011)
- ค่า p มีความสำคัญเป็นสัดส่วนเนื่องจากระบบการศึกษาปรากฏขึ้นเพื่อให้รางวัลนักวิทยาศาสตร์สำหรับนัยสำคัญทางสถิติเกี่ยวกับความถูกต้องทางวิทยาศาสตร์ (Fanelli, 2010; Nosek et al., 2012; Rosenthal, 1979)
เหตุใดขนาดของเอฟเฟกต์จึงเป็นที่ต้องการ
โปรดทราบว่าฉันกำลังตีความคำถามของคุณว่ามีการอ้างอิงถึงขนาดของเอฟเฟกต์มาตรฐานโดยเฉพาะอย่างยิ่งเมื่อคุณบอกว่าพวกเขาอนุญาตให้นักวิจัยเปลี่ยนการค้นพบของพวกเขาใน "ตัวชี้วัดทั่วไป"
- ตามที่จอนและคาร์เรนเจมส์ระบุขนาดของผลกระทบระบุขนาดของผลกระทบโดยไม่ขึ้นอยู่กับจำนวนการสังเกต (American Psychological Association 2010; Cumming, 2014) ซึ่งแตกต่างจากการตัดสินใจแบบแยกขั้วว่ามีผลกระทบหรือไม่
- ขนาดของเอฟเฟ็กต์มีค่าเพราะทำให้เมตาดาต้าวิเคราะห์เป็นไปได้และเมตาวิเคราะห์ไดรฟ์สะสมความรู้ (Borenstein et al., 2009; Chan & Arvey, 2012)
- ขนาดผลช่วยอำนวยความสะดวกในการวางแผนขนาดตัวอย่างผ่านการวิเคราะห์พลังงานเบื้องต้นและการจัดสรรทรัพยากรที่มีประสิทธิภาพในการวิจัย (Cohen, 1992)
เหตุใดค่า p จึงเป็นที่ต้องการ
แม้ว่าพวกเขาจะดำเนินการบ่อยน้อยกว่าค่า p- มีจำนวน perks บางคนรู้จักกันดีและยาวนานในขณะที่คนอื่นค่อนข้างใหม่
ค่า P ให้ดัชนีที่สะดวกและคุ้นเคยของความแข็งแรงของหลักฐานเทียบกับสมมุติฐานเชิงโมเดลเชิงสถิติ
เมื่อคำนวณอย่างถูกต้องค่า p ให้วิธีในการตัดสินใจแบบแยกขั้ว (ซึ่งบางครั้งจำเป็น) และค่า p ช่วยให้อัตราความผิดพลาดผิดพลาดเป็นบวกในระยะยาวในระดับที่ยอมรับได้ (Dienes, 2008; Sakaluk, 2016) [มัน ไม่ถูกต้องอย่างเคร่งครัดที่จะบอกว่าจำเป็นต้องใช้ค่า P สำหรับการตัดสินใจแบบแยกขั้ว พวกเขาใช้กันอย่างแพร่หลาย แต่ Neyman & Pearson ใช้ 'พื้นที่สำคัญ' ในพื้นที่ทดสอบสถิติสำหรับจุดประสงค์นั้น ดูคำถามนี้และคำตอบ]
- ค่า p สามารถใช้เพื่ออำนวยความสะดวกในการวางแผนขนาดตัวอย่างที่มีประสิทธิภาพอย่างต่อเนื่อง (ไม่ใช่แค่การวิเคราะห์พลังงานเพียงครั้งเดียว) (Lakens, 2014)
- p-values สามารถนำมาใช้เพื่ออำนวยความสะดวกในการวิเคราะห์อภิมานและประเมินมูลค่าสิ่งมีชีวิต (Simonsohn et al., 2014a; Simonsohn et al., 2014b) ดูบล็อกนี้สำหรับการสนทนาที่สามารถเข้าถึงได้ว่าการแจกแจงค่า p สามารถใช้ในรูปแบบนี้ได้อย่างไรรวมทั้งโพสต์ CV นี้สำหรับการสนทนาที่เกี่ยวข้อง
- p-values สามารถนำมาใช้ในการพิจารณาทางนิติเวชเพื่อกำหนดว่าอาจมีการใช้วิธีการวิจัยที่น่าสงสัยหรือไม่และผลลัพธ์ที่สามารถจำลองได้ (Schimmack, 2014; ดูแอปของSchönbrodt, 2015)
เหตุใดขนาดของเอฟเฟกต์จึงไม่เป็นที่ต้องการ (หรือเกินขนาด)
บางทีตำแหน่งที่ต่อต้านได้ง่ายที่สุดสำหรับหลาย ๆ คน; เหตุใดการรายงานขนาดผลที่ได้มาตรฐานจึงไม่เป็นที่ต้องการหรืออย่างน้อยที่สุดก็เกินขนาด
- ในบางกรณีขนาดของเอฟเฟกต์ที่ได้มาตรฐานไม่ใช่สิ่งที่พวกเขาจะแตก (เช่นกรีนแลนด์, Schlesselman, & Criqui, 1986) โดยเฉพาะอย่างยิ่ง Baguely (2009) มีคำอธิบายที่ดีเกี่ยวกับเหตุผลบางประการที่ทำให้ขนาดเอฟเฟกต์ที่ไม่เป็นมาตรฐานนั้นเป็นที่ต้องการมากกว่า
- แม้จะมีประโยชน์สำหรับการวิเคราะห์พลังงานเบื้องต้น แต่ขนาดของเอฟเฟกต์ไม่ได้ใช้จริงอย่างน่าเชื่อถือเพื่อช่วยในการวางแผนขนาดตัวอย่างที่มีประสิทธิภาพ (Maxwell, 2004)
- แม้ว่าจะใช้ขนาดเอฟเฟ็กต์ในการวางแผนขนาดตัวอย่างเนื่องจากมีการขยายขนาดผ่านอคติสิ่งพิมพ์ (Rosenthal, 1979) ขนาดเอฟเฟกต์ที่เผยแพร่เป็นสิ่งที่น่าสงสัยสำหรับการวางแผนขนาดตัวอย่างที่เชื่อถือได้ (Simonsohn, 2013)
- การประมาณขนาดผลกระทบสามารถ - และเป็น - คำนวณผิดระบบในซอฟต์แวร์เชิงสถิติ (Levine & Hullet, 2002)
- ขนาดของเอฟเฟกต์ถูกดึงออกมาอย่างผิดพลาด (และอาจถูกรายงานผิด) ซึ่งทำลายความน่าเชื่อถือของเมตาวิเคราะห์ (Gøtzsche et al., 2007)
- สุดท้ายการแก้ไขความลำเอียงสิ่งพิมพ์ในขนาดเอฟเฟกต์ยังคงไม่ได้ผล (ดู Carter et al., 2017) ซึ่งหากคุณเชื่อว่ามีอคติการตีพิมพ์อยู่แล้วจะทำให้การวิเคราะห์อภิมานมีผลกระทบน้อยลง
สรุป
การสะท้อนจุดที่ทำโดย Michael Lew ค่า p และขนาดเอฟเฟกต์เป็นเพียงหลักฐานทางสถิติสองชิ้น มีคนอื่น ๆ ที่มีมูลค่าการพิจารณาด้วย แต่เช่นเดียวกับค่า p และขนาดผลตัวชี้วัดอื่น ๆ ของมูลค่าที่เป็นหลักฐานได้แชร์และปัญหาที่ไม่ซ้ำกัน นักวิจัยมักใช้ช่วงเวลาความเชื่อมั่นผิด ๆ และตีความผิด ๆ (เช่น Hoekstra et al., 2014; Morey et al., 2016) เป็นต้นและผลลัพธ์ของการวิเคราะห์แบบเบย์สามารถบิดเบือนโดยนักวิจัยเช่นเดียวกับการใช้ค่า p (เช่น Simonsohn , 2014)
หลักฐานทั้งหมดของหลักฐานได้รับรางวัลและทุกคนต้องมีรางวัล
อ้างอิง
สมาคมจิตวิทยาอเมริกัน (2010) คู่มือตีพิมพ์ของสมาคมจิตวิทยาอเมริกัน (ฉบับที่ 6) วอชิงตันดีซี: สมาคมจิตวิทยาอเมริกัน
Baguley, T. (2009) ขนาดมาตรฐานหรือเอฟเฟกต์ง่าย ๆ : ควรรายงานอะไรบ้าง วารสารจิตวิทยาอังกฤษ, 100 (3), 603-617
Bakker, M. , & Wicherts, JM (2011) การรายงานความผิดพลาดของผลลัพธ์ทางสถิติในวารสารจิตวิทยา วิธีการวิจัยพฤติกรรม, 43 (3), 666-678
Borenstein, M. , Hedges, LV, Higgins, J. , & Rothstein, HR (2009) การวิเคราะห์อภิมานเบื้องต้น West Sussex, UK: John Wiley & Sons, Ltd.
Carter, EC, Schönbrodt, FD, Gervais, WM, & Hilgard, J. (2017, 12 สิงหาคม) การแก้ไขความลำเอียงทางจิตวิทยา: การเปรียบเทียบวิธีการวิเคราะห์อภิมาน สืบค้นจาก osf.io/preprints/psyarxiv/9h3nu
Chan, ME, & Arvey, RD (2012) การวิเคราะห์เมตาและการพัฒนาความรู้ มุมมองทางวิทยาศาสตร์จิตวิทยา, 7 (1), 79-92
โคเฮน, J. (1992) ไพรเมอร์พลัง กระดานข่าวทางจิตวิทยา, 112 (1), 155-159
คัมมิง, G. (2008) การจำลองและช่วงเวลา p: ค่า p ล่วงหน้าในอนาคตเพียงราง ๆ แต่ช่วงความมั่นใจทำได้ดีกว่ามาก มุมมองทางวิทยาศาสตร์จิตวิทยา, 3, 286–300
Dienes, D. (2008) การทำความเข้าใจจิตวิทยาในฐานะวิทยาศาสตร์: บทนำสู่การอนุมานทางวิทยาศาสตร์และสถิติ นิวยอร์ก, นิวยอร์ก: Palgrave MacMillan
Fanelli, D. (2010) ผลลัพธ์“ เป็นบวก” จะเพิ่มลำดับชั้นของวิทยาศาสตร์ลง PloS one, 5 (4), e10068
Gelman, A. , & Stern, H. (2006) ความแตกต่างระหว่าง "สำคัญ" และ "ไม่สำคัญ" นั้นไม่สำคัญทางสถิติ นักสถิติชาวอเมริกัน 60 (4), 328-331
Gøtzsche, PC, Hróbjartsson, A. , Marić, K. , & Tendal, B. (2007) ข้อผิดพลาดในการดึงข้อมูลในการวิเคราะห์ meta ที่ใช้ความแตกต่างของค่าเฉลี่ยที่เป็นมาตรฐาน JAMA, 298 (4), 430-437
กรีนแลนด์, S. , Schlesselman, JJ, & Criqui, MH (1986) การเข้าใจผิดของการใช้สัมประสิทธิ์การถดถอยมาตรฐานและสหสัมพันธ์เป็นตัวชี้วัดของผลกระทบ วารสารระบาดวิทยาอเมริกัน, 123 (2), 203-208
Hoekstra, R. , Morey, RD, Rouder, JN, & Wagenmakers, EJ (2014) การตีความช่วงความเชื่อมั่นแข็งแกร่ง แถลงการณ์เชิงจิตวิทยาและบทวิจารณ์, 21 (5), 1157-1164
John, LK, Loewenstein, G. , & Prelec, D. (2012) การวัดความชุกของการปฏิบัติงานวิจัยที่น่าสงสัยพร้อมสิ่งจูงใจเพื่อบอกความจริง จิตวิทยาวิทยาศาสตร์, 23 (5), 524-532
Kirk, RE (2003) ความสำคัญของขนาดผลกระทบ ใน SF Davis (Ed.), คู่มือวิธีการวิจัยทางจิตวิทยาเชิงทดลอง (หน้า 83–105) Malden, MA: Blackwell
Lakens, D. (2014) ทำการศึกษาที่มีกำลังขับสูงอย่างมีประสิทธิภาพด้วยการวิเคราะห์ตามลำดับ วารสารจิตวิทยาสังคมยุโรป, 44 (7), 701-710
Levine, TR, & Hullett, CR (2002) การทางพิเศษแห่งประเทศไทยกำลังสอง, กทพ. กำลังสอง, และขนาดของผลกระทบที่ไม่ถูกต้องในการวิจัยการสื่อสาร การวิจัยการสื่อสารของมนุษย์, 28 (4), 612-625
แมกซ์เวล, SE (2004) ความเพียรของการศึกษาภายใต้การวิจัยทางจิตวิทยา: สาเหตุผลที่ตามมาและการเยียวยา วิธีการทางจิตวิทยา, 9 (2), 147
Morey, RD, Hoekstra, R. , Rouder, JN, Lee, MD, & Wagenmakers, EJ (2016) การเข้าใจผิดในการวางความเชื่อมั่นในช่วงความเชื่อมั่น แถลงการณ์เชิงจิตวิทยาและบทวิจารณ์, 23 (1), 103-123
Nosek, BA, Spies, JR, & Motyl, M. (2012) วิทยาศาสตร์ยูโทเปีย: II การปรับโครงสร้างแรงจูงใจและการปฏิบัติเพื่อส่งเสริมความจริงมากกว่าการเผยแพร่ มุมมองทางวิทยาศาสตร์จิตวิทยา, 7 (6), 615-631
Nuijten, MB, Hartgerink, CH, van Assen, MA, Epskamp, S. , & Wicherts, JM (2016) ความชุกของข้อผิดพลาดการรายงานเชิงสถิติในด้านจิตวิทยา (2528-2556) วิธีการวิจัยพฤติกรรม, 48 (4), 1205-1226
Rosenthal, R. (1979) ปัญหาลิ้นชักไฟล์และการยอมรับเพื่อให้ได้ผลลัพธ์ที่เป็นโมฆะ กระดานข่าวทางจิตวิทยา, 86 (3), 638-641
Sakaluk, JK (2016) การสำรวจขนาดเล็กการยืนยันครั้งใหญ่: ระบบทางเลือกสำหรับสถิติใหม่สำหรับการวิจัยทางจิตวิทยาแบบสะสมและแบบจำลองขั้นสูง วารสารจิตวิทยาสังคมทดลอง, 66, 47-54
Schimmack, U. (2014) การวิเคราะห์เชิงสถิติเชิงปริมาณเชิงปริมาณ: ดัชนีการทำซ้ำ เรียกดูจากhttp://www.r-index.org
Schmidt, FL, & Hunter, JE (1997) การคัดค้านที่ผิด ๆ แต่เป็นเท็จแปดประการต่อการหยุดการทดสอบที่สำคัญในการวิเคราะห์ข้อมูลการวิจัย ใน LL Harlow, SA Mulaik, & JH Steiger (Eds.), จะเกิดอะไรขึ้นถ้าไม่มีการทดสอบที่สำคัญ? (pp. 37–64) Mahwah, NJ: Erlbaum
Schönbrodt, FD (2015) p-checker: ตัววิเคราะห์ p-value แบบหนึ่งเดียวสำหรับทุกคน แปลจากhttp://shinyapps.org/apps/p-checker/
Simmons, JP, Nelson, LD, & Simonsohn, U. (2011) จิตวิทยาเชิงบวกที่ผิดพลาด: ความยืดหยุ่นที่ไม่เปิดเผยในการรวบรวมและวิเคราะห์ข้อมูลช่วยให้การนำเสนอสิ่งต่าง ๆ มีความสำคัญ วิทยาศาสตร์จิตวิทยา, 22 (11), 1359-1366
Simonsohn, U. (2013) ความเขลาของการใช้กำลังทำซ้ำตามขนาดของเอฟเฟกต์ที่สังเกตได้ เรียกคืนจากhttp://datacolada.org/4
Simonsohn, U. (2014) หลังแฮ็ค แปลจากhttp://datacolada.org/13
Simonsohn, U. , Nelson, LD, & Simmons, JP (2014) P-curve: กุญแจสำคัญในลิ้นชักไฟล์ วารสารจิตวิทยาการทดลอง: ทั่วไป, 143 (2), 534-547
Simonsohn, U. , Nelson, LD, & Simmons, JP (2014) P-curve และขนาดเอฟเฟกต์: การแก้ไขอคติสิ่งพิมพ์โดยใช้ผลลัพธ์ที่สำคัญเท่านั้น มุมมองทางวิทยาศาสตร์จิตวิทยา, 9 (6), 666-681
Wicherts, JM, Bakker, M. , & Molenaar, D. (2011) ความเต็มใจที่จะแบ่งปันข้อมูลการวิจัยนั้นเกี่ยวข้องกับความแข็งแกร่งของหลักฐานและคุณภาพของการรายงานผลทางสถิติ PloS one, 6 (11), e26828