ขนาดของเอฟเฟกต์ดีกว่าค่า p จริง ๆ หรือไม่


14

การเน้นจำนวนมากนั้นขึ้นอยู่กับการพึ่งพาและการรายงานขนาดผลกระทบมากกว่าค่า pในการวิจัยประยุกต์

แต่ไม่ใช่ในกรณีที่ขนาดของเอฟเฟกต์เหมือนกับค่าpเป็นตัวแปรสุ่มและเช่นนั้นอาจแตกต่างกันไปตามตัวอย่างเมื่อทำการทดลองเดียวกันซ้ำ ฉันกำลังถามว่าคุณลักษณะทางสถิติใด (เช่นขนาดของเอฟเฟกต์เป็นตัวแปรน้อยกว่าจากตัวอย่างไปยังตัวอย่างกว่าค่า p) ทำให้ขนาดของเอฟเฟกต์ดีกว่าดัชนีการวัดที่เป็นหลักฐานได้ดีกว่าค่า p

อย่างไรก็ตามฉันควรพูดถึงข้อเท็จจริงสำคัญที่แยก p-value ออกจากขนาดเอฟเฟกต์ นั่นคือขนาดของเอฟเฟกต์เป็นสิ่งที่ต้องประมาณเนื่องจากมีพารามิเตอร์ประชากร แต่ค่าp จะไม่มีค่าใด ๆ ที่จะถูกประเมินเนื่องจากมันไม่มีพารามิเตอร์ประชากร

สำหรับฉันขนาดของเอฟเฟกต์เป็นเพียงตัวชี้วัดที่ในบางพื้นที่ของการวิจัย (เช่นการวิจัยของมนุษย์) ช่วยเปลี่ยนการค้นพบเชิงประจักษ์ที่มาจากเครื่องมือการวัดที่นักวิจัยพัฒนาขึ้นมาเป็นเครื่องมือวัดทั่วไป ชมรมวิจัยเชิงปริมาณ.

บางทีถ้าเราใช้สัดส่วนที่เรียบง่ายเป็นขนาดเอฟเฟกต์สิ่งต่อไปนี้ (ใน R) คืออะไรที่แสดงให้เห็นถึงขนาดที่ใหญ่ที่สุดของเอฟเฟกต์มากกว่าค่า p (การเปลี่ยนแปลงค่า p แต่ขนาดผลไม่ได้)

binom.test(55, 100, .5)  ## p-value = 0.3682  ## proportion of success 55% 

binom.test(550, 1000, .5) ## p-value = 0.001731 ## proportion of success 55%

โปรดทราบว่าขนาดเอฟเฟกต์ส่วนใหญ่สัมพันธ์กับสถิติทดสอบเป็นเส้นตรง ดังนั้นจึงเป็นขั้นตอนที่ง่ายในการทำการทดสอบสมมติฐานโดยใช้ขนาดเอฟเฟกต์

ตัวอย่างเช่นสถิติ t ที่เกิดจากการออกแบบก่อนโพสต์สามารถแปลงเป็นขนาดเอฟเฟกต์ d ที่สอดคล้องกันของ Cohen ได้อย่างง่ายดาย ดังนั้นการแจกแจงของโคเฮนเป็นเพียงแค่รุ่นสเกลของการแจกแจง

คำพูด:

เนื่องจากค่า p เป็นค่าดัชนีที่สับสนในทางทฤษฎี 100 การศึกษาที่มีขนาดตัวอย่างที่แตกต่างกันและขนาดเอฟเฟกต์ที่แตกต่างกัน 100 ค่าอาจมีค่า p เดียวเท่ากันและ 100 การศึกษาที่มีเอฟเฟกต์เดียว .

หรือ

p-value เป็นตัวแปรสุ่มที่แตกต่างกันไปตามกลุ่มตัวอย่าง . . . ดังนั้นจึงไม่เหมาะสมที่จะเปรียบเทียบค่า p จากการทดลองสองแบบที่แตกต่างกันหรือจากการทดสอบกับตัวแปรสองตัวที่วัดในการทดลองเดียวกันและประกาศว่ามีความสำคัญมากกว่าอีกหรือไม่

อ้างอิง:

Thompson, B. (2006) พื้นฐานของสถิติพฤติกรรม: แนวทางเชิงลึก นิวยอร์กนิวยอร์ก: Guilford กด

ดี, PI, & Hardin, JW (2003) ข้อผิดพลาดทั่วไปในสถิติ (และวิธีการหลีกเลี่ยง) นิวยอร์ก: ไวลีย์


12
ฉันไม่ได้ข้อสรุปเดียวกันจากใบเสนอราคา (ขนาดของเอฟเฟกต์นั้น "เหนือกว่า" หรือควรรายงานแทนค่า p) ฉันรู้ว่าบางคนทำเกินจริงด้วยการทำข้อความแบบนั้น (เช่นการห้ามใช้ BASP ในค่า p) ไม่ใช่สถานการณ์เดียวหรืออื่น ๆ : เป็นกรณีของการชี้ให้เห็นว่าค่า p และขนาดเอฟเฟกต์จะให้ข้อมูลที่เป็นประโยชน์หลากหลายประเภท ปกติไม่ควรมีการตรวจสอบโดยไม่พิจารณาในบริบทของอีก
whuber

1
โดยส่วนตัวฉันคิดว่าการรายงานการประเมินพร้อมกับช่วงความมั่นใจนั้นเพียงพอแล้ว มันให้ขนาดผล (ความสำคัญในทางปฏิบัติ) และการทดสอบสมมติฐาน (นัยสำคัญทางสถิติ) ในเวลาเดียวกัน
จิรภัทรสำราญเวช

1
ค่า p หรือขนาดเอฟเฟกต์เป็น 'ยอดเยี่ยม' หรือไม่นั้นขึ้นอยู่กับมุมมองของคุณ อดีตดังต่อไปนี้จากประเพณี NHST ชาวประมงในขณะที่หลังจากประเพณี Neyman-Pearson ในบางสาขา (วิทยาศาสตร์ชีวภาพมนุษยศาสตร์) ขนาดของเอฟเฟกต์มีแนวโน้มที่จะเล็กมากทำให้ค่า p น่าสนใจ ตรงกันข้ามตามที่คนอื่น ๆ ทราบค่า p สามารถ 'บังคับ' น้อยลงผ่านการเปลี่ยนแปลงการออกแบบเช่นเพิ่มขึ้น N.
HEITZ

3
ไขควงดีกว่าค้อนหรือไม่?
kjetil b halvorsen

น็อตเหนือกว่าสายฟ้าหรือเปล่า?
Sextus Empiricus

คำตอบ:


21

คำแนะนำในการกำหนดขนาดเอฟเฟกต์แทนที่จะเป็นค่า P จะขึ้นอยู่กับการแบ่งขั้วที่ผิดพลาดและไร้สาระ ทำไมไม่นำเสนอทั้งคู่

ข้อสรุปทางวิทยาศาสตร์ควรอยู่บนพื้นฐานของการประเมินเหตุผลของหลักฐานและทฤษฎีที่มีอยู่ ค่า P และขนาดเอฟเฟกต์ที่สังเกตได้เพียงอย่างเดียวหรือรวมกันนั้นไม่เพียงพอ

ทั้งตอนที่คุณเสนอนั้นไม่มีประโยชน์ใด ๆ แน่นอนค่า P- แตกต่างกันไปจากการทดสอบการทดสอบความแข็งแรงของหลักฐานในข้อมูลแตกต่างกันไปจากการทดสอบการทดสอบ ค่า P-value เป็นเพียงการสกัดตัวเลขของหลักฐานนั้นผ่านโมเดลทางสถิติ เมื่อพิจารณาถึงลักษณะของค่า P-value จึงไม่ค่อยมีความเกี่ยวข้องกับจุดประสงค์ในการวิเคราะห์เพื่อเปรียบเทียบค่า P-value หนึ่งกับอีกค่าหนึ่งดังนั้นบางทีนั่นอาจเป็นสิ่งที่ผู้เขียนเสนอราคาพยายามถ่ายทอด

หากคุณพบว่าคุณต้องการเปรียบเทียบค่า P คุณอาจต้องทำการทดสอบความสำคัญกับการจัดเรียงข้อมูลที่แตกต่างกันเพื่อตอบคำถามที่น่าสนใจอย่างสมเหตุสมผล ดูคำถามเหล่านี้: ค่า p สำหรับค่า p? และ ถ้าค่าเฉลี่ยของกลุ่มหนึ่งแตกต่างจากศูนย์ แต่อีกกลุ่มไม่ได้เราสามารถสรุปได้ว่ากลุ่มนั้นแตกต่างกันหรือไม่

ดังนั้นคำตอบสำหรับคำถามของคุณจึงซับซ้อน ฉันไม่พบการตอบสนองแบบแยกขั้วต่อข้อมูลโดยยึดตามค่า P หรือขนาดเอฟเฟกต์ที่เป็นประโยชน์ดังนั้นขนาดเอฟเฟกต์ที่ดีกว่าค่า P คืออะไร ใช่ไม่บางครั้งอาจจะและมันขึ้นอยู่กับวัตถุประสงค์ของคุณ


ฉันคิดว่ามันจะดีกว่าที่จะแสดงขนาดของเอฟเฟกต์และช่วงความมั่นใจของมันหากนักวิเคราะห์สามารถระบุขนาดของเอฟเฟกต์ที่มีความหมายสำหรับการศึกษาในมือ ช่วงความเชื่อมั่นซึ่งแตกต่างจากค่า p ทำให้ผู้อ่านรับรู้ถึงความแม่นยำของการประมาณรวมทั้งส่วนปลาย
AdamO

1
@ Adamo ใช่ฉันเห็นด้วยเป็นส่วนใหญ่ แต่ P-value มีสองสิ่งที่จะเสนอและไม่ควรมองข้าม มันเป็นดัชนีของความแข็งแกร่งของหลักฐานต่อโมฆะสิ่งที่สามารถได้รับจากช่วงความเชื่อมั่นโดยดวงตาที่มีประสบการณ์มากและค่า P ที่แน่นอนไม่ได้เชิญ dichotomy ของภายใน / ภายนอกที่ช่วงความเชื่อมั่นทำโดยตรง . แน่นอนฟังก์ชั่นความน่าจะเป็นมีข้อดีเหนือกว่าทั้งสองอย่าง
Michael Lew

14

ในบริบทของการวิจัยประยุกต์ขนาดผลเป็นสิ่งจำเป็นสำหรับผู้อ่านในการตีความความสำคัญในทางปฏิบัติ (ตรงข้ามกับนัยสำคัญทางสถิติ) ของการค้นพบ โดยทั่วไปค่า p มีความไวต่อขนาดตัวอย่างมากกว่าขนาดของเอฟเฟกต์ หากการทดลองวัดขนาดผลกระทบที่ถูกต้อง (เช่นใกล้เคียงกับค่าพารามิเตอร์ประชากรที่คาดคะเน) แต่ให้ค่า p-value ที่ไม่สำคัญดังนั้นทุกสิ่งเท่ากันการเพิ่มขนาดตัวอย่างจะส่งผลขนาดเดียวกัน แต่ ค่า p ต่ำกว่า สิ่งนี้สามารถแสดงให้เห็นได้ด้วยการวิเคราะห์พลังงานหรือการจำลอง

ด้วยเหตุนี้จึงเป็นไปได้ที่จะบรรลุค่า p ที่มีนัยสำคัญสูงสำหรับขนาดของเอฟเฟกต์ที่ไม่มีนัยสำคัญในทางปฏิบัติ ในทางตรงกันข้ามการออกแบบการศึกษาที่ใช้พลังงานต่ำสามารถผลิตค่า p ที่ไม่มีนัยสำคัญสำหรับขนาดผลกระทบที่มีความสำคัญในทางปฏิบัติที่ดี

เป็นการยากที่จะหารือเกี่ยวกับแนวคิดของขนาดผลกระทบทางสถิติที่สำคัญโดยไม่ต้องใช้แอปพลิเคชันในโลกแห่งความจริงที่เฉพาะเจาะจง ยกตัวอย่างเช่นพิจารณาการทดลองที่ประเมินผลของวิธีการเรียนใหม่ที่มีต่อคะแนนเฉลี่ยสะสม (GPA) ของนักเรียน ฉันขอยืนยันว่าขนาดของเอฟเฟกต์ 0.01 คะแนนมีความสำคัญในทางปฏิบัติเล็กน้อย (เช่น 2.50 เทียบกับ 2.51) สมมติขนาดตัวอย่าง 2,000 นักเรียนทั้งในกลุ่มการรักษาและควบคุมและค่าเบี่ยงเบนมาตรฐานของประชากร 0.5 คะแนน:

set.seed(12345)
control.data <- rnorm(n=2000, mean = 2.5, sd = 0.5)
set.seed(12345)
treatment.data <- rnorm(n=2000, mean = 2.51, sd = 0.5)
t.test(x = control.data, y = treatment.data, alternative = "two.sided", var.equal = TRUE) 

ค่าเฉลี่ยตัวอย่าง การรักษา = 2.51

ค่าเฉลี่ยตัวอย่าง ควบคุม = 2.50

ขนาดผล = 2.51 - 2.50 = 0.01

p = 0.53

การเพิ่มขนาดตัวอย่างเป็นนักเรียน 20,000 คนและการถือครองทุกอย่างคงที่ทำให้ได้ค่า p ที่สำคัญ:

set.seed(12345)
control.data <- rnorm(n=20000, mean = 2.5, sd = 0.5)
set.seed(12345)
treatment.data <- rnorm(n=20000, mean = 2.51, sd = 0.5)
t.test(x = control.data, y = treatment.data, alternative = "two.sided", var.equal = TRUE)  

ค่าเฉลี่ยตัวอย่าง การรักษา = 2.51

ค่าเฉลี่ยตัวอย่าง ควบคุม = 2.50

ขนาดผล = 2.51 - 2.50 = 0.01

p = 0.044

เห็นได้ชัดว่ามันไม่ใช่เรื่องสำคัญที่จะเพิ่มขนาดตัวอย่างตามลำดับความสำคัญ! อย่างไรก็ตามฉันคิดว่าเราทุกคนสามารถตกลงกันได้ว่าการปรับปรุงการปฏิบัติที่นำเสนอโดยวิธีการศึกษานี้เล็กน้อย หากเราพึ่งพาค่า p เท่านั้นเราอาจเชื่ออย่างอื่นในกรณี n = 20,000

ส่วนตัวฉันสนับสนุนการรายงานทั้งค่า p และขนาดผลกระทบ และคะแนนโบนัสสำหรับสถิติ t- หรือ F, องศาอิสระและการวินิจฉัยโมเดล!


2
ดาร์เรนโปรดแสดงความหมายของคุณใน R หรืออะไรที่เหมือนกับ PO
user138773

7
@Darrent James ไม่มีความสำคัญในทางปฏิบัติในความแตกต่างระหว่าง p = 0.065 และ p = 0.043 เกินกว่าสมมติฐานที่โชคร้ายที่ p = 0.05 เป็นเส้นสว่างที่ควรได้รับการเคารพ P-value ไม่แสดงถึงหลักฐานที่น่าสนใจสำหรับหรือต่อต้านสิ่งใด ๆ ด้วยตัวเอง
Michael Lew

@Michael Lew ใช่ฉันเห็นด้วย!
Darren James

1
เจมส์ให้รหัสและคำอธิบายของคุณดูเหมือนว่าคุณเข้าใจผิดเกี่ยวกับประเด็นของ OP อย่างสมบูรณ์ รหัส R ของคุณผิดด้วย! เพราะคุณไม่ได้ตั้งค่าในvar.equal = TRUEขณะที่คุณsdเท่ากัน ด้วยพื้นหลังดังกล่าวฉันไม่แน่ใจว่าทำไมคุณถึงโพสต์คำตอบเช่นนี้ OP กำลังถามคำถามที่ไม่มีคำตอบง่าย ๆ อย่างน้อยในเวลาปัจจุบัน!
user138773

1
ฉันได้เพิ่ม var.equal = TRUE ในรหัส แต่มันไม่จำเป็นในกรณีนี้ ได้รับค่า p เดียวกันกับทั้ง var.equal = TRUE และค่าเริ่มต้น var.equal = FALSE
Darren James

5

ปัจจุบันฉันทำงานด้านวิทยาศาสตร์ข้อมูลและก่อนหน้านั้นฉันทำงานวิจัยด้านการศึกษา ในขณะที่แต่ละ "อาชีพ" ผมเคยร่วมงานกับคนที่ไม่ได้มาจากพื้นหลังอย่างเป็นทางการในสถิติและที่เน้นทางสถิติ (และการปฏิบัติ) อย่างมีนัยสำคัญจะถูกวางหนักในp-value ฉันได้เรียนรู้รวมและเน้นขนาดผลในการวิเคราะห์ของฉันเพราะมีความแตกต่างระหว่างนัยสำคัญทางสถิติและความสำคัญในทางปฏิบัติ

โดยทั่วไปแล้วคนที่ฉันทำงานด้วยความใส่ใจเกี่ยวกับสิ่งหนึ่ง "โปรแกรม / คุณลักษณะของเราสร้างและส่งผลกระทบใช่หรือไม่" สำหรับคำถามเช่นนี้คุณสามารถทำอะไรง่ายๆได้ง่าย ๆ เป็นแบบทดสอบ t-test แล้วรายงานพวกเขาว่า "ใช่โปรแกรม / คุณสมบัติของคุณสร้างความแตกต่าง" แต่ความแตกต่างนี้มีขนาดใหญ่หรือเล็กแค่ไหน?

ก่อนอื่นก่อนที่ฉันจะเริ่มศึกษาหัวข้อนี้ฉันต้องการสรุปสิ่งที่เราอ้างถึงเมื่อพูดถึงขนาดของเอฟเฟกต์

ขนาดของเอฟเฟกต์เป็นเพียงวิธีการหาปริมาณขนาดของความแตกต่างระหว่างสองกลุ่ม [... ] มันมีประโยชน์โดยเฉพาะอย่างยิ่งสำหรับการวัดประสิทธิภาพของการแทรกแซงโดยเฉพาะเมื่อเทียบกับการเปรียบเทียบบางอย่าง มันช่วยให้เราก้าวต่อไปได้ง่ายกว่า'มันใช้งานได้หรือไม่' สำหรับคนที่มีความซับซ้อนมากขึ้น'มันทำงานได้ดีในบริบทต่าง ๆ หรือไม่' ยิ่งกว่านั้นการเน้นที่ความสำคัญที่สุดของการแทรกแซง - ขนาดของผลกระทบ - มากกว่านัยสำคัญทางสถิติของมัน (ซึ่งทำให้ขนาดของผลกระทบและขนาดของกลุ่มตัวอย่าง) จะส่งเสริมวิธีการทางวิทยาศาสตร์มากขึ้นในการสะสมความรู้ ด้วยเหตุผลเหล่านี้ขนาดของเอฟเฟกต์จึงเป็นเครื่องมือสำคัญในการรายงานและการตีความประสิทธิภาพ

ขนาดเอฟเฟ็กต์โง่: ขนาดเอฟเฟกต์คืออะไรและทำไมจึงมีความสำคัญ

α

เหตุใดค่า P จึงไม่เพียงพอ

นัยสำคัญทางสถิติคือความน่าจะเป็นที่ความแตกต่างที่สังเกตระหว่างสองกลุ่มเกิดจากโอกาส หากค่าPสูงกว่าระดับอัลฟาที่เลือก (เช่น .05) ความแตกต่างที่สังเกตจะถูกอธิบายโดยการสุ่มตัวอย่างความแปรปรวน ด้วยตัวอย่างที่มีขนาดใหญ่เพียงพอการทดสอบทางสถิติมักจะแสดงให้เห็นถึงความแตกต่างอย่างมีนัยสำคัญเว้นแต่ว่าจะไม่มีผลใด ๆ นั่นคือเมื่อขนาดของผลกระทบเป็นศูนย์อย่างแน่นอน แต่ความแตกต่างเล็ก ๆ น้อย ๆ แม้ว่าที่สำคัญมักไม่มีความหมาย ดังนั้นการรายงานเฉพาะค่า P ที่สำคัญสำหรับการวิเคราะห์ไม่เพียงพอสำหรับผู้อ่านที่จะเข้าใจผลลัพธ์อย่างสมบูรณ์

และเพื่อยืนยันความคิดเห็นของ DarrenJames เกี่ยวกับกลุ่มตัวอย่างขนาดใหญ่

ตัวอย่างเช่นถ้าขนาดตัวอย่างคือ 10 000 ค่า P ที่สำคัญน่าจะพบได้แม้ว่าความแตกต่างของผลลัพธ์ระหว่างกลุ่มจะไม่สำคัญและอาจไม่แสดงให้เห็นถึงการแทรกแซงที่มีราคาแพงหรือใช้เวลานานกว่า ระดับความสำคัญด้วยตัวมันเองไม่ได้ทำนายขนาดของเอฟเฟกต์ แตกต่างจากการทดสอบที่สำคัญขนาดของเอฟเฟกต์เป็นอิสระจากขนาดตัวอย่าง อย่างมีนัยสำคัญทางสถิติขึ้นอยู่กับทั้งขนาดตัวอย่างและขนาดผล ด้วยเหตุนี้ค่า P จึงถูกพิจารณาว่าเป็นสิ่งที่สับสนเนื่องจากการพึ่งพาขนาดตัวอย่าง บางครั้งผลลัพธ์ที่มีนัยสำคัญทางสถิติหมายความว่ามีการใช้ตัวอย่างขนาดใหญ่เท่านั้น [มีมุมมองที่เข้าใจผิดว่าพฤติกรรมนี้แสดงอคติต่อสมมติฐานว่างทำไมการทดสอบสมมติฐานบ่อย ๆ จึงลำเอียงในการปฏิเสธสมมติฐานว่างด้วยตัวอย่างที่มีขนาดใหญ่เพียงพอ? ]

การใช้ขนาดเอฟเฟกต์ - หรือทำไมค่าPไม่เพียงพอ

รายงานทั้งค่า P และขนาดผลกระทบ

ตอนนี้ที่จะตอบคำถามที่มีผลขนาดที่เหนือกว่าให้กับP-ค่า ? ฉันจะโต้แย้งว่าสิ่งเหล่านี้เป็นองค์ประกอบสำคัญในการวิเคราะห์ทางสถิติที่ไม่สามารถเปรียบเทียบได้ในเงื่อนไขดังกล่าวและควรรายงานด้วยกัน p-valueเป็นสถิติที่จะบ่งบอกนัยสำคัญทางสถิติ (ความแตกต่างจากการกระจายโมฆะ) ที่ทำให้ขนาดของผลเป็นคำว่าแตกต่างกันมากมี

ตัวอย่างเช่นสมมติว่าหัวหน้างานของคุณ Bob ซึ่งไม่เป็นมิตรกับสถิติมากสนใจที่จะดูว่ามีความสัมพันธ์ที่สำคัญระหว่างwt (น้ำหนัก) และmpg (ไมล์ต่อแกลลอน) หรือไม่ คุณเริ่มการวิเคราะห์ด้วยสมมติฐาน

H0:βม.พีก.=0 VS HA:βม.พีก.0

α=0.05

> data("mtcars")
> 
> fit = lm(formula = mpg ~ wt, data = mtcars)
> 
> summary(fit)

Call:
lm(formula = mpg ~ wt, data = mtcars)

Residuals:
    Min      1Q  Median      3Q     Max 
-4.5432 -2.3647 -0.1252  1.4096  6.8727 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  37.2851     1.8776  19.858  < 2e-16 ***
wt           -5.3445     0.5591  -9.559 1.29e-10 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.046 on 30 degrees of freedom
Multiple R-squared:  0.7528,    Adjusted R-squared:  0.7446 
F-statistic: 91.38 on 1 and 30 DF,  p-value: 1.294e-10

summaryβม.พีก.0

ดังนั้นคุณสามารถสรุปได้ว่าผลลัพธ์มีนัยสำคัญทางสถิติและสื่อสารความสำคัญในแง่การปฏิบัติ

ฉันหวังว่านี่จะเป็นประโยชน์ในการตอบคำถามของคุณ


จอนขอบคุณมีพื้นที่สีเทาจำนวนมากที่ฉันหวังว่าจะได้ยินมากขึ้นเกี่ยวกับ แต่ฉันไม่ได้ ในสถานการณ์ที่มีขนาดผลกระทบและค่า p จำนวนมากไม่เห็นด้วย ขนาดของเอฟเฟกต์ความน่าเชื่อถือในสถานการณ์เช่นนี้ซึ่งฉันอยากรู้ว่าทำไม ฉันหวังว่าจะได้ยินเกี่ยวกับแบบจำลองที่สามารถแสดงประเด็นสำคัญได้มากขึ้น ขนาดเอฟเฟกต์นั้นอาจจะเล็ก แต่ก็ไม่เป็นศูนย์ วิธีการทดสอบความเท่าเทียมมีมาแล้วหลายปีแล้ว ฉันชอบการทดสอบความเท่าเทียมแบบเบย์มากยิ่งขึ้น อย่างไรก็ตามฉันอาจไม่ได้ถามคำถามของฉันอย่างชัดเจนพอ - ขอบคุณ
rnorouzian

BTW เพื่อนร่วมงานให้ความเห็นว่ารหัส R ของ Daren ผิดดูเหมือนว่าเขา / เธอถูก var.equal = TRUEเขายังไม่ได้ใส่
rnorouzian

* ในหลาย ๆ สถานการณ์ขนาดผลกระทบและค่า p ไม่เห็นด้วย * - คุณสามารถให้ข้อมูลเพิ่มเติมเกี่ยวกับเรื่องนี้ได้ไหม? ตัวอย่าง? เกี่ยวกับเรื่องที่คุณนำมากล่าวคือขนาดของเอฟเฟกต์อาจเล็ก แต่ไม่เป็นศูนย์ - สถานการณ์นี้อาจส่งผลให้ตัวอย่างมีขนาดใหญ่ ดังนั้นหากขนาดผลกระทบมีค่าเกือบเป็นศูนย์ตัวแปรที่น่าสนใจอาจไม่ส่งผลกระทบอย่างมีนัยสำคัญหรือความสัมพันธ์อาจถูกระบุอย่างไม่ถูกต้อง (เช่นเชิงเส้นกับไม่เชิงเส้น)
Jon

ลองใช้เครื่องมือนี้ ดูเอกสารนี้ด้วย ดูเหมือนว่าฉันจะต้องถามคำถามอื่นในภายหลังโดยใช้รหัสบางอย่างเพื่อความชัดเจน -- ขอขอบคุณ.
rnorouzian

@rnorouzian โอเคฉันใช้รหัสของคุณ ประเด็นของคุณคืออะไร?
Jon

4

ยูทิลิตี้ของขนาดเอฟเฟ็กต์ที่สัมพันธ์กับค่า p (รวมถึงเมทริกซ์อื่น ๆ ของการอนุมานเชิงสถิติ) ถูกถกเถียงกันเป็นประจำในสาขาของฉัน - จิตวิทยา - และการอภิปรายปัจจุบัน "ร้อนแรง" มากกว่าปกติสำหรับเหตุผลที่เกี่ยวข้องกับคำถามของคุณ และถึงแม้ว่าฉันแน่ใจว่าจิตวิทยาไม่จำเป็นต้องเป็นสาขาวิทยาศาสตร์ที่มีความซับซ้อนทางสถิติมากที่สุด แต่ก็มีการพูดคุยศึกษาและในบางครั้งก็แสดงให้เห็นถึงข้อ จำกัด ของวิธีการต่าง ๆ ในการอนุมานทางสถิติหรืออย่างน้อยพวกมันถูก จำกัด ด้วยการใช้งานของมนุษย์ คำตอบที่โพสต์แล้วรวมถึงข้อมูลเชิงลึกที่ดี แต่ในกรณีที่คุณมีความสนใจในรายการที่กว้างขวางมากขึ้น (และการอ้างอิง) ของเหตุผลและต่อแต่ละคนดูด้านล่าง

ทำไมค่า p ไม่เป็นที่ต้องการ?

  • ดังที่ Darren James บันทึกไว้ (และการจำลองของเขาแสดงให้เห็น) ค่า p นั้นขึ้นอยู่กับจำนวนการสังเกตที่คุณมี (ดู Kirk, 2003)
  • ในฐานะที่เป็นจอนบันทึกค่า p แสดงถึงความน่าจะเป็นแบบมีเงื่อนไขในการสังเกตข้อมูลว่ารุนแรงหรือสุดขั้วเนื่องจากสมมติฐานว่างเป็นจริง เนื่องจากนักวิจัยส่วนใหญ่ค่อนข้างมีความน่าจะเป็นของสมมติฐานการวิจัยและ / หรือสมมติฐานว่าง, p-values ​​ไม่ได้พูดถึงความน่าจะเป็นที่นักวิจัยสนใจมากที่สุด (เช่นของว่างหรือสมมติฐานการวิจัยดูที่ Dienes, 2008)
  • หลายคนที่ใช้ค่า p ไม่เข้าใจสิ่งที่พวกเขาหมายถึง / ไม่ได้หมายถึง (Schmidt & Hunter, 1997) การอ้างอิงของ Michael Lew เกี่ยวกับบทความของ Gelman และ Stern (2006) ได้เน้นย้ำความเข้าใจผิดของนักวิจัยเกี่ยวกับสิ่งที่คนหนึ่งสามารถ (หรือไม่สามารถ) ตีความจากค่า p และเป็นเรื่องราวล่าสุดของ FiveThirtyEight ที่แสดงให้เห็นถึงเรื่องนี้
  • ค่า p ไม่ดีในการทำนายค่า p ที่ตามมา (Cumming, 2008)
  • p-values ​​มักจะถูกรายงานผิด (บ่อยครั้งที่ความสำคัญเพิ่มขึ้น) และการเชื่อมโยงกับการรายงานข้อมูลที่ไม่เต็มใจ (Bakker & Wicherts, 2011; Nuijten และคณะ, 2016; Wicherts และคณะ, 2011)
  • ค่า p สามารถเป็น (และในอดีตเคยเป็น) ถูกบิดเบือนอย่างแข็งขันผ่านความยืดหยุ่นในการวิเคราะห์และดังนั้นจึงไม่น่าเชื่อถือ (John et al., 2012; Simmons et al., 2011)
  • ค่า p มีความสำคัญเป็นสัดส่วนเนื่องจากระบบการศึกษาปรากฏขึ้นเพื่อให้รางวัลนักวิทยาศาสตร์สำหรับนัยสำคัญทางสถิติเกี่ยวกับความถูกต้องทางวิทยาศาสตร์ (Fanelli, 2010; Nosek et al., 2012; Rosenthal, 1979)

เหตุใดขนาดของเอฟเฟกต์จึงเป็นที่ต้องการ

โปรดทราบว่าฉันกำลังตีความคำถามของคุณว่ามีการอ้างอิงถึงขนาดของเอฟเฟกต์มาตรฐานโดยเฉพาะอย่างยิ่งเมื่อคุณบอกว่าพวกเขาอนุญาตให้นักวิจัยเปลี่ยนการค้นพบของพวกเขาใน "ตัวชี้วัดทั่วไป"

  • ตามที่จอนและคาร์เรนเจมส์ระบุขนาดของผลกระทบระบุขนาดของผลกระทบโดยไม่ขึ้นอยู่กับจำนวนการสังเกต (American Psychological Association 2010; Cumming, 2014) ซึ่งแตกต่างจากการตัดสินใจแบบแยกขั้วว่ามีผลกระทบหรือไม่
  • ขนาดของเอฟเฟ็กต์มีค่าเพราะทำให้เมตาดาต้าวิเคราะห์เป็นไปได้และเมตาวิเคราะห์ไดรฟ์สะสมความรู้ (Borenstein et al., 2009; Chan & Arvey, 2012)
  • ขนาดผลช่วยอำนวยความสะดวกในการวางแผนขนาดตัวอย่างผ่านการวิเคราะห์พลังงานเบื้องต้นและการจัดสรรทรัพยากรที่มีประสิทธิภาพในการวิจัย (Cohen, 1992)

เหตุใดค่า p จึงเป็นที่ต้องการ

แม้ว่าพวกเขาจะดำเนินการบ่อยน้อยกว่าค่า p- มีจำนวน perks บางคนรู้จักกันดีและยาวนานในขณะที่คนอื่นค่อนข้างใหม่

  • ค่า P ให้ดัชนีที่สะดวกและคุ้นเคยของความแข็งแรงของหลักฐานเทียบกับสมมุติฐานเชิงโมเดลเชิงสถิติ

  • เมื่อคำนวณอย่างถูกต้องค่า p ให้วิธีในการตัดสินใจแบบแยกขั้ว (ซึ่งบางครั้งจำเป็น) และค่า p ช่วยให้อัตราความผิดพลาดผิดพลาดเป็นบวกในระยะยาวในระดับที่ยอมรับได้ (Dienes, 2008; Sakaluk, 2016) [มัน ไม่ถูกต้องอย่างเคร่งครัดที่จะบอกว่าจำเป็นต้องใช้ค่า P สำหรับการตัดสินใจแบบแยกขั้ว พวกเขาใช้กันอย่างแพร่หลาย แต่ Neyman & Pearson ใช้ 'พื้นที่สำคัญ' ในพื้นที่ทดสอบสถิติสำหรับจุดประสงค์นั้น ดูคำถามนี้และคำตอบ]

  • ค่า p สามารถใช้เพื่ออำนวยความสะดวกในการวางแผนขนาดตัวอย่างที่มีประสิทธิภาพอย่างต่อเนื่อง (ไม่ใช่แค่การวิเคราะห์พลังงานเพียงครั้งเดียว) (Lakens, 2014)
  • p-values ​​สามารถนำมาใช้เพื่ออำนวยความสะดวกในการวิเคราะห์อภิมานและประเมินมูลค่าสิ่งมีชีวิต (Simonsohn et al., 2014a; Simonsohn et al., 2014b) ดูบล็อกนี้สำหรับการสนทนาที่สามารถเข้าถึงได้ว่าการแจกแจงค่า p สามารถใช้ในรูปแบบนี้ได้อย่างไรรวมทั้งโพสต์ CV นี้สำหรับการสนทนาที่เกี่ยวข้อง
  • p-values ​​สามารถนำมาใช้ในการพิจารณาทางนิติเวชเพื่อกำหนดว่าอาจมีการใช้วิธีการวิจัยที่น่าสงสัยหรือไม่และผลลัพธ์ที่สามารถจำลองได้ (Schimmack, 2014; ดูแอปของSchönbrodt, 2015)

เหตุใดขนาดของเอฟเฟกต์จึงไม่เป็นที่ต้องการ (หรือเกินขนาด)

บางทีตำแหน่งที่ต่อต้านได้ง่ายที่สุดสำหรับหลาย ๆ คน; เหตุใดการรายงานขนาดผลที่ได้มาตรฐานจึงไม่เป็นที่ต้องการหรืออย่างน้อยที่สุดก็เกินขนาด

  • ในบางกรณีขนาดของเอฟเฟกต์ที่ได้มาตรฐานไม่ใช่สิ่งที่พวกเขาจะแตก (เช่นกรีนแลนด์, Schlesselman, & Criqui, 1986) โดยเฉพาะอย่างยิ่ง Baguely (2009) มีคำอธิบายที่ดีเกี่ยวกับเหตุผลบางประการที่ทำให้ขนาดเอฟเฟกต์ที่ไม่เป็นมาตรฐานนั้นเป็นที่ต้องการมากกว่า
  • แม้จะมีประโยชน์สำหรับการวิเคราะห์พลังงานเบื้องต้น แต่ขนาดของเอฟเฟกต์ไม่ได้ใช้จริงอย่างน่าเชื่อถือเพื่อช่วยในการวางแผนขนาดตัวอย่างที่มีประสิทธิภาพ (Maxwell, 2004)
  • แม้ว่าจะใช้ขนาดเอฟเฟ็กต์ในการวางแผนขนาดตัวอย่างเนื่องจากมีการขยายขนาดผ่านอคติสิ่งพิมพ์ (Rosenthal, 1979) ขนาดเอฟเฟกต์ที่เผยแพร่เป็นสิ่งที่น่าสงสัยสำหรับการวางแผนขนาดตัวอย่างที่เชื่อถือได้ (Simonsohn, 2013)
  • การประมาณขนาดผลกระทบสามารถ - และเป็น - คำนวณผิดระบบในซอฟต์แวร์เชิงสถิติ (Levine & Hullet, 2002)
  • ขนาดของเอฟเฟกต์ถูกดึงออกมาอย่างผิดพลาด (และอาจถูกรายงานผิด) ซึ่งทำลายความน่าเชื่อถือของเมตาวิเคราะห์ (Gøtzsche et al., 2007)
  • สุดท้ายการแก้ไขความลำเอียงสิ่งพิมพ์ในขนาดเอฟเฟกต์ยังคงไม่ได้ผล (ดู Carter et al., 2017) ซึ่งหากคุณเชื่อว่ามีอคติการตีพิมพ์อยู่แล้วจะทำให้การวิเคราะห์อภิมานมีผลกระทบน้อยลง

สรุป

การสะท้อนจุดที่ทำโดย Michael Lew ค่า p และขนาดเอฟเฟกต์เป็นเพียงหลักฐานทางสถิติสองชิ้น มีคนอื่น ๆ ที่มีมูลค่าการพิจารณาด้วย แต่เช่นเดียวกับค่า p และขนาดผลตัวชี้วัดอื่น ๆ ของมูลค่าที่เป็นหลักฐานได้แชร์และปัญหาที่ไม่ซ้ำกัน นักวิจัยมักใช้ช่วงเวลาความเชื่อมั่นผิด ๆ และตีความผิด ๆ (เช่น Hoekstra et al., 2014; Morey et al., 2016) เป็นต้นและผลลัพธ์ของการวิเคราะห์แบบเบย์สามารถบิดเบือนโดยนักวิจัยเช่นเดียวกับการใช้ค่า p (เช่น Simonsohn , 2014)

หลักฐานทั้งหมดของหลักฐานได้รับรางวัลและทุกคนต้องมีรางวัล

อ้างอิง

สมาคมจิตวิทยาอเมริกัน (2010) คู่มือตีพิมพ์ของสมาคมจิตวิทยาอเมริกัน (ฉบับที่ 6) วอชิงตันดีซี: สมาคมจิตวิทยาอเมริกัน

Baguley, T. (2009) ขนาดมาตรฐานหรือเอฟเฟกต์ง่าย ๆ : ควรรายงานอะไรบ้าง วารสารจิตวิทยาอังกฤษ, 100 (3), 603-617

Bakker, M. , & Wicherts, JM (2011) การรายงานความผิดพลาดของผลลัพธ์ทางสถิติในวารสารจิตวิทยา วิธีการวิจัยพฤติกรรม, 43 (3), 666-678

Borenstein, M. , Hedges, LV, Higgins, J. , & Rothstein, HR (2009) การวิเคราะห์อภิมานเบื้องต้น West Sussex, UK: John Wiley & Sons, Ltd.

Carter, EC, Schönbrodt, FD, Gervais, WM, & Hilgard, J. (2017, 12 สิงหาคม) การแก้ไขความลำเอียงทางจิตวิทยา: การเปรียบเทียบวิธีการวิเคราะห์อภิมาน สืบค้นจาก osf.io/preprints/psyarxiv/9h3nu

Chan, ME, & Arvey, RD (2012) การวิเคราะห์เมตาและการพัฒนาความรู้ มุมมองทางวิทยาศาสตร์จิตวิทยา, 7 (1), 79-92

โคเฮน, J. (1992) ไพรเมอร์พลัง กระดานข่าวทางจิตวิทยา, 112 (1), 155-159 

คัมมิง, G. (2008) การจำลองและช่วงเวลา p: ค่า p ล่วงหน้าในอนาคตเพียงราง ๆ แต่ช่วงความมั่นใจทำได้ดีกว่ามาก มุมมองทางวิทยาศาสตร์จิตวิทยา, 3, 286–300

Dienes, D. (2008) การทำความเข้าใจจิตวิทยาในฐานะวิทยาศาสตร์: บทนำสู่การอนุมานทางวิทยาศาสตร์และสถิติ นิวยอร์ก, นิวยอร์ก: Palgrave MacMillan

Fanelli, D. (2010) ผลลัพธ์“ เป็นบวก” จะเพิ่มลำดับชั้นของวิทยาศาสตร์ลง PloS one, 5 (4), e10068

Gelman, A. , & Stern, H. (2006) ความแตกต่างระหว่าง "สำคัญ" และ "ไม่สำคัญ" นั้นไม่สำคัญทางสถิติ นักสถิติชาวอเมริกัน 60 (4), 328-331

Gøtzsche, PC, Hróbjartsson, A. , Marić, K. , & Tendal, B. (2007) ข้อผิดพลาดในการดึงข้อมูลในการวิเคราะห์ meta ที่ใช้ความแตกต่างของค่าเฉลี่ยที่เป็นมาตรฐาน JAMA, 298 (4), 430-437

กรีนแลนด์, S. , Schlesselman, JJ, & Criqui, MH (1986) การเข้าใจผิดของการใช้สัมประสิทธิ์การถดถอยมาตรฐานและสหสัมพันธ์เป็นตัวชี้วัดของผลกระทบ วารสารระบาดวิทยาอเมริกัน, 123 (2), 203-208

Hoekstra, R. , Morey, RD, Rouder, JN, & Wagenmakers, EJ (2014) การตีความช่วงความเชื่อมั่นแข็งแกร่ง แถลงการณ์เชิงจิตวิทยาและบทวิจารณ์, 21 (5), 1157-1164

John, LK, Loewenstein, G. , & Prelec, D. (2012) การวัดความชุกของการปฏิบัติงานวิจัยที่น่าสงสัยพร้อมสิ่งจูงใจเพื่อบอกความจริง จิตวิทยาวิทยาศาสตร์, 23 (5), 524-532

Kirk, RE (2003) ความสำคัญของขนาดผลกระทบ ใน SF Davis (Ed.), คู่มือวิธีการวิจัยทางจิตวิทยาเชิงทดลอง (หน้า 83–105) Malden, MA: Blackwell

Lakens, D. (2014) ทำการศึกษาที่มีกำลังขับสูงอย่างมีประสิทธิภาพด้วยการวิเคราะห์ตามลำดับ วารสารจิตวิทยาสังคมยุโรป, 44 (7), 701-710

Levine, TR, & Hullett, CR (2002) การทางพิเศษแห่งประเทศไทยกำลังสอง, กทพ. กำลังสอง, และขนาดของผลกระทบที่ไม่ถูกต้องในการวิจัยการสื่อสาร การวิจัยการสื่อสารของมนุษย์, 28 (4), 612-625

แมกซ์เวล, SE (2004) ความเพียรของการศึกษาภายใต้การวิจัยทางจิตวิทยา: สาเหตุผลที่ตามมาและการเยียวยา วิธีการทางจิตวิทยา, 9 (2), 147

Morey, RD, Hoekstra, R. , Rouder, JN, Lee, MD, & Wagenmakers, EJ (2016) การเข้าใจผิดในการวางความเชื่อมั่นในช่วงความเชื่อมั่น แถลงการณ์เชิงจิตวิทยาและบทวิจารณ์, 23 (1), 103-123

Nosek, BA, Spies, JR, & Motyl, M. (2012) วิทยาศาสตร์ยูโทเปีย: II การปรับโครงสร้างแรงจูงใจและการปฏิบัติเพื่อส่งเสริมความจริงมากกว่าการเผยแพร่ มุมมองทางวิทยาศาสตร์จิตวิทยา, 7 (6), 615-631

Nuijten, MB, Hartgerink, CH, van Assen, MA, Epskamp, ​​S. , & Wicherts, JM (2016) ความชุกของข้อผิดพลาดการรายงานเชิงสถิติในด้านจิตวิทยา (2528-2556) วิธีการวิจัยพฤติกรรม, 48 (4), 1205-1226

Rosenthal, R. (1979) ปัญหาลิ้นชักไฟล์และการยอมรับเพื่อให้ได้ผลลัพธ์ที่เป็นโมฆะ กระดานข่าวทางจิตวิทยา, 86 (3), 638-641

Sakaluk, JK (2016) การสำรวจขนาดเล็กการยืนยันครั้งใหญ่: ระบบทางเลือกสำหรับสถิติใหม่สำหรับการวิจัยทางจิตวิทยาแบบสะสมและแบบจำลองขั้นสูง วารสารจิตวิทยาสังคมทดลอง, 66, 47-54

Schimmack, U. (2014) การวิเคราะห์เชิงสถิติเชิงปริมาณเชิงปริมาณ: ดัชนีการทำซ้ำ เรียกดูจากhttp://www.r-index.org 

Schmidt, FL, & Hunter, JE (1997) การคัดค้านที่ผิด ๆ แต่เป็นเท็จแปดประการต่อการหยุดการทดสอบที่สำคัญในการวิเคราะห์ข้อมูลการวิจัย ใน LL Harlow, SA Mulaik, & JH Steiger (Eds.), จะเกิดอะไรขึ้นถ้าไม่มีการทดสอบที่สำคัญ? (pp. 37–64) Mahwah, NJ: Erlbaum

Schönbrodt, FD (2015) p-checker: ตัววิเคราะห์ p-value แบบหนึ่งเดียวสำหรับทุกคน แปลจากhttp://shinyapps.org/apps/p-checker/ 

Simmons, JP, Nelson, LD, & Simonsohn, U. (2011) จิตวิทยาเชิงบวกที่ผิดพลาด: ความยืดหยุ่นที่ไม่เปิดเผยในการรวบรวมและวิเคราะห์ข้อมูลช่วยให้การนำเสนอสิ่งต่าง ๆ มีความสำคัญ วิทยาศาสตร์จิตวิทยา, 22 (11), 1359-1366

Simonsohn, U. (2013) ความเขลาของการใช้กำลังทำซ้ำตามขนาดของเอฟเฟกต์ที่สังเกตได้ เรียกคืนจากhttp://datacolada.org/4

Simonsohn, U. (2014) หลังแฮ็ค แปลจากhttp://datacolada.org/13

Simonsohn, U. , Nelson, LD, & Simmons, JP (2014) P-curve: กุญแจสำคัญในลิ้นชักไฟล์ วารสารจิตวิทยาการทดลอง: ทั่วไป, 143 (2), 534-547

Simonsohn, U. , Nelson, LD, & Simmons, JP (2014) P-curve และขนาดเอฟเฟกต์: การแก้ไขอคติสิ่งพิมพ์โดยใช้ผลลัพธ์ที่สำคัญเท่านั้น มุมมองทางวิทยาศาสตร์จิตวิทยา, 9 (6), 666-681

Wicherts, JM, Bakker, M. , & Molenaar, D. (2011) ความเต็มใจที่จะแบ่งปันข้อมูลการวิจัยนั้นเกี่ยวข้องกับความแข็งแกร่งของหลักฐานและคุณภาพของการรายงานผลทางสถิติ PloS one, 6 (11), e26828


2
คอลเลกชันที่ดีมากของความคิดและการอ้างอิง มันจะมีประโยชน์สำหรับผู้ที่ต้องการขุดอีกเล็กน้อย แต่ทราบว่าหลายจุดมีคำถามและคำตอบที่เกี่ยวข้องในเว็บไซต์นี้ ลิงค์ไปยังผู้ที่จะช่วยด้วย
Michael Lew

@MichaelLew ขอบคุณ ฉันจะดูเกี่ยวกับการเพิ่มลิงก์บางอย่างเมื่อฉันมีเวลาในภายหลัง - ฉันใช้เวลาช่วงบ่ายที่ดีกว่าในการร่างคำตอบนี้และรวบรวมข้อมูลอ้างอิง เกี่ยวกับการแก้ไขของคุณฉันคิดว่าประเด็นของคุณนั้นดี แต่อาจเพิ่มเติมนอกเหนือจากการแก้ไข? ผมบอกว่า P-ค่าให้วิธีการของการตัดสินใจแบบทวิลักษณ์ (ไม่ว่าพวกเขาจะ "ต้อง" หรือวิธีเดียวที่จะทำเช่นนั้น) ฉันยอมรับว่าภูมิภาคที่สำคัญ NP เป็นอีกวิธีหนึ่ง แต่ฉันตอบกลับไปยัง OP ในบริบทของสิ่งที่ค่า p- จ่ายเทียบกับขนาดผลมาตรฐาน
jsakaluk

1
jsakaluk, ใช่ฉันเห็นว่าคุณคงใช้เวลานานในการตอบคำถามและมันก็มีประโยชน์และคุ้มค่ากับความพยายามของคุณ ฉันแก้ไขรายการเกี่ยวกับข้อดีของค่า P เนื่องจากคุณเขียนว่า "เมื่อใช้อย่างถูกต้อง" พวกเขาสามารถแยกขั้วคู่ได้ในขณะที่ความจริงคือการใช้งานดังกล่าวไม่สนใจข้อมูลที่เข้ารหัสใน P-value ส่วนมาก (และก็คือ ในความคิดของฉัน) การใช้งานที่ไม่ถูกต้อง ฉันไม่ต้องการล้มล้างความตั้งใจของคุณและดังนั้นฉันจึงเปลี่ยน "ใช้" เป็น "คำนวณ"
Michael Lew

3

จากมุมมองของนักระบาดวิทยาเกี่ยวกับสาเหตุที่ฉันชอบขนาดเอฟเฟกต์มากกว่าค่า p (แม้ว่าบางคนสังเกตเห็นมันเป็นสิ่งที่ผิดขั้ว):

  1. ขนาดของเอฟเฟกต์จะบอกสิ่งที่ฉันต้องการจริง ๆ ค่าpจะบอกฉันว่ามันแตกต่างจากค่า Null หรือไม่ ความเสี่ยงสัมพัทธ์ของ 1.0001, 1.5, 5, และ 50 อาจมีค่า p เดียวกันกับที่เกี่ยวข้อง แต่หมายถึงสิ่งต่าง ๆ มากมายในแง่ของสิ่งที่เราอาจต้องทำในระดับประชากร
  2. การใช้ค่า p จะช่วยตอกย้ำความคิดที่ว่าการทดสอบสมมติฐานที่มีนัยสำคัญเป็นจุดสิ้นสุดหลักฐานทั้งหมด พิจารณาสองข้อความต่อไปนี้: "แพทย์ยิ้มให้ผู้ป่วยไม่เกี่ยวข้องอย่างมีนัยสำคัญกับผลลัพธ์ที่ไม่พึงประสงค์ระหว่างการพักรักษาตัวในโรงพยาบาล" vs. "ผู้ป่วยที่แพทย์ยิ้มให้พวกเขามีโอกาสน้อยกว่าที่จะได้รับผลข้างเคียง 50% (p = 0.086)" คุณจะยังอาจได้รับหากไม่มีค่าใช้จ่ายอย่างใดอย่างหนึ่งลองเสนอแนะให้แพทย์ยิ้มให้ผู้ป่วยของพวกเขา?
  3. ฉันทำงานกับแบบจำลองการสุ่มจำนวนมากซึ่งขนาดตัวอย่างเป็นหน้าที่ของการคำนวณกำลังไฟฟ้าและความอดทนและค่า p ไม่มีความหมาย ฉันจัดการเพื่อให้ได้ผลลัพธ์ p <0.05 สำหรับสิ่งที่ไม่มีความเกี่ยวข้องทางคลินิกหรือทางสาธารณสุข
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.