การอ้างถึงผลลัพธ์ว่า "สำคัญมาก" ผิดหรือไม่?


18

ทำไมสถิติกีดกันเราจากผลหมายถึงว่า " สูงอย่างมีนัยสำคัญ" เมื่อ -value เป็นอย่างดีดังต่อไปนี้การชุมนุมαpαระดับพื้นดินของ ?0.05

เป็นความผิดพลาดหรือไม่ที่จะเชื่อใจในผลลัพธ์ที่มีโอกาส 99.9% ที่ไม่ใช่ข้อผิดพลาด Type I ( ) มากกว่าผลลัพธ์ที่ให้โอกาสนั้นเพียง 99% ( p = 0.01)p=0.001p=0.01 ) หรือไม่


16
มันอาจจะเป็น worthwile การอ่าน @ ยินดีปรีดาของคำตอบที่นี่ ไม่นาน: สำหรับการตัดสินใจ "นัยสำคัญเทียบกับไม่สำคัญ" หรือ "ปฏิเสธสมมติฐานว่างเทียบกับอย่าปฏิเสธสมมติฐานว่าง" มันเป็นเรื่องสำคัญว่าค่าค่าต่ำกว่าαของคุณซึ่งคุณตั้งไว้ก่อนการศึกษา (Neyman & Pearson) . ในอีกทางหนึ่งคุณสามารถพิจารณาว่าp -valueเป็นตัวชี้วัดที่ต่อเนื่องกับสมมติฐานว่างซึ่งไม่มี "cutoff" (ฟิชเชอร์) pαp
COOLSerdash

10
ดูเหมือนว่าคุณมีความเข้าใจผิดอย่างร้ายแรงเกี่ยวกับค่า p (ค่า p ไม่ใช่ความน่าจะเป็นข้อผิดพลาด) ซึ่งหากแก้ไขแล้วอาจช่วยให้คุณเข้าใจว่าทำไมคุณอาจได้ยินบางสิ่งจากนักสถิติ
ผู้ชาย

10
ฉันยอมรับว่าบางครั้งฉันใช้วลีเช่น "สำคัญมาก" ที่อื่นในรายงานผลลัพธ์เริ่มต้นจำนวนมากอาจต้องปรับปรุงสำหรับการทดสอบหลายครั้งซึ่ง "สำคัญมาก" จะได้รับความหมายทางเทคนิคที่มากขึ้นของ "ยังคงมีความสำคัญแม้หลังจากการปรับที่เหมาะสมสำหรับการเปรียบเทียบหลายรายการ" แม้ว่าผู้อ่านทุกคนจะเห็นด้วยกับที่เหมาะสมที่จะใช้ (ซึ่งหายากสำหรับการวิเคราะห์ที่ใช้โดยผู้มีส่วนได้เสียหลายคน) สิ่งที่ "สำคัญ" หรือไม่ขึ้นอยู่กับชุดของสมมติฐานที่ผู้อ่านแต่ละคนมีอยู่ในใจก่อนที่จะดูรายงาน α
whuber

7
ไม่ใช่นักสถิติทุกคนบอกว่ามันผิด ฉันใช้คำของตัวเองในโอกาส (หายากเป็นที่ยอมรับ) - เช่นเพื่อแสดงว่าข้อมูลนี้จะถูกปฏิเสธโดยผู้ใช้ที่มีระดับนัยสำคัญต่ำกว่าที่ฉันใช้ แต่สำคัญไม่ให้แนบความหมายกับมันมากนัก กว่าที่มันมี ผมก็จะบอกว่าหนึ่งจะต้องใช้ความระมัดระวัง - บางครั้งค่อนข้างมากของมัน - เมื่อการตีความความหมายของวลีดังกล่าวมากกว่าที่มันจะเป็นเฉพาะที่ไม่ถูกต้อง บางจุดที่นี่จะเกี่ยวข้อง
Glen_b -Reinstate Monica

7
(ctd) ... โดยการเปรียบเทียบฉันคิดว่าข้อกังวลที่ใหญ่กว่าคือคนที่ใช้การทดสอบสมมติฐานที่ไม่ตอบคำถามที่น่าสนใจ (ซึ่งฉันคิดว่าเป็นกรณีที่บ่อยมาก) ดีกว่าที่จะมุ่งเน้นไปที่การจ้องมองและปัญหาที่สำคัญมากกว่าจะดื้อรั้นมากเกินไปเกี่ยวกับความไม่พอใจเล็กน้อยในวิธีที่พวกเขาแสดงค่า p น้อยมาก
Glen_b -Reinstate Monica

คำตอบ:


17

ฉันคิดว่ามันไม่ผิดมากนักในการบอกว่าผลลัพธ์นั้น "สำคัญมาก" (แม้ว่าจะใช่มันก็ค่อนข้างเลอะเทอะ)

หมายความว่าหากคุณตั้งค่าระดับนัยสำคัญน้อยกว่ามากคุณจะยังคงตัดสินผลที่มีนัยสำคัญ หรือเทียบเท่าหากผู้อ่านของคุณบางคนมีαในใจน้อยกว่ามากพวกเขายังสามารถตัดสินผลลัพธ์ของคุณได้อย่างมีนัยสำคัญαα

โปรดทราบว่าระดับนัยสำคัญนั้นอยู่ในสายตาของคนดูในขณะที่ค่าp-valueคือ (มีข้อแม้บางประการ) เป็นคุณสมบัติของข้อมูลαp

การสังเกตนั้นไม่เหมือนกับการสังเกตp = 0.04แม้ว่าทั้งคู่อาจเรียกว่า "สำคัญ" โดยแบบแผนมาตรฐานของเขตข้อมูลของคุณ ( α = 0.05 ) p-valueเล็ก ๆหมายถึงหลักฐานที่แข็งแกร่งต่อโมฆะ (สำหรับผู้ที่ชอบกรอบการทดสอบสมมติฐานของฟิชเชอร์); หมายความว่าช่วงความเชื่อมั่นรอบขนาดผลกระทบจะไม่รวมค่า Null ด้วยระยะขอบที่มากขึ้น (สำหรับผู้ที่ชอบ CIs ถึงpดูที่ค่า p ที่เล็กกว่าน่าเชื่อถือมากขึ้นหรือไม่สำหรับการสนทนาเพิ่มเติมp=1010p=0.04α=0.05pp -values); หมายความว่าความน่าจะเป็นหลังของโมฆะจะน้อยลง (สำหรับ Bayesians ที่มีมาก่อน); ทั้งหมดนี้เทียบเท่าและหมายความว่าการค้นพบมีความน่าเชื่อถือมากขึ้น

คำว่า "สำคัญมาก" นั้นไม่แม่นยำและไม่จำเป็นต้องเป็น มันเป็นการตัดสินจากผู้เชี่ยวชาญที่เป็นอัตวิสัยซึ่งคล้ายกับการสังเกตขนาดเอฟเฟกต์ที่มีขนาดใหญ่อย่างน่าประหลาดใจและเรียกมันว่า "ใหญ่" (หรืออาจจะ "ใหญ่มาก") ไม่มีอะไรผิดปกติในการใช้คำอธิบายเชิงคุณภาพข้อมูลเชิงอัตวิสัยของคุณแม้แต่ในการเขียนทางวิทยาศาสตร์ โดยมีเงื่อนไขว่าการวิเคราะห์เชิงปริมาณจะถูกนำเสนอเช่นกัน


ดูความคิดเห็นที่ยอดเยี่ยมบางส่วนด้านบน +1 ถึง @whuber, @Glen_b และ @COOLSerdash


2
ตกลง -value เป็นตัวบ่งชี้เชิงปริมาณ ดังนั้นพูดเช่นนี้แม้ว่าไม่แน่ชัดนอกบริบท แต่ก็ไม่ถูกต้องจริงๆ นอกจากคำว่า "Bill is high " และ "Fred is highจริงๆ" เป็นการใช้ภาษาอังกฤษที่ไม่ถูกต้อง เราควรต้องการเห็นตัวเลขด้วยและบริบทของพวกเขา ฯลฯ ฯลฯ สิ่งเหล่านี้จะไม่หยุดยั้งผู้ที่ต้องการหรือต้องการตัดสินใจที่คมชัดที่P < 0.05หรืออะไรก็ตามที่ทำตามที่พวกเขาต้องการ แต่การตั้งค่าของพวกเขาไม่ได้ปกครอง นี้. PP<0.05
Nick Cox

มันไม่เลอะเทอะเลย มันบันทึกไว้อย่างดีว่ามีคำจำกัดความที่เป็นทางการ
Owl

3

นี่เป็นคำถามทั่วไป

คำถามที่คล้ายกันอาจเป็น "ทำไม p <= 0.05 ถือว่ามีนัยสำคัญหรือไม่" ( http://www.jerrydallal.com/LHSP/p05.htm )

@ Michael-Mayer ให้คำตอบเพียงส่วนเดียว: ความสำคัญเป็นเพียงส่วนหนึ่งของคำตอบ มีข้อมูลเพียงพอโดยปกติแล้วพารามิเตอร์บางตัวจะแสดงเป็น "สำคัญ" (ค้นหาการแก้ไข Bonferroni) การทดสอบหลายปัญหาเฉพาะทางพันธุศาสตร์ที่ศึกษาขนาดใหญ่มองหาอย่างมีนัยสำคัญเป็นเรื่องปกติและ P-ค่า <10 -8จะต้องบ่อย ( http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2621212/ )

นอกจากนี้ปัญหาหนึ่งที่มีการวิเคราะห์หลายอย่างก็คือพวกมันมีโอกาสและไม่ได้วางแผนล่วงหน้า (เช่น "ถ้าคุณทรมานข้อมูลมากพอธรรมชาติจะสารภาพเสมอ" - Ronald Coase)

โดยทั่วไปหากการวิเคราะห์มีการวางแผนล่วงหน้า (ด้วยการแก้ไขการวิเคราะห์ซ้ำสำหรับพลังงานทางสถิติ) ก็สามารถพิจารณาได้อย่างมีนัยสำคัญ บ่อยครั้งที่การทดสอบซ้ำ ๆ โดยบุคคลหรือกลุ่มหลาย ๆ คนเป็นวิธีที่ดีที่สุดในการยืนยันว่ามีบางสิ่งที่ใช้งานได้ (หรือไม่) และการทำซ้ำผลลัพธ์มักเป็นการทดสอบที่ถูกต้องเพื่อความสำคัญ


2

การทดสอบเป็นเครื่องมือสำหรับการตัดสินใจขาวดำนั่นคือพยายามตอบคำถามใช่ / ไม่ใช่เช่น 'มีผลการรักษาที่แท้จริงหรือไม่' บ่อยครั้งโดยเฉพาะอย่างยิ่งหากชุดข้อมูลมีขนาดใหญ่คำถามดังกล่าวค่อนข้างเสียทรัพยากร เหตุใดจึงต้องถามคำถามแบบไบนารีหากเป็นไปได้ที่จะได้คำตอบสำหรับคำถามเชิงปริมาณเช่น 'ผลการรักษาที่แท้จริงมีขนาดใหญ่เพียงใด' ที่ตอบคำถามโดยปริยายหรือใช่ / ไม่ใช่? ดังนั้นแทนที่จะตอบคำถามใช่ / ไม่ใช่ที่ไม่รู้จริงด้วยความมั่นใจสูงเรามักแนะนำให้ใช้ช่วงความเชื่อมั่นที่มีข้อมูลมากขึ้น


2
+1 แม้ว่าคุณจะมีความชัดเจนมากขึ้นในวิธีการนี้ตอบคำถามของ OP (มันไม่ชัดเจนดังนั้น)

@ Matewew: ฉันเห็นด้วยอย่างเต็มที่
Michael M

ขอบคุณไมเคิล แต่ฉันเดาว่าช่วงความมั่นใจ (ที่ให้คำตอบ "มาตราส่วนต่อเนื่อง") จะอ้างถึงขนาดของผลใช่มั้ย ถึงกระนั้นก็ไม่จำเป็นต้องมีคำตอบแบบไบนารี่รวมทั้งเพื่อเติมเต็มคำตอบอย่างต่อเนื่องเช่นกันหรือไม่ว่าเอฟเฟกต์นี้ (ขนาดของ CIs อธิบายไว้) หรือไม่ หรือบางทีคุณอาจให้ CIs สำหรับ p-value ด้วยตัวเองก็ได้?
z8080

(A) "ขนาดผลกระทบ" มักจะอ้างถึงรุ่นมาตรฐานของผลการรักษาและทำให้ง่ายต่อการ interprete น้อยกว่าผลของมันเอง (B) CI สำหรับค่า p บางครั้งถูกเพิ่มสำหรับค่า p จำลองเพื่อแสดงความไม่แน่นอนของการจำลอง (C)หากระดับของคุณคือ 0.05 จากนั้นในเกือบทุกสถานการณ์การทดสอบการตัดสินใจดำ / ขาวจากการทดสอบสามารถได้มาจากการดู 95% ci ที่เกี่ยวข้อง
Michael M

(ต่อ) คำถามของคุณเกี่ยวข้องกับคำถามใดคำถามหนึ่งต่อไปนี้: มีประโยชน์หรือไม่ที่จะระบุว่าแม้แต่ 99.9999% ci นั้นไม่เข้ากันกับโมฆะหรือแม้แต่ขอบเขตล่างของ 95% ci สำหรับผลที่แท้จริงมีแนวโน้มมาก?
Michael M
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.