“ นักวิทยาศาสตร์ลุกขึ้นเทียบกับนัยสำคัญทางสถิติ” หมายความว่าอะไร? (ความคิดเห็นในธรรมชาติ)


61

ชื่อของความคิดเห็นในนักวิทยาศาสตร์ธรรมชาติลุกขึ้นต่อต้านความสำคัญทางสถิติเริ่มต้นด้วย:

Valentin Amrhein, Sander Greenland, Blake McShane และผู้ลงนามมากกว่า 800 คนเรียกร้องให้ยุติการเรียกร้องค่าสินไหมทดแทนและการยกเลิกผลกระทบที่สำคัญ

และหลังจากนั้นมีข้อความเช่น:

อีกครั้งเราจะไม่สนับสนุนการห้ามค่า P ช่วงเวลาความเชื่อมั่นหรือมาตรการทางสถิติอื่น ๆ - เฉพาะที่เราไม่ควรปฏิบัติต่อพวกเขาอย่างเด็ดขาด ซึ่งรวมถึงการแบ่งแยกขั้วที่มีนัยสำคัญทางสถิติหรือไม่รวมถึงการจัดหมวดหมู่ตามมาตรการทางสถิติอื่น ๆ เช่นปัจจัย Bayes

ฉันคิดว่าฉันสามารถเข้าใจได้ว่าภาพด้านล่างไม่ได้บอกว่าการศึกษาทั้งสองไม่เห็นด้วยเพราะ "กฎ" ไม่มีผลในขณะที่อีกคนไม่ทำ แต่บทความดูเหมือนจะลึกลงไปมากกว่าที่ฉันเข้าใจได้

ในตอนท้ายดูเหมือนว่าจะมีการสรุปในสี่จุด เป็นไปได้หรือไม่ที่จะสรุปสิ่งเหล่านี้ด้วยคำศัพท์ที่ง่ายขึ้นสำหรับพวกเราที่อ่านสถิติแทนที่จะเขียนมัน?

เมื่อพูดถึงช่วงเวลาที่ใช้งานร่วมกันได้โปรดคำนึงถึงสี่สิ่ง

  • ก่อนอื่นเพียงเพราะช่วงเวลาให้ค่าที่เข้ากันได้กับข้อมูลมากที่สุดเนื่องจากข้อสมมติฐานมันไม่ได้หมายความว่าค่าภายนอกนั้นไม่เข้ากัน พวกมันเข้ากันได้น้อยกว่า ...

  • ประการที่สองค่าทั้งหมดภายในไม่สามารถใช้งานร่วมกันกับข้อมูลได้อย่างเท่าเทียมกันเนื่องจากข้อสมมติฐาน ...

  • ประการที่สามเช่นเดียวกับขีด จำกัด 0.05 ที่มาถึงค่าเริ่มต้น 95% ที่ใช้ในการคำนวณช่วงเวลานั้นเป็นข้อตกลงโดยพลการ ...

  • สุดท้ายและที่สำคัญที่สุดคือจงอ่อนน้อม: การประเมินความเข้ากันได้นั้นขึ้นอยู่กับความถูกต้องของสมมติฐานทางสถิติที่ใช้ในการคำนวณช่วงเวลา ...


ธรรมชาติ: นักวิทยาศาสตร์เพิ่มขึ้นอย่างมีนัยสำคัญทางสถิติ


13
โดยพื้นฐานแล้วพวกเขาต้องการเติมงานวิจัยที่มีผลบวกผิดพลาดมากขึ้น!
เดวิด

12
ดูการอภิปรายในบล็อกของ Gelman: statmodeling.stat.columbia.edu/2019/03/20/... เห็นได้ชัดว่าบทความยกประเด็นที่ถูกต้อง แต่เห็นความคิดเห็นที่ยกขึ้นโดย Ioannidis กับบทความนี้ (และยังแยกจากมุมมอง "คำร้อง" ของมัน) ตามที่อ้างโดย Gelman
อะมีบาพูดว่า Reinstate Monica

3
นี่ไม่ใช่แนวคิดใหม่ การวิเคราะห์เมตาเป็นสิ่งที่ดีกว่าใน 50 ปีและ Cochrane ทำการวิเคราะห์อภิมานของการศึกษาด้านการแพทย์ / การดูแลสุขภาพ (ซึ่งง่ายกว่าที่จะสร้างมาตรฐานวัตถุประสงค์และผลลัพธ์) ในช่วง 25 ปีที่ผ่านมา
เกรแฮม

4
ปัญหาพื้นฐานพยายามลด "ความไม่แน่นอน" ซึ่งเป็นปัญหาหลายมิติให้เป็นตัวเลขเดียว
MaxW

4
โดยทั่วไปหากผู้คนกล่าวว่า "เราไม่พบหลักฐานของความสัมพันธ์ระหว่าง X และ Y" แทนที่จะเป็น "X และ Y ไม่เกี่ยวข้อง" เมื่อค้นหาบทความนี้คงไม่มีอยู่จริง p>α
Firebug

คำตอบ:


65

จุดสามจุดแรกเท่าที่ฉันจะบอกได้คือความแปรปรวนของการโต้แย้งเดียว

นักวิทยาศาสตร์มักทำการวัดความไม่แน่นอน (เช่น ) เป็นการแจกแจงความน่าจะเป็นซึ่งมีลักษณะดังนี้:12±1

การกระจายความน่าจะเป็นแบบเดียวกัน

เมื่อจริงแล้วพวกเขามีแนวโน้มที่จะมีลักษณะเช่นนี้ : ป้อนคำอธิบายรูปภาพที่นี่

ในฐานะนักเคมีในอดีตฉันสามารถยืนยันได้ว่านักวิทยาศาสตร์หลายคนที่มีภูมิหลังที่ไม่ใช่ทางคณิตศาสตร์ (โดยหลักคือนักเคมีที่ไม่ใช่นักกายภาพและนักชีววิทยา) ไม่เข้าใจว่าจริงๆแล้วความไม่แน่นอน (หรือข้อผิดพลาด พวกเขาจำเวลาในวิชาฟิสิกส์ระดับปริญญาตรีที่พวกเขาอาจต้องใช้พวกเขาอาจต้องคำนวณข้อผิดพลาดของสารประกอบผ่านการวัดที่แตกต่างกันหลายอย่าง แต่พวกเขาไม่เคยเข้าใจเลย ฉันก็เป็นความผิดของนี้และสันนิษฐานว่าวัดทั้งหมดมีที่จะมาภายในช่วงเวลา เฉพาะเมื่อเร็ว ๆ นี้ (และนอกสถาบันการศึกษา) ฉันพบว่าการวัดข้อผิดพลาดมักจะอ้างถึงค่าเบี่ยงเบนมาตรฐานที่แน่นอนไม่ใช่ข้อ จำกัด ที่แน่นอน±

ดังนั้นเพื่อแยกคะแนนที่มีหมายเลขในบทความ:

  1. การวัดนอก CI ยังคงมีโอกาสเกิดขึ้นเพราะความน่าจะเป็นที่แท้จริง (Gaussian น่าจะเป็น) นั้นไม่ใช่ศูนย์ที่นั่น (หรือที่ใดก็ตามสำหรับเรื่องนั้น หากค่าหลังจากทำหน้าที่เป็นตัวแทนหนึ่ง sd แน่นอนยังมีโอกาส 32% ของจุดข้อมูลที่อยู่ด้านนอกของพวกเขา±

  2. การแจกแจงไม่สม่ำเสมอ (ราดเรียบเหมือนในกราฟแรก) มันแหลม คุณมีแนวโน้มที่จะได้รับค่าตรงกลางมากกว่าที่คุณอยู่ที่ขอบ มันเหมือนกับการทอยลูกเต๋ามากกว่าการตายเพียงครั้งเดียว

  3. 95% เป็นทางลัดโดยพลการและใกล้เคียงกับค่าเบี่ยงเบนมาตรฐานสองค่า

  4. ประเด็นนี้เป็นความคิดเห็นเพิ่มเติมเกี่ยวกับความซื่อสัตย์ทางวิชาการโดยทั่วไป การรับรู้ที่ฉันมีในช่วงปริญญาเอกของฉันคือวิทยาศาสตร์ไม่ได้เป็นแรงผลักดันเชิงนามธรรม แต่เป็นความพยายามสะสมของผู้ที่พยายามทำวิทยาศาสตร์ เหล่านี้เป็นคนที่มีความพยายามที่จะค้นพบสิ่งใหม่ ๆ เกี่ยวกับจักรวาล แต่ในเวลาเดียวกันยังมีการพยายามที่จะให้เด็กของพวกเขาเลี้ยงและให้การงานของพวกเขาที่โชคร้ายในยุคปัจจุบันหมายถึงรูปแบบของบางเผยแพร่หรือพินาศที่เล่น ในความเป็นจริงนักวิทยาศาสตร์ขึ้นอยู่กับการค้นพบที่ทั้งจริงและน่าสนใจเพราะผลลัพธ์ที่ไม่น่าสนใจไม่ได้ส่งผลให้ตีพิมพ์

เกณฑ์ตามอำเภอใจเช่นมักจะสามารถทำให้ตัวเองทำงานได้โดยเฉพาะในหมู่ผู้ที่ไม่เข้าใจสถิติอย่างสมบูรณ์และต้องการการประทับตราผ่าน / ไม่ผ่านกับผลลัพธ์ของพวกเขา ด้วยเหตุนี้บางครั้งผู้คนก็พูดติดตลกเกี่ยวกับ 'ทำการทดสอบอีกครั้งจนกว่าคุณจะได้รับ ' โดยเฉพาะอย่างยิ่งหากปริญญาเอก / ทุน / การจ้างงานกำลังดำเนินการอยู่เพื่อให้ได้ผลลัพธ์ที่เล็กน้อยเหล่านี้ก็จะหมุนไปรอบ ๆ จนกระทั่งที่ต้องการปรากฏขึ้นในการวิเคราะห์p<0.05p<0.05p=0.0498

การปฏิบัติดังกล่าวสามารถสร้างความเสียหายต่อวิทยาศาสตร์โดยรวมโดยเฉพาะอย่างยิ่งหากมีการดำเนินการอย่างกว้างขวางทั้งหมดในการแสวงหาจำนวนที่อยู่ในสายตาของธรรมชาติไม่มีความหมาย ส่วนนี้มีผลในการเตือนนักวิทยาศาสตร์ให้ซื่อสัตย์เกี่ยวกับข้อมูลและการทำงานของพวกเขาแม้ว่าความซื่อสัตย์นั้นจะส่งผลเสียต่อพวกเขาก็ตาม


26
+1 สำหรับ"... เผยแพร่หรือเสียชีวิตอยู่ในความเป็นจริงในความเป็นจริงนักวิทยาศาสตร์ขึ้นอยู่กับการค้นพบที่มีทั้งจริงและน่าสนใจ มีบทความที่น่าสนใจหลายปีที่พูดถึงว่า "เผยแพร่หรือพินาศ" นี้นำไปสู่การรวมความผิดพลาด / อคติตลอดทั้งสถาบันการศึกษา: เหตุใดผลการวิจัยที่ตีพิมพ์ส่วนใหญ่เป็นเท็จ (Ioannidis, 2005)
J. Taylor

4
ฉันไม่เห็นด้วยกับ“ ความไม่แน่นอนที่แท้จริง (น่าจะเป็นเกาส์เซียน) ... ” - เกาส์นั้นเป็นเรื่องธรรมดามาก มันค่อนข้างเป็นธรรมมากกว่ารุ่น จำกัด ที่แข็งเนื่องจากทฤษฎีลิมิตกลาง แต่การกระจายตัวที่แท้จริงนั้นยังคงแตกต่างกันไป
leftaroundabout

1
@leftaroundabout การกระจายที่แท้จริงมีแนวโน้มที่จะยังคงแตกต่างกัน แต่ถ้าค่าเป็นไปไม่ได้ทางร่างกายความน่าจะเป็นยังคงไม่ใช่ศูนย์ทางคณิตศาสตร์
gerrit

3
@leftaroundabout บอกว่าความไม่แน่นอนน่าจะเป็นแบบเกาส์ไม่ใช่การทำให้เข้าใจง่าย มันอธิบายการกระจายก่อนหน้านี้ซึ่งเป็นธรรมโดย CLT เป็นที่ดีที่สุดก่อนในกรณีที่ไม่มีข้อมูลสนับสนุนอื่น ๆ แต่โดยการแสดงความไม่แน่นอนเกี่ยวกับการกระจายการรับรู้ว่าการกระจายอาจไม่เป็นเกาส์มีอยู่แล้ว
จะ

7
@ ฟรีคุณมากผิดมาก สาขาวิชาวิทยาศาสตร์หลายแห่ง (เช่นเคมีและชีววิทยาตามที่ระบุไว้ก่อนหน้านี้) ใช้คณิตศาสตร์เกือบเป็นศูนย์ข้างเลขคณิตพื้นฐาน มีนักวิทยาศาสตร์ที่ยอดเยี่ยมอยู่ที่นั่นซึ่งเกือบจะไม่รู้หนังสือคณิตศาสตร์และฉันได้พบบางคน
Ingolifs

19

บทความและตัวเลขที่คุณรวมไว้เป็นส่วนใหญ่นั้นง่ายมาก:

การขาดหลักฐานสำหรับผลกระทบไม่ได้เป็นหลักฐานว่าไม่มีอยู่จริง

ตัวอย่างเช่น,

"ในการศึกษาของเราหนูที่ให้ไซยาไนด์ไม่ตายในอัตราที่สูงกว่าอย่างมีนัยสำคัญทางสถิติ" ไม่ใช่หลักฐานในการเรียกร้อง "ไซยาไนด์ไม่มีผลต่อการเสียชีวิตของหนู"

สมมติว่าเราให้ไซยาไนด์แก่หนูสองตัวและหนึ่งในนั้นเสียชีวิต ในกลุ่มควบคุมของหนูสองตัวไม่มีตาย เนื่องจากขนาดตัวอย่างมีขนาดเล็กผลลัพธ์นี้จึงไม่มีนัยสำคัญทางสถิติ ( ) ดังนั้นการทดลองนี้จึงไม่แสดงผลกระทบของไซยาไนด์อย่างมีนัยสำคัญต่ออายุการใช้งานของเมาส์ เราควรสรุปว่าไซยาไนด์ไม่มีผลกับหนูหรือไม่? เห็นได้ชัดว่าไม่p>0.05

แต่นี่เป็นความผิดพลาดที่ผู้เขียนอ้างว่านักวิทยาศาสตร์ทำขึ้นมาเป็นประจำ

ตัวอย่างเช่นในรูปของคุณเส้นสีแดงอาจเกิดขึ้นจากการศึกษาหนูน้อยมากในขณะที่เส้นสีฟ้าอาจเกิดขึ้นจากการศึกษาเดียวกันแน่นอน แต่ในหนูจำนวนมาก

ผู้เขียนแนะนำว่าแทนที่จะใช้ขนาดของเอฟเฟกต์และค่า p แทนนักวิทยาศาสตร์จะอธิบายช่วงของความเป็นไปได้ที่จะเข้ากันได้กับสิ่งที่พบมากขึ้นหรือน้อยลง ในการทดสอบสองเมาส์ของเราเราจะต้องเขียนว่าการค้นพบของเรานั้นเข้ากันได้กับไซยาไนด์ที่เป็นพิษมากและไม่เป็นพิษเลย ในการทดสอบ 100 เมาส์เราอาจพบว่าช่วงความเชื่อมั่นเป็นช่วงซึ่งมีค่าประมาณ[60%,70%]65%. จากนั้นเราควรเขียนว่าผลลัพธ์ของเราจะเข้ากันได้มากที่สุดกับการสันนิษฐานว่าปริมาณนี้ฆ่าหนู 65% ของหนู แต่ผลลัพธ์ของเราก็จะเข้ากันได้กับเปอร์เซ็นต์ต่ำถึง 60 หรือสูงถึง 70 และผลลัพธ์ของเราจะเข้ากันได้น้อยลง ด้วยความจริงนอกช่วงนั้น (เราควรอธิบายสมมติฐานทางสถิติที่เราใช้ในการคำนวณตัวเลขเหล่านี้)


4
ฉันไม่เห็นด้วยกับคำสั่งผ้าห่มว่า "การขาดหลักฐานไม่ใช่หลักฐานการขาด" การคำนวณพลังงานช่วยให้คุณกำหนดโอกาสในการพิจารณาผลกระทบของขนาดที่เฉพาะเจาะจงอย่างมีนัยสำคัญเมื่อกำหนดขนาดตัวอย่างที่เฉพาะเจาะจง ขนาดของเอฟเฟกต์ขนาดใหญ่ต้องการข้อมูลน้อยกว่าจึงถือว่าแตกต่างจากศูนย์อย่างมีนัยสำคัญในขณะที่เอฟเฟกต์ขนาดเล็กต้องการขนาดตัวอย่างที่ใหญ่กว่า หากการศึกษาของคุณมีการขับเคลื่อนอย่างเหมาะสมและคุณยังไม่เห็นผลกระทบที่สำคัญคุณสามารถสรุปได้อย่างสมเหตุสมผลว่าไม่มีผลกระทบ หากคุณมีข้อมูลเพียงพอไม่สำคัญไม่สามารถบ่งบอกถึงผลกระทบ
นิวเคลียร์วัง

1
@NuclearWang True แต่เฉพาะในกรณีที่การวิเคราะห์พลังงานเสร็จสิ้นตามเวลาและเฉพาะเมื่อมีการสันนิษฐานที่ถูกต้องและการตีความที่ถูกต้อง (เช่นพลังงานของคุณเกี่ยวข้องกับขนาดของผลกระทบที่คุณคาดการณ์เท่านั้น "80% พลังงาน "ไม่ได้หมายความว่าคุณมีความน่าจะเป็น 80% ที่จะตรวจจับเอฟเฟกต์เป็นศูนย์ได้อย่างถูกต้อง) นอกจากนี้จากประสบการณ์ของฉันการใช้ "ไม่สำคัญ" เพื่อหมายถึง "ไม่มีผล" มักใช้กับผลลัพธ์รองหรือเหตุการณ์ที่หายากซึ่งการศึกษาคือ (เหมาะสม) ไม่ได้ขับเคลื่อนสำหรับทุกสิ่ง สุดท้ายเบต้ามักจะเป็น >> อัลฟา
ไบรอัน Krause

9
@ นิวเคลียร์วังฉันไม่คิดว่าใครจะเถียงว่า "การไม่มีหลักฐานคือไม่เคยมีหลักฐานการขาด" ฉันคิดว่าพวกเขากำลังโต้เถียงว่าไม่ควรตีความโดยอัตโนมัติเช่นนี้และนี่เป็นความผิดพลาดที่พวกเขาเห็นคนทำ
usul

มันเกือบจะเหมือนคนไม่ได้รับการฝึกฝนในการทดสอบความเท่ากันหรืออะไร
อเล็กซิส

19

ฉันจะพยายาม.

  1. ช่วงความเชื่อมั่น (ซึ่งพวกเขาเปลี่ยนชื่อช่วงความเข้ากันได้) แสดงค่าของพารามิเตอร์ที่เข้ากันได้กับข้อมูลมากที่สุด แต่นั่นไม่ได้หมายความว่าค่านอกช่วงเวลานั้นไม่สอดคล้องกับข้อมูลอย่างแน่นอน
  2. ค่าที่อยู่ใกล้กับช่วงกลางของช่วงความมั่นใจ (ความเข้ากันได้) นั้นเข้ากันได้กับข้อมูลมากกว่าค่าที่อยู่ใกล้กับจุดสิ้นสุดของช่วงเวลา
  3. 95% เป็นเพียงการประชุม คุณสามารถคำนวณ 90% หรือ 99% หรือ% ใด ๆ ก็ได้
  4. ช่วงความเชื่อมั่น / ความเข้ากันได้จะมีประโยชน์เฉพาะในกรณีที่การทดลองทำอย่างถูกต้องหากการวิเคราะห์ทำตามแผนที่กำหนดไว้ล่วงหน้าและข้อมูลสอดคล้องกับสมมติฐานของวิธีการวิเคราะห์ หากคุณมีการวิเคราะห์ข้อมูลที่ไม่ดีช่วงเวลาในการใช้งานร่วมกันนั้นไม่มีความหมายหรือเป็นประโยชน์

10

XKCD ผู้ยิ่งใหญ่ทำการ์ตูนเรื่องนี้เมื่อไม่นานมานี้แสดงให้เห็นถึงปัญหา หากผลลัพธ์ที่มีนั้นได้รับการปฏิบัติอย่างง่าย ๆ เพื่อพิสูจน์สมมติฐาน - และบ่อยครั้งเกินไป - จากนั้นสมมติฐาน 1 ใน 20 ที่พิสูจน์แล้วว่าจริงแล้วจะเป็นเท็จ ในทำนองเดียวกันถ้าถูกใช้เพื่อพิสูจน์ว่าเป็นสมมติฐานดังนั้น 1 ใน 20 ของสมมติฐานที่แท้จริงจะถูกปฏิเสธอย่างผิด ๆ ค่า P ไม่ได้บอกคุณว่าสมมติฐานเป็นจริงหรือเท็จพวกเขาบอกคุณว่าสมมติฐานนั้นน่าจะจริงหรือเท็จ ดูเหมือนว่าบทความที่อ้างถึงจะเริ่มต้นต่อต้านการตีความไร้เดียงสาที่เหมือนกันP>0.05P < 0.05P<0.05


8
(-1) ค่า P ไม่แสดงให้คุณเห็นว่าสมมุติฐานน่าจะเป็นจริงหรือเท็จ คุณต้องมีการแจกแจงก่อนหน้าสำหรับสิ่งนั้น ดูxkcd นี้ตัวอย่างเช่น การโบกมืออย่างมีปัญหาที่นำไปสู่ความสับสนนี้คือถ้าเรามีนักบวชที่คล้ายกันสำหรับสมมติฐานจำนวนมากค่า p-value จะเป็นสัดส่วนกับความน่าจะเป็นจริงหรือเท็จ แต่ก่อนที่จะเห็นข้อมูลใด ๆ สมมติฐานบางอย่างน่าจะเป็นมากกว่าคนอื่น ๆ !
หน้าผา AB

3
ในขณะที่เอฟเฟกต์นี้เป็นสิ่งที่ไม่ควรลดราคา แต่มันก็ยังห่างไกลจากการเป็นจุดสำคัญของบทความอ้างอิง
RM

6

tl; dr - มันเป็นไปไม่ได้โดยพื้นฐานที่จะพิสูจน์ว่าสิ่งต่าง ๆ ไม่เกี่ยวข้อง สถิติเท่านั้นที่สามารถใช้ในการแสดงเมื่อสิ่งที่มีความเกี่ยวข้อง แม้จะมีข้อเท็จจริงที่ยอมรับกันมานี้ แต่ผู้คนมักตีความการขาดความสำคัญทางสถิติอย่างผิด ๆ เพื่อบอกถึงการขาดความสัมพันธ์


วิธีการเข้ารหัสที่ดีควรสร้าง ciphertext ที่ผู้โจมตีสามารถบอกได้ว่าไม่มีความสัมพันธ์ทางสถิติใด ๆ กับข้อความที่ได้รับการป้องกัน เพราะถ้าผู้โจมตีสามารถตรวจสอบการเรียงลำดับของความสัมพันธ์บางอย่างแล้วพวกเขาก็จะได้รับข้อมูลเกี่ยวกับข้อความที่ป้องกันของคุณโดยเพียงแค่มองหาที่ ciphertexts - ซึ่งเป็นBad Thing TM

อย่างไรก็ตามไซเฟอร์เท็กซ์และข้อความธรรมดา 100% กำหนดว่ากัน ดังนั้นแม้ว่านักคณิตศาสตร์ที่ดีที่สุดในโลกจะไม่สามารถหาความสัมพันธ์ที่สำคัญใด ๆ ได้ไม่ว่าพวกเขาจะพยายามอย่างหนักเพียงใดก็ตามเรายังคงรู้อย่างชัดเจนว่าความสัมพันธ์ไม่ได้อยู่ที่นั่นเพียงอย่างเดียว ชะตานี้สามารถอยู่ได้แม้ในขณะที่เรารู้ว่ามันเป็นไปไม่ได้ที่จะพบกับความสัมพันธ์

แม้จะมีสิ่งนี้เรายังคงได้รับคนที่จะทำสิ่งที่ชอบ:

  1. เลือกความสัมพันธ์ที่พวกเขาต้องการ " หักล้าง "

  2. ลองศึกษาดูว่ามันไม่เพียงพอที่จะตรวจจับความสัมพันธ์ที่ถูกกล่าวหา

  3. รายงานการขาดความสัมพันธ์ที่มีนัยสำคัญทางสถิติ

  4. บิดสิ่งนี้ให้เป็นความสัมพันธ์ที่ขาด

สิ่งนี้นำไปสู่ ​​" การศึกษาทางวิทยาศาสตร์ " ทุกประเภทที่สื่อจะรายงาน (เท็จ) ว่าหักล้างการมีอยู่ของความสัมพันธ์บางอย่าง

หากคุณต้องการออกแบบการศึกษาของคุณเองคุณสามารถทำได้หลายวิธี:

  1. การวิจัยขี้เกียจ:
    วิธีที่ง่ายที่สุดคือการขี้เกียจอย่างไม่น่าเชื่อ ก็เช่นเดียวจากตัวเลขที่เชื่อมโยงในคำถาม:{50px} คุณสามารถหาได้ง่ายเพียงแค่มีขนาดตัวอย่างเล็ก ๆ ทำให้มีเสียงดังมากและสิ่งอื่น ๆ ที่ขี้เกียจต่าง ๆ อันที่จริงถ้าคุณขี้เกียจมาก รวบรวมข้อมูลใด ๆจากนั้นคุณทำเสร็จแล้ว!

    'Non-significant' study(high P value)"

  2. การวิเคราะห์ขี้เกียจ:
    ด้วยเหตุผลโง่ ๆ บางคนคิดว่าสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันเท่ากับหมายถึง " ไม่มีความสัมพันธ์ " ซึ่งเป็นความจริงในแง่ที่ จำกัด มาก แต่ here're บางกรณีที่จะสังเกต:{50px} นี่คืออาจไม่มีความสัมพันธ์ " เชิงเส้น " แต่เห็นได้ชัดว่าอาจมีความซับซ้อนมากขึ้น และไม่จำเป็นต้องเป็น " การเข้ารหัส " - ระดับที่ซับซ้อน แต่จริงๆแล้ว " มันเป็นเพียงแค่เส้นโค้งเล็กน้อย " หรือ " มีสองความสัมพันธ์ " หรืออะไรก็ตาม0

  3. การตอบคำถามขี้เกียจ:
    ด้วยจิตวิญญาณของฉันจะหยุดที่นี่ เพื่อคุณรู้ว่าจะขี้เกียจ!

แต่อย่างจริงจังบทความสรุปได้ดีใน:

ให้ชัดเจนเกี่ยวกับสิ่งที่ต้องหยุด: เราไม่ควรสรุปว่า 'ไม่ต่างกัน' หรือ 'ไม่มีการเชื่อมโยง' เพียงเพราะค่า P มากกว่าค่าเกณฑ์เช่น 0.05 หรือเท่ากันเนื่องจากช่วงความเชื่อมั่นมีศูนย์


+1 ทำให้สิ่งที่คุณเขียนนั้นเป็นจริงและกระตุ้นความคิด อย่างไรก็ตามในความเห็นที่ต่ำต้อยของฉันคุณสามารถพิสูจน์ได้ว่าปริมาณสองปริมาณนั้นไม่ได้มีความเกี่ยวข้องกันอย่างสมเหตุสมผลภายใต้สมมติฐานบางประการ คุณต้องออกนอกสถานที่ก่อนเริ่มต้นด้วยเช่นสมมติว่ามีการกระจายบางอย่างเกี่ยวกับพวกเขา แต่สิ่งนี้อาจขึ้นอยู่กับกฎของฟิสิกส์หรือสถิติ (เช่นความเร็วของโมเลกุลของก๊าซในภาชนะที่คาดว่าจะ Gaussian หรืออื่น ๆ )
ntg

3
@ntg ใช่มันยากที่จะรู้ว่าจะพูดอะไรบางอย่างนี้ได้อย่างไรดังนั้นฉันจึงออกไปเยอะ ฉันหมายถึงความจริงทั่วไปคือเราไม่สามารถพิสูจน์ได้ว่ามีความสัมพันธ์บางอย่างอยู่แม้ว่าเราจะสามารถแสดงให้เห็นได้ว่าความสัมพันธ์เฉพาะนั้นไม่มีอยู่ ตอนนี้เราไม่สามารถสร้างชุดข้อมูลสองชุดที่ไม่เกี่ยวข้องกันได้ แต่เราสามารถพิสูจน์ได้ว่าชุดข้อมูลเหล่านั้นไม่เกี่ยวข้องอย่างน่าเชื่อถือด้วยฟังก์ชันเชิงเส้นอย่างง่าย
แนต

1
-1 "tl; dr- เป็นไปไม่ได้โดยพื้นฐานที่จะพิสูจน์ว่าสิ่งต่าง ๆ ไม่เกี่ยวข้อง": การทดสอบความเท่ากันให้หลักฐานว่าไม่มีผลภายในขนาดของผลโดยพลการ
อเล็กซิส

2
@ Alexis ฉันคิดว่าคุณเข้าใจผิดการทดสอบความเท่าเทียมกัน; คุณสามารถใช้การทดสอบความเท่าเทียมเพื่อเป็นหลักฐานว่าไม่มีการถือครองความสัมพันธ์บางอย่างเช่นความสัมพันธ์เชิงเส้น แต่ไม่สามารถแสดงหลักฐานการขาดความสัมพันธ์ใด ๆ
แน็ต

1
สถิติอนุมาน @Alexis สามารถให้คุณมากที่สุดเท่าที่หลักฐานของการขาดผลขนาดใหญ่กว่าขนาดของผลเฉพาะในบริบทของรูปแบบบาง บางทีคุณอาจสมมติว่าโมเดลนั้นเป็นที่รู้จักเสมอ
แน็ต

4

สำหรับการแนะนำเกี่ยวกับการสอนเกี่ยวกับปัญหา Alex Reinhart เขียนหนังสือพร้อมใช้งานออนไลน์อย่างสมบูรณ์และแก้ไขที่ No Starch Press (พร้อมเนื้อหาเพิ่มเติม): https://www.statisticsdonewrong.com

มันอธิบายถึงรากของปัญหาโดยไม่ต้องใช้คณิตศาสตร์ที่ซับซ้อนและมีบทเฉพาะพร้อมตัวอย่างจากชุดข้อมูลจำลอง:

https://www.statisticsdonewrong.com/p-value.html

https://www.statisticsdonewrong.com/regression.html

ในลิงค์ที่สองตัวอย่างกราฟิกแสดงให้เห็นถึงปัญหาค่า p P-value มักถูกใช้เป็นตัวบ่งชี้ความแตกต่างทางสถิติระหว่างชุดข้อมูล แต่ไม่ชัดเจนเพียงพอด้วยตัวของมันเอง

แก้ไขสำหรับคำตอบโดยละเอียดเพิ่มเติม:

ในหลายกรณีการศึกษามุ่งมั่นที่จะทำซ้ำข้อมูลประเภทที่แม่นยำไม่ว่าจะเป็นการวัดทางกายภาพ (พูดจำนวนของอนุภาคในเครื่องเร่งความเร็วในระหว่างการทดลองเฉพาะ) หรือตัวชี้วัดเชิงปริมาณ (เช่นจำนวนผู้ป่วยที่พัฒนาอาการเฉพาะระหว่างการทดสอบยา) ในสถานการณ์เช่นนี้ปัจจัยหลายอย่างอาจรบกวนกระบวนการวัดเช่นข้อผิดพลาดของมนุษย์หรือความแปรปรวนของระบบ (ผู้คนทำปฏิกิริยากับยาตัวเดียวกันแตกต่างกัน) นี่คือเหตุผลที่การทดลองมักจะทำหลายร้อยครั้งหากเป็นไปได้และทำการทดสอบยาในอุดมคติของคนไข้หลายพันคน

ชุดข้อมูลจะถูกลดค่าให้เป็นค่าที่ง่ายที่สุดโดยใช้สถิติ: หมายถึงค่าเบี่ยงเบนมาตรฐานและอื่น ๆ ปัญหาในการเปรียบเทียบแบบจำลองด้วยค่าเฉลี่ยคือค่าที่วัดได้เป็นเพียงตัวบ่งชี้ของค่าที่แท้จริงและยังเปลี่ยนแปลงทางสถิติขึ้นอยู่กับจำนวนและความแม่นยำของการวัดแต่ละแบบ เรามีวิธีที่จะคาดเดาได้ดีว่ามาตรการใดน่าจะเหมือนกันและไม่ใช่ แต่มีความแน่นอนเท่านั้น เกณฑ์ปกติคือการบอกว่าถ้าเรามีโอกาสน้อยกว่าหนึ่งในยี่สิบที่จะผิดที่บอกว่าค่าสองค่านั้นแตกต่างกันเราถือว่าพวกเขา "แตกต่างกันทางสถิติ" (นั่นคือความหมายของ ) มิฉะนั้นเราจะไม่สรุปP<0.05

สิ่งนี้นำไปสู่ข้อสรุปแปลก ๆ ที่ปรากฎในบทความของ Nature โดยที่สองมาตรการเดียวกันให้ค่าเฉลี่ยเท่ากัน แต่ข้อสรุปของนักวิจัยแตกต่างกันเนื่องจากขนาดของตัวอย่าง สิ่งนี้และพืชอื่น ๆ จากคำศัพท์และนิสัยทางสถิติกำลังทวีความสำคัญมากขึ้นเรื่อย ๆ ในวิทยาศาสตร์ อีกด้านหนึ่งของปัญหาคือคนมักจะลืมว่าพวกเขาใช้เครื่องมือทางสถิติและสรุปเกี่ยวกับผลกระทบโดยไม่ต้องตรวจสอบอำนาจทางสถิติของตัวอย่างของพวกเขา

สำหรับภาพประกอบอื่น ๆ เมื่อเร็ว ๆ นี้สังคมศาสตร์และวิทยาศาสตร์ชีวภาพกำลังเผชิญกับวิกฤติการจำลองแบบที่แท้จริงเนื่องจากความจริงที่ว่ามีการใช้เอฟเฟ็กต์มากมายสำหรับผู้ที่ไม่ได้ตรวจสอบพลังทางสถิติที่เหมาะสมของการศึกษาที่มีชื่อเสียง แต่นี่เป็นปัญหาอื่น)


3
แม้ว่าจะไม่ใช่แค่ลิงค์คำตอบนี้มีคุณสมบัติเด่นของ " link only answer " เพื่อปรับปรุงคำตอบนี้โปรดรวมประเด็นสำคัญในคำตอบของตัวเอง อุดมคติแล้วคำตอบของคุณควรมีประโยชน์ในฐานะคำตอบแม้ว่าเนื้อหาของลิงก์จะหายไป
RM

2
เกี่ยวกับ P-ค่านิยมและความเชื่อที่ผิดอัตราฐาน (ดังกล่าวในการเชื่อมโยงของคุณ) Veritasium การเผยแพร่วิดีโอนี้เรียกว่ากับดักแบบเบย์
jjmontes

2
ขออภัยฉันจะพยายามปรับปรุงและพัฒนาคำตอบโดยเร็วที่สุด ความคิดของฉันก็คือการให้วัสดุที่มีประโยชน์สำหรับผู้อ่านที่อยากรู้อยากเห็น
G.Clavier

1
@ G.Clavier และสถิติที่อธิบายตัวเองด้วยมือใหม่และผู้อ่านที่อยากรู้อยากเห็นชื่นชมมัน!
uhoh

1
@uhoh ดีใจที่ได้อ่านมัน :)
G.Clavier

4

สำหรับฉันส่วนที่สำคัญที่สุดคือ:

... [เรา] ขอให้ผู้เขียนหารือเกี่ยวกับการประมาณค่าจุดแม้ว่าพวกเขาจะมีค่า P จำนวนมากหรือช่วงกว้างเช่นเดียวกับการพูดคุยถึงข้อ จำกัด ของช่วงเวลานั้น

กล่าวอีกนัยหนึ่ง: ให้ความสำคัญที่สูงขึ้นในการอภิปรายการประมาณ (จุดศูนย์กลางและช่วงความเชื่อมั่น) และการเน้นที่ "การทดสอบสมมติฐานแบบ Null"

วิธีนี้ใช้งานได้จริง มีงานวิจัยมากมายที่ต้องวัดขนาดของเอฟเฟกต์เช่น "เราวัดอัตราส่วนความเสี่ยง 1.20 โดยที่ 95% CI อยู่ระหว่าง 0.97 ถึง 1.33" นี่คือข้อสรุปที่เหมาะสมของการศึกษา คุณสามารถดูขนาดเอฟเฟกต์ที่น่าจะเป็นไปได้มากที่สุดและความไม่แน่นอนของการวัด เมื่อใช้การสรุปนี้คุณสามารถเปรียบเทียบการศึกษานี้กับการศึกษาอื่น ๆ ได้อย่างรวดเร็วและคุณสามารถรวมการค้นพบทั้งหมดในค่าเฉลี่ยถ่วงน้ำหนัก

น่าเสียดายที่การศึกษาดังกล่าวมักถูกสรุปว่า "เราไม่พบการเพิ่มอัตราส่วนความเสี่ยงที่มีนัยสำคัญทางสถิติ" นี่คือข้อสรุปที่ถูกต้องของการศึกษาข้างต้น แต่มันไม่ได้เป็นบทสรุปที่เหมาะสมของการศึกษาเพราะคุณไม่สามารถเปรียบเทียบการศึกษาได้อย่างง่ายดายโดยใช้บทสรุปแบบนี้ คุณไม่รู้ว่าการศึกษาใดที่มีการวัดที่แม่นยำที่สุดและคุณไม่สามารถหยั่งรู้ได้ว่าการค้นพบเมตาดาต้าอาจเป็นอะไร และคุณจะไม่เห็นทันทีเมื่อการศึกษาอ้างว่า "การเพิ่มขึ้นของอัตราส่วนความเสี่ยงที่ไม่สำคัญ" โดยมีช่วงความเชื่อมั่นที่มากจนคุณสามารถซ่อนช้างไว้ได้


ขึ้นอยู่กับสมมุติฐานว่าง ๆ ยกตัวอย่างเช่นการปฏิเสธมีหลักฐานของการขาดของผลกระทบที่มีขนาดใหญ่กว่าขนาดเล็กโดยพล\H0:|θ|ΔΔ
Alexis

1
ใช่ แต่ทำไมถึงต้องสนใจพูดถึงสมมุติฐานเช่นนี้? คุณสามารถระบุขนาดเอฟเฟกต์ที่วัดได้จากนั้นให้หารือกันว่าการแบ่งกรณีและปัญหาที่ดีที่สุดคืออะไร นี่คือวิธีการที่จะกระทำโดยทั่วไปในวิชาฟิสิกส์เช่นเมื่อวัดความแตกต่างของมวลที่จะเสียค่าใช้จ่ายระหว่างโปรตอนและโปรตอน ผู้เขียนอาจเลือกที่จะกำหนดสมมติฐานว่าง (อาจเป็นไปตามตัวอย่างของคุณว่าความแตกต่างที่แน่นอนมากกว่าบางส่วน) และดำเนินการทดสอบ แต่มีมูลค่าเพิ่มเล็กน้อยในการอภิปราย θ±δθΔ
Martin JH

3

มันเป็น "สำคัญ" ที่นักสถิติไม่ได้เป็นเพียงนักวิทยาศาสตร์กำลังเพิ่มขึ้นและคัดค้านการใช้ "นัยสำคัญ" และค่าอย่างหลวม ๆ ฉบับล่าสุดของAmerican สถิติทุ่มเทให้กับเรื่องนี้ทั้งหมด ดูโดยเฉพาะอย่างยิ่งบทบรรณาธิการนำโดย Wasserman, Schirm และ Lazar P


ขอบคุณสำหรับลิงค์! มันเป็นที่เปิดตา ฉันไม่ได้ตระหนักถึงความคิดและการอภิปรายเกี่ยวกับเรื่องนี้มากนัก
uhoh

2

มันเป็นความจริงที่ว่าด้วยเหตุผลหลายประการค่า pได้กลายเป็นปัญหาอย่างแท้จริง

อย่างไรก็ตามแม้จะมีจุดอ่อน แต่ก็มีข้อดีที่สำคัญเช่นความเรียบง่ายและทฤษฎีที่เข้าใจง่าย ดังนั้นในขณะที่โดยรวมฉันเห็นด้วยกับความคิดเห็นในธรรมชาติฉันคิดว่าแทนที่จะคิดอย่างมีนัยสำคัญทางสถิติอย่างสมบูรณ์จำเป็นต้องแก้ปัญหาที่สมดุลมากขึ้น นี่คือตัวเลือกไม่กี่:

1. "การเปลี่ยนเกณฑ์P-valueเริ่มต้นสำหรับนัยสำคัญทางสถิติจาก 0.05 เป็น 0.005 สำหรับการอ้างสิทธิ์ของการค้นพบใหม่" ในมุมมองของฉันเบนจามินและคณะได้กล่าวถึงข้อโต้แย้งที่น่าสนใจที่สุดในการใช้หลักฐานที่มีมาตรฐานสูงกว่า

2. การนำสองรุ่นP-ค่า สิ่งเหล่านี้ดูเหมือนจะเป็นทางออกที่สมเหตุสมผลสำหรับปัญหาส่วนใหญ่ที่มีผลต่อค่า p แบบดั้งเดิม ดังที่ Blume และที่นี่ค่า pรุ่นที่สอง สามารถช่วย "ปรับปรุงความแม่นยำความสามารถในการทำซ้ำและความโปร่งใสในการวิเคราะห์ทางสถิติ"

3. กำหนดค่า pใหม่เป็น "การวัดเชิงปริมาณของความแน่นอน -" ดัชนีความเชื่อมั่น "- ความสัมพันธ์ที่สังเกตหรือการอ้างสิทธิ์เป็นจริง" สิ่งนี้จะช่วยเปลี่ยนเป้าหมายการวิเคราะห์จากการบรรลุความสำคัญไปจนถึงการประเมินความเชื่อมั่นที่เหมาะสม

ที่สำคัญ "ผลลัพธ์ที่ไม่ถึงเกณฑ์สำหรับนัยสำคัญทางสถิติ หรือ" ความเชื่อมั่น " (ไม่ว่าจะเป็นอะไรก็ตาม) ยังคงมีความสำคัญและได้รับการตีพิมพ์ในวารสารชั้นนำหากพวกเขาตอบคำถามวิจัยที่สำคัญด้วยวิธีการที่เข้มงวด"

ผมคิดว่าจะช่วยบรรเทาความหลงใหลกับP-ค่าโดยวารสารชั้นนำซึ่งเป็นผู้อยู่เบื้องหลังในทางที่ผิดของP-ค่า


ขอบคุณสำหรับคำตอบของคุณสิ่งนี้มีประโยชน์ ฉันจะใช้เวลาอ่าน Blume และคณะ เกี่ยวกับค่า p รุ่นที่สองดูเหมือนว่าจะอ่านได้ค่อนข้าง
uhoh

1
@uhoh ดีใจที่คำตอบของฉันมีประโยชน์กับคำถามของคุณ
Krantz

1

สิ่งหนึ่งที่ไม่ได้กล่าวถึงคือข้อผิดพลาดหรือความสำคัญคือการประมาณทางสถิติไม่ใช่การวัดจริง: ขึ้นอยู่กับข้อมูลที่คุณมีอยู่และวิธีการประมวลผล คุณสามารถให้ค่าที่แม่นยำของข้อผิดพลาดและความสำคัญหากคุณวัดทุกเหตุการณ์ที่เป็นไปได้ โดยปกติจะไม่เป็นเช่นนั้นห่างไกลจากมัน!

ดังนั้นการประเมินข้อผิดพลาดหรือความสำคัญในทุกกรณีในกรณีนี้ค่า P-value ที่กำหนดจะไม่ถูกต้องตามคำนิยามและไม่ควรเชื่อถือได้ในการอธิบายการวิจัยพื้นฐาน - ปรากฏการณ์เพียงอย่างเดียว! - ถูกต้อง ในความเป็นจริงมันไม่ควรเชื่อถือได้ที่จะถ่ายทอดสิ่งใดก็ตามเกี่ยวกับผลลัพธ์โดยที่ไม่รู้ว่ามีสิ่งใดถูกนำเสนอวิธีการประเมินข้อผิดพลาดและสิ่งที่ทำเพื่อควบคุมคุณภาพข้อมูล ตัวอย่างเช่นวิธีหนึ่งในการลดข้อผิดพลาดโดยประมาณคือการลบค่าผิดปกติ หากการลบนี้เกิดขึ้นในเชิงสถิติแล้วคุณจะทราบได้อย่างไรว่าผู้ผิดพลาดเป็นข้อผิดพลาดจริงแทนที่จะเป็นการวัดจริงที่ไม่น่าจะรวมอยู่ในข้อผิดพลาด ข้อผิดพลาดที่ลดลงสามารถปรับปรุงความสำคัญของผลลัพธ์ได้อย่างไร แล้วการวัดที่ผิดพลาดใกล้กับค่าประมาณล่ะ พวกเขาปรับปรุง ข้อผิดพลาดและสามารถส่งผลกระทบอย่างมีนัยสำคัญทางสถิติ แต่สามารถนำไปสู่ข้อสรุปที่ผิด!

สำหรับเรื่องนั้นฉันทำการสร้างแบบจำลองทางกายภาพและได้สร้างแบบจำลองด้วยตัวเองโดยที่ข้อผิดพลาด 3-sigma นั้นไม่มีความผิดปกติอย่างสมบูรณ์ นั่นคือสถิติมีเหตุการณ์หนึ่งเหตุการณ์ในหนึ่งพัน (ดี ... บ่อยกว่านั้น แต่ฉันพูดนอกเรื่อง) ที่จะส่งผลให้มูลค่าไร้สาระอย่างสมบูรณ์ ขนาดของข้อผิดพลาด 3 ช่วงเวลาในสนามของฉันมีค่าเท่ากับการประมาณที่ดีที่สุดที่เป็นไปได้ประมาณ 1 ซม. กลายเป็นเมตรทุก ๆ คราว อย่างไรก็ตามนี่เป็นผลที่ได้รับการยอมรับอย่างแน่นอนเมื่อแสดงช่วง +/- สถิติที่คำนวณจากข้อมูลเชิงกายภาพและเชิงประจักษ์ในสาขาของฉัน แน่นอนว่าความแคบของช่วงความไม่แน่นอนนั้นได้รับการเคารพ แต่บ่อยครั้งที่ค่าการคาดเดาที่ดีที่สุดนั้นเป็นผลที่มีประโยชน์มากกว่าแม้ว่าช่วงข้อผิดพลาดเล็กน้อยจะมีขนาดใหญ่ขึ้น

ในฐานะที่เป็นข้อความด้านข้างฉันเคยรับผิดชอบส่วนตัวคนใดคนหนึ่งในหนึ่งพันคน ฉันกำลังทำการสอบเทียบเครื่องมือเมื่อมีเหตุการณ์เกิดขึ้นซึ่งเราควรทำการวัด อนิจจาจุดข้อมูลนั้นน่าจะเป็นหนึ่งในค่าผิดปกติ 100 เท่าดังนั้นในแง่หนึ่งก็เกิดขึ้นและรวมอยู่ในข้อผิดพลาดในการสร้างแบบจำลอง!


"คุณสามารถให้การวัดที่แม่นยำถ้าคุณวัดทุกเหตุการณ์ที่เป็นไปได้" อืมมม ดังนั้นความแม่นยำจึงไร้ความหวัง? และยังไม่เกี่ยวข้อง? โปรดขยายความแตกต่างระหว่างความแม่นยำและอคติ การประมาณการที่ไม่ถูกต้องมีอคติหรือไม่เอนเอียงหรือไม่? หากพวกเขาไม่เอนเอียงพวกเขาจะมีประโยชน์เล็กน้อยหรือไม่ "ตัวอย่างเช่นวิธีหนึ่งในการลดข้อผิดพลาดคือการลบค่าผิดพลาด" อืมมม ที่จะลดความแปรปรวนตัวอย่าง แต่ "ผิดพลาด"? "... บ่อยครั้งที่ค่าคาดคะเนที่ดีที่สุดนั้นมีประโยชน์มากกว่าแม้ว่าช่วงข้อผิดพลาดเล็กน้อยจะมีขนาดใหญ่กว่า" ฉันไม่ปฏิเสธว่าสิ่งที่ดีกว่ามาก่อนดีกว่าการทดลองที่ไม่ดี
Peter Leopold

แก้ไขข้อความเล็กน้อยตามความคิดเห็นของคุณ สิ่งที่ฉันหมายถึงคือการวัดความผิดพลาดทางสถิติเป็นการคาดการณ์เสมอเว้นแต่ว่าคุณจะมีการทดสอบส่วนบุคคลที่เป็นไปได้ทั้งหมดดังนั้นจึงสามารถพูดได้ สิ่งนี้จะเกิดขึ้นน้อยมากยกเว้นเมื่อมีการโพลจำนวนคน (ไม่เป็นตัวอย่างจากฝูงชนขนาดใหญ่หรือประชากรทั่วไป)
Geenimetsuri

1
ฉันเป็นผู้ฝึกหัดที่ใช้สถิติมากกว่านักสถิติ ฉันคิดว่าปัญหาพื้นฐานที่มีค่า p คือหลายคนที่ไม่คุ้นเคยกับสิ่งที่พวกเขาทำให้สับสนด้วยนัยสำคัญ ดังนั้นฉันจึงถูกขอให้พิจารณาว่าลาดใดมีความสำคัญโดยใช้ค่า p โดยไม่คำนึงว่าลาดมีขนาดใหญ่หรือไม่ ปัญหาที่คล้ายกันคือการใช้มันเพื่อกำหนดผลกระทบสัมพัทธ์ของตัวแปร (ซึ่งเป็นสิ่งสำคัญสำหรับฉัน แต่สิ่งที่ได้รับความสนใจน้อยมากในวรรณคดีการถดถอย)
user54285
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.