สถิติเผยแพร่ในเอกสารวิชาการ


44

ฉันอ่านบทความวิชาการเชิงวิวัฒนาการ / นิเวศวิทยาเป็นจำนวนมากบางครั้งโดยมีจุดประสงค์เฉพาะในการดูว่ามีการใช้สถิติ 'ในโลกแห่งความจริง' นอกตำราเรียนอย่างไร ปกติฉันจะนำสถิติลงในเอกสารเป็นพระกิตติคุณและใช้เอกสารเพื่อช่วยในการเรียนรู้ทางสถิติของฉัน ท้ายที่สุดถ้าบทความใช้เวลาหลายปีในการเขียนและผ่านการตรวจสอบจากเพื่อนอย่างเข้มงวดแล้วสถิติจะเป็นไปอย่างมั่นคงหรือไม่ แต่ในช่วงไม่กี่วันที่ผ่านมาฉันได้ถามสมมติฐานของฉันและสงสัยว่าการวิเคราะห์ทางสถิติที่ตีพิมพ์ในเอกสารวิชาการเป็นสิ่งที่สงสัย? โดยเฉพาะอย่างยิ่งอาจเป็นที่คาดหวังว่าผู้ที่อยู่ในสาขาต่าง ๆ เช่นนิเวศวิทยาและวิวัฒนาการใช้เวลาในการเรียนรู้สถิติน้อยลงและใช้เวลาเรียนสาขาของตนมากขึ้น

ผู้คนพบสถิติที่น่าสงสัยในเอกสารวิชาการบ่อยแค่ไหน?



18
ผู้ตรวจสอบมักจะเป็นคนที่ไม่รู้จักสถิติมากไปกว่าผู้เขียนบทความดังนั้นจึงเป็นเรื่องง่ายที่จะเผยแพร่สถิติที่ไม่ดี
Behacad

9
การได้รับการตีพิมพ์เป็นขั้นตอนแรกสู่การยอมรับโดยชุมชนวิทยาศาสตร์ไม่ใช่เป็นขั้นตอนสุดท้าย เอกสารที่เผยแพร่ส่วนใหญ่จะมีข้อบกพร่องที่สำคัญในบางพื้นที่การใช้สถิติจะไม่มีข้อยกเว้น
Dikran Marsupial

3
การสันนิษฐานของคุณว่าเอกสาร "ใช้เวลาหลายปีในการเขียน" เป็นวิธีที่ไม่ดี การรวบรวมข้อมูลอาจใช้เวลานาน แต่การวิเคราะห์ข้อมูลและการเขียนมักเป็นสัปดาห์มากกว่าปี
David Richerby

2
ทุกวันนี้เป็นที่ทราบกันดีว่าสถิติในวารสารจิตวิทยาและการแพทย์หลายเรื่องเป็นที่น่าสงสัยอย่างน้อยผิด ๆ หรือไม่บ่อยนัก การใช้ p-values ​​แบบคนยากจนและ NHST เป็นตัวอย่างที่เด่นชัดของปัญหาดูบันทึกย่อนี้
ควอตซ์

คำตอบ:


38

ท้ายที่สุดถ้าบทความใช้เวลาหลายปีในการเขียนและผ่านการตรวจสอบจากเพื่อนอย่างเข้มงวดแล้วสถิติจะเป็นไปอย่างมั่นคงหรือไม่

ประสบการณ์ของฉันในการอ่านเอกสารที่พยายามใช้สถิติในหลากหลายสาขา (รัฐศาสตร์, เศรษฐศาสตร์, จิตวิทยา, การแพทย์, ชีววิทยา, การเงิน, วิทยาศาสตร์คณิตศาสตร์ประกันภัย, การบัญชี, ทัศนศาสตร์, ดาราศาสตร์และอื่น ๆ อีกมากมาย) คือคุณภาพของ การวิเคราะห์ทางสถิติอาจอยู่ที่ใดก็ได้ในสเปกตรัมจากยอดเยี่ยมและทำได้ดีถึงเรื่องไร้สาระร้ายแรง ฉันได้เห็นการวิเคราะห์ที่ดีในทุก ๆ ด้านที่ฉันได้กล่าวถึงและการวิเคราะห์ที่ทำได้ค่อนข้างแย่ในเกือบทั้งหมด

วารสารบางเล่มมักจะค่อนข้างดีและบางคนอาจชอบเล่นปาเป้าด้วยผ้าปิดตา - คุณอาจได้รับส่วนใหญ่ไม่ไกลเกินกว่าเป้าหมายมากนัก แต่มีกำแพงอยู่สองสามพื้นและเพดาน และบางทีแมว

ฉันไม่ได้วางแผนจะตั้งชื่อผู้กระทำความผิดใด ๆ แต่ฉันจะบอกว่าฉันเห็นนักวิชาการด้านอาชีพที่สร้างจากการใช้สถิติที่ผิดพลาด (นั่นคือข้อผิดพลาดและความเข้าใจผิดซ้ำ ๆ กันในกระดาษหลังจากกระดาษมานานกว่าทศวรรษ)

ดังนั้นคำแนะนำของฉันคือให้ผู้อ่านระวัง ; ไม่ไว้วางใจว่าผู้แก้ไขและผู้ตรวจสอบผู้รู้จะรู้ว่ากำลังทำอะไรอยู่ เมื่อเวลาผ่านไปคุณอาจรู้สึกดีว่าผู้เขียนคนใดที่สามารถพึ่งพาอาศัยกันได้โดยไม่ทำอะไรที่น่าตกใจจนเกินไป คุณอาจรู้สึกว่าวารสารบางฉบับมีมาตรฐานสูงมากสำหรับสถิติของพวกเขา

แต่โดยทั่วไปแล้วผู้เขียนที่ดีสามารถทำผิดพลาดได้หรือผู้ตัดสินและผู้แก้ไขอาจไม่สามารถรับข้อผิดพลาดที่พวกเขาอาจพบได้ตามปกติ วารสารที่ดีโดยทั่วไปสามารถเผยแพร่บุคคลที่ร้องโหยหวน

[บางครั้งคุณจะเห็นเอกสารที่ไม่ดีจริง ๆ ชนะรางวัลหรือรางวัล ... ซึ่งไม่ได้พูดอะไรมากมายสำหรับคุณภาพของคนที่ตัดสินรางวัลเช่นกัน]

ฉันไม่ต้องการที่จะเดาว่าส่วนใดของสถิติ "ไม่ดี" ที่ฉันอาจเห็น (ในรูปแบบต่าง ๆ และในทุกขั้นตอนจากการกำหนดคำถามการออกแบบการศึกษาการรวบรวมข้อมูลการจัดการข้อมูล ... การวิเคราะห์และข้อสรุป) แต่ก็ไม่เล็กพอที่ฉันจะรู้สึกสะดวกสบาย

ฉันสามารถชี้ไปที่ตัวอย่าง แต่ฉันไม่คิดว่านี่เป็นฟอรัมที่เหมาะสมในการทำเช่นนั้น (มันจะดีถ้ามีเป็นฟอรั่มที่ดีที่จริง แต่แล้วอีกครั้งก็มีแนวโน้มที่จะกลายเป็นอย่างมาก "การเมือง" ได้อย่างรวดเร็วมากและเร็ว ๆ นี้ล้มเหลวที่จะตอบสนองวัตถุประสงค์.)

αเห็นได้ชัดว่ามีการนำไปใช้เพื่อแก้ไขคำถามเดียวกันทั้งหมด สิ่งนี้ทำให้ฉันเป็นความคิดที่ไม่ดี โดยรวมแล้วมาตรฐานค่อนข้างดีในสองสามกระดาษ แต่ในอดีตฉันเคยเห็นกระดาษแย่มากที่นั่น

[บางทีฉันอาจหลงระเริงในตัวอย่างเดียวโดยอ้อม คำถามนี้ถามเกี่ยวกับการทำสิ่งที่ค่อนข้างน่าสงสัย มันไกลจากสิ่งที่แย่ที่สุดที่ฉันเคยเห็น]

ในทางกลับกันฉันยังเห็นกรณีที่ผู้คนถูกบังคับให้ข้ามห่วงที่ไม่จำเป็นทุกชนิดเพื่อรับการวิเคราะห์ของพวกเขา ไม่ยอมรับสิ่งที่สมเหตุสมผลอย่างสมบูรณ์แบบเนื่องจากมี "วิธีการที่ถูกต้อง" ในการทำสิ่งต่าง ๆ ตามผู้ตรวจสอบหรือบรรณาธิการหรือหัวหน้างานหรือเพียงในวัฒนธรรมที่ไม่ได้พูดในพื้นที่เฉพาะ


2
" Caveat lector " ได้รับวารสารเปิดเพิ่มขึ้นหรือไม่
Scortchi - Reinstate Monica

1
@scortchi ฉันตัดสินใจหลีกเลี่ยงปัญหาทั้งหมดโดยเพียงเขียนเป็นภาษาอังกฤษ มันเป็นการปรับปรุง
Glen_b

10
โดยไม่ต้องตั้งชื่อผู้กระทำผิดฉันคิดว่าคณะ. vassar.edu/abbaird/about/publications/pdfs/…สมควรได้รับการกล่าวถึง เพื่อพิสูจน์จุดที่เกี่ยวกับการใช้สถิติในทางที่ผิดพวกเขาใช้โปรโตคอลทางสถิติที่ใช้กันอย่างแพร่หลายในการวิเคราะห์ผลลัพธ์ของการสแกน fMRI ของปลาแซลมอนที่ตายแล้ว พวกเขาพบว่าการทำงานของสมอง "สำคัญทางสถิติ" statsdonewrong.comยังทำให้การอ่านน่าสนใจ
James_pic

1
@James_pic ต้องเข้าร่วม +1 ที่แสดงความคิดเห็นสำหรับลิงก์ การอภิปรายของการเข้าใจผิดอัตราฐานเป็นที่น่าสนใจอย่างยิ่ง
Dan Bryant

1
@KennyPeanuts: ทั้ง - เพียงแค่ชี้ให้เห็นว่าจำนวนมากในปัจจุบันLectoresจะไม่ได้ทางอ้อมEmptores
Scortchi - Reinstate Monica

16

ฉันเคารพจุดยืนของ @ Glen_b ในการตอบคำถามที่ถูกต้อง (และแน่นอนว่าไม่ได้ตั้งใจจะเบี่ยงเบนจากเรื่องนี้) แต่ฉันไม่สามารถต้านทานการชี้ไปที่ตัวอย่างความบันเทิงที่อยู่ใกล้บ้าน ที่เสี่ยงต่อการ politicizing สิ่งที่ทำและวัตถุประสงค์ของคำถามนี้ก่อความเสียหายผมขอแนะนำWagenmakers, Wetzels, Boorsboom และ Van Der Maas (2011) ฉันอ้างถึงสิ่งนี้ในโพสต์ที่เกี่ยวข้องกับองค์ความรู้วิทยาศาสตร์เบต้า SE ( วิทยาศาสตร์เกี่ยวกับความรู้ความเข้าใจจะอธิบายความตั้งใจและการทำงานของสมองในผู้รับได้อย่างไร ) ซึ่งพิจารณาตัวอย่างอีกอย่างของ "ลูกดอกพุ่งแมว" Wagenmakers และเพื่อนร่วมงานของบทความแสดงความคิดเห็นโดยตรงเกี่ยวกับ "howler" จริง: มันถูกตีพิมพ์ใน JPSP (หนึ่งในวารสารที่ใหญ่ที่สุดในด้านจิตวิทยา) ไม่กี่ปีที่ผ่านมา. พวกเขายังเถียงมากกว่าการวิเคราะห์แบบเบย์และ:

เพื่อที่จะโน้มน้าวใจผู้ฟังที่สงสัยว่ามีข้อโต้แย้งแย้งเราจำเป็นต้องทำการศึกษายืนยันอย่างเข้มงวดและวิเคราะห์ผลลัพธ์ด้วยการทดสอบทางสถิติที่ค่อนข้างอนุรักษ์นิยมมากกว่าเสรีนิยม

ฉันอาจไม่จำเป็นต้องบอกคุณว่าสิ่งนี้ไม่ได้ตรงข้ามกับการเทศนาของนักร้อง FWIW มีการโต้แย้งเช่นกัน (ดูเหมือนจะมีอยู่ระหว่าง Bayesians และผู้ใช้บ่อย ๆ( Bem, Utts, & Johnson, 2011 )แต่ฉันรู้สึกว่ามันไม่ได้รุกฆาตการถกเถียงกันแน่

จิตวิทยาในฐานะชุมชนวิทยาศาสตร์ได้มีการจำลองแบบเมื่อเร็ว ๆ นี้ส่วนหนึ่งเป็นผลมาจากข้อบกพร่องด้านระเบียบวิธีนี้และอื่น ๆ ความคิดเห็นอื่น ๆ ที่นี่ชี้ไปที่กรณีที่คล้ายกับสิ่งที่ครั้งหนึ่งเคยเป็นที่รู้จักกันในนามความสัมพันธ์วูดูในระบบประสาทสังคม (วิธีการที่สำหรับ BTW ที่ไม่ถูกต้องทางการเมืองอย่างไรกระดาษได้รับการ retitled; Vul, Harris, Winkielman และ Pashler, 2009 ) นั่นก็ดึงดูดการโต้แย้งเช่นกันซึ่งคุณสามารถตรวจสอบการอภิปรายเพิ่มเติมเกี่ยวกับแนวทางปฏิบัติที่เป็นที่ถกเถียงกันมาก

สำหรับบันเทิงมากยิ่งขึ้นที่ (depersonalized เพิ่มเติม) ค่าใช้จ่ายของ (หลอก) สถิติพฤติกรรมไม่ดีให้ดูที่คำถามขณะนี้ 8-มากที่สุด upvoted ของเราที่นี่ใน CV อีกด้วย (เป็นที่ยอมรับ) ชื่อที่ไม่ถูกต้องทางการเมือง " สิ่งที่เป็นบาปทางสถิติที่พบบ่อย? " OP มัน @ MikeLawrence ให้ข้อมูลเกี่ยวกับแรงบันดาลใจในการศึกษาจิตวิทยาและสถิติแบบขนาน มันเป็นหนึ่งในรายการโปรดส่วนตัวของฉันและคำตอบนั้นมีประโยชน์มากสำหรับการหลีกเลี่ยงหลุมพรางที่มีมากมาย


ในด้านส่วนตัวฉันใช้เวลาส่วนใหญ่ในช่วงห้าเดือนที่ผ่านมาเพราะส่วนใหญ่เป็นเรื่องยากที่จะได้สถิติที่มั่นคงในคำถามการวิเคราะห์ข้อมูล การตรวจสอบอย่างตรงไปตรงมามักไม่ค่อยเข้มงวดนักโดยเฉพาะอย่างยิ่งในแง่ของการตรวจสอบทางสถิติของการวิจัยทางวิทยาศาสตร์ที่อายุน้อยกว่าด้วยคำถามที่ซับซ้อนและปัญหาแทรกซ้อนมากมาย ดังนั้นฉันรู้สึกว่าจำเป็นต้องมีความรับผิดชอบส่วนบุคคลในการขัดวิธีการในการทำงานของตัวเอง

ในขณะที่นำเสนองานวิจัยวิทยานิพนธ์ของฉันฉันรู้สึกได้ว่าความรับผิดชอบส่วนบุคคลที่สำคัญสำหรับการตรวจสอบข้อเท็จจริงทางสถิติเป็นอย่างไร นักจิตวิทยาที่ยอดเยี่ยมสองคนที่โรงเรียนเก่าของฉันกล่าวว่าฉันได้ทำบาปขั้นพื้นฐานที่สุดอย่างหนึ่งในการตีความความสัมพันธ์ของฉัน ฉันคิดว่าตัวเองอยู่เหนือมันและได้สอนเรื่องความอัปยศเกี่ยวกับเรื่องนี้หลายต่อหลายครั้งแล้ว แต่ฉันก็ยังไปที่นั่นและถูกเรียกออกมา (ต้นขอบคุณสวรรค์) ฉันไปที่นั่นเพราะงานวิจัยฉันกำลังทบทวนและลอกเลียนแบบไปที่นั่น! ดังนั้นฉันจึงเพิ่มส่วนต่าง ๆ ในวิทยานิพนธ์ของฉัน ที่เรียกนักวิจัยคนอื่น ๆ ออกมาเพื่อหาสาเหตุจากการศึกษาแบบกึ่งทดลองระยะยาว (บางครั้งอาจมาจากสหสัมพันธ์ข้ามส่วน) และไม่สนใจคำอธิบายทางเลือกก่อนเวลาอันควร

วิทยานิพนธ์ของฉันได้รับการยอมรับโดยไม่ต้องมีการแก้ไขโดยคณะกรรมการของฉันซึ่งรวมถึง psychometrician พิเศษอื่นและประธานที่จะเป็น SPSP (ซึ่งเผยแพร่ JPSP) แต่จะซื่อสัตย์อีกครั้งฉันไม่ได้โม้ในการพูดเรื่องนี้ ฉันได้จัดการเจาะกระต่ายหลายหลุมด้วยวิธีการของตัวเองแม้จะผ่านกระบวนการตรวจสอบจากภายนอกกับผู้ตรวจสอบที่ดีอย่างสมบูรณ์แบบ ตอนนี้ฉันได้เข้าสู่ส่วนลึกของสถิติในการพยายามที่จะเสียบพวกเขาด้วยวิธีการที่เหมาะสมมากขึ้นสำหรับการสร้างแบบจำลองการคาดการณ์ของคะแนน Likert เช่น SEM, IRT และการวิเคราะห์ที่ไม่ใช่พารามิเตอร์ (ดูการทดสอบการถดถอยหลังการลดมิติ) ฉันเลือกที่จะใช้เวลาหลายปีบนกระดาษซึ่งฉันอาจจะเผยแพร่ตาม - แทน ... ฉันคิดว่าฉันยังมีการศึกษาสถานการณ์จำลองที่ต้องทำก่อนที่ฉันจะดำเนินการอย่างเป็นเรื่องเป็นราว

กระนั้นฉันก็ย้ำว่านี่เป็นทางเลือก - บางทีอาจมีราคาแพงเกินไปและความหรูหราราคาแพงท่ามกลางวัฒนธรรมที่เผยแพร่หรือเสียชีวิตซึ่งมักจะเน้นปริมาณมากกว่าคุณภาพในบันทึกการทำงานในช่วงต้นอาชีพ การใช้แบบจำลองพารามิเตอร์ที่ผิดพลาดสำหรับข้อมูลต่อเนื่องไปจนถึงการกระจายการอนุมานของข้อมูลอันดับเป็นเรื่องธรรมดาเกินไปในสาขาของฉันเช่นเดียวกับการตีความที่ผิดและการบิดเบือนความสำคัญทางสถิติ (ดูการรองรับมุมมองที่ยึดค่า p ) ฉันสามารถหนีไปได้โดยสิ้นเชิง (ในระยะสั้น) ... และมันก็ไม่ใช่เรื่องยากที่จะทำได้ดีกว่านั้น ฉันคิดว่าฉันมีความก้าวหน้าที่น่าทึ่งหลายปีที่ผ่านมาในโปรแกรม R เพื่อขอบคุณสำหรับสิ่งนั้น! นี่คือความหวังที่เวลากำลังเปลี่ยนแปลง


ข้อมูลอ้างอิง
· Bem, DJ, Utts, J. , & Johnson, WO (2011) นักจิตวิทยาต้องเปลี่ยนวิธีการวิเคราะห์ข้อมูลของพวกเขาหรือไม่ วารสารบุคลิกภาพและจิตวิทยาสังคม 101 (4), 716–719 แปลจากhttp://deanradin.com/evidence/Bem2011.pdf
· Vul, E. , Harris, C. , Winkielman, P. , & Pashler, H. (2009) สหสัมพันธ์สูงอย่างน่าประหลาดใจในการศึกษา fMRI เกี่ยวกับอารมณ์บุคลิกภาพและการรับรู้ทางสังคม มุมมองทางวิทยาศาสตร์จิตวิทยา, 4 (3), 274–290 แปลจากhttp://www.edvul.com/pdf/VulHarrisWinkielmanPashler-PPS-2009.pdf
·Wagenmakers, EJ, Wetzels, R. , Borsboom, D. , & Van der Maas, H. (2011) ทำไมนักจิตวิทยาต้องเปลี่ยนวิธีการวิเคราะห์ข้อมูล: กรณีของ psi วารสารบุคลิกภาพและจิตวิทยาสังคม, 100 , 426–432 แปลจากhttp://mpdc.mae.cornell.edu/Courses/MAE714/Papers/Bem6.pdf



1
@ Scortchi: ขอบคุณสำหรับการอ้างอิงและอะมีบา: ขอบคุณสำหรับบริบท ฉันไม่เห็นการอ้างสิทธิ์ใน Witzum และคณะ ที่ McKay และคณะ ดูถูกในนามธรรมของพวกเขา แต่พวกเขาชี้ให้เห็นข้อบกพร่องร้ายแรงอื่น ๆ อีกมากมาย สิ่งที่ดี. "ในขณะที่ข้อมูลจริงอาจสร้างความสับสนให้กับความคาดหวังของนักวิทยาศาสตร์แม้ว่าสมมติฐานของพวกเขาจะถูกต้อง แต่การทดลองที่มีความลำเอียงอย่างเป็นระบบต่อความคาดหวังของพวกเขามักจะผิดหวังน้อยกว่า (Rosenthal, 1976)" นั่นเป็นหนึ่งในคนที่เรียกฉันว่าการอนุมานเชิงสาเหตุโดยอาศัยการทดลองแบบกึ่ง ... นักจิตวิทยาที่ยอดเยี่ยมอย่างแท้จริง Bem ก็มีเครดิตเช่นเดียวกัน
Nick Stauner

2
+1 โพสต์ที่ยอดเยี่ยม " ความรับผิดชอบส่วนบุคคลที่มีความสำคัญต่อการตรวจสอบข้อเท็จจริงทางสถิติมีความสำคัญ " - ฉันต้องปรบมือให้ ในท้ายที่สุดนี่คือความรับผิดชอบที่จะต้องรับผิดชอบเท่าที่เป็นไปได้สำหรับใครบางคนที่พยายามจะทำงานในด้านการวิจัยที่พวกเขาต้องการใช้สถิติ
Glen_b

1
@NickStauner: McKay และคณะ พูดในเชิงนามธรรมว่า Witzum et al. อ้างสิทธิ์ "ข้อความภาษาฮีบรูของพระธรรมปฐมกาลเข้ารหัสเหตุการณ์ที่ไม่เกิดขึ้นจนกระทั่งนับพันปีหลังจากเขียนข้อความ" บางทีการเหลื่อมเล็กน้อยอาจจะเป็นเพราะมันเป็นเพียงสองพันปีที่มากที่สุดระหว่างการเขียนของโตราห์และวันเดือนปีเกิดของแรบไบล่าสุดจากรายการของพวกเขา แต่สรุปพอยุติธรรม (ฉันคิดว่าคุณสามารถเห็นกระดาษ Witztum et al. เป็นหลักฐานสำหรับการประพันธ์หนังสือพระธรรมปฐมกาลล่าสุดแม้ว่าเท่าที่ฉันรู้ว่าไม่มีใครทำ)
Scortchi - Reinstate Monica

1
ใช่ฉันเดาว่าฉันไม่เข้าใจ Witzum และคณะ ดีพอที่จะรับรู้ว่าพวกเขากำลังอ้างสิทธิ์นั้น สำหรับเมื่อฉันคิดว่าฉันจะขอบคุณสำหรับการเขียนป้านของผู้เขียน ... มันเป็นเรื่องเล็ก ๆ ที่น่าสนใจเพราะมูลค่าการอ้างที่โดดเด่นที่สุดคือรูปแบบที่ไม่ได้เกิดจากโอกาสไม่ใช่สิ่งที่ควรจะเป็นเพราะรูปแบบ ในความเห็นของพวกเขา มันอาจเชิญการตีความที่น่าสนใจมากขึ้นเช่นของคุณหากมันไม่ได้ถูกอธิบายเกินจริงเหมือนอย่าง McKay และคณะ บอกว่ามันทำ ... อย่างน้อยก็จนกว่า McKay และคณะ ยิงพวกมันลงบนพื้นของระเบียบวิธีโดยไม่เหลืออะไรเลยที่จะต้องตีความ
Nick Stauner

5

ฉันจำได้ว่ามหาวิทยาลัยกำลังขอให้นักศึกษาสังคมศาสตร์ปีสุดท้ายสองสามครั้งในโอกาสที่แตกต่างกัน (หนึ่งในนั้นมี 1) วิธีการทำงานเฉลี่ยสำหรับโครงการของพวกเขาที่มีจุดข้อมูลไม่กี่ (ดังนั้นพวกเขาจึงไม่มีปัญหาในการใช้ซอฟต์แวร์เพียงแค่มีแนวคิดว่าจะทำคณิตศาสตร์ด้วยเครื่องคิดเลขได้อย่างไร)

พวกเขาเพียงแค่ให้ฉันดูเปล่าเมื่อฉันถามพวกเขาว่าพวกเขาต้องการเฉลี่ยประเภทใด

แต่พวกเขาทุกคนรู้สึกจำเป็นต้องใส่สถิติบางอย่างในรายงานของพวกเขาเนื่องจากมันเป็นสิ่งที่ทำ - ฉันคาดว่าพวกเขาได้อ่านเอกสารทั้งหมด 101 เรื่องที่มีสถิติโดยไม่คิดว่าสถิตินั้นหมายถึงอะไร

เป็นที่ชัดเจนว่าผู้วิจัยที่สอนพวกเขาในช่วง 3 ปีที่ผ่านมาไม่ได้สนใจเกี่ยวกับความถูกต้องของสถิติมากพอที่จะทำให้นักเรียนเข้าใจผิด

(ฉันเป็นนักเรียน Sci ในเวลานั้นฉันโพสต์สิ่งนี้เป็นคำตอบเนื่องจากความคิดเห็นค่อนข้างยาว)


นักเรียนเป็นลิงอีกกลุ่มหนึ่ง IMO ฉันจะไม่ตำหนิครูในทันทีที่พวกเขาขาดความเข้าใจโดยไม่มีหลักฐานเพิ่มเติม ... แต่ถ้ามันชัดเจนเหมือนที่คุณบอกว่าครูต้องตำหนิฉันก็ไม่แปลกใจเช่นกัน
Nick Stauner

@NickStauner ฉันตำหนิครูที่ไม่ใส่ใจเรื่องสถิติมากพอ หากพวกเขาสนใจจะมีคำถามอย่างน้อยหนึ่งคำถามในแต่ละข้อสอบที่ต้องการความเข้าใจเกี่ยวกับสถิติในระดับ "วิธีโกหกกับสถิติ" ฉันไม่สนใจว่านักเรียนสังคมศาสตร์รู้วิธีการคำนวณหรือไม่ แต่พวกเขาควรรู้ว่าจะไม่ทำให้เข้าใจผิด
Ian Ringrose

ตกลงว่าพวกเขาควรรู้ แต่ไม่มีการรับประกันว่าพวกเขาจะได้รับคำถามนั้นถูกต้อง!
Nick Stauner

@NickStauner ใช่ แต่คุณได้รับสิ่งที่วัดดังนั้นคุณจะไม่ได้รับนักเรียนที่เข้าใจอะไรเกี่ยวกับสถิติจนกว่าคุณจะใส่มันในการสอบ
Ian Ringrose

อีกครั้งฉันมักจะให้เครดิตแก่ครูน้อยลงสำหรับผลลัพธ์ของนักเรียน นักเรียนจำนวนมาก (โอเคอาจจะไม่ "มากมาย" แต่มีบางอย่าง) จะสนใจพอที่จะเรียนรู้เพื่อประโยชน์ของตัวเองและบางคนจะมาที่ชั้นเรียนเพื่อทราบเนื้อหามากมาย ยกโทษให้ฉันถ้าฉันตีความความคิดเห็นของคุณอย่างแน่นอนเกินไป; ฉันยอมรับว่าบ่อยครั้งเป็นสิ่งชั่วร้ายที่จำเป็นในการบังคับให้เกิดแรงจูงใจในการเรียนรู้ให้กับนักเรียนและการทดสอบนั้นเป็นวิธีที่ดีกว่าในการเรียนรู้มากกว่าการท่องจำซ้ำซากการศึกษา / การบรรยาย
Nick Stauner

0

ในฐานะที่เป็นรายการที่ไม่สมบูรณ์อย่างเลวร้ายฉันพบว่าสถิติถูกต้องบ่อยที่สุดใน 1) เอกสารฟิสิกส์ตามด้วย 2) เอกสารสถิติและน่าสังเวชที่สุดใน 3) เอกสารทางการแพทย์ เหตุผลนี้ตรงไปตรงมาและเกี่ยวข้องกับความสมบูรณ์ของข้อกำหนดที่กำหนดไว้ในแบบจำลองต้นแบบในแต่ละสาขา

ในเอกสารฟิสิกส์สมการและสถิติประยุกต์ต้องใส่ใจกับหน่วยที่สมดุลและมีความสัมพันธ์เชิงสาเหตุที่เกิดขึ้นบ่อยที่สุดและทดสอบกับมาตรฐานทางกายภาพ

ในสถิติ 1) หน่วยและเวรกรรมบางครั้งถูกเพิกเฉยข้อสันนิษฐานบางครั้งก็เป็นฮิวริสติกและการทดสอบทางกายภาพก็มักจะถูกมองข้าม แต่ความเท่าเทียมกัน (หรือความไม่เท่าเทียมกัน) คือตรรกะโดยทั่วไปแล้ว สมมติฐานที่ไม่ใช้ฟิสิคัล

ในทางการแพทย์หน่วยโดยทั่วไปจะถูกละเว้นสมการและสมมติฐานโดยทั่วไปจะมีการวิเคราะห์พฤติกรรมโดยทั่วไปยังไม่ผ่านการทดสอบและปลอมแปลง

ตามธรรมชาติแล้วฟิลด์อย่างกลศาสตร์เชิงสถิติมีแนวโน้มที่จะมีสมมติฐานที่ทดสอบได้มากกว่าให้เราพูดเศรษฐศาสตร์และที่ไม่ได้สะท้อนความสามารถของนักเขียนที่คาดหวังในสาขาเหล่านั้น มันเกี่ยวข้องกับจำนวนของสิ่งที่กำลังทำจริง ๆ แล้ว testable และเท่าใดการทดสอบได้ทำในอดีตในแต่ละฟิลด์


-7

กระดาษที่หักล้างสมมติฐานว่างเปล่าใด ๆ คือการใช้สถิติไร้ค่า (ส่วนใหญ่ของสิ่งที่ฉันได้เห็น) กระบวนการนี้ไม่สามารถให้ข้อมูลที่ไม่ได้ระบุขนาดเอฟเฟกต์ ยิ่งไปกว่านั้นมันไม่ได้บอกเราว่าผลที่สำคัญนั้นเกิดจากสาเหตุของทฤษฎีโดยนักวิจัยหรือไม่ สิ่งนี้ต้องมีการตรวจสอบอย่างรอบคอบของข้อมูลเพื่อหาหลักฐานของข้อ จำกัด บ่อยที่สุดถ้ามีหลักฐานที่แข็งแกร่งที่สุดของหลักฐานนี้ก็ถูกโยนทิ้งไปในฐานะ "ผิด"

ฉันไม่คุ้นเคยกับวิวัฒนาการ / นิเวศวิทยา แต่ในกรณีของการวิจัยทางจิตวิทยาและการแพทย์ฉันจะเรียกระดับของความเข้าใจทางสถิติ "สับสนอย่างรุนแรง" และ "อุปสรรคต่อความก้าวหน้าทางวิทยาศาสตร์" ผู้คนควรจะพิสูจน์สิ่งที่ทฤษฎีของพวกเขาคาดการณ์ไม่ใช่สิ่งที่ตรงกันข้ามกับมัน

มีบทความมากมายที่เขียนในหัวข้อนี้ เงยหน้าขึ้นมองการโต้เถียง NHST ไฮบริด

แก้ไข: และฉันหมายถึงการทดสอบนัยสำคัญสมมุติฐานว่าง ๆ ไม่มีค่าทางวิทยาศาสตร์สูงสุด บุคคลนี้กระทบเล็บบนหัว:

http://www.johnmyleswhite.com/notebook/2012/05/18/criticism-4-of-nhst-no-mechanism-for-producing-substantive-cumulative-knowledge/

นอกจากนี้: Paul Meehl 2510 ทดสอบทฤษฎีทางจิตวิทยาและฟิสิกส์: ความขัดแย้งของระเบียบวิธี

แก้ไข 3:

หากใครบางคนมีข้อโต้แย้งในความโปรดปรานของประโยชน์ของชาวฟาง NHST ที่ไม่ต้องคิด"ปฏิเสธสมมติฐานที่ว่าอัตราการอบอุ่นเหมือนกัน แต่อย่าเอาสิ่งนี้ไปบอกเป็นนัยว่าอัตราการอบอุ่นไม่เหมือนกัน"เป็นเหตุผล คำสั่งฉันยินดีต้อนรับความคิดเห็นของคุณ

แก้ไข 4:

ฟิชเชอร์หมายถึงอะไรโดยอ้างอิงต่อไปนี้? มันแนะนำว่าเขาคิดว่า "ถ้าแบบจำลอง / ทฤษฎี A ไม่สอดคล้องกับข้อมูลเราสามารถพูดได้ว่า A เป็นเท็จ แต่ไม่มีอะไรเกี่ยวกับว่าไม่ใช่ A จริงหรือไม่"

"เป็นที่แน่นอนว่าความสนใจในการทดสอบทางสถิติสำหรับคนทำงานด้านวิทยาศาสตร์นั้นขึ้นอยู่กับการใช้งานของพวกเขาในการปฏิเสธสมมติฐานที่ได้รับการตัดสินว่าไม่สอดคล้องกับข้อสังเกต"

...

ดังนั้นจะเพิ่มความชัดเจนซึ่งการทดสอบความสำคัญอย่างมากหากเข้าใจโดยทั่วไปว่าการทดสอบความสำคัญเมื่อใช้อย่างถูกต้องสามารถปฏิเสธหรือทำให้สมมติฐานไม่ถูกต้องได้ตราบใดที่ข้อมูลเหล่านี้ขัดแย้งกับข้อมูล ; แต่พวกเขาจะไม่สามารถสร้างพวกเขาเป็นจริงได้อย่างแน่นอน

Karl Pearson และ RA Fisher ในการทดสอบสถิติ: การแลกเปลี่ยน 2478 จากธรรมชาติ

เขาคิดว่าผู้คนจะพยายามทำให้สมมติฐานที่เป็นไปได้เป็นโมฆะแทนที่จะเป็นชาวฟางหรือไม่? หรือฉันผิด


7
"กระบวนการนี้ไม่สามารถให้ข้อมูลขนาดเอฟเฟ็กต์ไม่ได้ให้" สิ่งนี้ไม่ถูกต้อง p-value ให้ข้อมูลบางอย่างเกี่ยวกับความผิดปกติของขนาดผลกระทบนี้ภายใต้สมมติฐานว่างดังนั้นจึงให้องค์ประกอบของการสอบเทียบขนาดผลกระทบ อย่าเข้าใจฉันผิดฉันคิดว่าปัจจัยของเบย์นั้นมีประโยชน์มากกว่า แต่มันก็มีความสำคัญมากที่จะบอกว่าค่า p เป็นค่าไร้ค่า
Dikran Marsupial

3
"ฉันพบว่ารูปแบบทั้งหมดที่ฉัน (และคนอื่น ๆ ) แจ้งเตือนมีค่าควรกล่าวถึง" นี่เป็นปัญหาที่เกิดขึ้นในการอภิปรายเกี่ยวกับสภาพอากาศในบล็อกดวงตาของมนุษย์ดีมากที่เห็นรูปแบบของข้อมูลที่กลายเป็นแค่เสียง และมันจะอัตราส่วนสัญญาณต่อเสียงรบกวนในการอภิปรายไม่ดีเลยไม่ได้มีอุปสรรค์บางอย่างสำหรับความคิดที่จะได้รับมากกว่าก่อนที่จะโพสต์ไว้ในบล็อก! มันเป็นหนึ่งในสาขาวิทยาศาสตร์ที่สถิติมักจะยากจนมาก
Dikran Marsupial

2
ฉันได้ยกตัวอย่างที่เป็นรูปธรรมเกี่ยวกับการดำเนินการ NHST ที่เหมาะสมกับ "ฟางมนุษย์" H0 จะเป็นประโยชน์ต่อการอภิปรายหัวข้อทางวิทยาศาสตร์ นั่นแสดงตัวอย่างตัวอย่างที่ชัดเจนซึ่งแสดงให้เห็นว่ามุมมองของคุณไม่ถูกต้อง - NHSTs มีข้อบกพร่องเหมือนที่เคยทำแต่ทำหน้าที่ที่มีประโยชน์ในวิทยาศาสตร์และสถิติ ตอนนี้หากคุณสามารถแสดงให้เห็นว่าตัวอย่างตัวอย่างของฉันถูกต้องนั่นอาจเป็นวิธีการแก้ไขปัญหา
Dikran Marsupial

2
@ Livid, NHST ดำเนินการทางวิทยาศาสตร์และสถิติไม่ใช่ฟังก์ชันที่พึงประสงค์ทางสังคม (แม้ว่าจะไม่เหมาะสมที่สุด) และมันไม่ได้ตั้งสิ่งกีดขวางตามอำเภอใจโดยทั่วไปอุปสรรค์จะถูกกำหนดโดยฝ่ายค้านต่อ H1 และมันไม่เกี่ยวข้องกับการยืนยัน " การล้มเหลว "เนื่องจากการปฏิเสธ H0 ไม่ได้หมายความว่า H1 เป็นความจริง ไม่เลยมันไม่ถูกต้อง
Dikran Marsupial

3
คุณไม่มีจุด หากคุณมีอุปสรรค์ต่ำแล้วไม่มีใครแปลกใจถ้าคุณสามารถเจรจาได้สำเร็จ อย่างไรก็ตามถ้าคุณมีอุปสรรค์ต่ำ แต่คุณยังไม่สามารถเอาชนะมันได้นั่นจะบอกอะไรคุณ อย่างที่ฉันพูดไปบ่อย ๆ การปฏิเสธโมฆะไม่ได้หมายความว่า H1 เป็นจริงดังนั้นการปฏิเสธ H0 ไม่ได้หมายความว่ามีการหยุดชั่วคราวแน่นอนไม่ได้บอกคุณว่าทำไมหยุดชั่วคราว แต่ถ้าคุณไม่สามารถผ่านพ้นอุปสรรคในการปฏิเสธ H0 ได้แสดงว่าบางทีอาจมีหลักฐานไม่เพียงพอที่จะยืนยัน H1 ในความเป็นจริง (ซึ่งเป็นสิ่งที่เกิดขึ้นในกรณีนี้)
Dikran Marsupial
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.