ทำไม“ สำคัญทางสถิติ” ไม่เพียงพอ?


46

ฉันเสร็จสิ้นการวิเคราะห์ข้อมูลและได้รับ "ผลลัพธ์ที่มีนัยสำคัญทางสถิติ" ซึ่งสอดคล้องกับสมมติฐานของฉัน อย่างไรก็ตามนักเรียนในสถิติบอกว่านี่เป็นข้อสรุปก่อนวัยอันควร ทำไม? จำเป็นต้องมีสิ่งอื่นอีกไหมในรายงานของฉัน?


4
ขึ้นอยู่กับสิ่งที่คุณหมายถึงมาก "ได้ผลลัพธ์ที่มีนัยสำคัญทางสถิติสอดคล้องกับสมมติฐาน" หากสมมติฐานของคุณคือลมที่เกิดจากต้นไม้และการทดสอบของคุณแสดงให้เห็นว่าในการสังเกต 100% เมื่อต้นไม้เคลื่อนที่สาขาของพวกเขามีลมคุณจะพบว่ามันมีนัยสำคัญทางสถิติและ voila ข้อสรุปของคุณได้รับการพิสูจน์แล้ว ซึ่งผิดอย่างเห็นได้ชัด ดังนั้นนี่อาจเป็นหนึ่งในกรณีเหล่านั้น
sashkello

1
คุณจะต้องมีการศึกษาติดตามเพื่อประกาศ "การค้นพบที่สำคัญ" อย่างปลอดภัยโดยใช้การรวบรวมข้อมูลที่ออกแบบมาอย่างดีแบบจำลองเดียวกันและการทดสอบสมมติฐานเดียวกัน นอกจากนี้คุณต้องตรวจสอบให้แน่ใจว่าชุดข้อมูลปัจจุบันของคุณแสดงถึง "ประชากรทั่วไป" ที่คุณกำลังเรียกร้องเกี่ยวกับการค้นพบที่สำคัญ (นี่เป็นปัญหาสำคัญสำหรับการอนุมานด้วย "ข้อมูลขนาดใหญ่")
ความน่าจะเป็นของระบบ

1
แน่นอนคำตอบนั้นง่ายเหมือน 'ความสัมพันธ์ไม่ใช่สาเหตุ'?
Fractional

1
นี่คือหนึ่งในรายการโปรดของฉัน: คนที่กินข้าวมากกว่าจะได้ลูกมากกว่า การตรวจสอบประชากรโลกทั้งโลกคุณจะได้รับผลลัพธ์ที่มีนัยสำคัญทางสถิติ ...
Karoly Horvath

4
คำตอบที่ยอดเยี่ยม แต่ฉันประหลาดใจที่ไม่มีใครแนะนำวิธีแก้ปัญหาที่ชัดเจน: ถามเขา / เธอ เมื่อใดก็ตามที่มีคนบอกคุณว่าคุณผิดเกี่ยวกับงานของคุณหรือสิ่งอื่นที่คุณสนใจเพียงแค่ถาม บอกคนที่เขาผิดเพราะ X, y และ Z เจ๋ง - มันเป็นโอกาสการเรียนรู้ แต่เพียงแค่บอกใครบางคนเขาผิดและห้าวหาญเป็นย้ายกระเจี๊ยว
Sylverdrag

คำตอบ:


53

การทดสอบสมมติฐานกับการประมาณค่าพารามิเตอร์

โดยทั่วไปแล้วสมมติฐานจะถูกวางกรอบด้วยวิธีไบนารี่ ฉันจะใส่สมมุติฐานทิศทางไปทางด้านหนึ่งเนื่องจากพวกเขาไม่เปลี่ยนแปลงปัญหามากนัก เป็นเรื่องปกติอย่างน้อยในด้านจิตวิทยาที่จะพูดถึงสมมติฐานเช่น: ความแตกต่างระหว่างกลุ่มหมายความว่าเป็นหรือไม่เป็นศูนย์; ความสัมพันธ์เป็นหรือไม่เป็นศูนย์ สัมประสิทธิ์การถดถอยหรือไม่เป็นศูนย์; r-square คือหรือไม่เป็นศูนย์ ในทุกกรณีเหล่านี้มีสมมติฐานว่างเปล่าที่ไม่มีผลกระทบและเป็นสมมติฐานทางเลือกของผลกระทบ

การคิดเลขฐานสองนี้โดยทั่วไปไม่ใช่สิ่งที่เราสนใจมากที่สุดเมื่อคุณคิดถึงคำถามการวิจัยของคุณคุณจะพบว่าคุณมีความสนใจจริง ๆ ในการประมาณค่าพารามิเตอร์ คุณสนใจในความแตกต่างที่แท้จริงระหว่างค่าเฉลี่ยของกลุ่มหรือขนาดของสหสัมพันธ์หรือขนาดของสัมประสิทธิ์การถดถอยหรือจำนวนความแปรปรวนที่อธิบาย

แน่นอนเมื่อเราได้รับตัวอย่างของข้อมูลการประมาณตัวอย่างของพารามิเตอร์นั้นไม่เหมือนกับพารามิเตอร์ประชากร ดังนั้นเราจึงต้องการวิธีการวัดความไม่แน่นอนของปริมาณเกี่ยวกับค่าของพารามิเตอร์ที่อาจเป็น จากมุมมองของผู้ใช้บ่อยๆช่วงความมั่นใจเป็นวิธีการทำแม้ว่านักสอนแบบเบย์อาจอ้างว่าพวกเขาไม่อนุญาตการอนุมานที่คุณอาจต้องการ จากมุมมองแบบเบย์ช่วงเวลาที่น่าเชื่อถือบนความหนาแน่นหลังนั้นเป็นวิธีที่ตรงกว่าในการหาปริมาณความไม่แน่นอนของคุณเกี่ยวกับค่าของพารามิเตอร์ประชากร

พารามิเตอร์ / ขนาดผลกระทบ

R2

มีวรรณกรรมมากมายในด้านจิตวิทยา (และสาขาอื่น ๆ ) วิเคราะห์การมุ่งเน้นไปที่ค่า p, การทดสอบนัยสำคัญสมมุติฐานว่างและอื่น ๆ (ดูการค้นหา Google Scholarนี้) บทความนี้มักจะแนะนำขนาดรายงานผลที่มีช่วงความเชื่อมั่นเป็นมติ (เช่น APA Task Force โดย Wilkinson, 1999)

ขั้นตอนสำหรับการย้ายออกจากการทดสอบสมมติฐานคู่

หากคุณกำลังคิดที่จะนำความคิดนี้ไปใช้ฉันคิดว่ามีวิธีการที่ซับซ้อนกว่าที่คุณสามารถทำได้:

  • วิธีที่ 1a รายงานการประมาณค่าพอยต์ของเอฟเฟกต์ตัวอย่างของคุณ (เช่นความแตกต่างของค่าเฉลี่ยกลุ่ม) ทั้งในแง่ดิบและมาตรฐาน เมื่อคุณรายงานผลลัพธ์ของคุณหารือถึงความสำคัญดังกล่าวสำหรับทฤษฎีและการปฏิบัติ
  • เข้าหา 1b. เพิ่ม 1a เป็นอย่างน้อยในระดับพื้นฐานมากความรู้สึกไม่แน่นอนเกี่ยวกับการประมาณค่าพารามิเตอร์ของคุณขึ้นอยู่กับขนาดตัวอย่างของคุณ
  • วิธีที่ 2 นอกจากนี้ยังรายงานช่วงเวลาความมั่นใจเกี่ยวกับขนาดผลกระทบและรวมความไม่แน่นอนนี้ไว้ในความคิดของคุณเกี่ยวกับค่าที่เป็นไปได้ของพารามิเตอร์ที่น่าสนใจ
  • วิธีการ 3. รายงานช่วงเวลาที่น่าเชื่อถือแบบเบย์และตรวจสอบผลกระทบของสมมติฐานต่าง ๆ เกี่ยวกับช่วงเวลาที่น่าเชื่อถือนั้นเช่นตัวเลือกก่อนหน้ากระบวนการสร้างข้อมูลที่เกี่ยวข้องกับแบบจำลองของคุณเป็นต้น

ในการอ้างอิงที่เป็นไปได้มากมายคุณจะเห็นAndrew Gelmanพูดคุยเกี่ยวกับปัญหาเหล่านี้มากมายในบล็อกของเขาและในการวิจัยของเขา

อ้างอิง

  • Nickerson, RS (2000) การทดสอบสมมติฐานที่มีนัยสำคัญเป็นโมฆะ: การทบทวนข้อพิพาทเก่าและต่อเนื่อง วิธีการทางจิตวิทยา, 5 (2), 241
  • Wilkinson, L. (1999) วิธีการทางสถิติในวารสารจิตวิทยา: แนวทางและคำอธิบาย นักจิตวิทยาอเมริกันอายุ 54 ปี (8), 594. PDF

12
นอกจากความคิดเห็นของ Jeromy ฉันขอแนะนำให้คุณอ่านบทความของ Ziliac และ McCloskey เกี่ยวกับลัทธิทางสถิติที่มีนัยสำคัญ มันไม่ใช่สถิติที่น่าเหลือเชื่อที่สุด แต่มันให้ความคิดและความบันเทิง - การอภิปรายว่าทำไมขนาดของเอฟเฟกต์ความสำคัญในทางปฏิบัติและฟังก์ชั่นการสูญเสียจึงมีความสำคัญอย่างยิ่ง deirdremccloskey.com/docs/jsm.pdf
Jim

ฉันคิดว่าบางทีบางครั้ง p ควรถูกตั้งค่าต่ำกว่า. 05 ขอบคุณทุกคน: gung, Jeromy and Jim
Jim Von

1
ใน Ziliak [NB] และ McCloskey: หากคุณไม่ว่างอ่านphil.vt.edu/dmayo/personal_website/…ก่อน หากคุณไม่ว่างให้อ่านก่อน
Nick Cox

ยินดีต้อนรับคุณ @JimVon FWIW บางครั้งฉันคิดว่าควรตั้งค่า p สูงกว่า. 05 มันขึ้นอยู่กับ
gung - Reinstate Monica

1
ดีใจที่ได้พบ Dr. Gelman ได้รับการตั้งชื่อที่นี่ เห็นได้ชัดว่าเขาไม่ชอบรายงานค่า p ให้ใช้มันเพื่อการอนุมานร้ายแรง เขายังเป็นกรณีที่ดีสำหรับการทำให้ตัวแปรทั้งหมดของคุณเป็นมาตรฐานแน่นอน
shadowtalker

26

เพียงเพิ่มคำตอบที่มีอยู่ (ซึ่งยอดเยี่ยมโดยวิธี) มันเป็นสิ่งสำคัญที่จะทราบว่ามีนัยสำคัญทางสถิติคือฟังก์ชั่นที่มีขนาดตัวอย่าง

เมื่อคุณได้รับข้อมูลมากขึ้นคุณจะพบความแตกต่างอย่างมีนัยสำคัญทางสถิติไม่ว่าคุณจะมองที่ใด เมื่อปริมาณข้อมูลมีขนาดใหญ่มากแม้แต่ผลกระทบน้อยที่สุดก็สามารถนำไปสู่นัยสำคัญทางสถิติได้ นี่ไม่ได้หมายความว่าเอฟเฟ็กต์มีความหมายในทางปฏิบัติใด ๆ

pp


นี่คือจุดที่อยู่ในสไลด์ของฉัน 13 :)
Stéphane Laurent

6
+1 สำหรับสิ่งนี้ ผู้คนที่ไม่ได้ตระหนักถึงความสำคัญคือฟังก์ชั่นของขนาดตัวอย่างทำให้ฉันรู้สึกอึดอัด
Fomite

12

หากมีพื้นฐานที่สมเหตุสมผลในการสงสัยว่าสมมติฐานของคุณอาจเป็นจริงก่อนที่คุณจะทำการศึกษา และคุณได้ทำการศึกษาที่ดี (เช่นคุณไม่ได้ก่อให้เกิดความสับสน) และผลลัพธ์ของคุณสอดคล้องกับสมมติฐานของคุณและมีนัยสำคัญทางสถิติ ถ้าอย่างนั้นฉันคิดว่าคุณสบายดี

อย่างไรก็ตามคุณไม่ควรคิดว่าความสำคัญคือสิ่งที่สำคัญในผลลัพธ์ของคุณ ก่อนอื่นคุณควรดูขนาดของเอฟเฟกต์ด้วย (ดูคำตอบของฉันที่นี่: ขนาดเอฟเฟกต์เป็นสมมติฐานสำหรับการทดสอบที่สำคัญ ) คุณอาจต้องการสำรวจข้อมูลของคุณสักเล็กน้อยและดูว่าคุณสามารถพบความประหลาดใจที่น่าสนใจที่อาจมีค่าในการติดตามหรือไม่


คุณหมายถึงสมมติฐานควรสมเหตุสมผลหรือไม่ และจะตัดสินได้อย่างไรว่าสมมติฐานของฉันจะนำไปสู่การวิเคราะห์ข้อมูลที่ไร้ความหมายหรือไม่? “ น่าประหลาดใจที่น่าสนใจ” ควรเปิดเผยโดยโพสต์
Jim Von

สิ่งที่ฉันหมายถึงคือคงมีเหตุผลที่ถูกต้องในการดำเนินการศึกษาในสถานที่ที่ 1 ความรู้ทางทฤษฎีในปัจจุบันและ / หรือการศึกษาล่าสุดชี้ให้เห็นว่าสมมติฐานของคุณอาจเป็นจริง สมมติฐานของคุณไม่น่าจะเป็น "นำไปสู่การวิเคราะห์ข้อมูลที่ไม่มีความหมาย" เว้นแต่จะไม่สอดคล้องกัน อาจพบความประหลาดใจ / คุณสมบัติที่น่าสนใจของข้อมูลของคุณได้เป็นอย่างดี ความจริงที่ว่าพวกเขาเป็นที่น่าประหลาดใจหมายความว่าคุณไม่รู้ว่าพวกเขาจะเกิดขึ้นเมื่อคุณวางแผนการศึกษา ปัญหาเกี่ยวกับ "โพสต์เฉพาะกิจ" คือจะเชื่อความประหลาดใจ - พวกเขาจะต้องได้รับการยืนยันจากการวิจัยในอนาคต
gung - Reinstate Monica

7

ก่อนที่จะรายงานสิ่งนี้และสิ่งนี้กับสิ่งนี้และสิ่งนี้และสิ่งนี้เริ่มต้นด้วยการกำหนดสิ่งที่คุณต้องการเรียนรู้จากข้อมูลการทดลองของคุณ ปัญหาหลักของการทดสอบสมมติฐานตามปกติ (การทดสอบเหล่านี้ที่เราเรียนที่โรงเรียน ... ) ไม่ใช่ปัญหาที่เกิดขึ้นจริง: ปัญหาหลักคือการทดสอบสำหรับสมมติฐานที่ไม่ใช่สมมติฐานที่น่าสนใจ ดูสไลด์ 13 ที่นี่ (ดาวน์โหลด pdf เพื่อชื่นชมภาพเคลื่อนไหว) เกี่ยวกับขนาดของเอฟเฟกต์ไม่มีนิยามทั่วไปของความคิดนี้ ตรงไปตรงมาฉันจะไม่แนะนำให้ใช้นี้สำหรับนักสถิติที่ไม่ใช่ผู้เชี่ยวชาญเหล่านี้เป็นเทคนิคไม่เป็นธรรมชาติมาตรการของ "ผล" สมมติฐานของคุณที่น่าสนใจควรกำหนดในแง่ที่เข้าใจได้โดยคนธรรมดา


1
การเพิ่มเล็ก ๆ น้อย ๆ หนึ่ง - สมมติฐานว่างควรจริง ๆ แล้วสิ่งที่อยู่นอกบริบทของการวิเคราะห์ข้อมูลปัจจุบันสำหรับ HT มาตรฐานที่จะใช้ ไม่ควร "ประดิษฐ์" เพื่อให้คุณมีบางสิ่งที่ปฏิเสธในทางทฤษฎี / การค้นหาของคุณ
ความน่าจะเป็นเชิง

2

ฉันยังห่างไกลจากผู้เชี่ยวชาญเกี่ยวกับสถิติ แต่สิ่งหนึ่งที่เน้นย้ำในหลักสูตรสถิติที่ฉันทำจนถึงปัจจุบันคือปัญหาของ "ความสำคัญในทางปฏิบัติ" ฉันเชื่อว่าสิ่งนี้บ่งบอกถึงสิ่งที่ Jeromy และ gung กำลังพูดถึงเมื่อกล่าวถึง "ขนาดเอฟเฟกต์"

เรามีตัวอย่างในชั้นเรียนของอาหาร 12 สัปดาห์ที่มีผลการลดน้ำหนักอย่างมีนัยสำคัญทางสถิติ แต่ช่วงความเชื่อมั่น 95% แสดงให้เห็นว่าการลดน้ำหนักเฉลี่ยระหว่าง 0.2 และ 1.2 กิโลกรัม (ตกลงข้อมูลอาจถูกสร้างขึ้น แต่มันแสดงถึงจุด) . ในขณะที่ "สถิติอย่างมีนัยสำคัญ" "แตกต่างจากศูนย์คือการสูญเสียน้ำหนัก 200 กรัมในช่วง 12 สัปดาห์ผล" สำคัญจริง "เพื่อคนที่มีน้ำหนักเกินพยายามที่จะมีสุขภาพดี?


ตรงนี้คือจุดต่อไปสไลด์ของฉัน 13 :)
Stéphane Laurent

2
นี่เป็นตัวอย่างของการทดสอบสมมติฐานว่าง "ผิด" ไม่ใช่ข้อสรุปที่คุณสนใจการทดสอบสมมติฐานที่ดีกว่าคือการลดน้ำหนักน้อยกว่า 5 กิโลกรัมเทียบกับมากกว่า 5 กิโลกรัม
ความน่าจะเป็นทาง

1

นี่เป็นไปไม่ได้ที่จะตอบอย่างถูกต้องโดยไม่ทราบรายละเอียดเพิ่มเติมเกี่ยวกับการศึกษาของคุณและคำวิจารณ์ของบุคคลนั้น แต่นี่เป็นความเป็นไปได้อย่างหนึ่ง: หากคุณทำการทดสอบหลายครั้งและคุณเลือกที่จะมุ่งเน้นไปที่สิ่งที่ออกมาp<0.05และเพิกเฉยต่อคนอื่น "ความสำคัญ" นั้นได้รับการเจือจางโดยข้อเท็จจริงที่ว่าคุณให้ความสนใจในการคัดเลือก ในฐานะที่เป็นปั๊มปรีชาสำหรับสิ่งนี้โปรดจำไว้ว่านั่นp=0.05หมายความว่า "ผลลัพธ์นี้จะเกิดขึ้นโดยบังเอิญ (เท่านั้น) 5% ของเวลาแม้ว่าสมมติฐานว่างจะเป็นจริง" ดังนั้นยิ่งคุณทดสอบมากเท่าไหร่ก็ยิ่งมีโอกาสมากขึ้นที่การทดสอบอย่างน้อยหนึ่งครั้งจะเป็นผลลัพธ์ที่ "สำคัญ" โดยบังเอิญแม้ว่าจะไม่มีผลก็ตาม ดูhttp://en.wikipedia.org/wiki/Multiple_comparisonsและhttp://en.wikipedia.org/wiki/Post-hoc_analysis


0

ฉันขอแนะนำให้คุณอ่านต่อไปนี้:

แอนเดอร์สัน, DR, เบิร์นแฮม, KP, ทอมป์สัน, WL, 2000 การทดสอบสมมติฐานที่ว่างเปล่า: ปัญหาความชุกและทางเลือกอื่น เจไวลด์ จัดการ. 64, 912-923 Gigerenzer, G. , 2004 สถิติไร้เหตุผล วารสารเศรษฐกิจและสังคม 33, 587-606 Johnson, DH, 1999. ความสำคัญของการทดสอบนัยสำคัญทางสถิติ วารสารการจัดการสัตว์ป่า 63, 763-772

สมมติฐานที่ไม่ค่อยน่าสนใจในแง่ที่ว่าจากการทดลองใด ๆ หรือชุดการสังเกตมีสองผลลัพธ์: การปฏิเสธโมฆะหรือทำให้เกิดข้อผิดพลาด Type II ได้อย่างถูกต้อง ขนาดเอฟเฟกต์เป็นสิ่งที่คุณน่าสนใจในการกำหนดและเมื่อเสร็จแล้วคุณควรสร้างช่วงความมั่นใจสำหรับขนาดเอฟเฟกต์นั้น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.