ฉันเสร็จสิ้นการวิเคราะห์ข้อมูลและได้รับ "ผลลัพธ์ที่มีนัยสำคัญทางสถิติ" ซึ่งสอดคล้องกับสมมติฐานของฉัน อย่างไรก็ตามนักเรียนในสถิติบอกว่านี่เป็นข้อสรุปก่อนวัยอันควร ทำไม? จำเป็นต้องมีสิ่งอื่นอีกไหมในรายงานของฉัน?
ฉันเสร็จสิ้นการวิเคราะห์ข้อมูลและได้รับ "ผลลัพธ์ที่มีนัยสำคัญทางสถิติ" ซึ่งสอดคล้องกับสมมติฐานของฉัน อย่างไรก็ตามนักเรียนในสถิติบอกว่านี่เป็นข้อสรุปก่อนวัยอันควร ทำไม? จำเป็นต้องมีสิ่งอื่นอีกไหมในรายงานของฉัน?
คำตอบ:
โดยทั่วไปแล้วสมมติฐานจะถูกวางกรอบด้วยวิธีไบนารี่ ฉันจะใส่สมมุติฐานทิศทางไปทางด้านหนึ่งเนื่องจากพวกเขาไม่เปลี่ยนแปลงปัญหามากนัก เป็นเรื่องปกติอย่างน้อยในด้านจิตวิทยาที่จะพูดถึงสมมติฐานเช่น: ความแตกต่างระหว่างกลุ่มหมายความว่าเป็นหรือไม่เป็นศูนย์; ความสัมพันธ์เป็นหรือไม่เป็นศูนย์ สัมประสิทธิ์การถดถอยหรือไม่เป็นศูนย์; r-square คือหรือไม่เป็นศูนย์ ในทุกกรณีเหล่านี้มีสมมติฐานว่างเปล่าที่ไม่มีผลกระทบและเป็นสมมติฐานทางเลือกของผลกระทบ
การคิดเลขฐานสองนี้โดยทั่วไปไม่ใช่สิ่งที่เราสนใจมากที่สุดเมื่อคุณคิดถึงคำถามการวิจัยของคุณคุณจะพบว่าคุณมีความสนใจจริง ๆ ในการประมาณค่าพารามิเตอร์ คุณสนใจในความแตกต่างที่แท้จริงระหว่างค่าเฉลี่ยของกลุ่มหรือขนาดของสหสัมพันธ์หรือขนาดของสัมประสิทธิ์การถดถอยหรือจำนวนความแปรปรวนที่อธิบาย
แน่นอนเมื่อเราได้รับตัวอย่างของข้อมูลการประมาณตัวอย่างของพารามิเตอร์นั้นไม่เหมือนกับพารามิเตอร์ประชากร ดังนั้นเราจึงต้องการวิธีการวัดความไม่แน่นอนของปริมาณเกี่ยวกับค่าของพารามิเตอร์ที่อาจเป็น จากมุมมองของผู้ใช้บ่อยๆช่วงความมั่นใจเป็นวิธีการทำแม้ว่านักสอนแบบเบย์อาจอ้างว่าพวกเขาไม่อนุญาตการอนุมานที่คุณอาจต้องการ จากมุมมองแบบเบย์ช่วงเวลาที่น่าเชื่อถือบนความหนาแน่นหลังนั้นเป็นวิธีที่ตรงกว่าในการหาปริมาณความไม่แน่นอนของคุณเกี่ยวกับค่าของพารามิเตอร์ประชากร
มีวรรณกรรมมากมายในด้านจิตวิทยา (และสาขาอื่น ๆ ) วิเคราะห์การมุ่งเน้นไปที่ค่า p, การทดสอบนัยสำคัญสมมุติฐานว่างและอื่น ๆ (ดูการค้นหา Google Scholarนี้) บทความนี้มักจะแนะนำขนาดรายงานผลที่มีช่วงความเชื่อมั่นเป็นมติ (เช่น APA Task Force โดย Wilkinson, 1999)
หากคุณกำลังคิดที่จะนำความคิดนี้ไปใช้ฉันคิดว่ามีวิธีการที่ซับซ้อนกว่าที่คุณสามารถทำได้:
ในการอ้างอิงที่เป็นไปได้มากมายคุณจะเห็นAndrew Gelmanพูดคุยเกี่ยวกับปัญหาเหล่านี้มากมายในบล็อกของเขาและในการวิจัยของเขา
เพียงเพิ่มคำตอบที่มีอยู่ (ซึ่งยอดเยี่ยมโดยวิธี) มันเป็นสิ่งสำคัญที่จะทราบว่ามีนัยสำคัญทางสถิติคือฟังก์ชั่นที่มีขนาดตัวอย่าง
เมื่อคุณได้รับข้อมูลมากขึ้นคุณจะพบความแตกต่างอย่างมีนัยสำคัญทางสถิติไม่ว่าคุณจะมองที่ใด เมื่อปริมาณข้อมูลมีขนาดใหญ่มากแม้แต่ผลกระทบน้อยที่สุดก็สามารถนำไปสู่นัยสำคัญทางสถิติได้ นี่ไม่ได้หมายความว่าเอฟเฟ็กต์มีความหมายในทางปฏิบัติใด ๆ
หากมีพื้นฐานที่สมเหตุสมผลในการสงสัยว่าสมมติฐานของคุณอาจเป็นจริงก่อนที่คุณจะทำการศึกษา และคุณได้ทำการศึกษาที่ดี (เช่นคุณไม่ได้ก่อให้เกิดความสับสน) และผลลัพธ์ของคุณสอดคล้องกับสมมติฐานของคุณและมีนัยสำคัญทางสถิติ ถ้าอย่างนั้นฉันคิดว่าคุณสบายดี
อย่างไรก็ตามคุณไม่ควรคิดว่าความสำคัญคือสิ่งที่สำคัญในผลลัพธ์ของคุณ ก่อนอื่นคุณควรดูขนาดของเอฟเฟกต์ด้วย (ดูคำตอบของฉันที่นี่: ขนาดเอฟเฟกต์เป็นสมมติฐานสำหรับการทดสอบที่สำคัญ ) คุณอาจต้องการสำรวจข้อมูลของคุณสักเล็กน้อยและดูว่าคุณสามารถพบความประหลาดใจที่น่าสนใจที่อาจมีค่าในการติดตามหรือไม่
ก่อนที่จะรายงานสิ่งนี้และสิ่งนี้กับสิ่งนี้และสิ่งนี้และสิ่งนี้เริ่มต้นด้วยการกำหนดสิ่งที่คุณต้องการเรียนรู้จากข้อมูลการทดลองของคุณ ปัญหาหลักของการทดสอบสมมติฐานตามปกติ (การทดสอบเหล่านี้ที่เราเรียนที่โรงเรียน ... ) ไม่ใช่ปัญหาที่เกิดขึ้นจริง: ปัญหาหลักคือการทดสอบสำหรับสมมติฐานที่ไม่ใช่สมมติฐานที่น่าสนใจ ดูสไลด์ 13 ที่นี่ (ดาวน์โหลด pdf เพื่อชื่นชมภาพเคลื่อนไหว) เกี่ยวกับขนาดของเอฟเฟกต์ไม่มีนิยามทั่วไปของความคิดนี้ ตรงไปตรงมาฉันจะไม่แนะนำให้ใช้นี้สำหรับนักสถิติที่ไม่ใช่ผู้เชี่ยวชาญเหล่านี้เป็นเทคนิคไม่เป็นธรรมชาติมาตรการของ "ผล" สมมติฐานของคุณที่น่าสนใจควรกำหนดในแง่ที่เข้าใจได้โดยคนธรรมดา
ฉันยังห่างไกลจากผู้เชี่ยวชาญเกี่ยวกับสถิติ แต่สิ่งหนึ่งที่เน้นย้ำในหลักสูตรสถิติที่ฉันทำจนถึงปัจจุบันคือปัญหาของ "ความสำคัญในทางปฏิบัติ" ฉันเชื่อว่าสิ่งนี้บ่งบอกถึงสิ่งที่ Jeromy และ gung กำลังพูดถึงเมื่อกล่าวถึง "ขนาดเอฟเฟกต์"
เรามีตัวอย่างในชั้นเรียนของอาหาร 12 สัปดาห์ที่มีผลการลดน้ำหนักอย่างมีนัยสำคัญทางสถิติ แต่ช่วงความเชื่อมั่น 95% แสดงให้เห็นว่าการลดน้ำหนักเฉลี่ยระหว่าง 0.2 และ 1.2 กิโลกรัม (ตกลงข้อมูลอาจถูกสร้างขึ้น แต่มันแสดงถึงจุด) . ในขณะที่ "สถิติอย่างมีนัยสำคัญ" "แตกต่างจากศูนย์คือการสูญเสียน้ำหนัก 200 กรัมในช่วง 12 สัปดาห์ผล" สำคัญจริง "เพื่อคนที่มีน้ำหนักเกินพยายามที่จะมีสุขภาพดี?
นี่เป็นไปไม่ได้ที่จะตอบอย่างถูกต้องโดยไม่ทราบรายละเอียดเพิ่มเติมเกี่ยวกับการศึกษาของคุณและคำวิจารณ์ของบุคคลนั้น แต่นี่เป็นความเป็นไปได้อย่างหนึ่ง: หากคุณทำการทดสอบหลายครั้งและคุณเลือกที่จะมุ่งเน้นไปที่สิ่งที่ออกมาp<0.05
และเพิกเฉยต่อคนอื่น "ความสำคัญ" นั้นได้รับการเจือจางโดยข้อเท็จจริงที่ว่าคุณให้ความสนใจในการคัดเลือก ในฐานะที่เป็นปั๊มปรีชาสำหรับสิ่งนี้โปรดจำไว้ว่านั่นp=0.05
หมายความว่า "ผลลัพธ์นี้จะเกิดขึ้นโดยบังเอิญ (เท่านั้น) 5% ของเวลาแม้ว่าสมมติฐานว่างจะเป็นจริง" ดังนั้นยิ่งคุณทดสอบมากเท่าไหร่ก็ยิ่งมีโอกาสมากขึ้นที่การทดสอบอย่างน้อยหนึ่งครั้งจะเป็นผลลัพธ์ที่ "สำคัญ" โดยบังเอิญแม้ว่าจะไม่มีผลก็ตาม ดูhttp://en.wikipedia.org/wiki/Multiple_comparisonsและhttp://en.wikipedia.org/wiki/Post-hoc_analysis
ฉันขอแนะนำให้คุณอ่านต่อไปนี้:
แอนเดอร์สัน, DR, เบิร์นแฮม, KP, ทอมป์สัน, WL, 2000 การทดสอบสมมติฐานที่ว่างเปล่า: ปัญหาความชุกและทางเลือกอื่น เจไวลด์ จัดการ. 64, 912-923 Gigerenzer, G. , 2004 สถิติไร้เหตุผล วารสารเศรษฐกิจและสังคม 33, 587-606 Johnson, DH, 1999. ความสำคัญของการทดสอบนัยสำคัญทางสถิติ วารสารการจัดการสัตว์ป่า 63, 763-772
สมมติฐานที่ไม่ค่อยน่าสนใจในแง่ที่ว่าจากการทดลองใด ๆ หรือชุดการสังเกตมีสองผลลัพธ์: การปฏิเสธโมฆะหรือทำให้เกิดข้อผิดพลาด Type II ได้อย่างถูกต้อง ขนาดเอฟเฟกต์เป็นสิ่งที่คุณน่าสนใจในการกำหนดและเมื่อเสร็จแล้วคุณควรสร้างช่วงความมั่นใจสำหรับขนาดเอฟเฟกต์นั้น