วิธีการตีความและรายงานกทพ. กำลังสอง / กทพ. บางส่วนในการวิเคราะห์ที่มีนัยสำคัญทางสถิติและไม่มีนัยสำคัญ?


39

ฉันมีข้อมูลที่มีค่ากทพ. และค่ากทพ. ส่วนที่คำนวณได้เป็นการคำนวณขนาดของเอฟเฟกต์สำหรับความแตกต่างของค่าเฉลี่ยกลุ่ม

  • อะไรคือความแตกต่างระหว่างกทพ. กับสแควร์และกทพ. บางส่วน พวกเขาสามารถตีความโดยใช้แนวทางของโคเฮนเดียวกันได้หรือไม่ (1988 ฉันคิดว่า: 0.01 = เล็ก, 0.06 = ปานกลาง, 0.13 = ใหญ่)?

  • นอกจากนี้ยังมีการใช้ขนาดรายงานผลกระทบหรือไม่หากการทดสอบเปรียบเทียบ (เช่น t-test หรือ one-way ANOVA) ไม่มีความหมาย? ในหัวของฉันนี่ก็เหมือนกับการพูดว่า "ความแตกต่างเฉลี่ยไม่ถึงนัยสำคัญทางสถิติ แต่ยังคงเป็นข้อความที่เจาะจงเพราะขนาดของเอฟเฟกต์ที่ระบุจากกทพ. กำลังปานกลาง" หรือขนาดของเอฟเฟกต์เป็นค่าทดแทนสำหรับการทดสอบอย่างมีนัยสำคัญแทนที่จะเป็นส่วนประกอบเสริมหรือไม่


ในความเป็นจริง SPSS คำนวณส่วนของกทพ. สำหรับ ANOVAs ทั้งหมด สิ่งนี้จะให้ค่าเดียวกับกทพ. กำลังสองในการออกแบบกลุ่มอิสระ IV เดี่ยว แต่ค่าที่แตกต่างกันในการออกแบบมาตรการ IV เดียวซ้ำ สิ่งนี้ทำให้ไม่มีปัญหากับนักเรียนของฉัน

คำตอบ:


43

ขนาดผลสำหรับความแตกต่างของค่าเฉลี่ยกลุ่ม

  • โดยทั่วไปแล้วฉันพบว่ากลุ่มที่ได้มาตรฐานหมายถึงความแตกต่าง (เช่น Cohen's d) การวัดขนาดของเอฟเฟกต์ที่มีความหมายมากกว่าในบริบทของความแตกต่างของกลุ่ม มาตรการเช่นกทพ. ได้รับอิทธิพลจากขนาดกลุ่มตัวอย่างเท่ากันในขณะที่โคเฮนไม่ได้เป็นเช่นนั้น ฉันยังคิดว่าความหมายของการวัดแบบ d-based นั้นง่ายกว่าเมื่อคุณพยายามหาปริมาณคือความแตกต่างระหว่างความหมายของกลุ่ม
  • ประเด็นข้างต้นมีความแข็งแกร่งเป็นพิเศษสำหรับกรณีที่คุณมีเพียงสองกลุ่ม (เช่นผลของการรักษากับการควบคุม) หากคุณมีมากกว่าสองกลุ่มสถานการณ์ก็จะซับซ้อนขึ้นเล็กน้อย ฉันสามารถดูอาร์กิวเมนต์สำหรับความแปรปรวนที่อธิบายการวัดในกรณีนี้ อีกทางเลือกหนึ่งของโคเฮนf2เป็นตัวเลือกอื่น
  • ตัวเลือกที่สามคือภายในบริบทของเอฟเฟ็กต์การทดลองแม้ว่าจะมีมากกว่าสองกลุ่มแนวคิดของเอฟเฟกต์จะดีที่สุดเมื่อเทียบกับการเปรียบเทียบแบบคู่ ในกรณีนี้คุณสามารถกลับไปใช้มาตรการ d-based อีกครั้ง การวัด d-based ไม่ใช่การวัดขนาดของผลกระทบสำหรับปัจจัย แต่เป็นของกลุ่มหนึ่งที่สัมพันธ์กับกลุ่มอ้างอิง กุญแจสำคัญคือการกำหนดกลุ่มอ้างอิงที่มีความหมาย
  • ในที่สุดมันเป็นสิ่งสำคัญที่ต้องจำเป้าหมายที่กว้างขึ้นของการรวมถึงการวัดขนาดของเอฟเฟกต์ มันคือการให้ผู้อ่านรู้สึกถึงขนาดของผลกระทบที่น่าสนใจ การวัดผลมาตรฐานใด ๆ ควรช่วยผู้อ่านในงานนี้ หากตัวแปรตามอยู่ในระดับที่มีความหมายอย่างแท้จริงแล้วอย่าอายที่จะตีความขนาดของเอฟเฟกต์ในแง่ของสเกลนั้น เช่นเครื่องชั่งเช่นเวลาตอบสนองเงินเดือนความสูงน้ำหนัก ฯลฯ มีความหมายโดยเนื้อแท้ หากคุณพบว่าฉันทำเช่นนั้นกทพ. กำลังสองจะไม่คุ้นเคยในบริบทของเอฟเฟกต์การทดลองบางทีเลือกดัชนีอื่น

Eta กำลังสองเทียบกับกทพ. บางส่วน

  • Partial eta squared เป็นการวัดขนาดของเอฟเฟกต์เริ่มต้นที่รายงานในโพรซีเดอร์ ANOVA ใน SPSS ฉันคิดว่านี่เป็นเหตุผลที่ฉันได้รับคำถามเกี่ยวกับเรื่องนี้บ่อยๆ
  • หากคุณมีตัวแปรตัวทำนายเพียงตัวเดียวดังนั้นพินิจพิเคราะห์บางส่วนจะเท่ากับเอต้ากำลังสอง
  • นี้บทความอธิบายความแตกต่างระหว่างการทางพิเศษแห่งประเทศไทยยืดและการทางพิเศษแห่งประเทศไทยบางส่วนยกกำลังสอง (Levine และ Hullett Eta Squared, บางส่วน Eta Squared .. )
  • โดยสรุปหากคุณมีตัวทำนายมากกว่าหนึ่งตัวกทพ. บางส่วนคือความแปรปรวนที่อธิบายโดยตัวแปรที่กำหนดของความแปรปรวนที่เหลืออยู่หลังจากไม่รวมความแปรปรวนที่อธิบายโดยตัวทำนายอื่น ๆ

กฎของหัวแม่มือสำหรับกทพ. และบางส่วนกทพ

  • หากคุณมีตัวทำนายหนึ่งตัวเท่านั้นกทพ. กำลังสองและกทพ. กำลังสองบางส่วนจะเท่ากันดังนั้นจึงใช้กฏเดียวกันนี้
  • หากคุณมีตัวทำนายมากกว่าหนึ่งตัวฉันคิดว่ากฎทั่วไปของหัวแม่มือสำหรับกทพ. จะใช้กับกทพ. บางส่วนมากกว่ากทพ. นี่เป็นเพราะบางส่วนกทพ. กำลังสองในแฟคทอเรียล ANOVA มีเนื้อหาที่ใกล้เคียงกับสิ่งที่กทพ. กำลังจะเป็นเพราะมันเป็นแบบทางเดียว; และน่าจะเป็นวิธีการวิเคราะห์ความแปรปรวนทางเดียวซึ่งก่อให้เกิดกฎง่ายๆของโคเฮน โดยทั่วไปแล้วรวมถึงปัจจัยอื่น ๆ ในการออกแบบการทดลองโดยทั่วไปควรลด eta กำลังสอง แต่ไม่จำเป็นต้องเป็นบางส่วน eta ยกกำลังเนื่องจากความจริงที่ว่าปัจจัยที่สองถ้ามันมีผลเพิ่มความแปรปรวนในตัวแปรตาม
  • แม้จะมีสิ่งที่ฉันพูดเกี่ยวกับกฎง่ายๆสำหรับกทพ. และกทพ. บางส่วน แต่ฉันก็ย้ำว่าฉันไม่ใช่แฟนของความแปรปรวนอธิบายการวัดขนาดของผลกระทบในบริบทของการตีความขนาดและความหมายของผลการทดลอง กฎของหัวแม่มือนั้นเท่าเทียมกันขึ้นอยู่กับบริบทและไม่ควรจริงจังเกินไป

การรายงานขนาดผลกระทบในบริบทของผลลัพธ์ที่มีนัยสำคัญและไม่สำคัญ

  • ในบางแง่มุมเป้าหมายของการวิจัยของคุณคือการประเมินการประเมินเชิงปริมาณของผลกระทบของตัวแปรที่คุณสนใจในประชากร
  • ขนาดของเอฟเฟกต์เป็นหนึ่งในปริมาณของการประมาณจุดของเอฟเฟกต์นี้ ยิ่งขนาดตัวอย่างของคุณใหญ่ขึ้นเท่าใดโดยทั่วไปการประมาณจุดตัวอย่างของคุณจะยิ่งใกล้เคียงกับผลกระทบของประชากรจริง
  • การทดสอบอย่างมีนัยสำคัญมีวัตถุประสงค์เพื่อแยกแยะโอกาสในการอธิบายผลลัพธ์ของคุณ ดังนั้นค่า p จะบอกคุณถึงความน่าจะเป็นในการสังเกตขนาดของเอฟเฟกต์หรือมากกว่านั้นโดยสมมติว่าสมมติฐานว่างเป็นจริง
  • ในที่สุดคุณต้องการแยกแยะไม่มีผลและต้องการพูดอะไรบางอย่างเกี่ยวกับขนาดของผลกระทบประชากรจริง ช่วงความเชื่อมั่นและช่วงความน่าเชื่อถือรอบ ๆ ขนาดของเอฟเฟกต์เป็นสองวิธีที่ทำให้เกิดปัญหานี้ขึ้นโดยตรง อย่างไรก็ตามการรายงานค่า p และการประมาณขนาดของเอฟเฟกต์เป็นเรื่องปกติและดีกว่าการรายงานเฉพาะค่า p หรือการวัดขนาดเอฟเฟกต์เท่านั้น
  • สำหรับคำถามเฉพาะของคุณหากคุณมีผลลัพธ์ที่ไม่สำคัญมันเป็นการตัดสินใจของคุณว่าคุณจะรายงานการวัดขนาดผลกระทบหรือไม่ ฉันคิดว่าถ้าคุณมีตารางที่มีผลลัพธ์จำนวนมากดังนั้นการมีคอลัมน์ขนาดเอฟเฟกต์ที่ใช้โดยไม่คำนึงว่ามีความสำคัญ แม้แต่ในบริบทที่ไม่มีนัยสำคัญขนาดผลกระทบที่มีช่วงความเชื่อมั่นสามารถให้ข้อมูลในการระบุว่าการค้นพบที่ไม่สำคัญอาจเป็นเพราะขนาดตัวอย่างไม่เพียงพอ

1
สวัสดี Jeremy - ฉันต่างกับคุณเมื่อคุณพูดว่า "บางส่วนกทพ. กำลังสองในแฟคทอเรียล ANOVA มีเนื้อหาที่ใกล้เคียงกับสิ่งที่กทพ. กำลังจะเป็นเพราะมันเป็นแบบทางเดียว" ในความเป็นจริงกทพ. ยกกำลังสองหากใช้ตัวทำนายเพียงอย่างเดียวจะมีขนาดใหญ่กว่ากทพ. บางส่วนใน บริษัท ของผู้ทำนายอื่น ๆ ในกรณีหลังความแปรปรวนร่วมที่อธิบายในผลลัพธ์จะไม่ได้รับการเครดิตกับตัวทำนายที่เป็นปัญหา ในอดีตไม่มี "การแข่งขัน" สำหรับความแปรปรวนที่อธิบายดังนั้นตัวทำนายจะได้รับเครดิตสำหรับการทับซ้อนใด ๆ ที่มันแสดงพร้อมกับผลลัพธ์
rolando2

3
@ rolando2 จุดของฉันอาจไม่ชัดเจน ฉันหมายถึงการทดลองออกแบบ สมมติว่าการทดลอง 1 จัดการกับปัจจัย A และการทดลอง 2 A และ B สมมติว่าการออกแบบที่สมดุลทั้งสองปัจจัยนั้นเป็นมุมฉาก สมมติว่าปัจจัยทั้งสองอธิบายความแปรปรวนความแปรปรวนที่อธิบายโดยปัจจัย A ในการทดลอง 2 จะน้อยกว่าในการทดลอง 1 ซึ่งระดับของปัจจัย B นั้นคงที่ ดังนั้นเมื่อเปรียบเทียบการทดสอบแบบแฟคทอเรียลกับการทดสอบแบบปัจจัยเดียวฉันคิดว่าการคำนวณเอกทีสแควร์บางส่วนนั้นคล้ายคลึงกันมากขึ้นในการทดลองแบบแฟคทอเรียลและแบบปัจจัยเดียวโดยเฉพาะอย่างยิ่งหากไม่มีการโต้ตอบ
Jeromy Anglim
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.