สถิติเชิงพรรณนาใดที่ไม่มีขนาดผลกระทบ


12

Wikipediaพูดว่า

ขนาดของเอฟเฟกต์เป็นการวัดความแข็งแรงของปรากฏการณ์หรือการประมาณตัวอย่างโดยประมาณของปริมาณนั้น ขนาดของผลกระทบที่คำนวณจากข้อมูลเป็นสถิติเชิงพรรณนาที่สื่อถึงขนาดโดยประมาณของความสัมพันธ์โดยไม่ต้องแถลงใด ๆ ว่าความสัมพันธ์ที่ชัดเจนในข้อมูลนั้นสะท้อนถึงความสัมพันธ์ที่แท้จริงในประชากรหรือไม่

เพื่อให้เข้าใจได้ดีขึ้นฉันสงสัยว่าสถิติเชิงพรรณนาใดที่ไม่ใช่ขนาดผลกระทบยกเว้นกราฟและพล็อต


กราฟและพล็อตสามารถนำมาใช้ในการวัดขนาดของเอฟเฟกต์ได้อย่างง่ายดายกว่าการวัดขนาดของเอฟเฟกต์ หากคุณเห็นการเหลื่อมกันระหว่างสองกลุ่มในบางมาตรการ (ซึ่งจะสัมพันธ์กับd ที่เล็กกว่า) อาจจะง่ายกว่าที่จะรู้ว่าความแตกต่างที่สำคัญไม่ได้หมายความว่าสมาชิกของกลุ่มหนึ่งมีคะแนนต่ำกว่าสมาชิกของกลุ่มอื่น ฯลฯ
Gala

คำตอบ:


18

ขนาดผลกระทบ

  • ขนาดผลมาตรฐานทั่วไปโดยทั่วไปปริมาณจำนวนหรือระดับของความสัมพันธ์หรือผลกระทบ การวัดขนาดของเอฟเฟ็กต์ที่พบมากที่สุดน่าจะเป็นของโคเฮน d, เพียร์สันส์ r และอัตราส่วนราคาต่อรอง
  • มาตรการขนาดผลกระทบที่พบได้น้อยที่กล่าวว่าคุณสามารถวัดขนาดของเอฟเฟกต์ที่เป็นมาตรฐานและไม่เป็นมาตรฐานได้ สถิติใด ๆ ที่สื่อสารระดับของความสัมพันธ์และไม่ได้ปนเปื้อนโดยเฉพาะอย่างยิ่งขนาดตัวอย่างอาจเป็นการวัดขนาดของผลกระทบ ดังนั้นค่าสัมประสิทธิ์เบต้า, R-square, ความแปรปรวนร่วม, ความแตกต่างของค่าเฉลี่ยระหว่างกลุ่มและอื่น ๆ ทุกระดับของผลกระทบ ที่กล่าวว่าฉันพบว่านักวิจัยบางคนใช้การวัดขนาดของเอฟเฟ็กต์ค่อนข้างสุ่มสี่สุ่มห้าและลืมไปว่าเป้าหมายที่กว้างขึ้นคือการทำให้ผู้อ่านรู้สึกถึงระดับของเอฟเฟกต์ และบ่อยครั้งที่พวกเขาไม่ทราบว่ามาตรการเช่นความแตกต่างหมายถึงหรือค่าสัมประสิทธิ์การถดถอยแบบดิบนั้นในบางแง่การวัดขนาดของผลกระทบ อีกตัวอย่างของการใช้ขนาดเอฟเฟ็กต์ที่ตาบอดนั้นเกี่ยวข้องกับการใช้การวัดขนาดเอฟเฟ็กต์ที่ไม่มีการตีความที่เข้าใจง่าย แต่ได้รับการแนะนำจากตำราบางเล่ม

ไม่ได้ขนาดผลกระทบ:

  • สถิติการทดสอบส่วนใหญ่ไม่ใช่ขนาดผลกระทบ เช่นการทดสอบไคสแควร์การทดสอบทีการทดสอบซีการทดสอบเอฟ พวกมันมีขนาดใหญ่ขึ้นเมื่อขนาดของเอฟเฟกต์ประชากรเพิ่มขึ้นและเมื่อขนาดตัวอย่างเพิ่มขึ้น ขนาดของเอฟเฟ็กต์ได้ถูกเน้นในหลาย ๆ แง่มุมในช่วงไม่กี่ปีที่ผ่านมาเนื่องจากนักวิจัยมุ่งเน้นไปที่การทดสอบสถิติของพวกเขามีขนาดใหญ่กว่าขนาดของเอฟเฟ็กต์ขนาดใหญ่ นี่เป็นสิ่งสำคัญโดยเฉพาะอย่างยิ่งที่คุณมีกลุ่มตัวอย่างขนาดใหญ่เมื่อแม้แต่เอฟเฟกต์ขนาดเล็กก็มีนัยสำคัญทางสถิติ
  • สถิติที่ไม่เปลี่ยนแปลงส่วนใหญ่ไม่ใช่ขนาดผลกระทบ สำหรับวัตถุประสงค์ส่วนใหญ่ขนาดผลกระทบมีความกังวลเกี่ยวกับความสัมพันธ์ระหว่างตัวแปรอย่างน้อยสองตัว ดังนั้นค่าเฉลี่ยตัวอย่างค่าเบี่ยงเบนมาตรฐานเบ้เคิร์ตซีสมินสูงสุดและอื่น ๆ ไม่ใช่มาตรการขนาดของผลกระทบ
  • สถิติที่ไม่เกี่ยวข้องกับระดับของความสัมพันธ์ไม่ใช่การวัดขนาดผลกระทบ ยกตัวอย่างเช่นการทดสอบของตัวแปรหลายตัวแปรค่าลักษณะเฉพาะของเมทริกซ์และอื่น ๆ โดยทั่วไปไม่ได้มุ่งเป้าไปที่การวัดผลกระทบโดยตรงในความหมายสามัญของคำ

ข้อพิจารณาที่กว้างขึ้น

  • ข้อควรพิจารณาในการปรับขนาด:ยูทิลิตี้ของสถิติในฐานะขนาดวัดผลส่วนใหญ่เกี่ยวข้องกับความสามารถในการสื่อสารขนาดของเอฟเฟกต์ บางครั้งสิ่งนี้สามารถทำได้โดยใช้การวัดผลมาตรฐานที่คุ้นเคย (เช่น cohen's d) ในบางครั้งการพิจารณาอย่างรอบคอบเกี่ยวกับการปรับขนาดของตัวแปรสามารถให้การตีความที่ชัดเจนยิ่งขึ้นเกี่ยวกับขนาดของผลกระทบ ตัวอย่างเช่นฉันมีการศึกษาดูโปรแกรมการฝึกอบรมในระดับรายได้ ฉันสามารถรายงานได้ว่าโปรแกรมการฝึกอบรมนั้นเพิ่มรายได้ด้วยการเบี่ยงเบนมาตรฐาน 0.2 หรือฉันอาจบอกได้ว่าโปรแกรมนั้นเพิ่มรายได้ 3,500 ดอลลาร์สหรัฐ ทั้งสองมีประโยชน์ ทั้งสองเป็นการวัดขนาดผล อันแรกคือมาตรฐาน (โคเฮนดี) ส่วนที่สองไม่ได้มาตรฐาน (กลุ่มดิบหมายถึงความแตกต่าง)
  • ความแม่นยำในการประมาณขนาดเอฟเฟกต์:เรามักจะดึงตัวอย่างการประมาณขนาดของเอฟเฟ็กต์ขนาด (เช่นโคเฮน d, เพียร์สัน r ฯลฯ ) บริบทนี้สามารถนำไปสู่ความแตกต่างของการทดสอบอย่างมีนัยสำคัญกับการวัดขนาดของผลกระทบ อย่างไรก็ตามจุดมุ่งหมายควรจะยังคงประมาณการอย่างแม่นยำและเป็นกลางขนาดผลกระทบของประชากร จากมุมมองของผู้ใช้บ่อยช่วงความมั่นใจรอบขนาดเอฟเฟกต์ให้การประมาณความแม่นยำ จากมุมมองแบบเบย์มีความหนาแน่นด้านหลังต่อขนาดเอฟเฟกต์ ในหลายกรณีจำเป็นต้องใช้ความระมัดระวังเพื่อให้แน่ใจว่าคุณกำลังใช้การวัดขนาดเอฟเฟกต์ที่เป็นกลาง

1
(+1) คำตอบที่ดี
chl

จุดที่สามและจุดสุดท้ายอาจอธิบายได้ว่าผู้เขียนบทความ Wikipedia มาจากไหน เมื่อให้ความสำคัญกับจิตวิทยาฉันคิดว่าประเด็นนี้ไม่ได้แตกต่างจากขนาดของเอฟเฟ็กต์กับสถิติเชิงพรรณนาอื่น ๆ แต่ใช้สถิติการทดสอบและค่า p (เช่นสถิติเชิงอนุมาน) และเน้นที่การวัดขนาดของเอฟเฟกต์
Gala

ขอบคุณมากสำหรับคำตอบที่ดีของคุณ ฉันมีคำถาม: คุณหมายถึงช่วงความมั่นใจไม่สามารถใช้เป็นการวัดขนาดเอฟเฟกต์ได้หรือไม่เพราะมันเกี่ยวข้องโดยตรงกับขนาดตัวอย่าง? (ตามช่วงความมั่นใจฉันหมายถึงค่าที่เพิ่มหรือลบออกจากความชุกค่าเฉลี่ยและอื่น ๆ - ไม่ใช่ขอบเขตบนและล่างของ CI)
Vic

2
@Vic คุณสามารถมีช่วงความมั่นใจในการวัดขนาดเอฟเฟกต์ แต่ช่วงความมั่นใจนั้นไม่ใช่ขนาดเอฟเฟกต์
Jeromy Anglim

เอ่อขอบคุณมาก Jeromy ที่รัก สำหรับทุกปีเหล่านี้ฉันถูกเข้าใจผิด :)
Vic

6

ประการแรกขนาดของเอฟเฟกต์สามารถใช้ได้อย่างเท่าเทียมกัน r และ ORs ทุกขนาดของเอฟเฟกต์และแน่นอนว่าทั้งหมดถูกใช้ในสถิติเชิงอนุมาน

สถิติที่ไม่เปลี่ยนแปลงนั้นมักจะไม่ได้ขนาดผลแม้ว่ามันจะเป็น เช่นหากคุณกำลังเปรียบเทียบอายุของชายและหญิงที่แต่งงานกันอายุเฉลี่ยของผู้ชายไม่ได้เป็นขนาดเอฟเฟกต์ แต่ถ้าคุณต้องการดูว่าค่าเฉลี่ยของบางสิ่งนั้นเป็น 0 หรือไม่ค่าเฉลี่ยก็จะเป็นขนาดเอฟเฟกต์

ถ้ามันวัดผลมันเป็นขนาดของเอฟเฟกต์!


ฉันเดาว่าเป็นจริง @Peter แต่ขนาดเอฟเฟกต์เป็นคำที่กำหนดโดย Cohen: (Mean1-Mean2) / PooledSD ฟังดูเหมือนเล็กน้อยคือความแตกต่างที่สำคัญหรือสำคัญทางสถิติเท่านั้น - การใช้คำทั่วไปเพื่อกำหนดคำศัพท์ทางสถิติ
doug.numbers

2
โคเฮนไม่ได้กำหนดไว้อย่างนั้นที่ไหน หากคุณหมายถึงหนังสือของเขาเกี่ยวกับการวิเคราะห์พลังงานฉันคิดว่าเขาใช้สิ่งนั้นเป็นมาตรฐานในการแปลงขนาดเอฟเฟกต์อื่นเป็น แต่ตารางวิเคราะห์พลังงานทั้งหมดในหนังสือเล่มนั้น (และมีจำนวนมาก) ใช้ขนาดเอฟเฟกต์บางส่วน (และไม่ได้ใช้ทุกอัน)
Peter Flom - Reinstate Monica

1
โคเฮนเป็นวิธีที่ฉันเข้าใจเสมอ ที่คล้ายกันตามที่อธิบายไว้en.wikipedia.org/wiki/Effect_size แต่คุณพูดถูกต้องมีหลายวิธีที่อธิบายว่าเป็นขนาดเอฟเฟกต์
doug.numbers

4
t-test และ z-test ไม่ใช่ขนาดผลกระทบ ขนาดเอฟเฟกต์เดียวกันจะให้ค่า t และ z ที่แตกต่างกันอย่างมีนัยสำคัญสำหรับขนาดตัวอย่างที่แตกต่างกัน
Jeromy Anglim

1
@JeromyAnglim ถูกต้อง; +1 ฉันแก้ไขคำตอบของฉัน
Peter Flom - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.