การศึกษามีความหมายมากเกินไปหมายความว่าอย่างไร


11

การศึกษามีความหมายมากเกินไปหมายความว่าอย่างไร

ความประทับใจของฉันคือมันหมายความว่าขนาดตัวอย่างของคุณมีขนาดใหญ่มากจนคุณมีอำนาจในการตรวจจับขนาดเอฟเฟกต์จิ๋ว ขนาดของเอฟเฟกต์เหล่านี้อาจมีขนาดเล็กจนพวกมันมีแนวโน้มที่จะเป็นผลมาจากความเอนเอียงเล็กน้อยในกระบวนการสุ่มตัวอย่างมากกว่าการเชื่อมต่อเชิงสาเหตุ (ไม่จำเป็นโดยตรง) ระหว่างตัวแปร

นี่เป็นสัญชาตญาณที่ถูกต้องหรือไม่? ถ้าเป็นเช่นนั้นฉันไม่เห็นว่าเรื่องใหญ่คืออะไรตราบใดที่ผลลัพธ์ถูกตีความในแสงนั้นและคุณตรวจสอบด้วยตนเองและดูว่าขนาดของเอฟเฟกต์โดยประมาณนั้นใหญ่พอที่จะ "มีความหมาย" หรือไม่

ฉันพลาดอะไรไปรึเปล่า? มีข้อเสนอแนะที่ดีกว่าว่าจะทำอย่างไรในสถานการณ์นี้?


ฟังดูคล้ายกับความเข้าใจที่เข้าใจง่ายของคำนี้
Henrik

คำตอบ:


11

ฉันคิดว่าการตีความของคุณไม่ถูกต้อง

คุณพูดว่า "ขนาดเอฟเฟกต์เหล่านี้อาจมีขนาดเล็กมากซึ่งอาจเป็นผลมาจากความเอนเอียงเล็กน้อยในกระบวนการสุ่มตัวอย่างมากกว่าการเชื่อมต่อเชิงสาเหตุ (ไม่จำเป็นต้องตรง) ระหว่างตัวแปร" ซึ่งดูเหมือนจะบ่งบอกว่าค่า P ใน 'พลังงานมากเกินไป' การศึกษาไม่ใช่สิ่งเดียวกันกับค่า P จากการศึกษาที่ถูกต้อง ว่าเป็นสิ่งที่ผิด. ในทั้งสองกรณีค่า P คือความน่าจะเป็นที่จะได้ข้อมูลมากที่สุดเท่าที่สังเกตได้หรือมากกว่านั้นมากหากสมมุติฐานว่างเป็นจริง

หากคุณต้องการแนวทาง Neyman-Pearson อัตราของข้อผิดพลาดเชิงบวกที่ผิดพลาดที่ได้รับจากการศึกษา 'over-powered' นั้นเหมือนกับของการศึกษาที่ได้รับการ 'ถูกต้อง' หากใช้ค่า alpha เดียวกันสำหรับทั้งคู่

ความแตกต่างในการตีความที่ต้องการคือมีความสัมพันธ์ที่แตกต่างกันระหว่างนัยสำคัญทางสถิติและนัยสำคัญทางวิทยาศาสตร์สำหรับการศึกษาที่มากเกินไป ผลที่ได้คือการศึกษาที่มากเกินไปจะทำให้มีโอกาสสูงที่จะได้รับความสำคัญถึงแม้ว่าผลกระทบนั้นจะเกิดขึ้นเมื่อคุณพูดว่า miniscule และดังนั้นจึงมีความสำคัญที่น่าสงสัย

ตราบใดที่ผลลัพธ์จากการศึกษาแบบ 'ใช้กำลังมากเกินไป' จะถูกตีความอย่างเหมาะสม (และช่วงความเชื่อมั่นสำหรับขนาดผลกระทบช่วยในการตีความเช่นนี้) ไม่มีปัญหาทางสถิติกับการศึกษาแบบ 'ใช้กำลังเกิน' ในแง่นั้นเกณฑ์เดียวที่การศึกษาสามารถใช้จริงได้คือปัญหาด้านจริยธรรมและการจัดสรรทรัพยากรที่เกิดขึ้นในคำตอบอื่น ๆ


ขอบคุณนี่เป็นข้อมูลที่ดีมาก ฉันเข้าใจว่าการกำหนดค่า p จะไม่เปลี่ยนแปลง แน่นอนจากมุมมองทางสถิติอัตราข้อผิดพลาดประเภทที่ 1 ไม่เพิ่มขึ้น
Frank Barry เมื่อ

1
ตามคำนิยามเรากำลังแก้ไขอัตราความผิดพลาดประเภทที่ 1 ในการตั้งค่าขีด จำกัด p-value อย่างไรก็ตามดูเหมือนว่าความแตกต่างระหว่าง "สถิติ" และความสำคัญ "เชิงปฏิบัติ" เป็นปัญหาที่นี่ เมื่อขนาดตัวอย่างสามารถตรวจจับความแตกต่างได้ดีกว่าขนาดของเอฟเฟ็กต์ที่คาดไว้ความแตกต่างที่ถูกต้องทางสถิติไม่ได้มีความหมายในทางปฏิบัติ (และจากมุมมองของ "ผู้ใช้ปลายทาง" สิ่งนี้จะเป็น มันไม่ใช่สถิติ) อย่างไรก็ตามอย่างที่คุณพูดสิ่งนี้เริ่มที่จะได้รับนอกขอบเขตของสถิติ
Frank Barry เมื่อ

1
เช่นฉันคิดว่าฉันเห็นด้วย - "ความแตกต่างในการตีความที่จำเป็นคือมีความสัมพันธ์ที่แตกต่างกันระหว่างนัยสำคัญทางสถิติและนัยสำคัญทางวิทยาศาสตร์"
Frank Barry

4

ในการวิจัยการวิจัยทางการแพทย์อาจผิดจรรยาบรรณหากพวกเขารับสมัครผู้ป่วยมากเกินไป ตัวอย่างเช่นหากเป้าหมายคือการตัดสินใจว่าการรักษาแบบใดที่ดีกว่าจะไม่มีจริยธรรมอีกต่อไปที่จะรักษาผู้ป่วยด้วยการรักษาที่แย่กว่าเดิมหลังจากที่ได้รับการยอมรับว่าด้อยกว่า แน่นอนว่าการเพิ่มขนาดตัวอย่างจะทำให้การประเมินขนาดเอฟเฟกต์มีความแม่นยำมากขึ้น แต่คุณอาจต้องหยุดให้ดีก่อนที่ผลกระทบของปัจจัยต่างๆเช่น "อคติเล็กน้อยในกระบวนการสุ่มตัวอย่าง" จะปรากฏขึ้น

มันอาจผิดจรรยาบรรณที่จะใช้เงินสาธารณะของงานวิจัยที่ได้รับการยืนยันอย่างเพียงพอ


1

ทุกสิ่งที่คุณพูดมีเหตุผล (แม้ว่าฉันไม่รู้ว่า "เรื่องใหญ่" ที่คุณอ้างถึง) และฉันก็รับ ชอบจุดของคุณเกี่ยวกับขนาดผลกระทบเมื่อเทียบกับนัยสำคัญทางสถิติ ข้อพิจารณาอีกข้อหนึ่งคือการศึกษาบางอย่างต้องการการจัดสรรทรัพยากรที่หายากเพื่อให้ได้รับการมีส่วนร่วมของแต่ละกรณี


ขออภัย "เรื่องใหญ่" เป็นความคิดเห็นของบรรณาธิการมากเกินไป คำถามที่ว่ามันเป็น "ข้อตกลงที่ใหญ่กว่า" มากกว่าที่ฉันจะทำให้มันเป็นไปได้หรือไม่นั้นเป็นคำถามว่ามีข้อควรพิจารณาเพิ่มเติมหรือไม่ซึ่งฉันอาจไม่รู้
Frank Barry เมื่อ

0

ประสบการณ์ของฉันมาจากการทดสอบ A / B ออนไลน์ซึ่งปัญหามักจะได้รับการศึกษาต่ำหรือการวัดสิ่งผิดปกติ แต่ดูเหมือนว่าสำหรับฉันแล้วการศึกษาที่มีการสู้รบจะสร้างช่วงความเชื่อมั่นที่แคบกว่าการศึกษาแบบเทียบเคียงค่า p ต่ำกว่าและความแปรปรวนต่างกัน ฉันคิดว่านี่จะทำให้การเปรียบเทียบการศึกษาที่คล้ายกันยากขึ้น ตัวอย่างเช่นหากฉันศึกษาซ้ำอีกครั้งโดยใช้กำลังที่เหมาะสม p-value ของฉันจะสูงขึ้นแม้ว่าฉันจะจำลองผลลัพธ์ออกมาอย่างแน่นอน ขนาดตัวอย่างที่เพิ่มขึ้นอาจทำให้เกิดความแปรปรวนหรือแนะนำความแปรปรวนได้หากมีค่าผิดปกติซึ่งอาจมีโอกาสสูงที่จะปรากฏขึ้นในกลุ่มตัวอย่างที่มีขนาดใหญ่ขึ้น

นอกจากนี้แบบจำลองของฉันยังแสดงให้เห็นว่าเอฟเฟกต์อื่นนอกเหนือจากที่คุณสนใจอาจมีความสำคัญกับกลุ่มตัวอย่างขนาดใหญ่ ดังนั้นในขณะที่ค่า p ถูกต้องจะบอกคุณว่าความน่าจะเป็นที่ผลลัพธ์ของคุณเป็นจริงพวกเขาอาจเป็นจริงด้วยเหตุผลอื่นนอกเหนือจากสิ่งที่คุณคิดเช่นการรวมกันของโอกาสผลชั่วคราวบางอย่างที่คุณไม่ได้ควบคุมและอื่น ๆ เอฟเฟกต์ขนาดเล็กที่คุณแนะนำโดยไม่รู้ตัว หากการศึกษาเป็นเพียงเล็กน้อยเอาชนะความเสี่ยงของการนี ปัญหามักจะยากที่จะรู้ว่ามีพลังงานเพียงพอเช่นถ้าตัวชี้วัดพื้นฐานและผลกระทบเป้าหมายขั้นต่ำคาดเดาหรือเปลี่ยนให้แตกต่างจากที่คาดไว้

ฉันได้เจอบทความที่ระบุว่าตัวอย่างที่มีขนาดใหญ่เกินไปสามารถทำการทดสอบความดีแบบพอดีที่ไวเกินไปต่อการเบี่ยงเบนที่ไม่สมเหตุผลซึ่งนำไปสู่ผลลัพธ์ที่ตอบโต้ได้ง่าย

ที่กล่าวว่าฉันเชื่อว่าดีที่สุดที่จะทำผิดด้านสูงกว่าพลังงานต่ำ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.