ขนาดตัวอย่างที่ไม่เท่ากัน: เมื่อใดที่จะเรียกมันจะหยุดทำงาน


14

ฉันกำลังตรวจสอบบทความวารสารวิชาการและผู้เขียนได้เขียนสิ่งต่อไปนี้เป็นเหตุผลสำหรับการไม่รายงานสถิติเชิงอนุมาน (ฉันระบุลักษณะของทั้งสองกลุ่ม):

รวม 25 แห่ง 2,349 (1.1%) ผู้ตอบแบบสอบถามรายงานX เรางดเว้นอย่างเหมาะสมจากการนำเสนอการวิเคราะห์ที่เปรียบเทียบกลุ่มXกับกลุ่มY (ผู้เข้าร่วมอื่น 2,324 คน) เนื่องจากผลลัพธ์เหล่านั้นอาจได้รับแรงผลักดันอย่างมากจากโอกาสด้วยผลลัพธ์ที่หายากนี้

คำถามของฉันคือผู้เขียนของการศึกษานี้เป็นธรรมในการขว้างปาในผ้าขนหนูที่เกี่ยวกับการเปรียบเทียบกลุ่ม? ถ้าไม่ฉันจะแนะนำอะไรให้พวกเขาบ้าง

คำตอบ:


20

การทดสอบทางสถิติไม่ได้ตั้งสมมติฐานเกี่ยวกับขนาดตัวอย่าง แน่นอนว่ามีข้อสมมติฐานที่แตกต่างกันกับการทดสอบที่หลากหลาย (เช่นปกติ) แต่ความเท่าเทียมกันของขนาดตัวอย่างไม่ใช่หนึ่งในนั้น เว้นแต่การทดสอบที่ใช้นั้นไม่เหมาะสมในทางอื่น (ฉันไม่สามารถนึกถึงปัญหาได้ในขณะนี้) อัตราความผิดพลาดประเภทที่ 1จะไม่ได้รับผลกระทบจากขนาดกลุ่มที่ไม่เท่ากันอย่างมาก ยิ่งกว่านั้นการกล่าวถ้อยคำของพวกเขาบ่งบอกว่าพวกเขาเชื่อว่ามันจะเป็นเช่นนั้น ดังนั้นพวกเขาจึงสับสนเกี่ยวกับปัญหาเหล่านี้

บนมืออื่น ๆ , อัตราความผิดพลาดชนิดที่สองเป็นอย่างมากที่จะได้รับผลกระทบโดยไม่เท่ากันสูง s สิ่งนี้จะเป็นจริงไม่ว่าการทดสอบจะเป็นเช่นไร (เช่นการทดสอบt -test, Mann-Whitney U -test หรือz -test สำหรับความเท่าเทียมกันของสัดส่วนจะได้รับผลกระทบด้วยวิธีนี้) สำหรับตัวอย่างนี้ดูคำตอบของฉันที่นี่: เราควรตีความการเปรียบเทียบค่าเฉลี่ยจากขนาดตัวอย่างที่แตกต่างกันอย่างไร ดังนั้นพวกเขาอาจจะดี "เป็นธรรมในการขว้างปาในผ้าขนหนู" ด้วยความเคารพนี้ปัญหา (โดยเฉพาะถ้าคุณคาดหวังว่าจะได้ผลลัพธ์ที่ไม่สำคัญว่าผลกระทบจะเป็นจริงหรือไม่จุดประสงค์ของการทดสอบคืออะไร) nเสื้อยูZ

ในฐานะที่เป็นกลุ่มตัวอย่างขนาดแตกต่าง, พลังงานทางสถิติที่จะมาบรรจบกันที่จะαความจริงเรื่องนี้จริงนำไปสู่ข้อเสนอแนะที่แตกต่างกันซึ่งผมสงสัยไม่กี่คนที่เคยได้ยินและอาจจะมีปัญหาในการแสดงความคิดเห็นที่ผ่านมา (ไม่มีความผิดเจตนา): การวิเคราะห์พลังงานประนีประนอม แนวคิดนี้ค่อนข้างตรงไปตรงมา: ในการวิเคราะห์พลังงานใด ๆα , β , n 1 , n 2และขนาดเอฟเฟกต์dมีความสัมพันธ์กัน มีการระบุทั้งหมด แต่อย่างใดอย่างหนึ่งคุณสามารถแก้ปัญหาสำหรับล่าสุด โดยทั่วไปแล้วคนทำในสิ่งที่เรียกว่าการวิเคราะห์พลังงานแบบ a-Prioriซึ่งคุณแก้ปัญหาสำหรับNααβn1n2dยังไม่มีข้อความ(โดยทั่วไปคุณจะถือว่า ) ในอีกทางหนึ่งคุณสามารถแก้ไขn 1 , n 2และdและแก้ปัญหาสำหรับα (หรือเทียบเท่าβ ) หากคุณระบุอัตราส่วนของประเภท I ต่ออัตราความผิดพลาด II ที่คุณยินดีอยู่ โดยทั่วไปแล้วα = .05และβ = .20ดังนั้นคุณกำลังบอกว่าข้อผิดพลาดประเภทที่ 1 นั้นแย่กว่าข้อผิดพลาดประเภทที่สี่ถึงสี่เท่า แน่นอนนักวิจัยที่ได้รับอาจไม่เห็นด้วยกับสิ่งนั้น แต่เมื่อระบุอัตราส่วนที่กำหนดไว้แล้วคุณสามารถแก้ไขสิ่งที่αn1=n2n1n2dαβα=05β=.20αคุณควรใช้เพื่อรักษาพลังงานที่เพียงพอ วิธีการนี้เป็นตัวเลือกที่ถูกต้องตามหลักเหตุผลสำหรับนักวิจัยในสถานการณ์นี้แม้ว่าฉันจะยอมรับความแปลกใหม่ของวิธีการนี้อาจทำให้การขายยากในชุมชนการวิจัยขนาดใหญ่ที่อาจไม่เคยได้ยินเรื่องแบบนี้มาก่อน


สิ่งนี้มีประโยชน์อย่างเหลือเชื่อ ฉันยังพบการตอบสนองของคุณต่อวิธีหนึ่งควรตีความการเปรียบเทียบค่าเฉลี่ยจากขนาดตัวอย่างที่แตกต่างกันอย่างไร มีประโยชน์ในการทำความเข้าใจปัญหานี้ของฉันเอง หลังจากอ่านคำตอบของคุณฉันจะนำเสนอความเป็นไปได้ของการวิเคราะห์พลังงานประนีประนอมให้กับผู้เขียน (ฟังดูเหมือนเป็นการเดิมพันที่ปลอดภัยที่พวกเขาไม่คุ้นเคย) และอาจแนะนำให้ระบุความคิดเห็นของพวกเขาเกี่ยวกับเรื่องพลังงาน
Aaron Duke

2
ไม่เป็นไร @AaronD ในความคิดของฉันคุณควรสนับสนุนให้พวกเขาเปลี่ยนถ้อยคำของพวกเขาอย่างน้อยที่สุดเพราะมันอาจทำให้เข้าใจผิดหรือบอกเป็นนัยว่าพวกเขาเข้าใจผิดในหัวข้อ ฉันคาดการณ์ว่าพวกเขาจะไม่พยายามวิเคราะห์พลังประนีประนอม แต่พวกเขาสามารถรายงานสถิติเชิงพรรณนา (หมายถึง & SD) และขนาดผลที่มีช่วงความเชื่อมั่นที่เหมาะสม
gung - Reinstate Monica

6

ในขณะที่คำตอบจาก @gung นั้นยอดเยี่ยมฉันคิดว่ามีประเด็นสำคัญที่ควรพิจารณาเมื่อดูขนาดกลุ่มที่แตกต่างกันอย่างดุเดือด โดยทั่วไปตราบใดที่ความต้องการของการทดสอบได้รับการเติมเต็มความแตกต่างของขนาดกลุ่มก็ไม่สำคัญ

อย่างไรก็ตามในบางกรณีขนาดกลุ่มที่แตกต่างกันจะมีผลอย่างมากต่อความทนทานของการทดสอบต่อการละเมิดต่อข้อสมมติฐานเหล่านี้ t-test แบบสองตัวอย่างที่ไม่มีการจับคู่ตัวอย่างเช่นสมมติความเหมือนกันของความแปรปรวนและมีความทนทานต่อการละเมิดเฉพาะในกรณีที่ทั้งสองกลุ่มมีขนาดเท่ากัน (ตามลำดับความสำคัญ) มิฉะนั้นความแปรปรวนที่สูงขึ้นในกลุ่มขนาดเล็กจะนำไปสู่ข้อผิดพลาด Type I ขณะนี้มีการทดสอบ t-t ปัญหานี้ไม่มากนักเนื่องจากปกติแล้วการทดสอบ t-test ของ Welch ถูกนำมาใช้แทนและไม่ถือว่าความแปรปรวนแบบเดียวกัน อย่างไรก็ตามเอฟเฟกต์ที่คล้ายกันสามารถเกิดขึ้นได้ในตัวแบบเชิงเส้น

โดยสรุปแล้วฉันจะบอกว่านี่ไม่ใช่อุปสรรคในการวิเคราะห์ทางสถิติ แต่จะต้องระลึกไว้เสมอเมื่อตัดสินใจว่าจะดำเนินการอย่างไร


8
ฉันเชื่อว่าประเด็นสำคัญของเรื่องนี้ไม่ใช่การทดสอบ แต่เป็นการตีความหมายและการตีความของพวกเขา คำถามหมายถึง "ผู้ตอบแบบสอบถาม" สิ่งนี้แสดงถึงความเป็นไปได้ของอัตราที่ไม่เป็นศูนย์ แม้แต่อัตราการไม่ตอบสนองเล็ก ๆ (เศษเล็กเศษน้อยของร้อยละหนึ่ง) เทียบกับขนาดการศึกษาจะเป็นจำนวนอัตราการตอบสนองที่ไม่มหาศาลเมื่อเทียบกับกลุ่มย่อยขนาดเล็ก นั่นเรียกว่าการเป็นตัวแทนของกลุ่มย่อยใด ๆ เป็นผลให้มันเป็นอุปสรรคใหญ่สำหรับการวิเคราะห์ทางสถิติใด ๆ
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.