ขนาดตัวอย่างขั้นต่ำสำหรับการทดสอบทีไม่มีคู่


16

มี "กฎ" เพื่อกำหนดขนาดตัวอย่างขั้นต่ำที่จำเป็นสำหรับการทดสอบ t- ถูกต้องหรือไม่

ตัวอย่างเช่นการเปรียบเทียบจะต้องดำเนินการระหว่างค่าเฉลี่ยของ 2 ประชากร มี 7 จุดข้อมูลจากประชากรหนึ่งและเพียง 2 จุดข้อมูลจากที่อื่น น่าเสียดายที่การทดสอบมีราคาแพงมากและใช้เวลานานและการได้รับข้อมูลเพิ่มเติมนั้นไม่สามารถทำได้

สามารถใช้การทดสอบ t ได้ไหม? ทำไมหรือทำไมไม่? โปรดระบุรายละเอียด (ไม่ทราบความแปรปรวนของประชากรและการกระจาย) หากไม่สามารถใช้การทดสอบ t ได้จะสามารถใช้การทดสอบแบบไม่มีพารามิเตอร์ (Mann Whitney) ได้หรือไม่? ทำไมหรือทำไมไม่?


2
คำถามนี้ครอบคลุมเนื้อหาที่คล้ายกัน & จะเป็นที่สนใจของผู้ดูหน้านี้: มีขนาดตัวอย่างขั้นต่ำที่จำเป็นสำหรับการทดสอบ t-t ให้ถูกต้องหรือไม่? .
gung - Reinstate Monica

ดูเพิ่มเติมที่คำถามนี้ซึ่งมีการกล่าวถึงการทดสอบด้วยขนาดตัวอย่างที่เล็กลง
Glen_b

คำตอบ:


8

ผมอยากแนะนำให้ใช้ที่ไม่ใช่พาราMann-Whitney Uทดสอบมากกว่า unpaired T -test ที่นี่

ไม่มีขนาดตัวอย่างขั้นต่ำที่แน่นอนสำหรับการทดสอบtแต่เมื่อขนาดตัวอย่างเล็กลงการทดสอบจึงมีความอ่อนไหวต่อสมมติฐานที่ว่าทั้งสองตัวอย่างมาจากประชากรที่มีการแจกแจงแบบปกติ ด้วยตัวอย่างเล็ก ๆ นี้โดยเฉพาะอย่างยิ่งกับตัวอย่างเพียงสองตัวอย่างคุณจะต้องแน่ใจว่าการกระจายตัวของประชากรเป็นเรื่องปกติ - และต้องอยู่บนพื้นฐานความรู้ภายนอกเนื่องจากตัวอย่างเล็ก ๆ เหล่านี้ให้ข้อมูลเล็ก ๆ น้อย ๆ ปกติหรืออย่างอื่นของการกระจายของพวกเขา แต่คุณบอกว่า "ความแปรปรวนของประชากรและการแจกแจงไม่เป็นที่รู้จัก" (ตัวเอียงของฉัน)

การทดสอบ Mann-Whitney Uไม่จำเป็นต้องมีสมมติฐานใด ๆ เกี่ยวกับรูปแบบพารามิเตอร์ของการแจกแจงต้องการเพียงสมมติฐานที่ว่าการแจกแจงของทั้งสองกลุ่มนั้นเหมือนกันภายใต้สมมติฐานว่าง


6
ไม่ใช่คำแนะนำที่ดีสำหรับขนาดตัวอย่างที่เล็กมาก ด้วยตัวอย่าง 7 และ 2 การทดสอบ U จะล้มเหลวไม่ว่าความแตกต่างระหว่างค่าเฉลี่ยของกลุ่มจะมีขนาดใหญ่เพียงใด ดูคำตอบของฉันสำหรับตัวอย่าง
AlefSin

2
ฉันต้องการสองสิ่งที่ @AlefSin พูด ถ้ามันเป็นสิ่งสำคัญสำหรับคุณที่จะสรุปผลที่ถูกต้อง (และไม่เพียง แต่รับค่า p) แล้วสมมติฐานที่เป็นกันเองมากขึ้นคุณสามารถทำให้ดีขึ้น หากมีข้อมูลพื้นฐานที่สมเหตุสมผลคุณสามารถเพิ่มสมมติฐานเพิ่มเติมได้หากคุณทำการวิเคราะห์ในกรอบ Bayesian
Rasmus Bååth

2
ปัญหาหนึ่งก็คือด้วยขนาดตัวอย่างเล็ก ๆ เหล่านี้ Wilcoxon-Mann-Whitney ไม่สามารถบรรลุระดับนัยสำคัญทั่วไปได้ ด้วยขนาดตัวอย่าง 7 และ 2 คุณจะไม่ได้รับผลลัพธ์ที่สำคัญในระดับ 5% ไม่ว่าจะมีความแตกต่างเพียงใด พิจารณา (1.018,1.031,1.027,1.020,1.021,1.019,1.024) เทียบกับ (713.2, 714.5) - ไม่มีนัยสำคัญในระดับ 5%!
Glen_b -Reinstate Monica

3
ที่กล่าวว่าหากมีและn 2 = 2มีข้อโต้แย้งที่ดีมากที่เราควรพิจารณาว่าการทดสอบ 5% เหมาะสมหรือไม่ในตอนแรก การประเมินค่าใช้จ่ายที่ถูกต้องของข้อผิดพลาดทั้งสองประเภทอาจนำไปสู่การเลือกที่ค่อนข้างแตกต่างกัน n1=7n2=2
Glen_b

6

(ข้อจำกัดความรับผิดชอบ: วันนี้ฉันพิมพ์ไม่ดี: มือขวาฉันหัก!)

ตรงกันข้ามกับคำแนะนำในการใช้การทดสอบแบบไม่มีพารามิเตอร์ในคำตอบอื่น ๆ คุณควรพิจารณาว่าสำหรับขนาดตัวอย่างที่เล็กมากวิธีการเหล่านั้นไม่มีประโยชน์มาก มันง่ายที่จะเข้าใจว่าทำไม: ในการศึกษาที่มีขนาดเล็กมากไม่สามารถสร้างความแตกต่างระหว่างกลุ่มเว้นแต่ว่าจะมีขนาดใหญ่ถ้าสังเกตผล อย่างไรก็ตามวิธีการที่ไม่ใช่พารามิเตอร์นั้นไม่ได้สนใจขนาดของความแตกต่างระหว่างกลุ่ม ดังนั้นแม้ว่าความแตกต่างระหว่างทั้งสองกลุ่มมีขนาดใหญ่ด้วยขนาดตัวอย่างเล็ก ๆ การทดสอบแบบไม่มีพารามิเตอร์จะล้มเหลวเสมอในการปฏิเสธสมมติฐานว่าง

ลองพิจารณาตัวอย่างนี้: สองกลุ่ม, การแจกแจงแบบปกติ, ความแปรปรวนเดียวกัน กลุ่มที่ 1: ค่าเฉลี่ย 1.0, 7 ตัวอย่าง กลุ่มที่ 2: ค่าเฉลี่ย 5, 2 ตัวอย่าง มีความแตกต่างใหญ่ระหว่างค่าเฉลี่ย

wilcox.test(rnorm(7, 1), rnorm(2, 5))

   Wilcoxon rank sum test

data:  rnorm(7, 1) and rnorm(2, 5)
W = 0, p-value = 0.05556

p-value ที่คำนวณได้คือ 0.05556 ซึ่งไม่ปฏิเสธสมมติฐานว่าง (ที่ 0.05) ตอนนี้แม้ว่าคุณจะเพิ่มระยะห่างระหว่างค่าเฉลี่ยทั้งสองด้วยค่า 10 คุณจะได้รับค่า p เดียวกัน:

wilcox.test(rnorm(7, 1), rnorm(2, 50))

   Wilcoxon rank sum test

data:  rnorm(7, 1) and rnorm(2, 50)
W = 0, p-value = 0.05556

ตอนนี้ฉันขอเชิญคุณทำซ้ำการจำลองเดียวกันด้วย t-test และสังเกตค่า p ในกรณีของความแตกต่างขนาดใหญ่ (เฉลี่ย 5 ต่อ 1) และขนาดใหญ่ (เฉลี่ย 50 เทียบกับ 1)


5

ไม่มีขนาดตัวอย่างขั้นต่ำสำหรับการทดสอบ t ในความเป็นจริงการทดสอบ t ถูกออกแบบมาสำหรับกลุ่มตัวอย่างขนาดเล็ก ในสมัยก่อนเมื่อพิมพ์ตารางคุณจะเห็นตารางทดสอบ t สำหรับตัวอย่างขนาดเล็กมาก (วัดโดย df)

แน่นอนเช่นเดียวกับการทดสอบอื่น ๆ หากมีตัวอย่างขนาดเล็กเพียงผลค่อนข้างมากจะมีนัยสำคัญทางสถิติ


แต่สิ่งที่ตรงกันข้ามจะเป็นปัญหาหรือไม่ นั่นคือค่าผิดปกติที่อาจนำไปสู่การปฏิเสธสมมติฐานที่ผิดพลาดหรือไม่ หรือพลังงานต่ำเพื่อตรวจจับความแตกต่างเป็นปัญหาที่ใหญ่กว่า? ในสถานการณ์เฉพาะนี้ฉันเห็นความแตกต่างอย่างมีนัยสำคัญระหว่างค่าเฉลี่ย แต่ไม่รู้ว่าจะ "เชื่อใจ" ได้อย่างไร
Johnny Puzzled

2
ด้วย n = 2 คุณมีความเสี่ยงต่ออิทธิพลของค่าผิดปกติ - ค่าผิดปกติในประชากร ตัวอย่าง 2 สามารถมีค่าผิดปกติภายในตัวอย่างได้อย่างไร :-) ฉันจะไม่ลองสถิติเชิงอนุมานใด ๆ ในสถานการณ์นี้ อนาคตไม่ดีนักเมื่อพูดถึง "ความจริง" และคุณจะเปิดโอกาสให้ตนเองวิจารณ์
rolando2

2
เหตุผลที่ช่วงความเชื่อมั่นจะกว้างอย่างแม่นยำเพราะคุณอาจได้รับค่าผิดปกติ แต่การทดสอบ t ยังคงถือว่าตัวอย่างมาจากประชากรปกติ
Peter Flom - Reinstate Monica

2

ฉันถือว่าคุณหมายถึงคุณมี 7 จุดข้อมูลจากกลุ่มหนึ่งและ 2 จุดข้อมูลจากกลุ่มที่สองซึ่งทั้งคู่เป็นกลุ่มย่อยของประชากร (เช่นชุดย่อยของเพศชายและชุดย่อยของเพศหญิง)

คณิตศาสตร์สำหรับ t-test สามารถหาได้จากหน้านี้วิกิพีเดีย เราจะถือว่าการทดสอบสองตัวอย่างที่เป็นอิสระด้วยขนาดตัวอย่างที่ไม่เท่ากัน (7 กับ 2) และความแปรปรวนที่ไม่เท่ากันดังนั้นประมาณครึ่งทาง คุณจะเห็นว่าการคำนวณนั้นขึ้นอยู่กับวิธีการและค่าเบี่ยงเบนมาตรฐาน มีเพียง 7 วิชาในกลุ่มเดียวและอีก 2 วิชาในอีกกลุ่มหนึ่งคุณไม่สามารถสรุปได้ว่าคุณมีการประเมินที่ดีสำหรับค่าเฉลี่ยหรือค่าเบี่ยงเบนมาตรฐาน สำหรับกลุ่มที่มี 2 วิชาค่าเฉลี่ยเป็นเพียงค่าที่อยู่ตรงกลางของจุดข้อมูลสองจุดดังนั้นจึงไม่ได้ประมาณที่ดี สำหรับกลุ่มที่มี 7 วิชาขนาดของกลุ่มตัวอย่างมีผลกระทบอย่างมากต่อความแปรปรวน (และส่วนเบี่ยงเบนมาตรฐานซึ่งเป็นรากที่สองของความแปรปรวน) เนื่องจากค่าที่สูงที่สุดจะออกแรงมากขึ้นเมื่อคุณมีตัวอย่างขนาดเล็ก

ตัวอย่างเช่นถ้าคุณดู ตัวอย่างพื้นฐานในหน้า Wikipedia สำหรับค่าเบี่ยงเบนมาตรฐานคุณจะเห็นว่าค่าเบี่ยงเบนมาตรฐานคือ 2 และความแปรปรวน (จตุรัสค่าเบี่ยงเบนมาตรฐาน) คือ 4 แต่ถ้าเรามีจุดข้อมูลสองจุดแรกเท่านั้น (9 และ 1) ความแปรปรวนจะเป็น 10/2 = 5 และส่วนเบี่ยงเบนมาตรฐานจะเป็น 2.2 และถ้าเรามีเพียงสองค่าสุดท้าย (4 และ 16) ความแปรปรวนจะเป็น 20/2 = 10 และค่าเบี่ยงเบนมาตรฐานจะเป็น 3.2 เรายังคงใช้ค่าเดิมเพียงเล็กน้อยและเราสามารถเห็นผลกระทบที่มีต่อการประมาณการของเรา

นั่นคือปัญหาของการใช้สถิติเชิงอนุมานที่มีขนาดตัวอย่างเล็ก ๆ ผลลัพธ์ของคุณจะได้รับผลกระทบอย่างมากจากการสุ่มตัวอย่าง

อัปเดต: มีเหตุผลใดบ้างที่ทำให้คุณไม่สามารถรายงานผลลัพธ์ตามหัวเรื่องและระบุว่านี่เป็นงานสำรวจหรือไม่ มีเพียงสองกรณีข้อมูลที่คล้ายกันมากกับกรณีศึกษาและสิ่งเหล่านี้มีทั้ง (1) สิ่งสำคัญในการเขียนและ (2) วิธีปฏิบัติที่เป็นที่ยอมรับ


ขอบคุณมิเชล สิ่งนี้น่าสนใจและมีประโยชน์ที่จะรู้ อย่างไรก็ตามสิ่งที่คุณจะแนะนำจากมุมมองการปฏิบัติ? เมื่อพิจารณาถึงสถานการณ์นี้วิธีที่ดีที่สุดในการดำเนินการคืออะไร ขอบคุณ!
Johnny Puzzled

สวัสดี Johnny Puzzled หากไม่มีข้อมูลเพิ่มเติมเกี่ยวกับสถานการณ์ที่แน่นอนของคุณฉันไม่สามารถให้คำแนะนำเพิ่มเติมได้
มิเชล

ต้องการข้อมูลประเภทใด?
Johnny Puzzled

1
สวัสดีอีกครั้งข้อมูลเพิ่มเติมเกี่ยวกับการออกแบบการศึกษาของคุณเช่นข้อมูลของคุณวิธีที่คุณรวบรวมมันสิ่งที่กลุ่มของคุณเป็นวิธีการสังเกตได้รับการคัดเลือก สิ่งที่ฉันรู้คือคุณได้ทำการทดลองกับการสังเกต 9 ครั้ง (คน "หนู" เซลล์ประสาท "บล็อกของความถี่การแผ่รังสีชีส") ซึ่งมาจากสองกลุ่ม
มิเชล

สมมุติว่าการไหลเวียนของเลือดเฉลี่ยไปยังสสารสีขาวในสมองนั้นถูกวัดในมนุษย์โดยใช้ MRI กลุ่มควบคุม (7 คน) และอายุ / เพศผู้ป่วยที่ตรงกับความผิดปกติโดยเฉพาะ (2 คน)
Johnny Puzzled

1

บทความที่เกี่ยวข้องที่น่าสนใจ: 'การใช้การทดสอบ t-test ของนักเรียนที่มีขนาด samlpe ต่ำมาก' JCF de Winter (ในการประเมินการปฏิบัติงานวิจัยและการประเมินผล) http://goo.gl/ZAUmGW


0

ฉันขอแนะนำให้เปรียบเทียบข้อสรุปที่คุณได้รับกับการทดสอบ t-test และ Mann-Whitney และดู boxplots และความน่าจะเป็นของค่าเฉลี่ยของประชากรแต่ละคน


สวัสดี @Diffany ฉันไม่แน่ใจว่าแม้จะมี boxplot จะเป็นประโยชน์เมื่อกลุ่มหนึ่งมีขนาดตัวอย่าง 2 ไม่เช่นนั้นฉันคิดว่า boxplots โดยเฉพาะนั้นมีประโยชน์มากในการแสดงข้อมูลอย่างต่อเนื่องในกลุ่ม
มิเชล

0

Stata 13/SE code for a bootstrap ttestในฐานะที่เป็น ttest ดำเนินการในตัวอย่างขนาดเล็กอาจไม่ตอบสนองความต้องการทดสอบ (ส่วนใหญ่ความปกติของประชากรที่ทั้งสองตัวอย่างมีผึ้งจับ) ฉันอยากจะแนะนำให้ทำการทดสอบ bootstrap ttest (มีความแปรปรวนไม่เท่ากัน) ตาม Efron B Tibshirani Rj ข้อแนะนำสำหรับ Bootstrap โบกาเรตัน, ฟลอริด้า: แชปแมนและฮอลล์ / ซีอาร์ซี, 1993: 220-224 รหัสสำหรับการทดสอบบูตกับข้อมูลที่จัดทำโดย Johnny Puzzled ใน Stata 13 / SE มีการรายงานในภาพด้านบน


คำตอบของคุณมีปัญหาการจัดรูปแบบร้ายแรงคุณจะแก้ไขหรือไม่
อะมีบาพูดว่า Reinstate Monica

ฉันพยายามแก้ไขปัญหาการจัดรูปแบบในคำตอบที่ตรวจสอบแล้ว ขอบคุณอะมีบาที่ชี้เรื่องนี้ออกมา
Carlo Lazzaro

0

ด้วยขนาดตัวอย่าง 2 สิ่งที่ดีที่สุดที่ควรทำคือดูตัวเลขแต่ละตัวและไม่ต้องกังวลกับการวิเคราะห์ทางสถิติ


1
ในปัจจุบันนี้อ่านเพิ่มเติมเช่นความคิดเห็น แม้ว่านี่จะเป็นจุดที่ดี แต่สำหรับคำตอบที่สมเหตุสมผลสำหรับปัญหาดั้งเดิมการอภิปรายเกี่ยวกับปัญหานั้นอาจเกิดขึ้นได้แม้ว่าในท้ายที่สุดคนหนึ่งจะสรุปได้ว่ามันเหมาะสมกว่าที่จะทำอย่างอื่น
Glen_b
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.