จำเป็นต้องมีขนาดตัวอย่างขั้นต่ำเพื่อให้การทดสอบ t ถูกต้องหรือไม่


70

ขณะนี้ฉันกำลังศึกษาบทความวิจัยกึ่งทดลองอยู่ ฉันมีขนาดตัวอย่างเพียง 15 เนื่องจากประชากรต่ำในพื้นที่ที่เลือกและที่เพียง 15 เหมาะสมกับเกณฑ์ของฉัน ขนาดตัวอย่างขั้นต่ำ 15 รายการสำหรับการทดสอบ t-test และ F-test คืออะไร ถ้าเป็นเช่นนั้นฉันจะหาบทความหรือหนังสือสนับสนุนตัวอย่างขนาดเล็กนี้ได้ที่ไหน

กระดาษนี้ได้รับการปกป้องแล้วเมื่อวันจันทร์ที่ผ่านมาและหนึ่งในแผงควบคุมขอให้มีการอ้างอิงสนับสนุนเนื่องจากขนาดตัวอย่างของฉันต่ำเกินไป เขาบอกว่ามันควรจะเป็นอย่างน้อย 40 ผู้ตอบแบบสอบถาม


4
ขนาดตัวอย่างสามารถมีขนาดเล็กกว่า 15 อย่างมีนัยสำคัญหากสมมติฐานที่ถือ ความถูกต้องของการแจกแจงแบบ t เป็นเพียงเหตุผลเดียวที่เขาเสนอตัวอย่างที่ใหญ่กว่าหรือไม่
Glen_b

เพื่อชี้แจงว่าคุณใช้การทดสอบประเภทใด: ตัวอย่างหนึ่งตัวอย่างที่จับคู่หรือสองตัวอย่าง
Jeromy Anglim

26
ในอดีตการสาธิตครั้งแรกของ t-test (ใน "นักเรียน" 's 1,908 กระดาษ) อยู่ในโปรแกรมที่จะลิ้มลองขนาดขนาดสี่ ที่จริงแล้วการได้รับผลที่ดีขึ้นสำหรับตัวอย่างขนาดเล็กคือการอ้างสิทธิ์ในการทดสอบ: เมื่อขนาดตัวอย่างถึง 40 หรือมากกว่านั้นการทดสอบ t จึงไม่แตกต่างอย่างมีนัยสำคัญจากนักวิจัยการทดสอบ z ที่ใช้มาตลอดศตวรรษที่ 19 คุณอาจจะแบ่งเป็นรุ่นที่ทันสมัยของการวิจัยนี้มีสมาชิกแผง: york.ac.uk/depts/maths/histstat/student.pdf ชี้ให้เห็นการสอบสวนในหัวข้อ VI, หน้า 14-18
whuber

10
แต่คุณควรไตร่ตรองความจริงที่ว่ากลุ่มตัวอย่างขนาดเล็กเช่น 4 ผลงานเพราะนักเรียนมีข้อมูลคุณภาพสูง: ข้อมูลห้องปฏิบัติการเคมีการทดลองไม่ใช่การทดลองเสมือน ปัญหาหลักของคุณไม่ได้มีขนาดตัวอย่าง แต่มีตัวแทน: คุณรู้ได้อย่างไรว่าข้อมูลของคุณเป็นตัวแทนของอะไร
kjetil b halvorsen

10
@CzarinaFrancoise ทำไมเราถึง จำกัด ตัวเองวิทยาศาสตร์ <อายุ 10 ปี?
RioRaider

คำตอบ:


56

ไม่มีขนาดตัวอย่างขั้นต่ำสำหรับการทดสอบ t ที่จะถูกต้อง ความถูกต้องกำหนดให้สมมติฐานสำหรับสถิติทดสอบถือโดยประมาณ สมมติฐานเหล่านั้นอยู่ในตัวอย่างกรณีเดียวที่ข้อมูลเป็น iid ปกติ (หรือประมาณปกติ) โดยมีค่าเฉลี่ย 0 ภายใต้สมมติฐานว่างและความแปรปรวนที่ไม่ทราบ แต่ประมาณจากตัวอย่าง ในทั้งสองกรณีตัวอย่างนั้นทั้งสองตัวอย่างเป็นอิสระจากกันและแต่ละตัวอย่างประกอบด้วยตัวแปร iid ปกติโดยที่ทั้งสองตัวอย่างมีค่าเฉลี่ยเท่ากันและค่าความแปรปรวนที่ไม่รู้จักทั่วไปภายใต้สมมติฐานว่าง การประมาณค่าความแปรปรวนรวมกลุ่มใช้สำหรับสถิติ

ในกรณีตัวอย่างหนึ่งการแจกแจงภายใต้สมมติฐานว่างเป็นศูนย์กลางt ที่มีองศาอิสระn-1 ในทั้งสองกรณีตัวอย่างที่มีขนาดตัวอย่างnและmไม่จำเป็นต้องเท่ากับการแจกแจงโมฆะของสถิติการทดสอบคือtกับn + m-2องศาอิสระ ความแปรปรวนที่เพิ่มขึ้นเนื่องจากขนาดตัวอย่างต่ำจะถูกนำมาใช้ในการแจกแจงซึ่งมีหางที่หนักกว่าเมื่อองศาอิสระต่ำซึ่งสอดคล้องกับขนาดตัวอย่างต่ำ ดังนั้นค่าวิกฤตสามารถพบได้สำหรับสถิติการทดสอบที่จะมีระดับนัยสำคัญที่กำหนดสำหรับขนาดตัวอย่างใด ๆ (ดีอย่างน้อยขนาด 2 หรือใหญ่กว่า)

ปัญหาเกี่ยวกับขนาดตัวอย่างต่ำนั้นขึ้นอยู่กับกำลังของการทดสอบ ผู้ตรวจสอบอาจรู้สึกว่ากลุ่มละ 15 คนนั้นมีขนาดตัวอย่างไม่ใหญ่พอที่จะมีพลังสูงในการตรวจจับความแตกต่างที่มีความหมายว่าเดลต้าระหว่างค่าเฉลี่ยสองค่าหรือค่าเฉลี่ยมากกว่าค่าเดลต้าในค่าสัมบูรณ์สำหรับปัญหาตัวอย่างหนึ่ง ความต้องการ 40 จะต้องใช้สเปคของกำลังบางอย่างที่เดลต้าเฉพาะซึ่งสามารถทำได้ด้วย n เท่ากับ 40 แต่ไม่ต่ำกว่า 40

ฉันควรเพิ่มสิ่งนั้นเพื่อให้การทดสอบ t ดำเนินการตัวอย่างจะต้องมีขนาดใหญ่พอที่จะประเมินความแปรปรวนหรือความแปรปรวนของเจ้าได้


2
แต่สิ่งสำคัญที่ควรทราบคือการทดสอบนั้นถูกต้องแม้ว่าข้อมูลจะไม่ได้ประมาณปกติหากขนาดตัวอย่างใหญ่พอ การให้เหตุผลเป็นเรื่องรอบ (การกระจายทฤษฎีบท + ของ Slutsky ใกล้ถึงปกติ) และการให้เหตุผลสำหรับการใช้งานผ่านการทดสอบ z เพียงว่ามันเป็นอนุรักษ์นิยมมากขึ้นในกลุ่มตัวอย่างขนาดเล็ก แต่มันเป็นบันทึกที่สำคัญว่าถ้าเราสงสัยว่าไม่ใช่กฎเกณฑ์ตัวอย่างขนาดใหญ่สามารถช่วยเราได้!
หน้าผา AB

1
@CliffAB โดย "ถูกต้อง" ฉันถือว่าคุณหมายถึง "มีระดับนัยสำคัญที่ถูกต้องโดยประมาณในขีด จำกัด เป็น n \ to \ infty" แต่โดยทั่วไปแล้วคนเราใส่ใจมากกว่าอัตราความผิดพลาดประเภทที่ 1 (โดยเฉพาะอย่างยิ่งเมื่อมันอาจจะอยู่ใกล้กับตัวอย่างที่สมเหตุสมผลซึ่งอาจใหญ่กว่าขนาดของกลุ่มตัวอย่างใด ๆ ก็ตาม) ประสิทธิภาพเชิงสัมพัทธ์เชิงสัมพัทธ์อาจไม่ดีนักดังนั้นพลังต่อต้านผลกระทบเล็กน้อยในกลุ่มตัวอย่างขนาดใหญ่อาจไม่ดีมากเมื่อเทียบกับทางเลือกอื่นแม้ว่าอัตราความผิดพลาดประเภทที่ 1 จะกลายเป็นสิ่งที่ควรจะเป็น ..
Glen_b

33

ด้วยความเคารพต่อเขาเขาไม่รู้ว่าเขากำลังพูดถึงอะไร การทดสอบ t ถูกออกแบบมาสำหรับการทำงานกับกลุ่มตัวอย่างขนาดเล็ก ไม่มีขั้นต่ำจริง ๆ (บางทีคุณอาจพูดอย่างน้อย 3 สำหรับการทดสอบหนึ่งตัวอย่าง, IDK) แต่คุณมีข้อกังวลเกี่ยวกับพลังงานเพียงพอกับตัวอย่างขนาดเล็ก คุณอาจสนใจอ่านเกี่ยวกับแนวคิดเบื้องหลังการประนีประนอมการวิเคราะห์พลังงานเมื่อขนาดตัวอย่างที่เป็นไปได้นั้นถูก จำกัด อย่างมากเช่นในกรณีของคุณ

สำหรับการอ้างอิงที่พิสูจน์ว่าคุณสามารถใช้การทดสอบ t กับกลุ่มตัวอย่างขนาดเล็กฉันไม่รู้จักเลยและฉันสงสัยว่ามีอยู่จริง ทำไมทุกคนพยายามที่จะพิสูจน์ว่า? ความคิดมันช่างงี่เง่า


6
+1 (สำหรับคุณและไมเคิล) ที่น่าสนใจคือคุณไม่จำเป็นต้องมีข้อสังเกตสองประการเพื่อทำการอนุมานหากเต็มใจที่จะตั้งสมมติฐาน!
Andy W

4
เหตุผลสำหรับการทดสอบ t ในตัวอย่างเล็ก ๆ คือแม้ว่าตัวอย่างจะเป็นปกติถ้าค่าเบี่ยงเบนมาตรฐานไม่เป็นที่รู้จักสิ่งทั่วไปที่ต้องทำคือการทำให้เป็นปกติโดยการหารด้วยการประมาณตัวอย่างของการเบี่ยงเบนมาตรฐาน ในตัวอย่างขนาดใหญ่ที่ประเมินจะใกล้เคียงกับค่าเบี่ยงเบนมาตรฐานของประชากรมากว่าสถิติการทดสอบจะอยู่ในระดับมาตรฐานปกติ แต่ในกลุ่มตัวอย่างขนาดเล็กจะมีหางที่หนักกว่าปกติ
Michael Chernick

5
การแจกแจงแบบ t ที่มีองศาอิสระ n-1 คือการแจกแจงที่แน่นอนสำหรับขนาดตัวอย่างใด ๆ ภายใต้สมมติฐานว่างและในตัวอย่างเล็ก ๆ นั้นจำเป็นต้องใช้แทนปกติซึ่งไม่ใกล้เคียงกับมันมากนัก ปัญหาจริงที่มีขนาดตัวอย่างเป็นทั้งกังและฉันระบุเป็นพลังงาน หากคุณต้องการโต้แย้งกับผู้ตัดสินว่า 15 เพียงพอคุณต้องระบุว่าจำเป็นต้องใช้ความแตกต่างมากขนาดไหนในการเรียกว่ามีความหมาย (เดลต้าที่ฉันพูดถึง) และจากนั้นสำหรับเดลต้านั้นคุณต้องแสดงว่าอำนาจนั้นเพียงพอ .
Michael Chernick

2
@CzarinaFrancoise เกี่ยวกับ n> = 30 ดูstats.stackexchange.com/questions/2541/…
Stéphane Laurent

2
กระดาษต้นฉบับ @gung Student (1908!) พิสูจน์ให้เห็นว่าคุณสามารถใช้การทดสอบ t กับตัวอย่างขนาดเล็ก (สำหรับข้อมูลเพิ่มเติมเกี่ยวกับเรื่องนี้โปรดอ้างอิงความคิดเห็นเพิ่มเติมของฉันกับคำถามเดิม)
whuber

30

ดังที่กล่าวไว้ในคำตอบที่มีอยู่ปัญหาหลักที่มีขนาดตัวอย่างเล็กคือกำลังทางสถิติต่ำ มีกฎหลายข้อเกี่ยวกับพลังทางสถิติที่ยอมรับได้ บางคนบอกว่าพลังทางสถิติ 80% นั้นสมเหตุสมผล แต่ในที่สุดก็ดีกว่า นอกจากนี้ยังมีการแลกเปลี่ยนระหว่างค่าใช้จ่ายในการรับผู้เข้าร่วมมากขึ้นและประโยชน์ของการได้รับพลังทางสถิติมากขึ้น

คุณสามารถประเมินการใช้พลังงานทางสถิติของการทดสอบที่ใช้ฟังก์ชั่นที่เรียบง่ายใน power.t.testR,

รหัสต่อไปนี้ให้พลังงานทางสถิติสำหรับขนาดตัวอย่าง 15 การทดสอบทีหนึ่งตัวอย่างมาตรฐานและขนาดเอฟเฟ็กต์ต่าง ๆ สามขนาดคือ. 2, .5, .8 ซึ่งบางครั้งเรียกว่า เอฟเฟกต์เล็กกลางและใหญ่ตามลำดับα=.05

p.2 <-power.t.test(n=15, delta=.2, sd=1, sig.level=.05, type='one.sample')
p.5 <- power.t.test(n=15, delta=.5, sd=1, sig.level=.05, type='one.sample')
p.8 <-power.t.test(n=15, delta=.8, sd=1, sig.level=.05, type='one.sample')

round(rbind(p.2=p.2$power, p.5=p.5$power, p.8=p.8$power), 2)  

    [,1]
p.2 0.11
p.5 0.44
p.8 0.82

ดังนั้นเราจะเห็นได้ว่าหากขนาดผลกระทบของประชากรคือ "เล็ก" หรือ "ปานกลาง" คุณจะมีพลังงานทางสถิติต่ำ (เช่น 11% และ 44% ตามลำดับ) อย่างไรก็ตามหากขนาดของเอฟเฟกต์มีขนาดใหญ่ในประชากรคุณจะมีสิ่งที่บางคนจะอธิบายว่าเป็นพลังงาน "สมเหตุสมผล" (เช่น 82%)

เว็บไซต์ Quick-R ให้ข้อมูลเพิ่มเติมเกี่ยวกับการวิเคราะห์การใช้พลังงานโดยใช้ R


คำตอบที่ดี! นอกจากนี้ยังมีซอฟต์แวร์ที่ดีสำหรับการคำนวณพลังงานทางสถิติที่เรียกว่าG Power *
เอ็นริเก

7

t-test สองตัวอย่างถูกต้องหากตัวอย่างสองตัวอย่างเป็นแบบสุ่มอย่างง่ายอิสระจากการแจกแจงแบบปกติที่มีความแปรปรวนเดียวกันและขนาดตัวอย่างแต่ละตัวอย่างมีอย่างน้อยสอง (เพื่อให้สามารถประมาณความแปรปรวนประชากรได้) การพิจารณาพลังงาน ไม่เกี่ยวข้องกับคำถามของความถูกต้องของการทดสอบ ขึ้นอยู่กับขนาดของเอฟเฟกต์ที่ต้องการตรวจจับขนาดตัวอย่างขนาดเล็กอาจไม่รอบคอบ แต่ขนาดตัวอย่างขนาดเล็กไม่ได้ทำให้การทดสอบเป็นโมฆะ โปรดสังเกตว่าสำหรับขนาดตัวอย่างใด ๆ การแจกแจงการสุ่มตัวอย่างของค่าเฉลี่ยคือ Normal หากการกระจายพาเรนต์เป็นปกติ แน่นอนขนาดตัวอย่างที่ใหญ่กว่าจะดีกว่าเสมอเพราะให้การประมาณค่าพารามิเตอร์ที่แม่นยำยิ่งขึ้น ทฤษฎีลิมิต จำกัด บอกเราว่าค่าเฉลี่ยตัวอย่างนั้นมากกว่าปกติในแต่ละค่า แต่ตามที่ Casella และ Berger ชี้ให้เห็น มันมีประโยชน์อย่าง จำกัด เนื่องจากต้องตรวจสอบอัตราการเข้าถึง Normality สำหรับกรณีใด ๆ โดยเฉพาะ อาศัยกฎของหัวแม่มือไม่ฉลาด ดูผลลัพธ์ที่รายงานในหนังสือของ Rand Wilcox


5

แม้ว่าการกระจายตัวแบบ t จะคำนึงถึงขนาดตัวอย่างขนาดเล็ก แต่ฉันคิดว่าผู้ตัดสินของคุณกำลังคิดเกี่ยวกับความยากลำบากในการกำหนดว่าประชากรจะกระจายตัวตามปกติเมื่อข้อมูลเดียวที่คุณมีเป็นตัวอย่างค่อนข้างน้อยใช่หรือไม่ นี่อาจไม่ใช่ปัญหาใหญ่สำหรับตัวอย่างขนาด 15 เนื่องจากกลุ่มตัวอย่างหวังว่าจะมีขนาดใหญ่พอที่จะแสดงสัญญาณบางอย่างของการกระจายแบบปกติ ถ้านี่เป็นเรื่องจริงหวังว่าประชากรก็อยู่ใกล้ปกติด้วยและเมื่อรวมกับทฤษฎีการ จำกัด ศูนย์กลางที่ควรให้คุณตัวอย่างวิธีที่มีพฤติกรรมดีพอ

แต่ฉันสงสัยเกี่ยวกับคำแนะนำในการใช้การทดสอบแบบ t สำหรับตัวอย่างเล็ก ๆ (เช่นขนาดสี่) เว้นแต่ว่าค่านิยมทั่วไปของประชากรสามารถกำหนดได้จากข้อมูลภายนอกหรือความเข้าใจเชิงกลไก? ไม่สามารถมีข้อมูลใกล้พอในตัวอย่างขนาดสี่ที่มีเบาะแสใด ๆ ตามรูปร่างของการกระจายตัวของประชากร


5

พิจารณาสิ่งต่อไปนี้จาก pp. 254-256 ของ Sauro, J. , & Lewis, JR (2016) การหาปริมาณประสบการณ์ผู้ใช้: สถิติที่เป็นประโยชน์สำหรับการวิจัยผู้ใช้งาน, 2nd Ed Cambridge, MA: Morgan-Kaufmann (คุณสามารถเข้าไปดูได้ที่https://www.amazon.com/Quantifying-User-Experience-Second-Statistics/dp/0128023082/ )


คุณจำเป็นต้องทดสอบอย่างน้อย 30 ผู้ใช้งานหรือไม่

ในมือข้างหนึ่ง

อาจเป็นพวกเราส่วนใหญ่ที่เข้าเรียนวิชาสถิติเบื้องต้น (หรือรู้จักใครบางคนที่เข้าเรียนในชั้นเรียนนี้) ได้ยินกฎของหัวแม่มือที่จะประเมินหรือเปรียบเทียบวิธีการขนาดตัวอย่างของคุณควรมีอย่างน้อย 30 ขนาดตามทฤษฎีขีด จำกัด กลาง เมื่อขนาดตัวอย่างเพิ่มขึ้นการกระจายของค่าเฉลี่ยจะมากขึ้นและมากขึ้นโดยไม่คำนึงถึงความปกติของการแจกแจงพื้นฐาน การศึกษาแบบจำลองบางอย่างแสดงให้เห็นว่าสำหรับการแจกแจงที่หลากหลาย (แต่ไม่ใช่ทั้งหมด - ดูแบรดลีย์, 1978) การกระจายของค่าเฉลี่ยจะใกล้เคียงปกติเมื่อ n = 30

ข้อควรพิจารณาอีกประการหนึ่งคือการใช้คะแนน z ง่ายกว่าเล็กน้อยเนื่องจากคะแนน z ไม่จำเป็นต้องใช้องศาอิสระ ดังที่แสดงในตารางที่ 9.1 และรูปที่ 9.2 ตามเวลาที่คุณมีอิสระประมาณ 30 องศาค่าของ t จะใกล้เคียงกับค่าของ z ดังนั้นอาจมีความรู้สึกว่าคุณไม่ต้องจัดการกับกลุ่มตัวอย่างขนาดเล็กที่ต้องการสถิติตัวอย่างขนาดเล็ก (Cohen, 1990) ...

ในทางกลับกัน

เมื่อค่าใช้จ่ายของกลุ่มตัวอย่างมีราคาแพงเนื่องจากโดยทั่วไปแล้วจะอยู่ในการวิจัยผู้ใช้หลายประเภท (เช่นการทดสอบการใช้งานที่มีการตรวจสอบ) สิ่งสำคัญคือการประเมินขนาดตัวอย่างที่ต้องการอย่างแม่นยำที่สุดเท่าที่จะเป็นไปได้ โอกาสที่ 30 เป็นตัวอย่างที่ถูกต้องสำหรับชุดสถานการณ์ที่กำหนดนั้นต่ำมาก ดังที่แสดงในบทของเราเกี่ยวกับการประมาณขนาดตัวอย่างวิธีการที่เหมาะสมกว่านั้นคือการใช้สูตรสำหรับการคำนวณระดับนัยสำคัญของการทดสอบทางสถิติและการใช้พีชคณิตเพื่อแก้ปัญหาสำหรับ n แปลงให้เป็นสูตรการประมาณขนาดตัวอย่าง สูตรเหล่านั้นให้คำแนะนำเฉพาะเกี่ยวกับสิ่งที่คุณต้องรู้หรือประเมินสถานการณ์ที่กำหนดเพื่อประเมินขนาดตัวอย่างที่ต้องการ

แนวคิดที่ว่าแม้จะมีการแจกแจงแบบ t (เมื่อเทียบกับการแจกแจงแบบ z) คุณต้องมีขนาดตัวอย่างอย่างน้อย 30 ไม่สอดคล้องกับประวัติของการพัฒนาการแจกแจง ในปี ค.ศ. 1899 William S. Gossett ผู้สำเร็จการศึกษาล่าสุดของวิทยาลัยนิวอ็อกซ์ฟอร์ดที่มีวุฒิการศึกษาทางเคมีและคณิตศาสตร์กลายเป็นหนึ่งในนักวิทยาศาสตร์คนแรกที่เข้าร่วมโรงเบียร์กินเนส “ เมื่อเทียบกับยักษ์ใหญ่ในสมัยของเขาเขาตีพิมพ์น้อยมาก แต่การบริจาคของเขามีความสำคัญอย่างยิ่ง …ลักษณะของกระบวนการต้มด้วยความแปรปรวนของอุณหภูมิและส่วนผสมหมายความว่าเป็นไปไม่ได้ที่จะเก็บตัวอย่างจำนวนมากในระยะยาว” (Cowles, 1989, p. 108–109)

นั่นหมายความว่า Gossett ไม่สามารถใช้คะแนน z ในงานของเขาได้ - พวกเขาทำงานได้ไม่ดีกับกลุ่มตัวอย่างขนาดเล็ก หลังจากวิเคราะห์ข้อบกพร่องของการแจกแจงแบบ z สำหรับการทดสอบทางสถิติด้วยตัวอย่างเล็ก ๆ เขาได้ทำการปรับที่จำเป็นในฐานะหน้าที่ขององศาอิสระในการสร้างตาราง t ของเขาเผยแพร่ภายใต้นามแฝง“ นักเรียน” เนื่องจากนโยบายของ Guinness ที่ห้ามตีพิมพ์ โดยพนักงาน (Salsburg, 2001) ในงานที่นำไปสู่การตีพิมพ์ตาราง Gossett ดำเนินการจำลองสถานการณ์ของ Monte Carlo รุ่นแรก (Stigler, 1999) เขาเตรียมการ์ด 3000 ใบที่มีการวัดทางกายภาพเกี่ยวกับอาชญากรสับไพ่แล้วแจกออกเป็น 750 กลุ่มขนาด 4 - ขนาดตัวอย่างเล็กกว่า 30 มาก

คำแนะนำของเรา

การโต้เถียงนี้คล้ายกับ "ห้าก็เพียงพอ" กับ "แปดไม่เพียงพอ" การโต้เถียงในบทที่ 6 แต่นำไปใช้กับ summative มากกว่าการวิจัยการก่อสร้าง สำหรับการวิจัยใด ๆ จำนวนผู้ใช้ที่จะทดสอบขึ้นอยู่กับวัตถุประสงค์ของการทดสอบและประเภทของข้อมูลที่คุณวางแผนที่จะรวบรวม "หมายเลขเวทมนต์" 30 มีเหตุผลเชิงประจักษ์บางประการ แต่ในความเห็นของเรามันอ่อนแอมาก ดังที่คุณเห็นจากตัวอย่างมากมายในหนังสือเล่มนี้ที่มีขนาดตัวอย่างไม่เท่ากับ 30 (บางครั้งน้อยกว่าหรือบางครั้งมากกว่า) เราไม่ถือกฎง่ายๆนี้ในเรื่องที่สูงมาก ดังที่อธิบายไว้ในบทขนาดตัวอย่างของเราสำหรับการวิจัยขั้นสุดท้ายขนาดตัวอย่างที่เหมาะสมสำหรับการศึกษาขึ้นอยู่กับประเภทของการกระจายความแปรปรวนที่คาดหวังของข้อมูลระดับความมั่นใจและพลังที่ต้องการ

ดังที่แสดงในรูปที่ 9.2 เมื่อใช้การแจกแจงแบบ t กับตัวอย่างขนาดเล็กมาก (เช่นที่มีองศาอิสระน้อยกว่า 5) ค่าขนาดใหญ่มากของ t จะชดเชยขนาดตัวอย่างขนาดเล็กที่เกี่ยวข้องกับการควบคุมข้อผิดพลาด Type I ( การอ้างถึงความแตกต่างมีความสำคัญเมื่อไม่ได้จริง ๆ ) ด้วยขนาดตัวอย่างเล็กเหล่านี้ช่วงความมั่นใจของคุณจะกว้างกว่าสิ่งที่คุณจะได้รับจากตัวอย่างขนาดใหญ่ แต่เมื่อคุณจัดการกับอิสระมากกว่า 5 องศามีความแตกต่างน้อยมากระหว่างค่าของ z และค่าของ t จากมุมมองของวิธีการของ t ถึง z นั้นมีอิสระเพียงเล็กน้อยที่ผ่านมา 10 องศา

มันไม่ซับซ้อนกว่าการใช้การแจกแจงแบบ t กว่าการแจกแจงแบบ z (คุณแค่ต้องแน่ใจว่าใช้ค่าที่ถูกต้องสำหรับดีกรีอิสระ) และเหตุผลในการพัฒนาการกระจายตัวแบบ t คือ เปิดใช้งานการวิเคราะห์ตัวอย่างขนาดเล็ก นี่เป็นเพียงหนึ่งในวิธีที่เห็นได้ชัดน้อยกว่าซึ่งผู้ปฏิบัติงานใช้งานได้รับประโยชน์จากวิทยาศาสตร์และการฝึกฝนการผลิตเบียร์ นักประวัติศาสตร์ของสถิติถือว่าการตีพิมพ์ของ Gossett เกี่ยวกับการทดสอบ t ของนักเรียนเป็นเหตุการณ์สำคัญ (Box, 1984; Cowles, 1989; Stigler, 1999) ในจดหมายถึงโรนัลด์เอฟิชเชอร์ (หนึ่งในบรรพบุรุษของสถิติสมัยใหม่) ที่มีสำเนาตารางต้น T, Gossett เขียนว่า "คุณน่าจะเป็นผู้ชายคนเดียวที่จะใช้พวกเขา" (กล่อง, 1978) Gossett มีหลายสิ่งที่ถูกต้อง แต่เขาก็ผิดพลาดอย่างแน่นอน

ข้อมูลอ้างอิง

กล่อง GEP (1984) ความสำคัญของการฝึกปฏิบัติในการพัฒนาสถิติ เทคนิค, 26 (1), 1-8

กล่อง, JF (1978) ฟิชเชอร์ชีวิตของนักวิทยาศาสตร์ New York, NY: John Wiley

แบรดลีย์, JV (1978) ทนทาน? วารสารคณิตศาสตร์และสถิติอังกฤษ, 31, 144-152

โคเฮน, J. (1990) สิ่งที่ฉันได้เรียนรู้ (จนถึงตอนนี้) นักจิตวิทยาอเมริกัน, 45 (12), 1304-1312

Cowles, M. (1989) สถิติทางจิตวิทยา: มุมมองทางประวัติศาสตร์ Hillsdale, นิวเจอร์ซีย์: Lawrence Erlbaum

Salsburg, D. (2001) ชาชิมเลดี้: สถิติปฏิวัติวิทยาศาสตร์ในศตวรรษที่ยี่สิบได้อย่างไร New York, NY: WH Freeman

สติกเลอร์, SM (1999) สถิติในตาราง: ประวัติแนวคิดและวิธีการทางสถิติ Cambridge, MA: สำนักพิมพ์มหาวิทยาลัยฮาร์วาร์ด


3

Czarina อาจพบว่ามีความน่าสนใจในการเปรียบเทียบผลลัพธ์ของ parametric t-test กับผลลัพธ์ที่ได้จาก bootstrap t-test รหัสต่อไปนี้สำหรับ Stata 13/1 เลียนแบบตัวอย่างที่เกี่ยวกับการทดสอบสองตัวอย่างที่มีความแปรปรวนไม่เท่ากัน (พารามิเตอร์การทดสอบ t: p-value = 0.1493; bootstrap t-test: p-value = 0.1543)

set obs 15
g A=2*runiform()
g B=2.5*runiform()
ttest A == B, unpaired unequal
scalar t =r(t)
sum A, meanonly
replace A=A-r(mean) + 1.110498 ///1.110498=combined mean of A and B
sum B, meanonly
replace B=B-r(mean) + 1.110498
bootstrap r(t), reps(10000) nodots///
saving(C:\Users\user\Desktop\Czarina.dta, every(1) double replace) : ///
ttest A == B, unpairedunequal
use "C:\Users\user\Desktop\Czarina.dta", clear
count if _bs_1<=-1.4857///-1.4857=t-value from parametric ttest
count if _bs_1>=1.4857
display (811+732)/10000///this chunk of code calculates a bootstrap p-value///
to be compared with the parametric ttest p-value

3

มีสองวิธีที่แตกต่างกันในการปรับการใช้ t-test

  • โดยปกติข้อมูลของคุณจะกระจายและคุณมีตัวอย่างอย่างน้อยสองตัวอย่างต่อกลุ่ม
  • คุณมีตัวอย่างขนาดใหญ่ในแต่ละกลุ่ม

หากมีกรณีใดกรณีหนึ่งค้างอยู่การทดสอบ t จะถือว่าเป็นการทดสอบที่ถูกต้อง ดังนั้นหากคุณยินดีที่จะทำการสันนิษฐานว่าข้อมูลของคุณได้รับการกระจายตามปกติ (ซึ่งนักวิจัยหลายคนที่รวบรวมตัวอย่างเล็ก ๆ ) คุณก็ไม่มีอะไรต้องกังวล

อย่างไรก็ตามบางคนอาจคัดค้านว่าคุณใช้สมมติฐานนี้เพื่อให้ได้ผลลัพธ์โดยเฉพาะอย่างยิ่งหากข้อมูลของคุณถูกบิดเบือน จากนั้นคำถามของขนาดตัวอย่างที่จำเป็นสำหรับการอนุมานที่ถูกต้องนั้นเป็นคำถามที่สมเหตุสมผลมาก

สำหรับขนาดตัวอย่างที่ต้องการนั้นน่าเสียดายที่ไม่มีคำตอบที่ชัดเจนสำหรับสิ่งนั้น ยิ่งข้อมูลของคุณเบ้ยิ่งขนาดตัวอย่างใหญ่ขึ้นเท่าใดก็จะทำให้การประมาณค่าสมเหตุสมผล 15-20 ต่อกลุ่มมักจะถือว่ามีขนาดใหญ่พอสมควร แต่เช่นเดียวกับกฎส่วนใหญ่มีตัวอย่างเคาน์เตอร์: ตัวอย่างเช่นในการส่งคืนตั๋วลอตเตอรี (โดยที่ 1 ในการพูด 10,000,000 การสังเกตเป็นค่าผิดปกติมาก) ประมาณ 100,000,000 ข้อสังเกตก่อนการทดสอบเหล่านี้จะเหมาะสม


1

ฉันเห็นพ้องกับประโยชน์ของการทดสอบ t ที่เพิ่มขึ้น ฉันก็จะแนะนำเป็นเปรียบเทียบดูที่วิธีการแบบเบย์ที่นำเสนอโดย Kruschke ที่http://www.indiana.edu/~kruschke/BEST/BEST.pdf โดยทั่วไปคำถามของ "มีอาสาสมัครกี่คน" ไม่สามารถตอบได้เว้นแต่คุณจะมีความคิดว่าขนาดของเอฟเฟกต์ที่สำคัญจะเป็นอย่างไรในแง่ของปัญหาที่กำลังแก้ไข นั่นคือและตัวอย่างเช่นหากการทดสอบเป็นการศึกษาสมมุติฐานเกี่ยวกับประสิทธิภาพของยาใหม่ขนาดผลอาจเป็นขนาดขั้นต่ำที่จำเป็นในการปรับยาใหม่เมื่อเปรียบเทียบกับยาเก่าสำหรับสำนักงานคณะกรรมการอาหารและยาของสหรัฐอเมริกา

มีอะไรแปลก ๆ ในเรื่องนี้และการสนทนาอื่น ๆ อีกมากมายคือความเต็มใจที่จะส่งว่าข้อมูลบางอย่างมีการแจกแจงเชิงทฤษฎีเช่นเดียวกับเกาส์เซียน ครั้งแรกเราไม่จำเป็นต้องวางตำแหน่งเราสามารถตรวจสอบได้แม้จะมีตัวอย่างขนาดเล็ก ประการที่สองทำไมวางตัวการกระจายเชิงทฤษฎีที่เฉพาะเจาะจงเลย? ทำไมไม่นำข้อมูลไปใช้เป็นการกระจายเชิงประจักษ์ต่อตัวเอง?

แน่นอนว่าในกรณีที่กลุ่มตัวอย่างมีขนาดเล็กการระบุว่าข้อมูลมาจากการแจกแจงบางอย่างนั้นมีประโยชน์อย่างมากสำหรับการวิเคราะห์ แต่ในการถอดความแบรดลีย์เอฟฟรอนในการทำเช่นนั้นคุณได้สร้างข้อมูลจำนวนไม่ จำกัด บางครั้งอาจไม่เป็นไรหากปัญหาของคุณเหมาะสม บางครั้งมันก็ไม่


1

เท่าที่สมมติฐานไปสำหรับตัวอย่างสองกรณี มันเป็นตัวอย่างที่ทั้งสองมีความเป็นอิสระจากกันและแต่ละตัวอย่างประกอบด้วยตัวแปร iid ปกติกับทั้งสองตัวอย่างมีค่าเฉลี่ยเดียวกันและความแปรปรวนที่ไม่รู้จักทั่วไปภายใต้สมมติฐานว่าง

นอกจากนี้ยังมีการทดสอบ Welch t โดยใช้การประมาณ Satterwaite สำหรับข้อผิดพลาดมาตรฐาน นี่คือตัวอย่างการทดสอบ t-2 สมมติว่าผลต่างไม่เท่ากัน

การทดสอบของ Welch

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.