ฉันสามารถเชื่อถือผลลัพธ์สำคัญของการทดสอบ t ได้ไหมถ้าขนาดตัวอย่างเล็ก?


17

หากผลการทดสอบการทดสอบด้านเดียวของฉันมีความสำคัญ แต่ขนาดตัวอย่างมีขนาดเล็ก (เช่นต่ำกว่า 20 หรือมากกว่านั้น) ฉันจะยังเชื่อถือได้หรือไม่ ถ้าไม่ฉันจะจัดการและ / หรือตีความผลลัพธ์นี้อย่างไร



8
แค่ความคิดเห็นฉันไม่ต้องการเพิ่มความคิดเห็นที่ยอดเยี่ยมด้านล่าง; คุณไม่เชื่อถือผลของการทดสอบ t คุณเชื่อใจในกระบวนการ ผลลัพธ์แต่ละรายการนั้นถูกต้องหรือไม่ถูกต้อง แต่หากไม่มีการตรวจสอบเพิ่มเติมคุณจะไม่มีทางรู้ได้เลยว่า t-test ในวิธีการของฟิชเชอร์หรือวิธีการของเพียร์สันและเนย์แมนนั้นสามารถไว้วางใจได้หากสมมติฐานตรงตาม หากคุณตั้งค่าแล้วมันจะหลอกลวงคุณโดยการทำซ้ำไม่สิ้นสุดไม่เกิน 5% ของเวลาอาจจะน้อยไปสักหน่อย คำถามที่คุณควรถามคือ "เป็นไปตามสมมติฐานหรือไม่" α<.05
Dave Harris

คำตอบ:


15

ในทางทฤษฎีถ้าสมมติฐานทั้งหมดของการทดสอบ t เป็นจริงแล้วไม่มีปัญหากับขนาดตัวอย่างเล็ก ๆ

ในทางปฏิบัติมีข้อสันนิษฐานบางอย่างที่ไม่จริงซึ่งเราสามารถใช้กับตัวอย่างขนาดใหญ่ได้ แต่อาจทำให้เกิดปัญหาสำหรับตัวอย่างขนาดเล็ก คุณรู้หรือไม่ว่าการกระจายต้นแบบนั้นกระจายตามปกติ? ตัวอย่างทั้งหมดเป็นอิสระและกระจายตัวเหมือนกันหรือไม่

หากคุณสงสัยในความถูกต้องของการทดสอบทางเลือกอื่นที่คุณสามารถใช้คือการบูตสแตรป การบู๊ตเกี่ยวข้องกับการเปลี่ยนตัวอย่างจากตัวอย่างของคุณเพื่อดูว่าสมมติฐานว่างเป็นจริงหรือเท็จบ่อยแค่ไหน บางทีสมมุติฐานว่างของคุณคือและค่า p ของคุณคือ 0.05 แต่การบูตสแตรปแสดงให้เห็นว่าค่าเฉลี่ยตัวอย่างน้อยกว่าศูนย์ 10% ของเวลา นี่จะบ่งบอกว่ามันเป็นความบังเอิญที่ทำให้ค่า p เป็น 0.05 และคุณควรจะมีความมั่นใจน้อยลงว่าสมมติฐานว่างเป็นเท็จμ<0


1
ตัวอย่างเช่นถ้าคุณรู้ว่าการแจกแจงพื้นฐานนั้นเป็นการแจกแจงแบบปกติและตัวอย่างทั้งหมด 10 ตัวของคุณมีค่าน้อยกว่าค่าใดค่าหนึ่งโดยเฉพาะอย่างยิ่งค่าเฉลี่ยของประชากรจะมีค่ามากกว่าค่านั้นอย่างมากใน 2 ^ 10 หรือหนึ่งในหนึ่งพัน เห็นได้ชัดว่ามีโอกาส 1 ใน 2 ^ 10 ว่าทั้งสิบตัวอย่างจากประชากรที่กระจายตัวตามปกติจะอยู่ในด้านเดียวกันของค่าเฉลี่ย ปัญหาคือว่าคุณจะได้รับผลลัพธ์ที่น่าเชื่อถือ แต่พวกเขาจะอ่อนแอมาก - เช่น "ความสูงเฉลี่ยเพศชายเกือบจะแน่นอนระหว่าง 5 และ 7 ฟุต"
David Schwartz

ขอบคุณมากสำหรับคำอธิบายและแนวทางอื่น ฉันซาบซึ้งจริงๆ! ขอบคุณมาก!
Eric

ฉันไม่ได้รับข้อเสนอแนะการบูตสแตรปของคุณ หากคุณสุ่มตัวอย่างจากตัวอย่าง (ที่มี p <0.05) คุณจะคาดหวังว่าส่วนใหญ่ของ bootstrap resamples จะมีผลอย่างมีนัยสำคัญอาจประมาณ 95% ไม่ใช่ 5 หรือ 10% คุณช่วยอธิบายรายละเอียดได้ไหม? Cc ถึง @Eric
อะมีบาพูดว่า Reinstate Monica

3
ตามข้อสังเกตทั่วไป bootstrap ทำงานได้ดีในตัวอย่างขนาดใหญ่ แต่ด้วยตัวอย่างขนาดเล็กความครอบคลุมอาจแตกต่างจากเล็กน้อยเล็กน้อย นอกจากนี้ด้วยขนาดตัวอย่างที่ต่ำมากกำลังไฟต่ำ ดังนั้นจึงไม่เป็นความจริงเลยว่า "การทดสอบบูตสแตรป" นั้นดีกว่าการทดสอบ t เสมอ
อะมีบากล่าวว่า Reinstate Monica

3
@ amoeba ฉันชอบสไตล์การแก้ไขของคุณจริงๆ คุณไม่เพียงแค่บอกฉันว่าอะไรถูก / ผิดคุณได้ชี้ให้เห็นผลลัพธ์ที่แปลก ๆ ของความคิดของฉันและทำให้ฉันคิดใหม่คำตอบและเข้าใจสาเหตุของความผิดพลาดของฉัน ขอบคุณมากสำหรับสิ่งนั้น! ในอดีตที่ Whuber ได้ทำสิ่งนี้ให้ฉันเช่นกัน
Hugh

21

คุณไม่ควรไว้วางใจผลลัพธ์ที่สำคัญใด ๆ คุณไม่ได้บอกว่าทำไมคุณถึงใช้แบบทดสอบแบบหางเดียวแทนแบบทดสอบสองด้านดังนั้นหวังว่าคุณจะมีเหตุผลที่ดีในการทำสิ่งอื่นนอกเหนือจากการดิ้นรนเพื่อให้ได้ผลลัพธ์ที่มีนัยสำคัญทางสถิติ!

พิจารณาว่าจากสิ่งต่อไปนี้ 261 แห่ง Sauro, J. , & Lewis, JR (2016) การหาปริมาณประสบการณ์ของผู้ใช้: สถิติเชิงปฏิบัติสำหรับการวิจัยผู้ใช้, 2nd Ed .. Cambridge, MA: Morgan-Kaufmann


วิธีที่โรนัลด์ฟิชเชอร์แนะนำโดยใช้ค่า p

เมื่อคาร์ลเพียร์สันเป็นชายชราผู้ยิ่งใหญ่แห่งสถิติและโรนัลด์ฟิชเชอร์เป็นผู้มาใหม่ญาติเพียร์สันถูกคุกคามโดยความคิดของชาวประมงและความสามารถทางคณิตศาสตร์ใช้อิทธิพลของเขาเพื่อป้องกันฟิชเชอร์ ของสมาคมสถิติราช ดังนั้นฟิชเชอร์จึงตีพิมพ์ความคิดของเขาในสถานที่ต่าง ๆ เช่นวารสารเกษตรและอุตุนิยมวิทยารวมถึงเอกสารต่าง ๆ สำหรับการดำเนินการของสมาคมเพื่อการวิจัยทางจิต เป็นหนึ่งในเอกสารสำหรับวารสารหลังนี้ที่เขากล่าวถึงการประชุมเรื่องการตั้งค่าสิ่งที่เราเรียกว่าข้อผิดพลาด Type I ที่ยอมรับได้ (alpha) ถึง 0.05 และยิ่งช่วงวิกฤตยังกล่าวถึงความสำคัญของการทำซ้ำเมื่อพบผลลัพธ์สำคัญที่ไม่คาดคิด:

การสังเกตถูกตัดสินว่ามีความสำคัญหากจะไม่ค่อยเกิดขึ้นในกรณีที่ไม่มีสาเหตุที่แท้จริงของประเภทที่เรากำลังค้นหา มันเป็นเรื่องธรรมดาที่จะตัดสินผลลัพธ์อย่างมีนัยสำคัญถ้ามันมีขนาดที่มันจะเกิดขึ้นโดยบังเอิญไม่บ่อยกว่าหนึ่งครั้งในการทดลองยี่สิบครั้ง นี่คือระดับความสำคัญตามอำเภอใจ แต่สะดวกสบายสำหรับผู้ตรวจสอบภาคปฏิบัติ แต่ก็ไม่ได้หมายความว่าเขายอมให้ตัวเองถูกหลอกลวงหนึ่งครั้งในทุก ๆ การทดลองยี่สิบครั้ง การทดสอบนัยสำคัญเพียงบอกเขาว่าจะต้องเพิกเฉยกล่าวคือการทดลองทั้งหมดที่ไม่ได้ผลลัพธ์ที่สำคัญ เขาควรอ้างว่าปรากฏการณ์นั้นสามารถทดลองได้เมื่อเขารู้วิธีออกแบบการทดลองเพื่อที่จะไม่ให้ผลลัพธ์ที่สำคัญ ดังนั้น แยกผลลัพธ์ที่สำคัญซึ่งเขาไม่ทราบวิธีการทำซ้ำถูกทิ้งไว้ในระหว่างรอการสอบสวนเพิ่มเติม (ฟิชเชอร์, 1929, p. 191)

การอ้างอิง

ฟิชเชอร์, RA (1929) วิธีการทางสถิติในการวิจัยทางจิต กิจการของสมาคมเพื่อการวิจัยทางจิตวิทยา, 39, 189-192


2
ฟิชเชอร์ยังตีพิมพ์เอกสารสำคัญหลายฉบับที่ประเมินความเป็นไปได้สูงสุดในพงศาวดารของสุพันธุศาสตร์ วิธีการของเขามักจะดีกว่าวิธีช่วงเวลาที่ Karl Pearson ใช้ ฟิชเชอร์เรียกวิธีการอนุมานของเขา fiducial ต่อมามันถูกทำให้เป็นทางการโดย Jerzy Neyman และ Egon Pearson (ลูกชายของ Karl Pearson)
Michael R. Chernick

3
เนย์แมนและเพียร์สันไม่ได้ทำข้อสรุปเชิงความเชื่อมั่นของฟิชเชอร์อย่างเป็นทางการ พวกเขาพัฒนาวิธีการทางเลือก
Michael Lew - คืนสถานะโมนิก้า

5
ในวันฟิชเชอร์คำว่า "สำคัญ" หมายความว่ามันหมายถึงบางสิ่งไม่ใช่ว่ามันสำคัญ
David Lane

1
ขอบคุณมากสำหรับข้อมูลที่มีรายละเอียดสูง! มันช่วยฉันได้มากจริงๆ!
Eric

16

ลองนึกภาพตัวเองว่าอยู่ในสถานการณ์ที่คุณกำลังทำการทดสอบที่คล้ายกันหลาย ๆ แบบในสถานการณ์ที่มีเศษส่วนบางส่วนเป็นจริง

เสื้อ

(1β)β

nMnM

สัดส่วนของการปฏิเสธของคุณจะ "ถูกต้อง" คืออะไร?

ntα+n(1t)(1β)
n(1t)(1β)

(1t)(1β)tα+(1t)(1β)

Overall proportion of times a rejection was an error: tαtα+(1t)(1β)

For the proportion of correct rejections to be more than a small number you need to avoid the situation where (1t)(1β)tα

Since in our setup a substantial fraction of nulls are true, if 1β is not substantially larger than α (i.e. if you don't have fairly high power), a lot of our rejections are mistakes!

ดังนั้นเมื่อขนาดตัวอย่างของคุณมีขนาดเล็ก (และกำลังงานต่ำ) ถ้าเศษส่วนที่สมเหตุสมผลของค่า null ของเราเป็นจริงเรามักจะทำผิดพลาดเมื่อเราปฏิเสธ

สถานการณ์ไม่ดีขึ้นมากนักถ้าหากค่าโมฆะของเราเกือบทั้งหมดเป็นเท็จอย่างเคร่งครัด - ในขณะที่การปฏิเสธส่วนใหญ่ของเราจะถูกต้อง (เล็กน้อยเนื่องจากเอฟเฟกต์เล็ก ๆ ยังคงเป็นเท็จอย่างเคร่งครัด) หากพลังไม่สูง การปฏิเสธจะเป็น "ไปในทิศทางที่ผิด" - เราจะสรุปว่าเป็นโมฆะค่อนข้างบ่อยเพราะมีโอกาสที่กลุ่มตัวอย่างหันด้านผิด (อาจเป็นอาร์กิวเมนต์หนึ่งที่ใช้การทดสอบด้านเดียว - เมื่อการทดสอบด้านเดียวทำให้ ความรู้สึก - อย่างน้อยหลีกเลี่ยงการปฏิเสธที่ไม่มีเหตุผลหากขนาดตัวอย่างขนาดใหญ่ยากต่อการรับ)

เราจะเห็นได้ว่าตัวอย่างขนาดเล็กอาจเป็นปัญหาได้อย่างแน่นอน

[สัดส่วนของการปฏิเสธที่ไม่ถูกต้องนี้เรียกว่าอัตราการค้นพบที่ผิด ]


หากคุณมีความคิดเกี่ยวกับขนาดเอฟเฟกต์น่าจะเป็นว่าคุณอยู่ในตำแหน่งที่ดีกว่าที่จะตัดสินว่าขนาดตัวอย่างที่เพียงพออาจเป็นอย่างไร ด้วยเอฟเฟ็กต์ที่คาดหวังไว้การปฏิเสธที่มีขนาดตัวอย่างเล็ก ๆ นั้นไม่จำเป็นต้องเป็นข้อกังวลหลัก


ขอบคุณมาก! นั่นเป็นจุดที่ฉันสามารถพลาดได้ง่ายมาก ขอบคุณมากสำหรับพินชี้ว่า!
Eric

1
การทำงานที่ดี. นี่อาจเป็นคำตอบที่ยอมรับได้
Richard Hardy

@ เอริคคำตอบเดิมเริ่มสับสนอยู่ตรงกลาง; ฉันแก้ไขมันแล้ว
Glen_b -Reinstate Monica

9

งานต้นฉบับของ Gosset (นักเรียนหรือที่รู้จัก) ซึ่งเขาได้ทำการพัฒนาแบบทดสอบ t ซึ่งเกี่ยวข้องกับตัวอย่างยีสต์ที่ n = 4 และ 5 การทดสอบได้รับการออกแบบมาโดยเฉพาะสำหรับตัวอย่างขนาดเล็กมาก มิเช่นนั้นการประมาณปกติก็น่าจะดี ที่กล่าวว่า Gosset ทำการทดลองอย่างระมัดระวังและควบคุมข้อมูลที่เขาเข้าใจได้เป็นอย่างดี มีข้อ จำกัด เรื่องจำนวนโรงเบียร์ที่ต้องทดสอบและ Gosset ใช้ชีวิตการทำงานของเขาที่ Guinness เขารู้ข้อมูลของเขา

ฉันสงสัยว่าคุณให้ความสำคัญกับการทดสอบด้านเดียว ตรรกะของการทดสอบนั้นเหมือนกันทุกอย่างกับสมมติฐาน แต่ฉันเคยเห็นผู้คนไปด้วยการทดสอบด้านเดียวอย่างมีนัยสำคัญเมื่อทั้งสองฝ่ายไม่สำคัญ

นี่คือความหมายของการทดสอบด้านเดียว (ด้านบน) คุณกำลังทดสอบว่าค่าเฉลี่ยคือ 0 คุณทำคณิตศาสตร์และพร้อมที่จะปฏิเสธเมื่อ T> 2.5 คุณรันการทดสอบและสังเกตว่า T = -50,000 คุณพูดว่า "phhhhht" และชีวิตก็ดำเนินต่อไป ยกเว้นว่ามันเป็นไปไม่ได้ทางร่างกายสำหรับสถิติการทดสอบที่จะจมลงต่ำกว่าค่าพารามิเตอร์ที่ตั้งสมมติฐานและถ้าคุณไม่ตัดสินใจใด ๆ หากสถิติการทดสอบไปในทิศทางตรงกันข้ามมากกว่าที่คุณคาดไว้คุณควรใช้การทดสอบสองด้าน


6

สิ่งสำคัญที่คุณต้องกังวลคือพลังของการทดสอบของคุณ โดยเฉพาะอย่างยิ่งคุณอาจต้องการทำการวิเคราะห์พลังงานหลังเกิดเหตุเพื่อกำหนดว่าคุณมีแนวโน้มที่จะกำหนดขนาดตัวอย่างของคุณเพื่อระบุผลกระทบที่สำคัญจริง ๆ ของขนาดที่เหมาะสม หากเอฟเฟกต์ทั่วไปมีขนาดใหญ่มากnของ 8 อาจเพียงพอทั้งหมด (เช่นเดียวกับการทดลองหลายอย่างในอณูชีววิทยา) หากเอฟเฟกต์ที่คุณสนใจมีความลึกซึ้งอย่างไรก็ตาม (เช่นเดียวกับในการทดลองทางจิตวิทยาสังคมจำนวนมาก) nพันอาจจะยังคง underpowered

สิ่งนี้สำคัญเนื่องจากการทดสอบที่มีกำลังไม่เพียงพอสามารถให้ผลลัพธ์ที่ทำให้เข้าใจผิดได้มาก ตัวอย่างเช่นหากการทดสอบของคุณต่ำกว่าที่กำหนดแม้ว่าคุณจะพบผลลัพธ์ที่มีนัยสำคัญคุณก็มีโอกาสสูงที่จะทำให้สิ่งที่ Andrew Gelman เรียกว่าข้อผิดพลาด "Type S" คือมีผลจริง แต่ไปในทิศทางตรงกันข้ามหรือ ข้อผิดพลาด "Type M" คือมีผลจริง แต่ขนาดที่แท้จริงนั้นอ่อนแอกว่าที่คาดการณ์ไว้จากข้อมูลมาก

Gelman และคาร์เขียนประโยชน์กระดาษเกี่ยวกับการทำ-hoc โพสต์วิเคราะห์พลังงานที่ฉันคิดว่าจะนำไปใช้ในกรณีของคุณ ที่สำคัญพวกเขาแนะนำให้ใช้ข้อมูลที่เป็นอิสระ (เช่นไม่ใช่ข้อมูลที่คุณทดสอบ แต่ความคิดเห็นการสร้างแบบจำลองผลของการทดลองที่คล้ายกัน ฯลฯ ) เพื่อประเมินขนาดผลกระทบที่แท้จริงที่เป็นไปได้ ด้วยการวิเคราะห์พลังงานโดยใช้ขนาดผลจริงที่ประมาณได้และเปรียบเทียบกับผลลัพธ์ของคุณคุณสามารถกำหนดความน่าจะเป็นที่ทำให้เกิดข้อผิดพลาด Type S และอัตราส่วน "การพูดเกินจริง" โดยทั่วไปและให้เหตุผลที่ดีกว่า


4

อาจกล่าวได้ว่าจุดสำคัญทางสถิติทั้งหมดคือการตอบคำถามที่ว่า "ฉันสามารถเชื่อถือผลลัพธ์นี้ได้หรือไม่เนื่องจากขนาดของกลุ่มตัวอย่าง" กล่าวอีกนัยหนึ่งจุดทั้งหมดคือการควบคุมความจริงที่ว่าด้วยขนาดตัวอย่างขนาดเล็กคุณสามารถได้รับ flukes เมื่อไม่มีผลจริง นัยสำคัญทางสถิติกล่าวคือ p-value เป็นคำตอบที่ถูกต้องสำหรับคำถาม "ถ้าไม่มีผลกระทบที่แท้จริงเกิดขึ้นจะเป็นไปได้อย่างไรที่ฉันจะได้รับความบังเอิญขนาดใหญ่เช่นนี้" หากเป็นไปได้ยากมากนั่นแสดงว่ามันไม่ใช่ความบังเอิญ

ดังนั้นคำตอบคือ "ใช่" ถ้า p-value ต่ำและถ้าคุณทำตามขั้นตอนทางสถิติที่ถูกต้องและพอใจกับสมมติฐานที่เกี่ยวข้องใช่แล้วมันเป็นหลักฐานที่ดีและมีน้ำหนักเหมือนคุณ ได้ค่า p เดียวกันกับขนาดตัวอย่างที่ใหญ่มาก

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.