หากผลการทดสอบการทดสอบด้านเดียวของฉันมีความสำคัญ แต่ขนาดตัวอย่างมีขนาดเล็ก (เช่นต่ำกว่า 20 หรือมากกว่านั้น) ฉันจะยังเชื่อถือได้หรือไม่ ถ้าไม่ฉันจะจัดการและ / หรือตีความผลลัพธ์นี้อย่างไร
หากผลการทดสอบการทดสอบด้านเดียวของฉันมีความสำคัญ แต่ขนาดตัวอย่างมีขนาดเล็ก (เช่นต่ำกว่า 20 หรือมากกว่านั้น) ฉันจะยังเชื่อถือได้หรือไม่ ถ้าไม่ฉันจะจัดการและ / หรือตีความผลลัพธ์นี้อย่างไร
คำตอบ:
ในทางทฤษฎีถ้าสมมติฐานทั้งหมดของการทดสอบ t เป็นจริงแล้วไม่มีปัญหากับขนาดตัวอย่างเล็ก ๆ
ในทางปฏิบัติมีข้อสันนิษฐานบางอย่างที่ไม่จริงซึ่งเราสามารถใช้กับตัวอย่างขนาดใหญ่ได้ แต่อาจทำให้เกิดปัญหาสำหรับตัวอย่างขนาดเล็ก คุณรู้หรือไม่ว่าการกระจายต้นแบบนั้นกระจายตามปกติ? ตัวอย่างทั้งหมดเป็นอิสระและกระจายตัวเหมือนกันหรือไม่
หากคุณสงสัยในความถูกต้องของการทดสอบทางเลือกอื่นที่คุณสามารถใช้คือการบูตสแตรป การบู๊ตเกี่ยวข้องกับการเปลี่ยนตัวอย่างจากตัวอย่างของคุณเพื่อดูว่าสมมติฐานว่างเป็นจริงหรือเท็จบ่อยแค่ไหน บางทีสมมุติฐานว่างของคุณคือและค่า p ของคุณคือ 0.05 แต่การบูตสแตรปแสดงให้เห็นว่าค่าเฉลี่ยตัวอย่างน้อยกว่าศูนย์ 10% ของเวลา นี่จะบ่งบอกว่ามันเป็นความบังเอิญที่ทำให้ค่า p เป็น 0.05 และคุณควรจะมีความมั่นใจน้อยลงว่าสมมติฐานว่างเป็นเท็จ
คุณไม่ควรไว้วางใจผลลัพธ์ที่สำคัญใด ๆ คุณไม่ได้บอกว่าทำไมคุณถึงใช้แบบทดสอบแบบหางเดียวแทนแบบทดสอบสองด้านดังนั้นหวังว่าคุณจะมีเหตุผลที่ดีในการทำสิ่งอื่นนอกเหนือจากการดิ้นรนเพื่อให้ได้ผลลัพธ์ที่มีนัยสำคัญทางสถิติ!
พิจารณาว่าจากสิ่งต่อไปนี้ 261 แห่ง Sauro, J. , & Lewis, JR (2016) การหาปริมาณประสบการณ์ของผู้ใช้: สถิติเชิงปฏิบัติสำหรับการวิจัยผู้ใช้, 2nd Ed .. Cambridge, MA: Morgan-Kaufmann
วิธีที่โรนัลด์ฟิชเชอร์แนะนำโดยใช้ค่า p
เมื่อคาร์ลเพียร์สันเป็นชายชราผู้ยิ่งใหญ่แห่งสถิติและโรนัลด์ฟิชเชอร์เป็นผู้มาใหม่ญาติเพียร์สันถูกคุกคามโดยความคิดของชาวประมงและความสามารถทางคณิตศาสตร์ใช้อิทธิพลของเขาเพื่อป้องกันฟิชเชอร์ ของสมาคมสถิติราช ดังนั้นฟิชเชอร์จึงตีพิมพ์ความคิดของเขาในสถานที่ต่าง ๆ เช่นวารสารเกษตรและอุตุนิยมวิทยารวมถึงเอกสารต่าง ๆ สำหรับการดำเนินการของสมาคมเพื่อการวิจัยทางจิต เป็นหนึ่งในเอกสารสำหรับวารสารหลังนี้ที่เขากล่าวถึงการประชุมเรื่องการตั้งค่าสิ่งที่เราเรียกว่าข้อผิดพลาด Type I ที่ยอมรับได้ (alpha) ถึง 0.05 และยิ่งช่วงวิกฤตยังกล่าวถึงความสำคัญของการทำซ้ำเมื่อพบผลลัพธ์สำคัญที่ไม่คาดคิด:
การสังเกตถูกตัดสินว่ามีความสำคัญหากจะไม่ค่อยเกิดขึ้นในกรณีที่ไม่มีสาเหตุที่แท้จริงของประเภทที่เรากำลังค้นหา มันเป็นเรื่องธรรมดาที่จะตัดสินผลลัพธ์อย่างมีนัยสำคัญถ้ามันมีขนาดที่มันจะเกิดขึ้นโดยบังเอิญไม่บ่อยกว่าหนึ่งครั้งในการทดลองยี่สิบครั้ง นี่คือระดับความสำคัญตามอำเภอใจ แต่สะดวกสบายสำหรับผู้ตรวจสอบภาคปฏิบัติ แต่ก็ไม่ได้หมายความว่าเขายอมให้ตัวเองถูกหลอกลวงหนึ่งครั้งในทุก ๆ การทดลองยี่สิบครั้ง การทดสอบนัยสำคัญเพียงบอกเขาว่าจะต้องเพิกเฉยกล่าวคือการทดลองทั้งหมดที่ไม่ได้ผลลัพธ์ที่สำคัญ เขาควรอ้างว่าปรากฏการณ์นั้นสามารถทดลองได้เมื่อเขารู้วิธีออกแบบการทดลองเพื่อที่จะไม่ให้ผลลัพธ์ที่สำคัญ ดังนั้น แยกผลลัพธ์ที่สำคัญซึ่งเขาไม่ทราบวิธีการทำซ้ำถูกทิ้งไว้ในระหว่างรอการสอบสวนเพิ่มเติม (ฟิชเชอร์, 1929, p. 191)
การอ้างอิง
ฟิชเชอร์, RA (1929) วิธีการทางสถิติในการวิจัยทางจิต กิจการของสมาคมเพื่อการวิจัยทางจิตวิทยา, 39, 189-192
ลองนึกภาพตัวเองว่าอยู่ในสถานการณ์ที่คุณกำลังทำการทดสอบที่คล้ายกันหลาย ๆ แบบในสถานการณ์ที่มีเศษส่วนบางส่วนเป็นจริง
สัดส่วนของการปฏิเสธของคุณจะ "ถูกต้อง" คืออะไร?
Overall proportion of times a rejection was an error:
For the proportion of correct rejections to be more than a small number you need to avoid the situation where
Since in our setup a substantial fraction of nulls are true, if is not substantially larger than (i.e. if you don't have fairly high power), a lot of our rejections are mistakes!
ดังนั้นเมื่อขนาดตัวอย่างของคุณมีขนาดเล็ก (และกำลังงานต่ำ) ถ้าเศษส่วนที่สมเหตุสมผลของค่า null ของเราเป็นจริงเรามักจะทำผิดพลาดเมื่อเราปฏิเสธ
สถานการณ์ไม่ดีขึ้นมากนักถ้าหากค่าโมฆะของเราเกือบทั้งหมดเป็นเท็จอย่างเคร่งครัด - ในขณะที่การปฏิเสธส่วนใหญ่ของเราจะถูกต้อง (เล็กน้อยเนื่องจากเอฟเฟกต์เล็ก ๆ ยังคงเป็นเท็จอย่างเคร่งครัด) หากพลังไม่สูง การปฏิเสธจะเป็น "ไปในทิศทางที่ผิด" - เราจะสรุปว่าเป็นโมฆะค่อนข้างบ่อยเพราะมีโอกาสที่กลุ่มตัวอย่างหันด้านผิด (อาจเป็นอาร์กิวเมนต์หนึ่งที่ใช้การทดสอบด้านเดียว - เมื่อการทดสอบด้านเดียวทำให้ ความรู้สึก - อย่างน้อยหลีกเลี่ยงการปฏิเสธที่ไม่มีเหตุผลหากขนาดตัวอย่างขนาดใหญ่ยากต่อการรับ)
เราจะเห็นได้ว่าตัวอย่างขนาดเล็กอาจเป็นปัญหาได้อย่างแน่นอน
[สัดส่วนของการปฏิเสธที่ไม่ถูกต้องนี้เรียกว่าอัตราการค้นพบที่ผิด ]
หากคุณมีความคิดเกี่ยวกับขนาดเอฟเฟกต์น่าจะเป็นว่าคุณอยู่ในตำแหน่งที่ดีกว่าที่จะตัดสินว่าขนาดตัวอย่างที่เพียงพออาจเป็นอย่างไร ด้วยเอฟเฟ็กต์ที่คาดหวังไว้การปฏิเสธที่มีขนาดตัวอย่างเล็ก ๆ นั้นไม่จำเป็นต้องเป็นข้อกังวลหลัก
งานต้นฉบับของ Gosset (นักเรียนหรือที่รู้จัก) ซึ่งเขาได้ทำการพัฒนาแบบทดสอบ t ซึ่งเกี่ยวข้องกับตัวอย่างยีสต์ที่ n = 4 และ 5 การทดสอบได้รับการออกแบบมาโดยเฉพาะสำหรับตัวอย่างขนาดเล็กมาก มิเช่นนั้นการประมาณปกติก็น่าจะดี ที่กล่าวว่า Gosset ทำการทดลองอย่างระมัดระวังและควบคุมข้อมูลที่เขาเข้าใจได้เป็นอย่างดี มีข้อ จำกัด เรื่องจำนวนโรงเบียร์ที่ต้องทดสอบและ Gosset ใช้ชีวิตการทำงานของเขาที่ Guinness เขารู้ข้อมูลของเขา
ฉันสงสัยว่าคุณให้ความสำคัญกับการทดสอบด้านเดียว ตรรกะของการทดสอบนั้นเหมือนกันทุกอย่างกับสมมติฐาน แต่ฉันเคยเห็นผู้คนไปด้วยการทดสอบด้านเดียวอย่างมีนัยสำคัญเมื่อทั้งสองฝ่ายไม่สำคัญ
นี่คือความหมายของการทดสอบด้านเดียว (ด้านบน) คุณกำลังทดสอบว่าค่าเฉลี่ยคือ 0 คุณทำคณิตศาสตร์และพร้อมที่จะปฏิเสธเมื่อ T> 2.5 คุณรันการทดสอบและสังเกตว่า T = -50,000 คุณพูดว่า "phhhhht" และชีวิตก็ดำเนินต่อไป ยกเว้นว่ามันเป็นไปไม่ได้ทางร่างกายสำหรับสถิติการทดสอบที่จะจมลงต่ำกว่าค่าพารามิเตอร์ที่ตั้งสมมติฐานและถ้าคุณไม่ตัดสินใจใด ๆ หากสถิติการทดสอบไปในทิศทางตรงกันข้ามมากกว่าที่คุณคาดไว้คุณควรใช้การทดสอบสองด้าน
สิ่งสำคัญที่คุณต้องกังวลคือพลังของการทดสอบของคุณ โดยเฉพาะอย่างยิ่งคุณอาจต้องการทำการวิเคราะห์พลังงานหลังเกิดเหตุเพื่อกำหนดว่าคุณมีแนวโน้มที่จะกำหนดขนาดตัวอย่างของคุณเพื่อระบุผลกระทบที่สำคัญจริง ๆ ของขนาดที่เหมาะสม หากเอฟเฟกต์ทั่วไปมีขนาดใหญ่มากnของ 8 อาจเพียงพอทั้งหมด (เช่นเดียวกับการทดลองหลายอย่างในอณูชีววิทยา) หากเอฟเฟกต์ที่คุณสนใจมีความลึกซึ้งอย่างไรก็ตาม (เช่นเดียวกับในการทดลองทางจิตวิทยาสังคมจำนวนมาก) nพันอาจจะยังคง underpowered
สิ่งนี้สำคัญเนื่องจากการทดสอบที่มีกำลังไม่เพียงพอสามารถให้ผลลัพธ์ที่ทำให้เข้าใจผิดได้มาก ตัวอย่างเช่นหากการทดสอบของคุณต่ำกว่าที่กำหนดแม้ว่าคุณจะพบผลลัพธ์ที่มีนัยสำคัญคุณก็มีโอกาสสูงที่จะทำให้สิ่งที่ Andrew Gelman เรียกว่าข้อผิดพลาด "Type S" คือมีผลจริง แต่ไปในทิศทางตรงกันข้ามหรือ ข้อผิดพลาด "Type M" คือมีผลจริง แต่ขนาดที่แท้จริงนั้นอ่อนแอกว่าที่คาดการณ์ไว้จากข้อมูลมาก
Gelman และคาร์เขียนประโยชน์กระดาษเกี่ยวกับการทำ-hoc โพสต์วิเคราะห์พลังงานที่ฉันคิดว่าจะนำไปใช้ในกรณีของคุณ ที่สำคัญพวกเขาแนะนำให้ใช้ข้อมูลที่เป็นอิสระ (เช่นไม่ใช่ข้อมูลที่คุณทดสอบ แต่ความคิดเห็นการสร้างแบบจำลองผลของการทดลองที่คล้ายกัน ฯลฯ ) เพื่อประเมินขนาดผลกระทบที่แท้จริงที่เป็นไปได้ ด้วยการวิเคราะห์พลังงานโดยใช้ขนาดผลจริงที่ประมาณได้และเปรียบเทียบกับผลลัพธ์ของคุณคุณสามารถกำหนดความน่าจะเป็นที่ทำให้เกิดข้อผิดพลาด Type S และอัตราส่วน "การพูดเกินจริง" โดยทั่วไปและให้เหตุผลที่ดีกว่า
อาจกล่าวได้ว่าจุดสำคัญทางสถิติทั้งหมดคือการตอบคำถามที่ว่า "ฉันสามารถเชื่อถือผลลัพธ์นี้ได้หรือไม่เนื่องจากขนาดของกลุ่มตัวอย่าง" กล่าวอีกนัยหนึ่งจุดทั้งหมดคือการควบคุมความจริงที่ว่าด้วยขนาดตัวอย่างขนาดเล็กคุณสามารถได้รับ flukes เมื่อไม่มีผลจริง นัยสำคัญทางสถิติกล่าวคือ p-value เป็นคำตอบที่ถูกต้องสำหรับคำถาม "ถ้าไม่มีผลกระทบที่แท้จริงเกิดขึ้นจะเป็นไปได้อย่างไรที่ฉันจะได้รับความบังเอิญขนาดใหญ่เช่นนี้" หากเป็นไปได้ยากมากนั่นแสดงว่ามันไม่ใช่ความบังเอิญ
ดังนั้นคำตอบคือ "ใช่" ถ้า p-value ต่ำและถ้าคุณทำตามขั้นตอนทางสถิติที่ถูกต้องและพอใจกับสมมติฐานที่เกี่ยวข้องใช่แล้วมันเป็นหลักฐานที่ดีและมีน้ำหนักเหมือนคุณ ได้ค่า p เดียวกันกับขนาดตัวอย่างที่ใหญ่มาก