พิจารณาสิ่งต่อไปนี้จาก pp. 254-256 ของ Sauro, J. , & Lewis, JR (2016) การหาปริมาณประสบการณ์ผู้ใช้: สถิติที่เป็นประโยชน์สำหรับการวิจัยผู้ใช้งาน, 2nd Ed Cambridge, MA: Morgan-Kaufmann (คุณสามารถเข้าไปดูได้ที่https://www.amazon.com/Quantifying-User-Experience-Second-Statistics/dp/0128023082/ )
คุณจำเป็นต้องทดสอบอย่างน้อย 30 ผู้ใช้งานหรือไม่
ในมือข้างหนึ่ง
อาจเป็นพวกเราส่วนใหญ่ที่เข้าเรียนวิชาสถิติเบื้องต้น (หรือรู้จักใครบางคนที่เข้าเรียนในชั้นเรียนนี้) ได้ยินกฎของหัวแม่มือที่จะประเมินหรือเปรียบเทียบวิธีการขนาดตัวอย่างของคุณควรมีอย่างน้อย 30 ขนาดตามทฤษฎีขีด จำกัด กลาง เมื่อขนาดตัวอย่างเพิ่มขึ้นการกระจายของค่าเฉลี่ยจะมากขึ้นและมากขึ้นโดยไม่คำนึงถึงความปกติของการแจกแจงพื้นฐาน การศึกษาแบบจำลองบางอย่างแสดงให้เห็นว่าสำหรับการแจกแจงที่หลากหลาย (แต่ไม่ใช่ทั้งหมด - ดูแบรดลีย์, 1978) การกระจายของค่าเฉลี่ยจะใกล้เคียงปกติเมื่อ n = 30
ข้อควรพิจารณาอีกประการหนึ่งคือการใช้คะแนน z ง่ายกว่าเล็กน้อยเนื่องจากคะแนน z ไม่จำเป็นต้องใช้องศาอิสระ ดังที่แสดงในตารางที่ 9.1 และรูปที่ 9.2 ตามเวลาที่คุณมีอิสระประมาณ 30 องศาค่าของ t จะใกล้เคียงกับค่าของ z ดังนั้นอาจมีความรู้สึกว่าคุณไม่ต้องจัดการกับกลุ่มตัวอย่างขนาดเล็กที่ต้องการสถิติตัวอย่างขนาดเล็ก (Cohen, 1990) ...
ในทางกลับกัน
เมื่อค่าใช้จ่ายของกลุ่มตัวอย่างมีราคาแพงเนื่องจากโดยทั่วไปแล้วจะอยู่ในการวิจัยผู้ใช้หลายประเภท (เช่นการทดสอบการใช้งานที่มีการตรวจสอบ) สิ่งสำคัญคือการประเมินขนาดตัวอย่างที่ต้องการอย่างแม่นยำที่สุดเท่าที่จะเป็นไปได้ โอกาสที่ 30 เป็นตัวอย่างที่ถูกต้องสำหรับชุดสถานการณ์ที่กำหนดนั้นต่ำมาก ดังที่แสดงในบทของเราเกี่ยวกับการประมาณขนาดตัวอย่างวิธีการที่เหมาะสมกว่านั้นคือการใช้สูตรสำหรับการคำนวณระดับนัยสำคัญของการทดสอบทางสถิติและการใช้พีชคณิตเพื่อแก้ปัญหาสำหรับ n แปลงให้เป็นสูตรการประมาณขนาดตัวอย่าง สูตรเหล่านั้นให้คำแนะนำเฉพาะเกี่ยวกับสิ่งที่คุณต้องรู้หรือประเมินสถานการณ์ที่กำหนดเพื่อประเมินขนาดตัวอย่างที่ต้องการ
แนวคิดที่ว่าแม้จะมีการแจกแจงแบบ t (เมื่อเทียบกับการแจกแจงแบบ z) คุณต้องมีขนาดตัวอย่างอย่างน้อย 30 ไม่สอดคล้องกับประวัติของการพัฒนาการแจกแจง ในปี ค.ศ. 1899 William S. Gossett ผู้สำเร็จการศึกษาล่าสุดของวิทยาลัยนิวอ็อกซ์ฟอร์ดที่มีวุฒิการศึกษาทางเคมีและคณิตศาสตร์กลายเป็นหนึ่งในนักวิทยาศาสตร์คนแรกที่เข้าร่วมโรงเบียร์กินเนส “ เมื่อเทียบกับยักษ์ใหญ่ในสมัยของเขาเขาตีพิมพ์น้อยมาก แต่การบริจาคของเขามีความสำคัญอย่างยิ่ง …ลักษณะของกระบวนการต้มด้วยความแปรปรวนของอุณหภูมิและส่วนผสมหมายความว่าเป็นไปไม่ได้ที่จะเก็บตัวอย่างจำนวนมากในระยะยาว” (Cowles, 1989, p. 108–109)
นั่นหมายความว่า Gossett ไม่สามารถใช้คะแนน z ในงานของเขาได้ - พวกเขาทำงานได้ไม่ดีกับกลุ่มตัวอย่างขนาดเล็ก หลังจากวิเคราะห์ข้อบกพร่องของการแจกแจงแบบ z สำหรับการทดสอบทางสถิติด้วยตัวอย่างเล็ก ๆ เขาได้ทำการปรับที่จำเป็นในฐานะหน้าที่ขององศาอิสระในการสร้างตาราง t ของเขาเผยแพร่ภายใต้นามแฝง“ นักเรียน” เนื่องจากนโยบายของ Guinness ที่ห้ามตีพิมพ์ โดยพนักงาน (Salsburg, 2001) ในงานที่นำไปสู่การตีพิมพ์ตาราง Gossett ดำเนินการจำลองสถานการณ์ของ Monte Carlo รุ่นแรก (Stigler, 1999) เขาเตรียมการ์ด 3000 ใบที่มีการวัดทางกายภาพเกี่ยวกับอาชญากรสับไพ่แล้วแจกออกเป็น 750 กลุ่มขนาด 4 - ขนาดตัวอย่างเล็กกว่า 30 มาก
คำแนะนำของเรา
การโต้เถียงนี้คล้ายกับ "ห้าก็เพียงพอ" กับ "แปดไม่เพียงพอ" การโต้เถียงในบทที่ 6 แต่นำไปใช้กับ summative มากกว่าการวิจัยการก่อสร้าง สำหรับการวิจัยใด ๆ จำนวนผู้ใช้ที่จะทดสอบขึ้นอยู่กับวัตถุประสงค์ของการทดสอบและประเภทของข้อมูลที่คุณวางแผนที่จะรวบรวม "หมายเลขเวทมนต์" 30 มีเหตุผลเชิงประจักษ์บางประการ แต่ในความเห็นของเรามันอ่อนแอมาก ดังที่คุณเห็นจากตัวอย่างมากมายในหนังสือเล่มนี้ที่มีขนาดตัวอย่างไม่เท่ากับ 30 (บางครั้งน้อยกว่าหรือบางครั้งมากกว่า) เราไม่ถือกฎง่ายๆนี้ในเรื่องที่สูงมาก ดังที่อธิบายไว้ในบทขนาดตัวอย่างของเราสำหรับการวิจัยขั้นสุดท้ายขนาดตัวอย่างที่เหมาะสมสำหรับการศึกษาขึ้นอยู่กับประเภทของการกระจายความแปรปรวนที่คาดหวังของข้อมูลระดับความมั่นใจและพลังที่ต้องการ
ดังที่แสดงในรูปที่ 9.2 เมื่อใช้การแจกแจงแบบ t กับตัวอย่างขนาดเล็กมาก (เช่นที่มีองศาอิสระน้อยกว่า 5) ค่าขนาดใหญ่มากของ t จะชดเชยขนาดตัวอย่างขนาดเล็กที่เกี่ยวข้องกับการควบคุมข้อผิดพลาด Type I ( การอ้างถึงความแตกต่างมีความสำคัญเมื่อไม่ได้จริง ๆ ) ด้วยขนาดตัวอย่างเล็กเหล่านี้ช่วงความมั่นใจของคุณจะกว้างกว่าสิ่งที่คุณจะได้รับจากตัวอย่างขนาดใหญ่ แต่เมื่อคุณจัดการกับอิสระมากกว่า 5 องศามีความแตกต่างน้อยมากระหว่างค่าของ z และค่าของ t จากมุมมองของวิธีการของ t ถึง z นั้นมีอิสระเพียงเล็กน้อยที่ผ่านมา 10 องศา
มันไม่ซับซ้อนกว่าการใช้การแจกแจงแบบ t กว่าการแจกแจงแบบ z (คุณแค่ต้องแน่ใจว่าใช้ค่าที่ถูกต้องสำหรับดีกรีอิสระ) และเหตุผลในการพัฒนาการกระจายตัวแบบ t คือ เปิดใช้งานการวิเคราะห์ตัวอย่างขนาดเล็ก นี่เป็นเพียงหนึ่งในวิธีที่เห็นได้ชัดน้อยกว่าซึ่งผู้ปฏิบัติงานใช้งานได้รับประโยชน์จากวิทยาศาสตร์และการฝึกฝนการผลิตเบียร์ นักประวัติศาสตร์ของสถิติถือว่าการตีพิมพ์ของ Gossett เกี่ยวกับการทดสอบ t ของนักเรียนเป็นเหตุการณ์สำคัญ (Box, 1984; Cowles, 1989; Stigler, 1999) ในจดหมายถึงโรนัลด์เอฟิชเชอร์ (หนึ่งในบรรพบุรุษของสถิติสมัยใหม่) ที่มีสำเนาตารางต้น T, Gossett เขียนว่า "คุณน่าจะเป็นผู้ชายคนเดียวที่จะใช้พวกเขา" (กล่อง, 1978) Gossett มีหลายสิ่งที่ถูกต้อง แต่เขาก็ผิดพลาดอย่างแน่นอน
ข้อมูลอ้างอิง
กล่อง GEP (1984) ความสำคัญของการฝึกปฏิบัติในการพัฒนาสถิติ เทคนิค, 26 (1), 1-8
กล่อง, JF (1978) ฟิชเชอร์ชีวิตของนักวิทยาศาสตร์ New York, NY: John Wiley
แบรดลีย์, JV (1978) ทนทาน? วารสารคณิตศาสตร์และสถิติอังกฤษ, 31, 144-152
โคเฮน, J. (1990) สิ่งที่ฉันได้เรียนรู้ (จนถึงตอนนี้) นักจิตวิทยาอเมริกัน, 45 (12), 1304-1312
Cowles, M. (1989) สถิติทางจิตวิทยา: มุมมองทางประวัติศาสตร์ Hillsdale, นิวเจอร์ซีย์: Lawrence Erlbaum
Salsburg, D. (2001) ชาชิมเลดี้: สถิติปฏิวัติวิทยาศาสตร์ในศตวรรษที่ยี่สิบได้อย่างไร New York, NY: WH Freeman
สติกเลอร์, SM (1999) สถิติในตาราง: ประวัติแนวคิดและวิธีการทางสถิติ Cambridge, MA: สำนักพิมพ์มหาวิทยาลัยฮาร์วาร์ด