ทำไมการทดสอบสมมติฐานทางพารามิเตอร์หลายอย่าง (ถ้าไม่ได้ทั้งหมด) จะเป็นการสุ่มตัวอย่างแบบสุ่ม?


12

การทดสอบอย่าง Z, t และอีกหลายคนคิดว่าข้อมูลนั้นมาจากการสุ่มตัวอย่าง ทำไม?

สมมติว่าฉันกำลังทำวิจัยเชิงทดลองที่ฉันสนใจเรื่องความถูกต้องภายในมากกว่าสิ่งภายนอก ดังนั้นหากตัวอย่างของฉันอาจมีอคติเล็กน้อยโอเคอย่างที่ฉันยอมรับไม่ได้อนุมานสมมติฐานสำหรับประชากรทั้งหมด และการจัดกลุ่มจะยังคงเป็นแบบสุ่มนั่นคือฉันจะเลือกเพื่อความสะดวกของผู้เข้าร่วมตัวอย่าง แต่ฉันจะสุ่มให้กลุ่มต่าง ๆ

ทำไมฉันถึงเพิกเฉยต่อสมมติฐานนี้ไม่ได้?


หากเทคนิคการสุ่มตัวอย่างทำให้เกิดอคตินั่นไม่ใช่ 'สุ่ม' ถ้ามันไม่ได้แนะนำอคติใด ๆ ก็จะเป็น 'สุ่ม' (สำหรับคำนิยามของการสุ่มบาง ;-) ฉันมีแผนการสุ่มตัวอย่างที่ใช้ทุกตัวอย่างที่ 7 เพื่อสร้างขนาดตัวอย่างที่ตรงกันกับตัวอย่างเคาน์เตอร์ อย่างไรก็ตามฉันรู้ว่าไม่มีลักษณะพิเศษใด ๆ สำหรับการเลือกนั้นดังนั้นสิ่งที่อาจคิดว่าเป็นกระบวนการสุ่มตัวอย่างที่ไม่ใช่แบบสุ่มก็ยังคงเป็นการสุ่มอย่างมีประสิทธิภาพ มันเหมือนกับการเลือกลูกบอล 1,2,3,4,5,6 ในลอตเตอรี่ มันเป็นเพียงการสุ่มตามลำดับอื่น ๆ
Philip Oakley

1
@PhilipOakley: การเลือกลูกบอล 1,2,3,4,5,6 ในลอตเตอรีจะทำให้คุณมีโอกาสชนะเหมือน ๆ กับการเลือกแบบอื่น ๆ แต่จะลดการชนะที่คุณคาดไว้เนื่องจากคุณมีแนวโน้มที่จะต้องแบ่งปันรางวัลกับผู้อื่นที่ มีความคิดเดียวกัน
Henry

1
การสุ่มตัวอย่างแบบมีระบบเช่นที่อธิบายโดย @Philip มักถูกวิเคราะห์ราวกับว่ามันสร้างตัวอย่างแบบง่าย ๆ แต่ก็มีข้อผิดพลาด ตัวอย่างเช่นหากคุณต้องวัดกระบวนการผลิตทุกวันและตัวอย่างทุก ๆ การวัดที่เจ็ดคุณจะต้องสับสนกับผลลัพธ์ที่เกิดขึ้นในแต่ละวันเนื่องจาก (แน่นอน) คุณจะสุ่มตัวอย่างในวันเดียวกัน แต่ละสัปดาห์. คุณต้องทำงานให้หนักขึ้นเพื่อคิดและจัดการกับรายละเอียดปลีกย่อยเหล่านั้นเมื่อต้องรับมือกับตัวอย่างที่ไม่สุ่ม
whuber

1
@whuber แน่นอน เราต้องคิดอย่างหนักเกี่ยวกับเรื่องเหล่านี้ !! ในกรณีของฉันฉันมีวิดีโอหลายชั่วโมงโดยมีเหตุการณ์นับร้อยด้วยช่องว่างยาวดังนั้นจำเป็นต้องลดขนาดข้อมูลของชุดที่ไม่ใช่เหตุการณ์สำหรับการถดถอยโลจิสติกอย่างง่าย (แต่ละเฟรมถือว่าเป็นอิสระการเปลี่ยนแปลงเล็กน้อยระหว่างเฟรม) การวางเฟรมที่ไม่ใช่กิจกรรมจำนวนมากนั้นสมเหตุสมผล พิจารณาลำดับเวลาแยกจากกัน
Philip Oakley

1
@Philip ที่น่าสนใจที่เกือบจะในเวลาเดียวกันคุณเขียนความคิดเห็นเกี่ยวกับการสุ่มไม่ได้มีอยู่นั้น NIST ออกมาแถลงข่าวอ้างว่ามันไม่ บัญชีที่ปรากฏในวันนี้ (4 เมษายน 2018) ปัญหาของธรรมชาติ
whuber

คำตอบ:


18

หากคุณไม่ได้ทำการอนุมานกลุ่มที่กว้างกว่าตัวอย่างจริงของคุณแสดงว่าไม่มีการทดสอบทางสถิติในตอนแรกและคำถามของ "อคติ" จะไม่เกิดขึ้น ในกรณีนี้คุณเพียงแค่คำนวณสถิติเชิงพรรณนาของตัวอย่างซึ่งเป็นที่รู้จัก ในทำนองเดียวกันไม่มีคำถามเรื่อง "ความถูกต้อง" ของแบบจำลองในกรณีนี้ - คุณเพียงแค่สังเกตตัวแปรและบันทึกค่าของพวกเขาและคำอธิบายเกี่ยวกับแง่มุมของค่าเหล่านั้น

เมื่อคุณตัดสินใจที่จะก้าวข้ามตัวอย่างของคุณเพื่อทำการอนุมานเกี่ยวกับกลุ่มใหญ่บางกลุ่มคุณจะต้องมีสถิติและคุณจะต้องพิจารณาประเด็นต่างๆเช่นการสุ่มตัวอย่างอคติ ฯลฯ ในแอปพลิเคชันนี้การสุ่มแบบสุ่มกลายเป็นคุณสมบัติที่มีประโยชน์ การอนุมานของกลุ่มผลประโยชน์ที่กว้างขึ้น หากคุณไม่มีการสุ่มตัวอย่าง (และคุณไม่ทราบถึงความน่าจะเป็นของกลุ่มตัวอย่างของคุณจากประชากร) มันจะกลายเป็นเรื่องยาก / เป็นไปไม่ได้ที่จะทำการอนุมานที่เชื่อถือได้เกี่ยวกับประชากร


5

ในการวิจัยทางวิทยาศาสตร์จริง ๆ แล้วมันค่อนข้างหายากที่จะมีข้อมูลที่มาจากการสุ่มตัวอย่างอย่างแท้จริง ข้อมูลเป็นตัวอย่างที่สะดวกสบายเกือบทุกครั้ง สิ่งนี้มีผลกระทบต่อประชากรที่คุณสามารถพูดคุยเป็นหลัก ที่กล่าวว่าแม้ว่าพวกเขาจะเป็นตัวอย่างความสะดวกสบายพวกเขามาจากที่ใดที่หนึ่งคุณเพียงแค่ต้องมีความชัดเจนเกี่ยวกับสถานที่และข้อ จำกัด ที่มีความหมาย หากคุณเชื่อจริงๆข้อมูลของคุณไม่ได้เป็นตัวแทนของอะไรแล้วการศึกษาของคุณไม่ได้ไปจะคุ้มค่าในระดับใด แต่ที่อาจจะไม่เป็นความจริง1 ดังนั้นจึงมักจะมีเหตุผลที่จะต้องพิจารณาตัวอย่างของคุณจากที่อื่นและใช้การทดสอบมาตรฐานเหล่านี้อย่างน้อยก็ในลักษณะที่ถูกป้องกันความเสี่ยงหรือมีคุณสมบัติเหมาะสม

อย่างไรก็ตามมีปรัชญาการทดสอบที่แตกต่างกันซึ่งระบุว่าเราควรย้ายออกไปจากสมมติฐานเหล่านั้นและการทดสอบที่ต้องพึ่งพาพวกเขา Tukeyเป็นผู้สนับสนุนในเรื่องนี้ ในทางกลับกันการวิจัยเชิงทดลองส่วนใหญ่ถือว่ามีผล (ภายใน) เพราะหน่วยการศึกษา (เช่นผู้ป่วย) ได้รับการสุ่มจับที่แขน ด้วยวิธีนี้คุณสามารถใช้การทดสอบการเปลี่ยนรูปซึ่งส่วนใหญ่จะถือว่าการสุ่มทำอย่างถูกต้องเท่านั้น ข้อโต้แย้งที่ต้องกังวลเกี่ยวกับเรื่องนี้มากเกินไปคือการทดสอบการเปลี่ยนรูปมักจะแสดงสิ่งเดียวกันกับการทดสอบแบบดั้งเดิมที่สอดคล้องกันและทำงานได้มากขึ้น ดังนั้นอีกครั้งการทดสอบมาตรฐานอาจเป็นที่ยอมรับ

1. สำหรับข้อมูลเพิ่มเติมตามเส้นเหล่านี้มันอาจจะช่วยในการอ่านคำตอบของฉันที่นี่: ระบุประชากรและกลุ่มตัวอย่างในการศึกษา


3

การทดสอบเช่น Z, t และอื่น ๆ อีกหลายแห่งนั้นมาจากการแจกแจงตัวอย่างที่เป็นที่รู้จักของสถิติที่เกี่ยวข้อง การแจกแจงตัวอย่างเหล่านั้นตามที่ใช้โดยทั่วไปถูกกำหนดไว้สำหรับสถิติที่คำนวณจากกลุ่มตัวอย่างแบบสุ่ม

บางครั้งอาจเป็นไปได้ที่จะกำหนดการแจกแจงการสุ่มตัวอย่างที่เกี่ยวข้องสำหรับการสุ่มตัวอย่างที่ไม่ใช่แบบสุ่ม แต่โดยทั่วไปอาจเป็นไปไม่ได้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.