ตัวอย่างควรมีขนาดเท่าใดสำหรับเทคนิคการประมาณค่าและพารามิเตอร์ที่กำหนด?


12

มีกฎง่ายๆหรือแม้กระทั่งวิธีการใด ๆ ที่จะบอกว่าตัวอย่างขนาดใหญ่ควรจะประเมินโมเดลที่มีจำนวนพารามิเตอร์ที่กำหนดหรือไม่?

ตัวอย่างเช่นถ้าฉันต้องการประมาณการถดถอยสี่เหลี่ยมน้อยที่สุดด้วยพารามิเตอร์ 5 ตัวตัวอย่างควรมีขนาดใหญ่แค่ไหน?

ไม่ว่าคุณจะใช้เทคนิคการประเมินแบบใด (เช่นความน่าจะเป็นสูงสุด, กำลังสองน้อยที่สุด, GMM) หรือการทดสอบที่คุณจะทำการทดสอบ ควรพิจารณาความแปรปรวนตัวอย่างในการตัดสินใจหรือไม่?

คำตอบ:


11

คำตอบที่ไม่สำคัญคือมีข้อมูลมากกว่าที่จะต้องการข้อมูลน้อยกว่าเสมอ

ปัญหาของขนาดตัวอย่างเล็กชัดเจน ในเชิงเทคนิคการถดถอยเชิงเส้น (OLS) ในทางเทคนิคคุณสามารถใส่แบบจำลองเช่น OLS โดยที่ n = k + 1 แต่คุณจะได้รับขยะออกจากมันนั่นคือข้อผิดพลาดมาตรฐานขนาดใหญ่มาก มีกระดาษที่ดีโดยอาร์เธอร์ Goldberger เรียก Micronumerocity ในหัวข้อนี้ซึ่งจะสรุปในบทที่ 23 ของหนังสือของเขาที่เป็นสนามในเศรษฐ

ฮิวริสติกทั่วไปคือคุณควรมีการสังเกต 20 ครั้งสำหรับพารามิเตอร์ทุกตัวที่คุณต้องการประเมิน มันเป็นการแลกเปลี่ยนระหว่างขนาดของข้อผิดพลาดมาตรฐานของคุณเสมอ (และดังนั้นจึงเป็นการทดสอบที่สำคัญ) และขนาดของตัวอย่างของคุณ นี่คือเหตุผลหนึ่งที่บางคนเกลียดการทดสอบความสำคัญเนื่องจากคุณสามารถได้รับข้อผิดพลาดมาตรฐานขนาดเล็ก (สัมพัทธ์) อย่างเหลือเชื่อด้วยตัวอย่างมหาศาลและดังนั้นจึงพบความสำคัญทางสถิติที่ไม่มีจุดหมายในการทดสอบที่ไร้เดียงสาเช่นค่าสัมประสิทธิ์การถดถอยเป็นศูนย์

ในขณะที่ขนาดของกลุ่มตัวอย่างมีความสำคัญคุณภาพของกลุ่มตัวอย่างของคุณมีความสำคัญมากกว่าเช่นกลุ่มตัวอย่างเป็นประชากรทั่วไปไม่ว่าจะเป็นกลุ่มตัวอย่างแบบง่ายหรือวิธีการสุ่มตัวอย่างที่เหมาะสมอื่น ๆ (และสิ่งนี้ถูกพิจารณาในระหว่างการวิเคราะห์) หรือไม่ การตอบสนองอคติการเลือก ฯลฯ


3

ฉันชอบที่จะใช้ resampling อีกครั้ง: ฉันทำซ้ำวิธีใดก็ตามที่ฉันใช้กับตัวอย่างย่อยของข้อมูล (พูด 80% หรือ 50% ของทั้งหมด) ด้วยการทำเช่นนี้กับชุดย่อยที่แตกต่างกันมากมายทำให้ฉันรู้สึกว่าประมาณการมีความแข็งแกร่งเพียงใด สำหรับขั้นตอนการประมาณค่าจำนวนมากสิ่งนี้สามารถทำให้เป็นข้อผิดพลาดของคุณ


2

ควรมีขนาดใหญ่พอสมควร! ;)

การประมาณพารามิเตอร์ทั้งหมดมาพร้อมกับความไม่แน่นอนการประมาณซึ่งกำหนดโดยขนาดตัวอย่าง หากคุณทำการวิเคราะห์การถดถอยจะช่วยเตือนตัวเองว่าการแจกแจงΧ 2นั้นถูกสร้างขึ้นจากชุดข้อมูลอินพุต หากโมเดลของคุณมี 5 พารามิเตอร์และคุณมี 5 จุดข้อมูลคุณจะสามารถคำนวณจุดเดียวของการแจกแจงΧ 2ได้ เนื่องจากคุณจะต้องย่อให้เล็กสุดคุณสามารถเลือกจุดนั้นเพียงจุดเดียวเพื่อเดาค่าต่ำสุด แต่จะต้องกำหนดข้อผิดพลาดที่ไม่สิ้นสุดให้กับพารามิเตอร์โดยประมาณของคุณ การมีจุดข้อมูลเพิ่มเติมจะช่วยให้คุณสามารถแมปพื้นที่พารามิเตอร์ได้ดีขึ้นนำไปสู่การประมาณการที่ดีขึ้นของการกระจายขั้นต่ำ better 2และทำให้ข้อผิดพลาดของตัวประมาณค่าน้อย

คุณจะใช้เครื่องประมาณค่าความน่าจะเป็นสูงสุดแทนสถานการณ์จะคล้ายกันหรือไม่: จุดข้อมูลเพิ่มเติมนำไปสู่การประมาณค่าขั้นต่ำที่ดีขึ้น

สำหรับความแปรปรวนของจุดคุณจะต้องทำแบบนี้เช่นกัน การมีจุดข้อมูลมากขึ้นจะทำให้การจัดกลุ่มของจุดรอบ ๆ ค่า "จริง" ชัดเจนยิ่งขึ้น (เนื่องจากทฤษฎีลิมิตกลาง) และอันตรายจากการตีความการฟกช้ำขนาดใหญ่โอกาสในขณะที่มูลค่าที่แท้จริงสำหรับจุดนั้นจะลดลง และสำหรับพารามิเตอร์อื่น ๆ การประมาณของคุณสำหรับความแปรปรวนของจุดจะกลายเป็นจุดข้อมูลที่มีเสถียรภาพมากขึ้น


2

ฉันได้ยินกฎสองข้อในเรื่องนี้ คนหนึ่งคิดว่าตราบใดที่ยังมีข้อสังเกตในข้อผิดพลาดเพียงพอที่จะทำให้เกิดทฤษฎีบทขีด จำกัด กลางเช่น 20 หรือ 30 คุณก็โอเค อีกข้อถือว่าสำหรับความชันโดยประมาณแต่ละอันควรมีการสังเกตการณ์อย่างน้อย 20 หรือ 30 ครั้ง ความแตกต่างระหว่างการใช้ 20 หรือ 30 เป็นหมายเลขเป้าหมายนั้นขึ้นอยู่กับความคิดที่แตกต่างกันเกี่ยวกับเมื่อมีการสังเกตมากพอที่จะทำให้เกิดทฤษฎีการ จำกัด ศูนย์กลาง


1
คำตอบสองคำนั้นดูต่างไปจากฉัน หนึ่งบอกว่า 20 ถึง 30 ส่วนอีกคนบอกว่า 20 ถึง 30 เท่าความลาดชัน ดังนั้นถ้าคุณมี 5 ความลาดชันกฎข้อหนึ่งบอกคุณ 20 ถึง 30 ข้อสังเกตอีก 100 ถึง 150 ข้อ นั่นดูเหมือนจะไม่ถูกต้องสำหรับฉัน ....
Vivi

1
พวกเขาเป็นแนวทางที่แตกต่างกัน ฉันสงสัยว่าการตัดการเชื่อมต่อคือคุณคิดว่าการทดสอบโมเดลโดยรวมนั้นสำคัญหรือไม่
russellpierce
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.