เทคนิคทางสถิติในการสร้างชุดตัวอย่างซึ่งเป็นตัวแทนของประชากรทั้งหมด (ด้วยระดับความเชื่อมั่นที่รู้จักกัน) คืออะไร?
นอกจากนี้
- วิธีการตรวจสอบถ้าตัวอย่างที่ตรงกับชุดข้อมูลโดยรวม?
- เป็นไปได้หรือไม่หากไม่แยกชุดข้อมูลทั้งหมด (ซึ่งอาจเป็นหลายพันล้านรายการ)
เทคนิคทางสถิติในการสร้างชุดตัวอย่างซึ่งเป็นตัวแทนของประชากรทั้งหมด (ด้วยระดับความเชื่อมั่นที่รู้จักกัน) คืออะไร?
นอกจากนี้
คำตอบ:
หากคุณไม่ต้องการที่จะแยกข้อมูลทั้งหมดตั้งแล้วคุณอาจไม่สามารถใช้การสุ่มตัวอย่างแบบแบ่งชั้นดังนั้นผมขอแนะนำให้พาที่มีขนาดใหญ่ตัวอย่างสุ่มอย่างง่าย โดยการสุ่มกลุ่มตัวอย่างคุณมั่นใจได้ว่ากลุ่มตัวอย่างจะโดยเฉลี่ยจะเป็นตัวแทนของชุดข้อมูลทั้งหมดและมาตรการทางสถิติมาตรฐานของความแม่นยำเช่นข้อผิดพลาดมาตรฐานและความเชื่อมั่นที่จะบอกคุณว่าไกลประชากรค่าประมาณการตัวอย่างของคุณมีแนวโน้มที่ ดังนั้นจึงไม่จำเป็นต้องตรวจสอบว่าตัวอย่างเป็นตัวแทนของประชากรเว้นแต่คุณจะมีข้อกังวลบางอย่างที่สุ่มตัวอย่างอย่างแท้จริง
สุ่มอย่างง่ายขนาดใหญ่แค่ไหน? ยิ่งตัวอย่างมีขนาดใหญ่เท่าใดการประมาณของคุณจะแม่นยำมากขึ้นเท่านั้น เนื่องจากคุณมีข้อมูลอยู่แล้วการคำนวณขนาดตัวอย่างทั่วไปจึงไม่สามารถนำมาใช้ได้จริง - คุณอาจใช้ชุดข้อมูลของคุณได้มากพอ ๆ กับการคำนวณ นอกจากว่าคุณกำลังวางแผนที่จะทำการวิเคราะห์ที่ซับซ้อนซึ่งจะทำให้เกิดเวลาในการคำนวณปัญหาวิธีการง่ายๆก็คือการทำให้กลุ่มตัวอย่างสุ่มง่าย ๆ มีขนาดใหญ่เท่าที่สามารถวิเคราะห์ได้บนพีซีของคุณโดยไม่นำไปสู่การเพจหรือปัญหาหน่วยความจำอื่น ๆ กฎง่ายๆข้อเดียวที่จะ จำกัด ขนาดของชุดข้อมูลของคุณไม่เกินครึ่ง RAM ของคอมพิวเตอร์ของคุณเพื่อให้มีพื้นที่ในการจัดการและปล่อยให้มีพื้นที่สำหรับระบบปฏิบัติการและอาจเป็นแอปพลิเคชั่นขนาดเล็กอื่น ๆ (เช่นโปรแกรมแก้ไข ) ข้อ จำกัด อีกอย่างคือระบบปฏิบัติการ Windows แบบ 32 บิตจะไม่อนุญาตให้มีพื้นที่ที่อยู่สำหรับแอปพลิเคชันใด ๆ ที่มีขนาดใหญ่กว่าไบต์ = 2.1GB ดังนั้นหากคุณใช้ Windows แบบ 32 บิต 1GB อาจเป็น ขีด จำกัด ที่เหมาะสมกับขนาดของชุดข้อมูล
จากนั้นเป็นเรื่องของการคำนวณทางคณิตศาสตร์อย่างง่ายในการคำนวณจำนวนการสังเกตที่คุณสามารถสุ่มตัวอย่างโดยพิจารณาจากจำนวนตัวแปรที่คุณมีต่อการสังเกตแต่ละครั้งและจำนวนไบต์แต่ละตัวที่ใช้
ในคำถามที่สองของคุณก่อนคุณอาจถามว่า "ข้อมูลถูกป้อนอย่างไร" หากคุณคิดว่าข้อมูลถูกป้อนโดยพลการ (เช่นเป็นอิสระจากลักษณะที่สังเกตได้หรือไม่สามารถสังเกตได้ของการสังเกตของคุณที่อาจมีผลต่อการวิเคราะห์ขั้นสุดท้ายของคุณโดยใช้ข้อมูล) ดังนั้นคุณอาจพิจารณา 5 ล้านคนแรกพูดหรือ หลายคนที่คุณคุ้นเคยกับการทำงานในฐานะตัวแทนของตัวอย่างเต็มรูปแบบและเลือกแบบสุ่มจากกลุ่มนี้เพื่อสร้างตัวอย่างที่คุณสามารถทำงานได้
ในการเปรียบเทียบการแจกแจงเชิงประจักษ์สองแบบคุณสามารถใช้ qq-plots และ Kolmogorov – Smirnov ที่ไม่ใช่การทดสอบสองพารามิเตอร์สำหรับความแตกต่างในการแจกแจง (ดูตัวอย่างเช่นที่นี่: http://en.wikipedia.org/wiki/Kolmogorov%E2 % 80% 93Smirnov_test ) ในกรณีนี้คุณจะทดสอบการกระจายตัวของตัวแปรแต่ละตัวในตัวอย่างของคุณกับการกระจายตัวของตัวแปรนั้นในชุดข้อมูล "เต็ม" ของคุณ (อีกครั้งอาจเป็นเพียง 5 ล้านการสังเกตจากตัวอย่างเต็มของคุณ) การทดสอบ KS สามารถประสบปัญหาจากพลังงานต่ำ (กล่าวคือยากที่จะปฏิเสธสมมติฐานว่างที่ไม่แตกต่างกันระหว่างกลุ่ม) แต่ด้วยการสังเกตหลายครั้งคุณควรจะไม่เป็นไร