วิธีสร้างตัวอย่างตัวแทนจากชุดข้อมูลขนาดใหญ่โดยรวม


10

เทคนิคทางสถิติในการสร้างชุดตัวอย่างซึ่งเป็นตัวแทนของประชากรทั้งหมด (ด้วยระดับความเชื่อมั่นที่รู้จักกัน) คืออะไร?

นอกจากนี้

  • วิธีการตรวจสอบถ้าตัวอย่างที่ตรงกับชุดข้อมูลโดยรวม?
  • เป็นไปได้หรือไม่หากไม่แยกชุดข้อมูลทั้งหมด (ซึ่งอาจเป็นหลายพันล้านรายการ)

คำตอบ:


8

หากคุณไม่ต้องการที่จะแยกข้อมูลทั้งหมดตั้งแล้วคุณอาจไม่สามารถใช้การสุ่มตัวอย่างแบบแบ่งชั้นดังนั้นผมขอแนะนำให้พาที่มีขนาดใหญ่ตัวอย่างสุ่มอย่างง่าย โดยการสุ่มกลุ่มตัวอย่างคุณมั่นใจได้ว่ากลุ่มตัวอย่างจะโดยเฉลี่ยจะเป็นตัวแทนของชุดข้อมูลทั้งหมดและมาตรการทางสถิติมาตรฐานของความแม่นยำเช่นข้อผิดพลาดมาตรฐานและความเชื่อมั่นที่จะบอกคุณว่าไกลประชากรค่าประมาณการตัวอย่างของคุณมีแนวโน้มที่ ดังนั้นจึงไม่จำเป็นต้องตรวจสอบว่าตัวอย่างเป็นตัวแทนของประชากรเว้นแต่คุณจะมีข้อกังวลบางอย่างที่สุ่มตัวอย่างอย่างแท้จริง

สุ่มอย่างง่ายขนาดใหญ่แค่ไหน? ยิ่งตัวอย่างมีขนาดใหญ่เท่าใดการประมาณของคุณจะแม่นยำมากขึ้นเท่านั้น เนื่องจากคุณมีข้อมูลอยู่แล้วการคำนวณขนาดตัวอย่างทั่วไปจึงไม่สามารถนำมาใช้ได้จริง - คุณอาจใช้ชุดข้อมูลของคุณได้มากพอ ๆ กับการคำนวณ นอกจากว่าคุณกำลังวางแผนที่จะทำการวิเคราะห์ที่ซับซ้อนซึ่งจะทำให้เกิดเวลาในการคำนวณปัญหาวิธีการง่ายๆก็คือการทำให้กลุ่มตัวอย่างสุ่มง่าย ๆ มีขนาดใหญ่เท่าที่สามารถวิเคราะห์ได้บนพีซีของคุณโดยไม่นำไปสู่การเพจหรือปัญหาหน่วยความจำอื่น ๆ กฎง่ายๆข้อเดียวที่จะ จำกัด ขนาดของชุดข้อมูลของคุณไม่เกินครึ่ง RAM ของคอมพิวเตอร์ของคุณเพื่อให้มีพื้นที่ในการจัดการและปล่อยให้มีพื้นที่สำหรับระบบปฏิบัติการและอาจเป็นแอปพลิเคชั่นขนาดเล็กอื่น ๆ (เช่นโปรแกรมแก้ไข ) ข้อ จำกัด อีกอย่างคือระบบปฏิบัติการ Windows แบบ 32 บิตจะไม่อนุญาตให้มีพื้นที่ที่อยู่สำหรับแอปพลิเคชันใด ๆ ที่มีขนาดใหญ่กว่าไบต์ = 2.1GB ดังนั้นหากคุณใช้ Windows แบบ 32 บิต 1GB อาจเป็น ขีด จำกัด ที่เหมาะสมกับขนาดของชุดข้อมูล2วันที่ 31

จากนั้นเป็นเรื่องของการคำนวณทางคณิตศาสตร์อย่างง่ายในการคำนวณจำนวนการสังเกตที่คุณสามารถสุ่มตัวอย่างโดยพิจารณาจากจำนวนตัวแปรที่คุณมีต่อการสังเกตแต่ละครั้งและจำนวนไบต์แต่ละตัวที่ใช้


ขอบคุณสำหรับคำตอบ. ฉันเดาว่าฉันกำลังมองหากลุ่มตัวอย่างแบบแบ่งชั้น (ฉันกำลังมองหาอัลกอริทึมซึ่งไม่ได้คำนวณราคาแพงมากเหมือนไม่แยกวิเคราะห์ประชากรทั้งหมดเพื่อสร้างชุดตัวแทนไม่ได้ทำให้รู้สึก :-))
Mohit Ranka

2

ในคำถามที่สองของคุณก่อนคุณอาจถามว่า "ข้อมูลถูกป้อนอย่างไร" หากคุณคิดว่าข้อมูลถูกป้อนโดยพลการ (เช่นเป็นอิสระจากลักษณะที่สังเกตได้หรือไม่สามารถสังเกตได้ของการสังเกตของคุณที่อาจมีผลต่อการวิเคราะห์ขั้นสุดท้ายของคุณโดยใช้ข้อมูล) ดังนั้นคุณอาจพิจารณา 5 ล้านคนแรกพูดหรือ หลายคนที่คุณคุ้นเคยกับการทำงานในฐานะตัวแทนของตัวอย่างเต็มรูปแบบและเลือกแบบสุ่มจากกลุ่มนี้เพื่อสร้างตัวอย่างที่คุณสามารถทำงานได้

ในการเปรียบเทียบการแจกแจงเชิงประจักษ์สองแบบคุณสามารถใช้ qq-plots และ Kolmogorov – Smirnov ที่ไม่ใช่การทดสอบสองพารามิเตอร์สำหรับความแตกต่างในการแจกแจง (ดูตัวอย่างเช่นที่นี่: http://en.wikipedia.org/wiki/Kolmogorov%E2 % 80% 93Smirnov_test ) ในกรณีนี้คุณจะทดสอบการกระจายตัวของตัวแปรแต่ละตัวในตัวอย่างของคุณกับการกระจายตัวของตัวแปรนั้นในชุดข้อมูล "เต็ม" ของคุณ (อีกครั้งอาจเป็นเพียง 5 ล้านการสังเกตจากตัวอย่างเต็มของคุณ) การทดสอบ KS สามารถประสบปัญหาจากพลังงานต่ำ (กล่าวคือยากที่จะปฏิเสธสมมติฐานว่างที่ไม่แตกต่างกันระหว่างกลุ่ม) แต่ด้วยการสังเกตหลายครั้งคุณควรจะไม่เป็นไร

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.