8
การสุ่มตัวอย่างเกี่ยวข้องในเวลาของ 'ข้อมูลขนาดใหญ่' หรือไม่
หรือมากกว่านั้น "มันจะเป็น"? ข้อมูลขนาดใหญ่ทำให้สถิติและความรู้ที่เกี่ยวข้องมีความสำคัญมากขึ้น แต่ดูเหมือนว่าจะมีผลต่อทฤษฎีการสุ่มตัวอย่าง ฉันเห็นโฆษณานี้ใน 'บิ๊กดาต้า' และไม่สามารถช่วยสงสัยได้ว่า "ทำไม" ฉันต้องการวิเคราะห์ทุกอย่าง ? ไม่มีเหตุผลสำหรับ "ทฤษฎีการสุ่มตัวอย่าง" ที่จะออกแบบ / นำมาใช้ / ประดิษฐ์ / ค้นพบหรือไม่? ฉันไม่เข้าใจการวิเคราะห์ 'ประชากร' ทั้งหมดของชุดข้อมูล เพียงเพราะคุณสามารถทำได้ไม่ได้หมายความว่าคุณควรจะ (ความโง่เขลาเป็นสิทธิพิเศษ แต่คุณไม่ควรละเมิด :) ดังนั้นคำถามของฉันคือสิ่งนี้: มีความเกี่ยวข้องทางสถิติในการวิเคราะห์ชุดข้อมูลทั้งหมดหรือไม่ สิ่งที่ดีที่สุดที่คุณสามารถทำได้คือลดข้อผิดพลาดให้น้อยที่สุดหากคุณสุ่มตัวอย่าง แต่ค่าใช้จ่ายในการลดข้อผิดพลาดนั้นคุ้มหรือไม่ "คุณค่าของข้อมูล" คุ้มค่ากับความพยายามเวลาที่ต้องเสียไป ฯลฯ ในการวิเคราะห์ข้อมูลขนาดใหญ่บนคอมพิวเตอร์คู่ขนานขนาดใหญ่หรือไม่? แม้ว่าจะมีคนวิเคราะห์ประชากรทั้งหมดผลลัพธ์ก็น่าจะเดาได้ดีที่สุดโดยมีความน่าจะเป็นที่สูงขึ้น อาจจะสูงกว่าการสุ่มตัวอย่างเล็กน้อย (หรือมากกว่านั้นอีก) ความเข้าใจที่ได้จากการวิเคราะห์ประชากรกับการวิเคราะห์ตัวอย่างนั้นแตกต่างกันอย่างกว้างขวางหรือไม่? หรือเราควรยอมรับว่า "เวลามีการเปลี่ยนแปลง"? การสุ่มตัวอย่างเป็นกิจกรรมอาจมีความสำคัญน้อยลงหากให้พลังงานในการคำนวณที่เพียงพอ :) หมายเหตุ: ฉันไม่ได้พยายามที่จะเริ่มการโต้วาที แต่กำลังมองหาคำตอบที่จะเข้าใจว่าทำไมข้อมูลขนาดใหญ่ถึงทำในสิ่งที่มันทำ (เช่นวิเคราะห์ทุกอย่าง) และไม่สนใจทฤษฎีการสุ่มตัวอย่าง (หรือไม่?)