"ข้อมูลขนาดใหญ่" มีอยู่ทุกหนทุกแห่งในสื่อ ทุกคนบอกว่า "ข้อมูลขนาดใหญ่" เป็นสิ่งที่ยิ่งใหญ่สำหรับปี 2012 เช่นKDNuggets การสำรวจความคิดเห็นในหัวข้อที่ร้อนสำหรับปี 2012 อย่างไรก็ตามฉันมีความกังวลอย่างลึกซึ้งที่นี่ ด้วยข้อมูลขนาดใหญ่ทุกคนดูเหมือนจะมีความสุขที่จะได้รับอะไรเลย แต่เราไม่ได้ละเมิดหลักการทางสถิติแบบคลาสสิกทั้งหมดเช่นการทดสอบสมมติฐานและการสุ่มตัวอย่างตัวแทน?
ตราบใดที่เราคาดการณ์เฉพาะชุดข้อมูลเดียวกันสิ่งนี้ควรจะดี ดังนั้นถ้าฉันใช้ข้อมูล Twitter เพื่อทำนายพฤติกรรมของผู้ใช้ Twitter นั่นอาจไม่เป็นไร อย่างไรก็ตามการใช้ข้อมูล Twitter เพื่อคาดการณ์เช่นการเลือกตั้งละเลยความจริงที่ว่าผู้ใช้ Twitter ไม่ใช่ตัวอย่างตัวอย่างสำหรับประชากรทั้งหมด นอกจากนี้วิธีการส่วนใหญ่จะไม่สามารถแยกความแตกต่างระหว่างอารมณ์ "รากหญ้า" ที่แท้จริงและการรณรงค์ และทวิตเตอร์เต็มไปด้วยแคมเปญ ดังนั้นเมื่อวิเคราะห์ Twitter คุณจะจบลงอย่างรวดเร็วเพียงวัดการรณรงค์และบอท (ดูตัวอย่าง"Yahoo คาดการณ์ผู้ชนะทางการเมืองของอเมริกา"ซึ่งเต็มไปด้วยการสำรวจความคิดเห็นทุบตีและ "การวิเคราะห์ความเชื่อมั่นดีกว่ามาก" พวกเขาทำนายว่า "รอมนีย์มีโอกาสชนะการเสนอชื่อมากกว่า 90% และชนะเซาท์แคโรไลนาหลัก" (เขามี 28% ในขณะที่ Gingrich มี 40% ในปฐมภูมินี้)
คุณรู้หรือไม่ว่าข้อมูลขนาดใหญ่อื่น ๆล้มเหลว ? ฉันจำได้คร่าวๆว่านักวิทยาศาสตร์คนหนึ่งทำนายว่าคุณไม่สามารถรักษามิตรภาพมากกว่า 150 คนได้ ที่จริงแล้วเขาค้นพบขีด จำกัด สูงสุดของเพื่อนเท่านั้น ...
สำหรับข้อมูลทวิตเตอร์หรือ "ข้อมูลขนาดใหญ่" ที่รวบรวมจากเว็บฉันเชื่อว่าบ่อยครั้งที่ผู้คนแนะนำอคติเพิ่มเติมด้วยวิธีที่พวกเขารวบรวมข้อมูล ไม่กี่คนที่จะมี Twitter ทั้งหมด พวกเขาจะมีเซตย่อยบางอันที่พวกมัน spidered และนี่ก็เป็นอีกอคติในชุดข้อมูลของพวกเขา
การแบ่งข้อมูลออกเป็นชุดทดสอบหรือสำหรับการตรวจสอบความถูกต้องแบบไขว้อาจไม่ช่วยอะไรมาก อีกชุดจะมีอคติเหมือนกัน และสำหรับข้อมูลขนาดใหญ่ฉันจำเป็นต้อง "บีบอัด" ข้อมูลของฉันอย่างหนักจนฉันไม่น่าจะทนได้
ฉันเพิ่งได้ยินเรื่องตลกนี้กับนักวิทยาศาสตร์ข้อมูลขนาดใหญ่ที่ค้นพบว่ามีประมาณ 6 เพศในโลก ... และฉันสามารถจินตนาการได้ว่าจะเกิดขึ้น ... "ชาย, หญิง, Orc, Furry, ใช่และไม่ใช่"
ดังนั้นวิธีการใดที่เราจะต้องได้รับความถูกต้องทางสถิติกลับมาวิเคราะห์โดยเฉพาะอย่างยิ่งเมื่อพยายามที่จะทำนายบางสิ่งนอกชุดข้อมูล "ข้อมูลขนาดใหญ่"?