หนึ่งในปัญหาที่พบบ่อยในศาสตร์ข้อมูลคือการรวบรวมข้อมูลจากแหล่งต่าง ๆ ในรูปแบบที่ทำความสะอาด (กึ่งโครงสร้าง) และการรวมตัวชี้วัดจากแหล่งต่าง ๆ เพื่อทำการวิเคราะห์ในระดับที่สูงขึ้น เมื่อมองถึงความพยายามของคนอื่นโดยเฉพาะคำถามอื่น ๆ ในเว็บไซต์นี้ดูเหมือนว่าคนจำนวนมากในสาขานี้กำลังทำงานซ้ำ ๆ ตัวอย่างเช่นการวิเคราะห์ทวีตโพสต์ Facebook บทความ Wikipedia ฯลฯ เป็นส่วนหนึ่งของปัญหาข้อมูลจำนวนมาก
ชุดข้อมูลเหล่านี้บางส่วนสามารถเข้าถึงได้โดยใช้ API สาธารณะที่จัดทำโดยไซต์ผู้ให้บริการ แต่โดยปกติแล้วข้อมูลหรือตัวชี้วัดที่มีค่าบางอย่างจะหายไปจาก API เหล่านี้และทุกคนต้องทำการวิเคราะห์แบบเดียวกันซ้ำแล้วซ้ำอีก ตัวอย่างเช่นแม้ว่าผู้ใช้ที่ทำคลัสเตอร์อาจขึ้นอยู่กับกรณีการใช้งานที่แตกต่างกันและการเลือกคุณสมบัติ แต่การมีการทำคลัสเตอร์พื้นฐานของผู้ใช้ Twitter / Facebook อาจมีประโยชน์ในแอปพลิเคชัน Big Data จำนวนมากซึ่ง API เหล่านี้ไม่ได้จัดหา .
มีเว็บไซต์โฮสติ้งชุดข้อมูลดัชนีหรือสาธารณะที่มีชุดข้อมูลที่มีค่าที่สามารถนำกลับมาใช้ใหม่ในการแก้ปัญหาข้อมูลขนาดใหญ่อื่น ๆ ได้หรือไม่? ฉันหมายถึงบางอย่างเช่น GitHub (หรือกลุ่มของไซต์ / ชุดข้อมูลสาธารณะหรืออย่างน้อยก็เป็นรายการที่ครอบคลุม) สำหรับวิทยาศาสตร์ข้อมูล ถ้าไม่มีเหตุผลอะไรที่ไม่มีแพลตฟอร์มสำหรับวิทยาศาสตร์ข้อมูล? มูลค่าเชิงพาณิชย์ของข้อมูลจำเป็นต้องอัพเดทชุดข้อมูลบ่อยๆ ... ? เราไม่สามารถมีโมเดลโอเพ่นซอร์สสำหรับการแชร์ชุดข้อมูลที่คิดค้นขึ้นสำหรับนักวิทยาศาสตร์ข้อมูลได้หรือไม่?