คำถามติดแท็ก open-source

30
ชุดข้อมูลที่เผยแพร่สู่สาธารณะ
หนึ่งในปัญหาที่พบบ่อยในศาสตร์ข้อมูลคือการรวบรวมข้อมูลจากแหล่งต่าง ๆ ในรูปแบบที่ทำความสะอาด (กึ่งโครงสร้าง) และการรวมตัวชี้วัดจากแหล่งต่าง ๆ เพื่อทำการวิเคราะห์ในระดับที่สูงขึ้น เมื่อมองถึงความพยายามของคนอื่นโดยเฉพาะคำถามอื่น ๆ ในเว็บไซต์นี้ดูเหมือนว่าคนจำนวนมากในสาขานี้กำลังทำงานซ้ำ ๆ ตัวอย่างเช่นการวิเคราะห์ทวีตโพสต์ Facebook บทความ Wikipedia ฯลฯ เป็นส่วนหนึ่งของปัญหาข้อมูลจำนวนมาก ชุดข้อมูลเหล่านี้บางส่วนสามารถเข้าถึงได้โดยใช้ API สาธารณะที่จัดทำโดยไซต์ผู้ให้บริการ แต่โดยปกติแล้วข้อมูลหรือตัวชี้วัดที่มีค่าบางอย่างจะหายไปจาก API เหล่านี้และทุกคนต้องทำการวิเคราะห์แบบเดียวกันซ้ำแล้วซ้ำอีก ตัวอย่างเช่นแม้ว่าผู้ใช้ที่ทำคลัสเตอร์อาจขึ้นอยู่กับกรณีการใช้งานที่แตกต่างกันและการเลือกคุณสมบัติ แต่การมีการทำคลัสเตอร์พื้นฐานของผู้ใช้ Twitter / Facebook อาจมีประโยชน์ในแอปพลิเคชัน Big Data จำนวนมากซึ่ง API เหล่านี้ไม่ได้จัดหา . มีเว็บไซต์โฮสติ้งชุดข้อมูลดัชนีหรือสาธารณะที่มีชุดข้อมูลที่มีค่าที่สามารถนำกลับมาใช้ใหม่ในการแก้ปัญหาข้อมูลขนาดใหญ่อื่น ๆ ได้หรือไม่? ฉันหมายถึงบางอย่างเช่น GitHub (หรือกลุ่มของไซต์ / ชุดข้อมูลสาธารณะหรืออย่างน้อยก็เป็นรายการที่ครอบคลุม) สำหรับวิทยาศาสตร์ข้อมูล ถ้าไม่มีเหตุผลอะไรที่ไม่มีแพลตฟอร์มสำหรับวิทยาศาสตร์ข้อมูล? มูลค่าเชิงพาณิชย์ของข้อมูลจำเป็นต้องอัพเดทชุดข้อมูลบ่อยๆ ... ? เราไม่สามารถมีโมเดลโอเพ่นซอร์สสำหรับการแชร์ชุดข้อมูลที่คิดค้นขึ้นสำหรับนักวิทยาศาสตร์ข้อมูลได้หรือไม่?

7
ชุดข้อมูล / APIs เครือข่ายโซเชียลที่เปิดเผยต่อสาธารณชน
ในฐานะที่เป็นส่วนขยายของรายการชุดข้อมูลที่เปิดเผยต่อสาธารณชนเราต้องการทราบว่ามีรายการใด ๆ ของชุดข้อมูลเครือข่ายโซเชียลสาธารณะ / API การรวบรวมข้อมูล มันจะดีมากถ้าพร้อมกับลิงค์ไปยังชุดข้อมูล / API คุณสมบัติของข้อมูลที่มีอยู่ก็ถูกเพิ่มเข้ามา ข้อมูลดังกล่าวควรเป็นและไม่ จำกัด เฉพาะ: ชื่อเครือข่ายโซเชียล มีข้อมูลผู้ใช้ประเภทใดบ้าง (โพสต์โปรไฟล์เครือข่ายมิตรภาพ ... ); ไม่ว่าจะช่วยให้การรวบรวมเนื้อหาของมันผ่านทาง API (และอัตรา: 10 / นาที, 1k / เดือน, ... ); ไม่ว่าจะเป็นเพียงแค่ให้ภาพรวมของชุดข้อมูลทั้งหมด ข้อเสนอแนะและคุณสมบัติเพิ่มเติมที่จะเพิ่มยินดีต้อนรับมาก

5
โครงการวิทยาศาสตร์ข้อมูลโอเพ่นซอร์สที่จะสนับสนุน
การมีส่วนร่วมในโครงการโอเพ่นซอร์สนั้นเป็นวิธีที่ดีในการฝึกหัดสำหรับมือใหม่และลองใช้พื้นที่ใหม่สำหรับนักวิทยาศาสตร์และนักวิเคราะห์ข้อมูลที่มีประสบการณ์ คุณมีส่วนร่วมในโครงการใด โปรดระบุลิงก์แนะนำ + บางส่วนใน Github
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.