คำถามติดแท็ก data-wrangling

9
การถกเถียงข้อมูลเป็นงานของนักวิทยาศาสตร์ข้อมูลมากแค่ไหน?
ขณะนี้ฉันทำงานเป็นนักวิทยาศาสตร์ข้อมูลที่ บริษัท ค้าปลีก (งานแรกของฉันในฐานะ DS ดังนั้นคำถามนี้อาจเป็นผลมาจากการขาดประสบการณ์ของฉัน) พวกเขามีงานในมือขนาดใหญ่ของโครงการวิทยาศาสตร์ข้อมูลที่สำคัญมากซึ่งจะมีผลกระทบเชิงบวกอย่างมากหากนำไปใช้ แต่. ท่อข้อมูลไม่มีอยู่ใน บริษัท ขั้นตอนมาตรฐานสำหรับพวกเขาที่จะส่งกิกะไบต์ของไฟล์ TXT ให้ฉันทุกครั้งที่ฉันต้องการข้อมูลบางอย่าง คิดว่าไฟล์เหล่านี้เป็นบันทึกแบบตารางของธุรกรรมที่เก็บไว้ในสัญลักษณ์และโครงสร้างแบบอาร์เคน ไม่มีข้อมูลทั้งหมดอยู่ในแหล่งข้อมูลเดียวและพวกเขาไม่สามารถอนุญาตให้ฉันเข้าถึงฐานข้อมูล ERP ได้ด้วยเหตุผลด้านความปลอดภัย การวิเคราะห์ข้อมูลเบื้องต้นสำหรับโครงการที่ง่ายที่สุดนั้นต้องใช้ข้อมูลที่โหดเหี้ยม มากกว่า 80% ของเวลาที่ใช้ในโครงการคือฉันพยายามแยกไฟล์เหล่านี้และข้ามแหล่งข้อมูลเพื่อสร้างชุดข้อมูลที่ทำงานได้ นี่ไม่ใช่ปัญหาของการจัดการข้อมูลที่หายไปหรือการประมวลผลก่อนมันเป็นงานที่ต้องใช้ในการสร้างข้อมูลที่สามารถจัดการได้ตั้งแต่แรก ( แก้ไขได้ด้วย dba หรือวิศวกรรมข้อมูลไม่ใช่วิทยาศาสตร์ข้อมูล? ) 1) ความรู้สึกว่างานส่วนใหญ่ไม่เกี่ยวข้องกับวิทยาศาสตร์ข้อมูลเลย ถูกต้องหรือไม่ 2) ฉันรู้ว่านี้ไม่ได้เป็น บริษัท ที่ขับเคลื่อนด้วยข้อมูลที่มีระดับสูงภาควิชาวิศวกรรมข้อมูลแต่มันก็เป็นความเห็นของผมว่าเพื่อที่จะสร้างเพื่ออนาคตที่ยั่งยืนของโครงการวิทยาศาสตร์ข้อมูลระดับต่ำสุดของการเข้าถึงข้อมูลที่จำเป็นต้องมี ฉันผิดหรือเปล่า? 3) การตั้งค่าประเภทนี้เป็นเรื่องปกติสำหรับ บริษัท ที่มีความต้องการด้านวิทยาศาสตร์ข้อมูลอย่างจริงจังหรือไม่?
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.