ขณะนี้ฉันทำงานเป็นนักวิทยาศาสตร์ข้อมูลที่ บริษัท ค้าปลีก (งานแรกของฉันในฐานะ DS ดังนั้นคำถามนี้อาจเป็นผลมาจากการขาดประสบการณ์ของฉัน) พวกเขามีงานในมือขนาดใหญ่ของโครงการวิทยาศาสตร์ข้อมูลที่สำคัญมากซึ่งจะมีผลกระทบเชิงบวกอย่างมากหากนำไปใช้ แต่.
ท่อข้อมูลไม่มีอยู่ใน บริษัท ขั้นตอนมาตรฐานสำหรับพวกเขาที่จะส่งกิกะไบต์ของไฟล์ TXT ให้ฉันทุกครั้งที่ฉันต้องการข้อมูลบางอย่าง คิดว่าไฟล์เหล่านี้เป็นบันทึกแบบตารางของธุรกรรมที่เก็บไว้ในสัญลักษณ์และโครงสร้างแบบอาร์เคน ไม่มีข้อมูลทั้งหมดอยู่ในแหล่งข้อมูลเดียวและพวกเขาไม่สามารถอนุญาตให้ฉันเข้าถึงฐานข้อมูล ERP ได้ด้วยเหตุผลด้านความปลอดภัย
การวิเคราะห์ข้อมูลเบื้องต้นสำหรับโครงการที่ง่ายที่สุดนั้นต้องใช้ข้อมูลที่โหดเหี้ยม มากกว่า 80% ของเวลาที่ใช้ในโครงการคือฉันพยายามแยกไฟล์เหล่านี้และข้ามแหล่งข้อมูลเพื่อสร้างชุดข้อมูลที่ทำงานได้ นี่ไม่ใช่ปัญหาของการจัดการข้อมูลที่หายไปหรือการประมวลผลก่อนมันเป็นงานที่ต้องใช้ในการสร้างข้อมูลที่สามารถจัดการได้ตั้งแต่แรก ( แก้ไขได้ด้วย dba หรือวิศวกรรมข้อมูลไม่ใช่วิทยาศาสตร์ข้อมูล? )
1) ความรู้สึกว่างานส่วนใหญ่ไม่เกี่ยวข้องกับวิทยาศาสตร์ข้อมูลเลย ถูกต้องหรือไม่
2) ฉันรู้ว่านี้ไม่ได้เป็น บริษัท ที่ขับเคลื่อนด้วยข้อมูลที่มีระดับสูงภาควิชาวิศวกรรมข้อมูลแต่มันก็เป็นความเห็นของผมว่าเพื่อที่จะสร้างเพื่ออนาคตที่ยั่งยืนของโครงการวิทยาศาสตร์ข้อมูลระดับต่ำสุดของการเข้าถึงข้อมูลที่จำเป็นต้องมี ฉันผิดหรือเปล่า?
3) การตั้งค่าประเภทนี้เป็นเรื่องปกติสำหรับ บริษัท ที่มีความต้องการด้านวิทยาศาสตร์ข้อมูลอย่างจริงจังหรือไม่?