การถกเถียงข้อมูลเป็นงานของนักวิทยาศาสตร์ข้อมูลมากแค่ไหน?


44

ขณะนี้ฉันทำงานเป็นนักวิทยาศาสตร์ข้อมูลที่ บริษัท ค้าปลีก (งานแรกของฉันในฐานะ DS ดังนั้นคำถามนี้อาจเป็นผลมาจากการขาดประสบการณ์ของฉัน) พวกเขามีงานในมือขนาดใหญ่ของโครงการวิทยาศาสตร์ข้อมูลที่สำคัญมากซึ่งจะมีผลกระทบเชิงบวกอย่างมากหากนำไปใช้ แต่.

ท่อข้อมูลไม่มีอยู่ใน บริษัท ขั้นตอนมาตรฐานสำหรับพวกเขาที่จะส่งกิกะไบต์ของไฟล์ TXT ให้ฉันทุกครั้งที่ฉันต้องการข้อมูลบางอย่าง คิดว่าไฟล์เหล่านี้เป็นบันทึกแบบตารางของธุรกรรมที่เก็บไว้ในสัญลักษณ์และโครงสร้างแบบอาร์เคน ไม่มีข้อมูลทั้งหมดอยู่ในแหล่งข้อมูลเดียวและพวกเขาไม่สามารถอนุญาตให้ฉันเข้าถึงฐานข้อมูล ERP ได้ด้วยเหตุผลด้านความปลอดภัย

การวิเคราะห์ข้อมูลเบื้องต้นสำหรับโครงการที่ง่ายที่สุดนั้นต้องใช้ข้อมูลที่โหดเหี้ยม มากกว่า 80% ของเวลาที่ใช้ในโครงการคือฉันพยายามแยกไฟล์เหล่านี้และข้ามแหล่งข้อมูลเพื่อสร้างชุดข้อมูลที่ทำงานได้ นี่ไม่ใช่ปัญหาของการจัดการข้อมูลที่หายไปหรือการประมวลผลก่อนมันเป็นงานที่ต้องใช้ในการสร้างข้อมูลที่สามารถจัดการได้ตั้งแต่แรก ( แก้ไขได้ด้วย dba หรือวิศวกรรมข้อมูลไม่ใช่วิทยาศาสตร์ข้อมูล? )


1) ความรู้สึกว่างานส่วนใหญ่ไม่เกี่ยวข้องกับวิทยาศาสตร์ข้อมูลเลย ถูกต้องหรือไม่

2) ฉันรู้ว่านี้ไม่ได้เป็น บริษัท ที่ขับเคลื่อนด้วยข้อมูลที่มีระดับสูงภาควิชาวิศวกรรมข้อมูลแต่มันก็เป็นความเห็นของผมว่าเพื่อที่จะสร้างเพื่ออนาคตที่ยั่งยืนของโครงการวิทยาศาสตร์ข้อมูลระดับต่ำสุดของการเข้าถึงข้อมูลที่จำเป็นต้องมี ฉันผิดหรือเปล่า?

3) การตั้งค่าประเภทนี้เป็นเรื่องปกติสำหรับ บริษัท ที่มีความต้องการด้านวิทยาศาสตร์ข้อมูลอย่างจริงจังหรือไม่?


คุณระบุรูปแบบที่คุณต้องการข้อมูลหรือไม่ และให้คำแนะนำเกี่ยวกับวิธีที่พวกเขาสามารถทำได้ด้วย ERP ของพวกเขา
jonnor

@ jonnor แน่นอน ฉันทำงานที่นี่มาเกือบสองปีแล้วและตั้งแต่วันที่ 1 ฉันอธิบายว่าเราจะสร้างแพลตฟอร์มที่ดีขึ้นสำหรับการเข้าถึงข้อมูลได้อย่างไร มีความต้านทานอย่างมากต่อการเปลี่ยนแปลงสิ่งที่ บริษัท ทำมาเป็นเวลา 30 ปี
Victor Valente

13
เริ่มติดตามเวลาของคุณและแปลงเป็นค่าใช้จ่ายว่าพวกเขาเสียเวลาในการแปลง TXT กลับเป็นรูปแบบที่ใช้งานได้ ฉันจะเดิมพันคุณเมื่อพวกเขามีตัวเลข $ พวกเขาสามารถทำได้
เนลสัน

หากเป็นภาระกับเวลาของคุณคุณสามารถ outsource มัน
Sarcoma

ฉันพบว่ามันสับสนว่า บริษัท จะจ้างนักวิทยาศาสตร์ข้อมูลและยังทนต่อการเปลี่ยนแปลงได้ คุณควรแสดงเวลาที่สูญเปล่าและอันตรายจากการเก็บข้อมูลลงในไฟล์ TXT ที่ยาวโดยไม่มีการรักษาความปลอดภัยที่แท้จริง
Pedro Henrique Monforte

คำตอบ:


27
  1. รู้สึกเหมือนงานส่วนใหญ่ไม่เกี่ยวข้องกับวิทยาศาสตร์ข้อมูลเลย ถูกต้องหรือไม่

    ใช่

  2. ฉันรู้ว่านี่ไม่ใช่ บริษัท ที่ขับเคลื่อนด้วยข้อมูลซึ่งมีแผนกวิศวกรรมข้อมูลระดับสูง แต่ฉันคิดว่าวิทยาศาสตร์ข้อมูลต้องการระดับการเข้าถึงข้อมูลขั้นต่ำ ฉันผิดหรือเปล่า?

    คุณไม่ผิด แต่สิ่งเหล่านี้คือความเป็นจริงของชีวิตจริง

  3. การตั้งค่าประเภทนี้เป็นเรื่องปกติสำหรับ บริษัท ที่มีความต้องการด้านวิทยาศาสตร์ข้อมูลที่จริงจัง

    ใช่

จากมุมมองทางเทคนิคคุณต้องมองหาโซลูชั่น ETL ที่จะทำให้ชีวิตของคุณง่ายขึ้น บางครั้งเครื่องมือหนึ่งอาจเร็วกว่าเครื่องมืออื่นในการอ่านข้อมูลบางอย่าง เช่น readxl ของ R คือคำสั่งของ mangnitudes ที่เร็วกว่า python ของ python ที่อ่านไฟล์ xlsx; คุณสามารถใช้ R เพื่อนำเข้าไฟล์จากนั้นบันทึกเป็นรูปแบบที่เป็นมิตรกับ Python (parquet, SQL, ฯลฯ ) ฉันรู้ว่าคุณไม่ได้ทำงานกับไฟล์ xlsx และฉันไม่รู้ว่าถ้าคุณใช้ Python มันเป็นเพียงตัวอย่าง

จากมุมมองเชิงปฏิบัติสองสิ่ง:

  • ก่อนอื่นทำความเข้าใจกับสิ่งที่เป็นไปได้ทางเทคนิค ในหลายกรณีคนที่บอกคุณรู้ว่าเป็นคนที่ไม่รู้หนังสือด้านไอทีที่กังวลเกี่ยวกับการพิจารณาทางธุรกิจหรือการปฏิบัติตามกฎระเบียบ แต่ไม่มีแนวคิดเกี่ยวกับสิ่งที่เป็นและไม่เป็นไปได้จากมุมมองด้านไอที พยายามพูดคุยกับ DBA หรือใครก็ตามที่จัดการโครงสร้างพื้นฐานข้อมูล ทำความเข้าใจกับสิ่งที่เป็นไปได้ทางเทคนิค จากนั้นเฉพาะพยายามค้นหาการประนีประนอม เช่นพวกเขาจะไม่ให้คุณเข้าถึงระบบของพวกเขา แต่ฉันคิดว่ามีฐานข้อมูลอยู่เบื้องหลังหรือไม่ บางทีพวกเขาสามารถดึงข้อมูลไปเป็นรูปแบบอื่นได้บ้าง บางทีพวกเขาสามารถแยกคำสั่ง SQL ที่กำหนดชนิดข้อมูล ฯลฯ ได้หรือไม่

  • นักธุรกิจมีแนวโน้มที่จะช่วยเหลือคุณมากขึ้นหากคุณสามารถทำสิ่งที่เป็นประโยชน์กับพวกเขาได้ หากพวกเขาไม่เชื่อในสิ่งที่คุณกำลังทำอยู่โชคดี ...


2
จุดที่ยอดเยี่ยมเกี่ยวกับการค้นหา / การสร้างโซลูชัน ETL เพียงแค่ต้องเพิ่ม: เลือกการตั้งค่าที่คุณพอใจและสามารถอ่าน / ดีบักได้อย่างง่ายดาย ในช่วงแรกของการทำงานอัตโนมัติสิ่งนี้สำคัญกว่าการค้นหาเครื่องมือ data-slurp ที่เร็วที่สุด หากเป็นกิ๊กของข้อความก็มักจะทำงานข้ามคืนและความคล่องแคล่วของคุณด้วยเครื่องมือ / กรอบ / ภาษาสามารถสร้างความแตกต่างระหว่างการตื่นขึ้นมากับข้อมูลที่ดีหรือสิ่งที่คุณต้องเริ่มต้นอีกครั้ง เพียงแค่ใช้งานเพียงครั้งเดียวก็สามารถขจัดผลประโยชน์ที่มีประสิทธิภาพ ดีกว่าที่จะมั่นคงกับข้อบกพร่องน้อยกว่าไปอย่างรวดเร็วและสะดุด
เจสัน

2
จริง แต่ยังไม่เกินเวลา เลือกลำดับความสำคัญของคุณอย่างชาญฉลาด หากการนำเข้าข้อมูลเป็นแบบครั้งเดียวอย่าใช้เวลาหลายวันเพื่อหาวิธีลดเวลาการนำเข้าจาก 2 ชั่วโมงเป็น 30 นาที อื่น ๆ
PythonGuest

39

นี่เป็นสถานการณ์ที่บล็อก บริษัท และเอกสารจำนวนมากยอมรับว่าเป็นเรื่องจริงในหลายกรณี

ในบทความนี้Data Wrangling for Big Data: ความท้าทายและโอกาสมีการพูดถึงมัน

นักวิทยาศาสตร์ด้านข้อมูลใช้เวลาจาก 50 ถึง 80 เปอร์เซ็นต์ของเวลา

รวบรวมและเตรียมข้อมูลดิจิทัลที่ไม่เชื่อฟัง

นอกจากนี้คุณสามารถอ่านแหล่งอ้างอิงของบทความนั้นในบทความนี้จาก The New York Times สำหรับนักวิทยาศาสตร์บิ๊กดาต้า 'Janitor Work' เป็นอุปสรรคสำคัญต่อการเข้าใจ

น่าเสียดายที่โลกแห่งความจริงไม่เหมือน Kaggle คุณไม่ได้รับไฟล์ CSV หรือ Excel ที่คุณสามารถเริ่มการสำรวจข้อมูลด้วยการทำความสะอาดเล็กน้อย คุณต้องค้นหาข้อมูลในรูปแบบที่ไม่เหมาะสมกับความต้องการของคุณ

สิ่งที่คุณสามารถทำได้คือใช้ประโยชน์จากข้อมูลเก่าให้มากที่สุดเท่าที่จะทำได้และพยายามปรับการจัดเก็บข้อมูลใหม่ในกระบวนการที่จะทำให้คุณ (หรือเพื่อนร่วมงานในอนาคต) ทำงานได้ง่ายขึ้น


บทความ Forbes อ้างตัวเลข
Jesse Amano

4
Forbes ไม่ควรมีการพูดถึงกันพร้อมกับคำว่า "data science"
สุภาพบุรุษ

50-80% อ้างอิงจาก (การอ้างอิง) "สัมภาษณ์และการประเมินโดยผู้เชี่ยวชาญ"
oW_

3
@gented ความคิดเห็นที่อิงตามความคิดเห็นเกี่ยวกับการสำรวจตามความคิดเห็นในบทความตามความคิดเห็นที่วางอยู่บนความเห็นที่ใช้คำตอบของคำถามตามความคิดเห็น ใครจะคิดว่าคุณจะพบสิ่งนี้ใน "Data Science" SE
Keeta

25

รู้สึกเหมือนงานส่วนใหญ่ไม่เกี่ยวข้องกับวิทยาศาสตร์ข้อมูลเลย ถูกต้องหรือไม่

นี่คือความเป็นจริงของโครงการวิทยาศาสตร์ข้อมูลใด ๆ Google วัดจริงและเผยแพร่เอกสาร "หนี้ทางเทคนิคที่ซ่อนอยู่ในระบบการเรียนรู้ของเครื่อง" https://papers.nips.cc/paper/5656-hidden-technical-debt-in-machine-learning-systems.pdf

ป้อนคำอธิบายรูปภาพที่นี่

ผลลัพธ์ของบทความนี้สะท้อนถึงประสบการณ์ของฉันเช่นกัน ใช้เวลาส่วนใหญ่ในการรับทำความสะอาดและประมวลผลข้อมูล


7
  1. รู้สึกเหมือนงานส่วนใหญ่ไม่เกี่ยวข้องกับวิทยาศาสตร์ข้อมูลเลย ถูกต้องหรือไม่

    การถกเถียงข้อมูลเป็นสิ่งที่แน่นอนที่สุดในรายละเอียดงานของนักวิทยาศาสตร์ข้อมูล ในบางระดับคุณต้องเข้าใจกระบวนการสร้างข้อมูลเพื่อใช้ในการขับเคลื่อนโซลูชัน แน่นอนว่าคนที่เชี่ยวชาญใน ETL สามารถทำได้เร็วขึ้น / มีประสิทธิภาพมากขึ้น แต่การได้รับการทิ้งข้อมูลไม่ใช่เรื่องแปลกในโลกแห่งความเป็นจริง หากคุณไม่ชอบศาสตร์ด้านข้อมูลนี้อาจมีโอกาสที่จะทำงานอย่างใกล้ชิดกับแหล่งข้อมูลด้านไอทีมากขึ้นเพื่อให้ได้ข้อมูลที่มาจากคลังสินค้าที่คุณเข้าถึง หรือคุณอาจหางานที่มีข้อมูลอยู่ในลำดับที่ดีกว่าอยู่แล้ว

  2. ฉันรู้ว่านี่ไม่ใช่ บริษัท ที่ขับเคลื่อนด้วยข้อมูลซึ่งมีแผนกวิศวกรรมข้อมูลระดับสูง แต่ฉันคิดว่าวิทยาศาสตร์ข้อมูลต้องการระดับการเข้าถึงข้อมูลขั้นต่ำ ฉันผิดหรือเปล่า?

    ฉันคิดว่าระดับต่ำสุดคือไฟล์ txt หากคุณสามารถเข้าถึงข้อมูลผ่านไฟล์ข้อความคุณควรมีสิทธิ์เข้าถึงข้อมูลในฐานข้อมูล (ย้อนกลับไปที่สิ่งนี้กับผู้บังคับบัญชา)

  3. การตั้งค่าประเภทนี้เป็นเรื่องปกติสำหรับ บริษัท ที่มีความต้องการด้านวิทยาศาสตร์ข้อมูลที่จริงจัง

    ใช่. คุณเป็นนักวิทยาศาสตร์ข้อมูล คุณเป็นผู้เชี่ยวชาญ เป็นส่วนหนึ่งของงานของคุณที่จะให้ความรู้แก่ผู้อื่นเกี่ยวกับความไร้ประสิทธิภาพของโครงสร้างข้อมูลปัจจุบันและวิธีที่คุณสามารถช่วยได้ ข้อมูลที่ไม่สามารถใช้งานได้ไม่ได้ช่วยใคร คุณมีโอกาสที่จะทำให้สิ่งต่าง ๆ ดีขึ้นและกำหนดอนาคตของ บริษัท


6

ในฐานะที่เป็นผู้ริเริ่มใหม่ล่าสุดใน Data Science ฉันสามารถเพิ่มได้เฉพาะที่ฉันไม่คิดว่าคุณจะได้รับประสบการณ์ที่ไม่ซ้ำกันทีมงานของฉันประมาณ 10 เห็นได้ชัดว่าไม่ได้ทำ DS ใด ๆ ในรอบปี (โครงการขนาดเล็กหนึ่งโครงการ ทีม). นี่เป็นเพราะสัญญาของท่อส่งที่มีประสิทธิภาพที่ทีมทำงานอยู่ แต่ก็ยังไม่ส่งข้อมูล เห็นได้ชัดว่าการเก็บรักษาค่อนข้างแย่ในอดีตและมีสัญญาอย่างต่อเนื่องเกี่ยวกับสภาพแวดล้อม MS Azure ที่ศักดิ์สิทธิ์สำหรับโครงการ DS ในอนาคต

ดังนั้นเพื่อตอบ:

1) ใช่ถูกต้องทั้งหมด

2) ไม่ถูกต้อง แต่เป็นการต่อสู้ที่ยากลำบากในการเข้าถึงข้อมูลที่คุณต้องการ (หากมีอยู่)

3) ฉันแน่ใจว่ามี บริษัท นอกองค์กรที่ดีกว่า บริษัท อื่น หากคุณไม่สามารถยืนได้ที่ บริษัท ปัจจุบันของคุณ 2 ปีเป็นระยะเวลาที่เหมาะสมเริ่มมองหาสิ่งต่าง ๆ ที่สว่างกว่า (โปรดระวังวิธีที่คุณวลีที่คุณต้องการออกจากงานปัจจุบันของคุณเช่น "กำลังมองหางานที่มีพลังมากขึ้นกว่าเดิม" ทีม "จะฟังดูดีกว่า" บริษัท เก่าของฉันจะไม่ให้ข้อมูล ")


5

หากคุณมองจากมุมมองของ"นี่ไม่ใช่งานของฉันดังนั้นทำไมฉันต้องทำ"นั่นเป็นปัญหาที่พบได้ทั่วไปไม่ใช่ปัญหาของวิทยาศาสตร์ข้อมูล ในที่สุดงานของคุณคือทำทุกอย่างที่เจ้านายสั่งให้คุณทำ แต่ในทางปฏิบัติมีเหตุผลเล็กน้อยที่เจ้านายจะเผด็จการเกี่ยวกับเรื่องนี้และโดยปกติพวกเขาจะถูกชักชวนได้ หรืออย่างน้อยพวกเขาจะให้คำอธิบายที่จริงใจว่าทำไมถึงต้องเป็นเช่นนั้น แต่ตราบใดที่มีการดึงดูดผู้มีอำนาจไม่มีคำนิยามอย่างเป็นทางการของ "วิทยาศาสตร์ข้อมูล" ที่บอกว่าคุณสามารถทำได้แค่การล้างข้อมูล X% เท่านั้น ผู้มีอำนาจคือผู้ที่จ่ายให้คุณตราบใดที่พวกเขามีสิทธิ์ตามกฎหมายที่จะหยุดจ่ายเงินให้คุณ

คุณสามารถดูจากมุมมองอื่น: นี่เป็นการใช้เวลาของคุณอย่างดีหรือไม่? ดูเหมือนว่าคุณทำงานเพื่อทำงานบางอย่าง (ซึ่งคุณหมายถึงโดย "data science") แต่คุณต้องทำสิ่งอื่น (ซึ่งคุณเรียกว่า "data wrangling") รายละเอียดของงานและความรู้สึกส่วนตัวอยู่ข้างๆจุดนี้เพราะมีบางสิ่งที่เกี่ยวข้องมากกว่า: บริษัท น่าจะจ่ายเงินให้คุณเป็นจำนวนมากเพื่อทำสิ่งที่มีเพียงคุณเท่านั้นที่ทำได้ แต่คุณกำลังทำสิ่งอื่นแทนซึ่งสามารถทำได้โดยคนอื่นที่มีความสามารถมีแรงจูงใจมากขึ้นหรือมีราคาถูกลง หากใครบางคนทำเงินเดือนให้คุณครึ่งหนึ่งแล้วการโต้เถียงข้อมูลอาจทำให้คุณไม่ต้องเสียเงินสองเท่าในการทำสิ่งเดียวกัน หากทำได้เร็วกว่านี้โดยคนที่จ่ายเงินเดือนเดียวกันจะใช้ตรรกะเดียวกัน ดังนั้นจึงเป็นการสิ้นเปลืองทรัพยากร (โดยเฉพาะเงิน) เพื่อให้ บริษัท มอบหมายงานนี้ให้คุณ เมื่อมองจากมุมมองนี้คุณอาจพบว่าการทำให้หัวหน้าของคุณมองเห็นสิ่งต่าง ๆ ได้ง่ายขึ้น

แน่นอนว่าในตอนท้ายของวันมีบางคนต้องทำข้อมูลที่ถกเถียงกัน อาจเป็นได้ว่าวิธีที่ถูกที่สุดเร็วที่สุดและง่ายที่สุดคือคนที่ดีที่สุดสำหรับงานคือคุณ ในกรณีนี้คุณโชคไม่ดี คุณสามารถลองอ้างว่ามันไม่ได้เป็นส่วนหนึ่งของสัญญาของคุณ แต่สิ่งที่เป็นไปได้ที่พวกเขาไร้เดียงสาพอที่จะนำสิ่งที่เฉพาะเจาะจงในสัญญา


3

บางทีอาจจะง่าย ๆ :

  • เมื่อสร้างตัวแปรและการคำนวณตัวเลขคุณจะทำอย่างนั้นหรือไม่หลังจากวิเคราะห์ข้อมูลของคุณ
  • เมื่อเพื่อนตรวจสอบสิ่งที่คุณพบถ้าพวกเขามีคำถามเกี่ยวกับบิตของข้อมูลมันจะทำให้คุณไม่รู้จักพวกเขาหรือไม่?

คุณต้องทำงานกับและทำความเข้าใจข้อมูลของคุณซึ่งรวมถึงสิ่งที่ง่ายตั้งแต่การแก้ไขความไม่สอดคล้องกัน (NULLs, สตริงว่าง, "-") เพื่อทำความเข้าใจว่าชิ้นส่วนของข้อมูลถูกรวบรวมไปจนถึงการแสดงผลอย่างไร การประมวลผลนั้นรวมถึงการรู้ข้อมูลชิ้นเดียวกันดังนั้นจึงเป็นงานที่คุณต้องทำต่อไป

ตอนนี้ดูเหมือนว่า บริษัท นี้จะได้ประโยชน์จากการตั้งค่าอินสแตนซ์ MySQL (หรือคล้ายกัน) ฟรีเพื่อเก็บข้อมูลของคุณ การพยายามยืดหยุ่นเมื่อคุณออกแบบรหัสถกเถียงของคุณก็เป็นความคิดที่ดีเช่นกัน - การมีชุดข้อมูลขั้นกลางของข้อมูลที่ประมวลผลฉันคิดว่าจะมีประโยชน์หากคุณได้รับอนุญาต (และไม่สามารถทำได้ใน MySQL)

แต่แน่นอนคุณยังคงติดตั้งสิ่งต่าง ๆ ตั้งแต่เริ่มต้น นี่ไม่ใช่กระบวนการที่ง่าย แต่ "ประสบการณ์การเรียนรู้" อย่างน้อยก็เป็นสิ่งที่ดีที่จะใส่ไว้ในประวัติย่อของคุณ


3

1) ความรู้สึกว่างานส่วนใหญ่ไม่เกี่ยวข้องกับวิทยาศาสตร์ข้อมูลเลย ถูกต้องหรือไม่ ในความคิดของฉันวิทยาศาสตร์ข้อมูลไม่สามารถดึงออกจากการบิดข้อมูล แต่อย่างที่คุณพูดคำถามจะมาจากจำนวนนักเขียนข้อมูลที่ต้องทำโดยนักวิทยาศาสตร์ข้อมูล ขึ้นอยู่กับแบนด์วิดท์ขององค์กรและบุคคลที่สนใจในการทำงานดังกล่าว จากประสบการณ์ของฉันในช่วง 15 ถึง 16 ปีในฐานะ DS ฉันมักจะใช้เวลาประมาณ 60% ถึง 70% ในการแก้ไขข้อมูลและใช้เวลาสูงสุด 15% ในการวิเคราะห์จริง ดังนั้นรับสายของคุณ

2) ฉันรู้ว่านี่ไม่ใช่ บริษัท ที่ขับเคลื่อนด้วยข้อมูลซึ่งมีแผนกวิศวกรรมข้อมูลระดับสูง แต่ฉันคิดว่าวิทยาศาสตร์ข้อมูลต้องการระดับการเข้าถึงข้อมูลขั้นต่ำ ฉันผิดหรือเปล่า? อีกครั้งขึ้นอยู่กับนโยบายความปลอดภัยขององค์กร พวกเขาไม่สามารถทิ้งทุกอย่างให้คุณและพวกเขามีปัญหาด้านความปลอดภัยของตัวเองเพื่อเปิดเผยข้อมูลให้กับบุคคลที่เป็นพนักงานชั่วคราว (ขออภัยที่ใช้คำนี้ :-()

3) การตั้งค่าประเภทนี้เป็นเรื่องปกติสำหรับ บริษัท ที่มีความต้องการด้านวิทยาศาสตร์ข้อมูลอย่างจริงจังหรือไม่? ฉันรู้สึกว่า บริษัท ประเภทนี้ต้องการความสนใจมากที่สุดจากนักวิทยาศาสตร์ด้านข้อมูลเพื่อให้รู้สึกว่าการสร้างแบบจำลองข้อมูลขับเคลื่อนเป็นอนาคตของธุรกิจของพวกเขา :-)

ฉันให้ความคิดเห็นเกี่ยวกับธุรกิจแทนจุดยืนทางเทคนิค :-) หวังว่าฉันชัดเจนในการเลือกคำของฉัน


3

ในการพูดคุยของเขา "ข้อมูลขนาดใหญ่เป็นสี่ปัญหาที่แตกต่างกัน" ทัวริงได้รับรางวัลชนะไมเคิล Stonebraker กล่าวถึงปัญหานี้โดยเฉพาะอย่างยิ่งเป็นปัญหาใหญ่ ( วิดีโอ , ภาพนิ่ง )

เขาบอกว่ามีปัญหาที่เปิดอยู่มากมายในพื้นที่นี้: การกลืนกินการแปลง (เช่นยูโร / ดอลลาร์) สะอาด (เช่น -99 / Null) การทำแผนที่แบบแผน (เช่นค่าจ้าง / เงินเดือน) การรวมนิติบุคคล (เช่น Mike Stonebraker / Michael Stonebreaker)

มีจำนวน บริษัท / ผลิตภัณฑ์ที่พยายามแก้ไขปัญหานี้เช่น Tamr, Alteryx, Trifacta, Paxata, Google Refine ทำงานเพื่อแก้ไขปัญหานี้

จนกว่าพื้นที่นี้จะครบกำหนดงานนักวิทยาศาสตร์ด้านข้อมูลจำนวนมากจะต้องถูกบีบอัดข้อมูล

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.