เงื่อนไขเป็นคลุมเครือเพราะเป็นของใหม่
ขณะที่กำลังค้นหางานในฟิลด์ 'วิทยาศาสตร์ข้อมูล' ฉันคิดว่ามีสองสิ่งที่เกิดขึ้นที่นี่ ขั้นแรกงานเป็นงานใหม่และไม่มีคำจำกัดความที่กำหนดไว้ของคำศัพท์ที่หลากหลายดังนั้นจึงไม่มีการตกลงกันโดยทั่วไปเมื่อจับคู่คำกับคำอธิบายงาน เปรียบเทียบสิ่งนี้กับ 'นักพัฒนาเว็บ' หรือ 'นักพัฒนาส่วนหลัง' เหล่านี้เป็นงานที่คล้ายกันสองงานที่มีการตกลงกันอย่างสมเหตุสมผล
ประการที่สองผู้คนจำนวนมากที่ทำการโพสต์งานและการสัมภาษณ์ครั้งแรกไม่รู้ว่าสิ่งที่พวกเขาต้องการจ้างดี นี่เป็นเรื่องจริงโดยเฉพาะอย่างยิ่งในกรณีของ บริษัท ขนาดเล็กถึงขนาดกลางที่จ้างนายหน้าเพื่อค้นหาผู้สมัคร มันเป็นตัวกลางเหล่านี้ที่โพสต์คำอธิบายงานใน CareerBuilder หรือฟอรัมอะไรก็ตาม นี่ไม่ใช่การบอกว่าหลายคนไม่รู้จักสิ่งของของพวกเขาหลายคนมีความรู้ค่อนข้างมากเกี่ยวกับ บริษัท ที่พวกเขาเป็นตัวแทนและข้อกำหนดของสถานที่ทำงาน แต่หากไม่มีคำจำกัดความที่ชัดเจนในการอธิบายงานที่แตกต่างกันชื่องานที่คลุมเครือมักเป็นผลลัพธ์
สนามทั่วไปมีสามส่วน
จากประสบการณ์ของฉันมีสามส่วนทั่วไปของ 'พื้นที่งาน' ของวิทยาศาสตร์ข้อมูล
ประการแรกคือการพัฒนาเทคนิคทางคณิตศาสตร์และการคำนวณที่ทำให้วิทยาศาสตร์ข้อมูลเป็นไปได้ สิ่งนี้ครอบคลุมสิ่งต่าง ๆ เช่นการวิจัยเชิงสถิติเกี่ยวกับวิธีการเรียนรู้ของเครื่องจักรใหม่การใช้วิธีการเหล่านี้และการสร้างโครงสร้างพื้นฐานการคำนวณเพื่อใช้วิธีการเหล่านี้ในโลกแห่งความจริง นี่คือแผนกที่แยกออกจากลูกค้ามากที่สุดและแผนกที่เล็กที่สุด งานนี้ทำโดยนักวิชาการหรือนักวิจัยใน บริษัท ใหญ่ ๆ (Google, Facebook และอื่น ๆ ) นี่คือสิ่งต่างๆเช่นการพัฒนา TensorFlow ของ Google, SPSS ของโครงข่ายประสาทของไอบีเอ็มหรือฐานข้อมูลกราฟขนาดใหญ่ถัดไปจะเป็นอย่างไร
ส่วนที่สองคือการใช้เครื่องมือพื้นฐานเพื่อสร้างแพ็คเกจเฉพาะแอปพลิเคชันเพื่อดำเนินการวิเคราะห์ข้อมูลที่จำเป็นต้องทำ ผู้คนได้รับการว่าจ้างให้ใช้ Python หรือ R หรือเพื่อสร้างความสามารถในการวิเคราะห์ข้อมูลบางชุด จากประสบการณ์ของฉันมากงานนี้เกี่ยวข้องกับการทำ 'data ซักอบรีด' เปลี่ยนข้อมูลดิบในรูปแบบใด ๆ ให้เป็นสิ่งที่ใช้งานได้ อีกชิ้นใหญ่ของงานนี้คือ databasing; การหาวิธีจัดเก็บข้อมูลในแบบที่สามารถเข้าถึงได้ในทุกเวลาที่คุณต้องการงานนี้ไม่ได้ใช้เครื่องมือมากนัก แต่ใช้ฐานข้อมูลสถิติและไลบรารีการวิเคราะห์เชิงกราฟเพื่อสร้างผลลัพธ์บางอย่าง
ส่วนที่สามคือการผลิตการวิเคราะห์จากข้อมูลที่จัดใหม่และสามารถเข้าถึงได้ นี่คือด้านที่ลูกค้าหันหน้าไปมากที่สุดขึ้นอยู่กับองค์กรของคุณ คุณต้องสร้างการวิเคราะห์ที่ผู้นำทางธุรกิจสามารถใช้ในการตัดสินใจ นี่จะเป็นเทคนิคที่น้อยที่สุดของสามแผนก งานจำนวนมากเป็นลูกผสมระหว่างหน่วยงานที่สองและสาม ณ จุดนี้เนื่องจากวิทยาศาสตร์ข้อมูลอยู่ในช่วงเริ่มต้น แต่ในอนาคตฉันสงสัยอย่างยิ่งว่าจะมีการแบ่งงานที่สะอาดระหว่างสองงานนี้โดยผู้คนจะได้งานที่สองซึ่งต้องใช้เทคนิควิทยาการคอมพิวเตอร์หรือการศึกษาเชิงสถิติและงานที่สามนี้ต้องการเพียงการศึกษาทั่วไป
โดยทั่วไปทั้งสามสามารถอธิบายตนเองว่าเป็น 'นักวิทยาศาสตร์ด้านข้อมูล' แต่มีเพียงสองคนแรกเท่านั้นที่สามารถอธิบายตัวเองได้อย่างสมเหตุสมผลในฐานะ
ข้อสรุป
ในขณะนี้คุณจะต้องค้นหาด้วยตัวเองว่างานแต่ละอย่างเกี่ยวข้องกันอย่างไร งานปัจจุบันของฉันจ้างให้ฉันเป็น 'นักวิเคราะห์' เพื่อทำสิ่งการเรียนรู้ของเครื่อง แต่เมื่อเราต้องทำงานมันก็เห็นได้ชัดว่าฐานข้อมูลของ บริษัท ไม่เพียงพอและตอนนี้อาจเป็น 90% ของเวลาที่ฉันใช้ในการทำงานกับฐานข้อมูล การเปิดรับการเรียนรู้ของเครื่องของฉันตอนนี้ทำงานอย่างรวดเร็วผ่านสิ่งที่แพคเกจเรียนรู้ scikit ดูเหมือนว่าเหมาะสมที่สุดและการถ่ายภาพไฟล์ csv ไปยังนักวิเคราะห์ส่วนที่สามเพื่อนำเสนอ powerpoint สำหรับลูกค้า
เขตข้อมูลอยู่ในฟลักซ์ องค์กรจำนวนมากพยายามเพิ่มการตัดสินใจด้านวิทยาศาสตร์ข้อมูลลงในกระบวนการของพวกเขา แต่ไม่ทราบว่ามันหมายถึงอะไรอย่างชัดเจน มันไม่ใช่ความผิดของพวกเขามันค่อนข้างยากที่จะคาดการณ์อนาคตและการแตกสาขาของเทคโนโลยีใหม่นั้นก็ไม่เคยชัดเจนนัก จนกว่าจะมีการจัดตั้งสาขามากขึ้นงานหลายอย่างจะคลุมเครือเหมือนข้อกำหนดที่ใช้อธิบายพวกเขา
Data scientist
ฟังดูมีความชัดเจนเล็กน้อยเกี่ยวกับงานที่แท้จริงจะเป็นอย่างไรในขณะที่machine learning engineer
เฉพาะเจาะจงมากขึ้น ในกรณีแรก บริษัท ของคุณจะให้เป้าหมายแก่คุณและคุณจำเป็นต้องทราบว่าวิธีการใด (การเรียนรู้ของเครื่องจักรการประมวลผลภาพโครงข่ายประสาทเทียมตรรกศาสตร์คลุมเครือ ฯลฯ ) ที่คุณจะใช้ ในกรณีที่สอง บริษัท ของคุณได้แคบลงแล้วถึงวิธีการที่จะใช้