หลังจากเพิ่งจบการศึกษาจากหลักสูตรปริญญาเอกของฉันเป็นสถิติฉันมีช่วงสองสามเดือนสุดท้ายเริ่มหางานในสาขาสถิติ เกือบทุก บริษัท ที่ฉันคิดว่ามีงานโพสต์ด้วยชื่องานของ " นักวิทยาศาสตร์ข้อมูล " ในความเป็นจริงมันรู้สึกเหมือนหายไปนานเป็นวันของการมองเห็นตำแหน่งงานของสถิตินักวิทยาศาสตร์หรือนักสถิติ การเป็นนักวิทยาศาสตร์ด้านข้อมูลแทนที่สิ่งที่นักสถิติเป็นหรือมีชื่อตรงกันฉันสงสัย?
คุณสมบัติส่วนใหญ่สำหรับงานรู้สึกเหมือนสิ่งที่จะมีคุณสมบัติภายใต้ชื่อของนักสถิติ งานส่วนใหญ่ต้องการปริญญาเอกด้านสถิติ ( ), ความเข้าใจในการออกแบบการทดลองที่ต้องการ ( ), การถดถอยเชิงเส้นและอโนวา ( ), โมเดลเชิงเส้นทั่วไป ( ) และวิธีหลายตัวแปรอื่น ๆ เช่น PCA ( ) เช่นเดียวกับความรู้ในสภาพแวดล้อมการคำนวณทางสถิติเช่น R หรือ SAS ( ) เสียงเหมือนนักวิทยาศาสตร์ด้านข้อมูลเป็นเพียงชื่อรหัสสำหรับนักสถิติ✓ ✓ ✓ ✓ ✓
อย่างไรก็ตามการสัมภาษณ์ทุกครั้งที่ฉันเริ่มด้วยคำถาม: "คุณคุ้นเคยกับขั้นตอนวิธีการเรียนรู้ของเครื่องหรือไม่" บ่อยครั้งที่ฉันพบว่าตัวเองต้องลองตอบคำถามเกี่ยวกับข้อมูลขนาดใหญ่การคำนวณประสิทธิภาพสูงและหัวข้อเกี่ยวกับเครือข่ายประสาท, CART, การสนับสนุนเวกเตอร์แมชชีน, การส่งเสริมต้นไม้, การส่งเสริมต้นไม้, โมเดลที่ไม่ได้รับการยืนยันเป็นต้น คำถามเชิงสถิติที่หัวใจ แต่ในตอนท้ายของการสัมภาษณ์ทุกครั้งฉันไม่สามารถช่วยได้ แต่ให้ความรู้สึกเหมือนฉันรู้น้อยลงเกี่ยวกับสิ่งที่นักวิทยาศาสตร์ด้านข้อมูลคือ
ฉันเป็นนักสถิติ แต่ฉันเป็นนักวิทยาศาสตร์ด้านข้อมูลหรือไม่ ฉันทำงานเกี่ยวกับปัญหาทางวิทยาศาสตร์ดังนั้นฉันต้องเป็นนักวิทยาศาสตร์! และฉันก็ทำงานกับข้อมูลดังนั้นฉันต้องเป็นนักวิทยาศาสตร์ข้อมูล! ตามวิกิพีเดียนักวิชาการส่วนใหญ่จะเห็นด้วยกับฉัน ( https://en.wikipedia.org/wiki/Data_scienceฯลฯ )
แม้ว่าการใช้คำว่า "วิทยาศาสตร์ข้อมูล" ได้เกิดขึ้นในสภาพแวดล้อมทางธุรกิจนักวิชาการและนักข่าวหลายคนไม่เห็นความแตกต่างระหว่างวิทยาศาสตร์ข้อมูลและสถิติ
แต่ถ้าฉันไปสัมภาษณ์งานเหล่านี้ทั้งหมดสำหรับตำแหน่งนักวิทยาศาสตร์ข้อมูลทำไมรู้สึกเหมือนพวกเขาไม่เคยถามคำถามเชิงสถิติ
หลังจากการสัมภาษณ์ครั้งสุดท้ายของฉันฉันต้องการให้นักวิทยาศาสตร์ที่ดีทำและฉันค้นหาข้อมูลเพื่อแก้ปัญหานี้ (เดี๋ยวก่อนฉันเป็นนักวิทยาศาสตร์ข้อมูลเลย) อย่างไรก็ตามหลังจากการค้นหาของ Google จำนวนมากในภายหลังฉันลงเอยด้วยการที่ฉันเริ่มรู้สึกราวกับว่าฉันกำลังต่อสู้กับคำจำกัดความของสิ่งที่นักวิทยาศาสตร์ข้อมูลอีกครั้ง ฉันไม่รู้ว่านักวิทยาศาสตร์ข้อมูลคืออะไรเพราะมีคำจำกัดความมากมาย ( http://blog.udacity.com/2014/11/data-science-job-skills.html , http: // www) -01.ibm.com/software/data/infosphere/data-scientist/ ) แต่ดูเหมือนว่าทุกคนบอกฉันว่าฉันต้องการเป็นหนึ่ง:
- https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/
- http://mashable.com/2014/12/25/data-scientist/#jjgsyhcERZqL
- ฯลฯ .... รายการดำเนินต่อไป
ในตอนท้ายของวันสิ่งที่ฉันคิดได้ก็คือ "นักวิทยาศาสตร์ข้อมูลคืออะไร" เป็นคำถามที่ตอบยากมาก Heck มีอยู่สองเดือนใน Amstat ที่พวกเขาอุทิศเวลาในการพยายามตอบคำถามนี้:
- http://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/
- http://magazine.amstat.org/blog/2015/11/01/statnews2015/
ตอนนี้ฉันต้องเป็นนักสถิติเซ็กซี่ที่จะเป็นนักวิทยาศาสตร์ด้านข้อมูล แต่หวังว่าชุมชนที่ผ่านการตรวจสอบแล้วอาจสามารถกำจัดแสงสว่างและช่วยให้ฉันเข้าใจว่าการเป็นนักวิทยาศาสตร์ด้านข้อมูลหมายความว่าอย่างไร นักวิทยาศาสตร์ด้านข้อมูลไม่ใช่นักสถิติทุกคนใช่หรือไม่
(แก้ไข / ปรับปรุง)
ฉันคิดว่านี่อาจทำให้บทสนทนามีชีวิตชีวาขึ้น ฉันเพิ่งได้รับอีเมลจาก American Statistics Association เกี่ยวกับงานที่วางตำแหน่งกับ Microsoft เพื่อค้นหานักวิทยาศาสตร์ข้อมูล นี่คือลิงค์: ข้อมูลนักวิทยาศาสตร์ตำแหน่ง ฉันคิดว่ามันน่าสนใจเพราะบทบาทของตำแหน่งที่ได้รับในลักษณะเฉพาะจำนวนมากที่เราพูดถึง แต่ฉันคิดว่าหลายคนต้องมีพื้นฐานที่เข้มงวดมากในด้านสถิติรวมถึงคำตอบที่โพสต์ด้านล่าง ในกรณีที่การเชื่อมโยงตายนี่คือคุณสมบัติที่ Microsoft ค้นหาในนักวิทยาศาสตร์ข้อมูล:
ข้อกำหนดและทักษะหลักของงาน:
ประสบการณ์โดเมนธุรกิจโดยใช้ Analytics
- ต้องมีประสบการณ์ในหลายโดเมนธุรกิจที่เกี่ยวข้องในการใช้ทักษะการคิดอย่างมีวิจารณญาณในการกำหนดปัญหาทางธุรกิจที่ซับซ้อนและโซลูชั่นของพวกเขาโดยใช้การวิเคราะห์ขั้นสูงในชุดข้อมูลธุรกิจขนาดใหญ่ในโลกแห่งความจริง
- ผู้สมัครต้องสามารถดำเนินโครงการวิเคราะห์ได้อย่างอิสระและช่วยให้ลูกค้าภายในของเราเข้าใจสิ่งที่ค้นพบและแปลพวกเขาไปสู่การปฏิบัติเพื่อประโยชน์ทางธุรกิจของพวกเขา
แบบจำลองการทำนาย
- ประสบการณ์ข้ามอุตสาหกรรมในการสร้างแบบจำลองการคาดการณ์
- คำจำกัดความของปัญหาทางธุรกิจและการสร้างแบบจำลองทางแนวคิดกับลูกค้าเพื่อล้วงเอาความสัมพันธ์ที่สำคัญและเพื่อกำหนดขอบเขตของระบบ
สถิติ / เศรษฐ
- การวิเคราะห์ข้อมูลเชิงสำรวจสำหรับข้อมูลต่อเนื่องและจัดหมวดหมู่
- ข้อมูลจำเพาะและการประมาณค่าสมการโครงสร้างแบบจำลองสำหรับองค์กรและพฤติกรรมผู้บริโภคต้นทุนการผลิตความต้องการปัจจัยทางเลือกที่ไม่ต่อเนื่องและความสัมพันธ์ทางเทคโนโลยีอื่น ๆ ตามต้องการ
- เทคนิคทางสถิติขั้นสูงเพื่อวิเคราะห์ข้อมูลอย่างต่อเนื่องและเป็นหมวดหมู่
- การวิเคราะห์อนุกรมเวลาและการนำโมเดลการพยากรณ์ไปใช้
- ความรู้และประสบการณ์ในการทำงานกับปัญหาหลายตัวแปร
- ความสามารถในการประเมินความถูกต้องของแบบจำลองและดำเนินการทดสอบวินิจฉัย
- ความสามารถในการตีความสถิติหรือแบบจำลองทางเศรษฐกิจ
- ความรู้และประสบการณ์ในการสร้างการจำลองเหตุการณ์ที่ไม่ต่อเนื่องและแบบจำลองการจำลองแบบไดนามิก
การจัดการข้อมูล
- คุ้นเคยกับการใช้ T-SQL และการวิเคราะห์เพื่อการแปลงข้อมูลและการประยุกต์ใช้เทคนิคการวิเคราะห์ข้อมูลเชิงสำรวจสำหรับชุดข้อมูลขนาดใหญ่ในโลกแห่งความจริง
- ให้ความสำคัญกับความสมบูรณ์ของข้อมูลรวมถึงความซ้ำซ้อนของข้อมูลความถูกต้องของข้อมูลค่าที่ผิดปกติหรือรุนแรงการโต้ตอบของข้อมูลและค่าที่หายไป
ทักษะการสื่อสารและการทำงานร่วมกัน
- ทำงานอย่างอิสระและสามารถทำงานร่วมกับทีมโปรเจ็กต์เสมือนจริงที่จะทำการวิจัยโซลูชั่นที่เป็นนวัตกรรมเพื่อแก้ไขปัญหาทางธุรกิจที่ท้าทาย
- ทำงานร่วมกับคู่ค้าใช้ทักษะการคิดอย่างมีวิจารณญาณและผลักดันโครงการการวิเคราะห์แบบครบวงจร
- ทักษะการสื่อสารที่เหนือกว่าทั้งทางวาจาและภาษาเขียน
- การแสดงผลการวิเคราะห์ในรูปแบบที่บริโภคโดยกลุ่มผู้มีส่วนได้ส่วนเสียที่หลากหลาย
แพคเกจซอฟต์แวร์
- แพคเกจซอฟต์แวร์ทางสถิติ / เศรษฐมิติขั้นสูง: Python, R, JMP, SAS, Eviews, SAS Enterprise Miner
- การสำรวจข้อมูลการสร้างภาพและการจัดการ: T-SQL, Excel, PowerBI และเครื่องมือที่เทียบเท่า
คุณสมบัติผู้สมัคร:
- ต้องมีประสบการณ์ที่เกี่ยวข้องอย่างน้อย 5 ปีขึ้นไป
- โพสต์ระดับบัณฑิตศึกษาในสาขาปริมาณเป็นที่พึงปรารถนา