นักวิทยาศาสตร์ข้อมูลคืออะไร?


181

หลังจากเพิ่งจบการศึกษาจากหลักสูตรปริญญาเอกของฉันเป็นสถิติฉันมีช่วงสองสามเดือนสุดท้ายเริ่มหางานในสาขาสถิติ เกือบทุก บริษัท ที่ฉันคิดว่ามีงานโพสต์ด้วยชื่องานของ " นักวิทยาศาสตร์ข้อมูล " ในความเป็นจริงมันรู้สึกเหมือนหายไปนานเป็นวันของการมองเห็นตำแหน่งงานของสถิตินักวิทยาศาสตร์หรือนักสถิติ การเป็นนักวิทยาศาสตร์ด้านข้อมูลแทนที่สิ่งที่นักสถิติเป็นหรือมีชื่อตรงกันฉันสงสัย?

คุณสมบัติส่วนใหญ่สำหรับงานรู้สึกเหมือนสิ่งที่จะมีคุณสมบัติภายใต้ชื่อของนักสถิติ งานส่วนใหญ่ต้องการปริญญาเอกด้านสถิติ ( ), ความเข้าใจในการออกแบบการทดลองที่ต้องการ ( ), การถดถอยเชิงเส้นและอโนวา ( ), โมเดลเชิงเส้นทั่วไป ( ) และวิธีหลายตัวแปรอื่น ๆ เช่น PCA ( ) เช่นเดียวกับความรู้ในสภาพแวดล้อมการคำนวณทางสถิติเช่น R หรือ SAS ( ) เสียงเหมือนนักวิทยาศาสตร์ด้านข้อมูลเป็นเพียงชื่อรหัสสำหรับนักสถิติ

อย่างไรก็ตามการสัมภาษณ์ทุกครั้งที่ฉันเริ่มด้วยคำถาม: "คุณคุ้นเคยกับขั้นตอนวิธีการเรียนรู้ของเครื่องหรือไม่" บ่อยครั้งที่ฉันพบว่าตัวเองต้องลองตอบคำถามเกี่ยวกับข้อมูลขนาดใหญ่การคำนวณประสิทธิภาพสูงและหัวข้อเกี่ยวกับเครือข่ายประสาท, CART, การสนับสนุนเวกเตอร์แมชชีน, การส่งเสริมต้นไม้, การส่งเสริมต้นไม้, โมเดลที่ไม่ได้รับการยืนยันเป็นต้น คำถามเชิงสถิติที่หัวใจ แต่ในตอนท้ายของการสัมภาษณ์ทุกครั้งฉันไม่สามารถช่วยได้ แต่ให้ความรู้สึกเหมือนฉันรู้น้อยลงเกี่ยวกับสิ่งที่นักวิทยาศาสตร์ด้านข้อมูลคือ

ฉันเป็นนักสถิติ แต่ฉันเป็นนักวิทยาศาสตร์ด้านข้อมูลหรือไม่ ฉันทำงานเกี่ยวกับปัญหาทางวิทยาศาสตร์ดังนั้นฉันต้องเป็นนักวิทยาศาสตร์! และฉันก็ทำงานกับข้อมูลดังนั้นฉันต้องเป็นนักวิทยาศาสตร์ข้อมูล! ตามวิกิพีเดียนักวิชาการส่วนใหญ่จะเห็นด้วยกับฉัน ( https://en.wikipedia.org/wiki/Data_scienceฯลฯ )

แม้ว่าการใช้คำว่า "วิทยาศาสตร์ข้อมูล" ได้เกิดขึ้นในสภาพแวดล้อมทางธุรกิจนักวิชาการและนักข่าวหลายคนไม่เห็นความแตกต่างระหว่างวิทยาศาสตร์ข้อมูลและสถิติ

แต่ถ้าฉันไปสัมภาษณ์งานเหล่านี้ทั้งหมดสำหรับตำแหน่งนักวิทยาศาสตร์ข้อมูลทำไมรู้สึกเหมือนพวกเขาไม่เคยถามคำถามเชิงสถิติ

หลังจากการสัมภาษณ์ครั้งสุดท้ายของฉันฉันต้องการให้นักวิทยาศาสตร์ที่ดีทำและฉันค้นหาข้อมูลเพื่อแก้ปัญหานี้ (เดี๋ยวก่อนฉันเป็นนักวิทยาศาสตร์ข้อมูลเลย) อย่างไรก็ตามหลังจากการค้นหาของ Google จำนวนมากในภายหลังฉันลงเอยด้วยการที่ฉันเริ่มรู้สึกราวกับว่าฉันกำลังต่อสู้กับคำจำกัดความของสิ่งที่นักวิทยาศาสตร์ข้อมูลอีกครั้ง ฉันไม่รู้ว่านักวิทยาศาสตร์ข้อมูลคืออะไรเพราะมีคำจำกัดความมากมาย ( http://blog.udacity.com/2014/11/data-science-job-skills.html , http: // www) -01.ibm.com/software/data/infosphere/data-scientist/ ) แต่ดูเหมือนว่าทุกคนบอกฉันว่าฉันต้องการเป็นหนึ่ง:

ในตอนท้ายของวันสิ่งที่ฉันคิดได้ก็คือ "นักวิทยาศาสตร์ข้อมูลคืออะไร" เป็นคำถามที่ตอบยากมาก Heck มีอยู่สองเดือนใน Amstat ที่พวกเขาอุทิศเวลาในการพยายามตอบคำถามนี้:

ตอนนี้ฉันต้องเป็นนักสถิติเซ็กซี่ที่จะเป็นนักวิทยาศาสตร์ด้านข้อมูล แต่หวังว่าชุมชนที่ผ่านการตรวจสอบแล้วอาจสามารถกำจัดแสงสว่างและช่วยให้ฉันเข้าใจว่าการเป็นนักวิทยาศาสตร์ด้านข้อมูลหมายความว่าอย่างไร นักวิทยาศาสตร์ด้านข้อมูลไม่ใช่นักสถิติทุกคนใช่หรือไม่


(แก้ไข / ปรับปรุง)

ฉันคิดว่านี่อาจทำให้บทสนทนามีชีวิตชีวาขึ้น ฉันเพิ่งได้รับอีเมลจาก American Statistics Association เกี่ยวกับงานที่วางตำแหน่งกับ Microsoft เพื่อค้นหานักวิทยาศาสตร์ข้อมูล นี่คือลิงค์: ข้อมูลนักวิทยาศาสตร์ตำแหน่ง ฉันคิดว่ามันน่าสนใจเพราะบทบาทของตำแหน่งที่ได้รับในลักษณะเฉพาะจำนวนมากที่เราพูดถึง แต่ฉันคิดว่าหลายคนต้องมีพื้นฐานที่เข้มงวดมากในด้านสถิติรวมถึงคำตอบที่โพสต์ด้านล่าง ในกรณีที่การเชื่อมโยงตายนี่คือคุณสมบัติที่ Microsoft ค้นหาในนักวิทยาศาสตร์ข้อมูล:

ข้อกำหนดและทักษะหลักของงาน:

ประสบการณ์โดเมนธุรกิจโดยใช้ Analytics

  • ต้องมีประสบการณ์ในหลายโดเมนธุรกิจที่เกี่ยวข้องในการใช้ทักษะการคิดอย่างมีวิจารณญาณในการกำหนดปัญหาทางธุรกิจที่ซับซ้อนและโซลูชั่นของพวกเขาโดยใช้การวิเคราะห์ขั้นสูงในชุดข้อมูลธุรกิจขนาดใหญ่ในโลกแห่งความจริง
  • ผู้สมัครต้องสามารถดำเนินโครงการวิเคราะห์ได้อย่างอิสระและช่วยให้ลูกค้าภายในของเราเข้าใจสิ่งที่ค้นพบและแปลพวกเขาไปสู่การปฏิบัติเพื่อประโยชน์ทางธุรกิจของพวกเขา

แบบจำลองการทำนาย

  • ประสบการณ์ข้ามอุตสาหกรรมในการสร้างแบบจำลองการคาดการณ์
  • คำจำกัดความของปัญหาทางธุรกิจและการสร้างแบบจำลองทางแนวคิดกับลูกค้าเพื่อล้วงเอาความสัมพันธ์ที่สำคัญและเพื่อกำหนดขอบเขตของระบบ

สถิติ / เศรษฐ

  • การวิเคราะห์ข้อมูลเชิงสำรวจสำหรับข้อมูลต่อเนื่องและจัดหมวดหมู่
  • ข้อมูลจำเพาะและการประมาณค่าสมการโครงสร้างแบบจำลองสำหรับองค์กรและพฤติกรรมผู้บริโภคต้นทุนการผลิตความต้องการปัจจัยทางเลือกที่ไม่ต่อเนื่องและความสัมพันธ์ทางเทคโนโลยีอื่น ๆ ตามต้องการ
  • เทคนิคทางสถิติขั้นสูงเพื่อวิเคราะห์ข้อมูลอย่างต่อเนื่องและเป็นหมวดหมู่
  • การวิเคราะห์อนุกรมเวลาและการนำโมเดลการพยากรณ์ไปใช้
  • ความรู้และประสบการณ์ในการทำงานกับปัญหาหลายตัวแปร
  • ความสามารถในการประเมินความถูกต้องของแบบจำลองและดำเนินการทดสอบวินิจฉัย
  • ความสามารถในการตีความสถิติหรือแบบจำลองทางเศรษฐกิจ
  • ความรู้และประสบการณ์ในการสร้างการจำลองเหตุการณ์ที่ไม่ต่อเนื่องและแบบจำลองการจำลองแบบไดนามิก

การจัดการข้อมูล

  • คุ้นเคยกับการใช้ T-SQL และการวิเคราะห์เพื่อการแปลงข้อมูลและการประยุกต์ใช้เทคนิคการวิเคราะห์ข้อมูลเชิงสำรวจสำหรับชุดข้อมูลขนาดใหญ่ในโลกแห่งความจริง
  • ให้ความสำคัญกับความสมบูรณ์ของข้อมูลรวมถึงความซ้ำซ้อนของข้อมูลความถูกต้องของข้อมูลค่าที่ผิดปกติหรือรุนแรงการโต้ตอบของข้อมูลและค่าที่หายไป

ทักษะการสื่อสารและการทำงานร่วมกัน

  • ทำงานอย่างอิสระและสามารถทำงานร่วมกับทีมโปรเจ็กต์เสมือนจริงที่จะทำการวิจัยโซลูชั่นที่เป็นนวัตกรรมเพื่อแก้ไขปัญหาทางธุรกิจที่ท้าทาย
  • ทำงานร่วมกับคู่ค้าใช้ทักษะการคิดอย่างมีวิจารณญาณและผลักดันโครงการการวิเคราะห์แบบครบวงจร
  • ทักษะการสื่อสารที่เหนือกว่าทั้งทางวาจาและภาษาเขียน
  • การแสดงผลการวิเคราะห์ในรูปแบบที่บริโภคโดยกลุ่มผู้มีส่วนได้ส่วนเสียที่หลากหลาย

แพคเกจซอฟต์แวร์

  • แพคเกจซอฟต์แวร์ทางสถิติ / เศรษฐมิติขั้นสูง: Python, R, JMP, SAS, Eviews, SAS Enterprise Miner
  • การสำรวจข้อมูลการสร้างภาพและการจัดการ: T-SQL, Excel, PowerBI และเครื่องมือที่เทียบเท่า

คุณสมบัติผู้สมัคร:

  • ต้องมีประสบการณ์ที่เกี่ยวข้องอย่างน้อย 5 ปีขึ้นไป
  • โพสต์ระดับบัณฑิตศึกษาในสาขาปริมาณเป็นที่พึงปรารถนา

6
เป็นคำถามที่ดี! ฉันสงสัยเกี่ยวกับเรื่องนี้ค่อนข้างเร็วมาก ในสายตาของฉันดูเหมือนว่างานที่มีนักวิทยาศาสตร์ข้อมูลในคำอธิบายกำลังมองหาคนที่สามารถใช้วิธีการทางสถิติ / ML ที่ปรับขนาดได้ดีไม่จำเป็นต้องเป็นคนที่สามารถจัดการกับทฤษฎีได้ ฉันยังคิดว่ามีความซ้ำซ้อนในรายละเอียดงานเหล่านี้ การขอปริญญาเอกอาจเป็นคุณสมบัติที่มากเกินไปและบุคลากรฝ่ายทรัพยากรบุคคลที่ทำให้รายละเอียดของงานเหล่านี้ได้รับอิทธิพลอย่างมากจากข่าวลือรอบ ๆ ข้อมูลขนาดใหญ่ นักวิทยาศาสตร์ด้านข้อมูลเป็นนักสถิติหรือในทางกลับกันเป็นคำถามหลักที่ฉันต้องการเห็นคำตอบ
Gumeo

4
ฉันคิดว่านี่เป็นบทความที่ยอดเยี่ยมที่บอกว่าการเปลี่ยนแปลงนี้ในวัฒนธรรมของการเป็นนักสถิติกับการเป็นนักวิทยาศาสตร์ด้านข้อมูล: projecteuclid.org/download/pdf_1/euclid.ss/1009213726
RustyStatistician

6
"แต่ถ้าฉันจะสัมภาษณ์งานนักวิทยาศาสตร์ด้านข้อมูลเหล่านี้ทำไมมันถึงรู้สึกเหมือนพวกเขาไม่เคยถามคำถามเชิงสถิติ" ... เรื่องราวในชีวิตของฉัน ... ฉันคิดว่าวิทยาศาสตร์ข้อมูล, สถิติ, เศรษฐมิติ, ฯลฯ มีการทับซ้อนกันมาก แต่พวกเขาทั้งหมดใช้ศัพท์แสงที่แตกต่างกันซึ่งทำให้การสื่อสารเป็นเรื่องยาก (โดยเฉพาะอย่างยิ่งเมื่อคุณถูกสัมภาษณ์โดยบุคคลที่ไม่มีความรู้ หวังว่าจะเพิ่มความพยายามในการลงโทษทางวินัยและความใจกว้างที่จำเป็นบางอย่างจะเปลี่ยนแปลงสิ่งนี้ในอนาคต
Zachary Blumenfeld

9
ฉันได้ติดตาม "การเพิ่มขึ้นของนักวิทยาศาสตร์ข้อมูล" นับตั้งแต่มันกลายเป็นกระแสหลักในปี 2008 สำหรับฉันมันเป็นและส่วนใหญ่เป็นคำศัพท์ทางการตลาดที่เติมเต็ม hype - สถิติของสาขาวิชา, การเรียนรู้ของเครื่องจักร, วิศวกรรมข้อมูล, การวิเคราะห์ข้อมูลทั้งหมด เช่นเดียวกันกับการเน้นที่แตกต่างกัน การถอดความ G. Box: หากถามคำถามเช่น "คุณเป็น Bayesian นักวิเคราะห์ข้อมูลนักออกแบบการทดลองนักวิทยาศาสตร์ด้านข้อมูลหรือไม่" บอกว่าใช่".
Momo

10
@Momo: อย่างไรก็ตามหากมีการเปิดตำราหนึ่งใน 600 หน้าที่เรียกว่า "การเรียนรู้ของเครื่อง" (หรือคล้ายกัน) และหนึ่งในตำราที่เรียกว่า "สถิติ" (หรือคล้ายกัน) จะมีการทับซ้อนกันน้อยมาก บิชอปของฉันแบบการรับรู้และการเรียนรู้เครื่องหรือเมอร์ฟี่เครื่องเรียนรู้มีเกือบเป็นศูนย์ตัดกับเลห์แมนและ Casella ทฤษฎีจุดการประมาณค่า , Casella และเบอร์เกอร์สถิติอนุมานหรือ Maxwell & Delaney ทดลองการออกแบบและการวิเคราะห์ข้อมูล พวกเขาแตกต่างกันมากจนฉันคิดว่าคนที่คุ้นเคยกับหนังสือเล่มหนึ่งอาจมีปัญหาในการอ่านหนังสือเล่มอื่น
อะมีบา

คำตอบ:


52

มีคำจำกัดความตลกสองสามข้อที่ยังไม่ได้รับ:

นักวิทยาศาสตร์ข้อมูล: คนที่ทำสถิติบน Mac

ฉันชอบอันนี้เพราะมันเล่นได้ดีในมุมที่มากกว่าสารเคมี

นักวิทยาศาสตร์ข้อมูล: นักสถิติที่อาศัยอยู่ในซานฟรานซิสโก

ในทำนองเดียวกัน riffs บนรสชาติชายฝั่งตะวันตกของทั้งหมดนี้

โดยส่วนตัวแล้วฉันพบว่าการสนทนา (โดยทั่วไปและที่นี่) ค่อนข้างน่าเบื่อและซ้ำไปซ้ำมา เมื่อฉันกำลังคิดเกี่ยวกับสิ่งที่ฉันต้องการ --- อาจจะเป็นหนึ่งในสี่ศตวรรษหรือนานกว่านั้น นั่นคือสิ่งที่ฉันทำ (และความรัก!) และมันทับซ้อนกันและครอบคลุมสิ่งที่ได้รับที่นี่ในคำตอบที่หลากหลาย

(หมายเหตุ: มีแหล่งข้อมูลเก่าสำหรับอ้างอิงสองรายการ แต่หาไม่พบในตอนนี้)


27
+1 I find the discussion (in general, and here) somewhat boring and repetitiveและไร้สาระพูดของมโนสาเร่หรือคำพูดที่หึ่งฉันจะเพิ่ม ฉันยังไม่สามารถแยกความแตกต่างระหว่างนักวิทยาศาสตร์ข้อมูลนักวิทยาศาสตร์คริสเตียนและนักวิทยาศาสตร์ข้อมูลได้
ttnphns

1
นักวิทยาศาสตร์ข้อมูล LOL @
dsaxton

4
และฉันให้ทิปหมวกของฉันกับคนที่จริงจังมาก (เพิ่งมาโดยไม่ระบุชื่อ) ผู้ลงคะแนนต่ำและไม่ทิ้งเหตุผล คำแนะนำ: นั่นไม่ใช่วิธีการสนทนาที่ดีขึ้น
Dirk Eddelbuettel

1
การเป็นนักสถิติในเซาท์ซานฟรานซิสโกซึ่งต่อสู้กับนักวิทยาศาสตร์ชื่อ Data อย่างจริงจังคำจำกัดความที่สองก็เข้าใกล้บ้านมากเกินไป (แต่ฉันไม่ใช่ผู้ลงคะแนน)
หน้าผา AB

1
(+1) @CliffAB จริง ๆ แล้วฉันเป็นนักสถิติในเซาท์ซานฟรานซิสโกเช่นกัน
RustyStatistician

87

ผู้คนนิยามวิทยาศาสตร์ข้อมูลแตกต่างกัน แต่ฉันคิดว่าส่วนทั่วไปคือ:

  • ความรู้ที่เป็นประโยชน์เกี่ยวกับวิธีจัดการกับข้อมูล
  • ทักษะการเขียนโปรแกรมในทางปฏิบัติ

ตรงกันข้ามกับชื่อของมันมันไม่ค่อย "วิทยาศาสตร์" นั่นคือในวิทยาศาสตร์ข้อมูลเน้นไปที่ผลลัพธ์ในทางปฏิบัติ (เช่นในทางวิศวกรรม) ไม่ใช่การพิสูจน์ความบริสุทธิ์ทางคณิตศาสตร์หรือลักษณะที่เข้มงวดของวิทยาศาสตร์เชิงวิชาการ สิ่งต่าง ๆ จำเป็นต้องใช้งานและมีความแตกต่างกันเล็กน้อยหากเป็นไปตามเอกสารทางวิชาการการใช้ห้องสมุดที่มีอยู่รหัสของคุณเองหรือการแฮ็กอย่างกะทันหัน

นักสถิติไม่จำเป็นต้องมีโปรแกรมเมอร์ (อาจใช้ปากกาและกระดาษและซอฟต์แวร์เฉพาะ) นอกจากนี้การหางานในสาขาวิทยาศาสตร์ข้อมูลก็ไม่เกี่ยวข้องกับสถิติ เช่นวิศวกรรมข้อมูลเช่นการประมวลผลข้อมูลขนาดใหญ่แม้ว่าคณิตศาสตร์ขั้นสูงที่สุดอาจคำนวณค่าเฉลี่ย (ส่วนตัวแล้วฉันจะไม่เรียกกิจกรรมนี้ว่า "วิทยาศาสตร์ข้อมูล") ยิ่งกว่านั้น "วิทยาศาสตร์ข้อมูล" นั้นถูก hyped ดังนั้นงานที่เกี่ยวข้องเป็นรูปธรรมจึงใช้ชื่อนี้เพื่อล่อผู้สมัครหรือยกอัตตาของพนักงานปัจจุบัน

ฉันชอบอนุกรมวิธานจากคำตอบของ Michael Hochster ใน Quora :

นักวิทยาศาสตร์ข้อมูลประเภท A: A สำหรับการวิเคราะห์ ประเภทนี้เกี่ยวข้องกับการรับรู้ข้อมูลเป็นหลักหรือทำงานกับมันในลักษณะที่ค่อนข้างคงที่ นักวิทยาศาสตร์ด้านข้อมูลประเภท A นั้นคล้ายกับนักสถิติ (และอาจจะเป็นคนหนึ่ง) แต่รู้รายละเอียดทั้งหมดเกี่ยวกับการทำงานกับข้อมูลที่ไม่ได้สอนในหลักสูตรสถิติ: การทำความสะอาดข้อมูลวิธีการจัดการกับชุดข้อมูลขนาดใหญ่มากการสร้างภาพ ความรู้ลึกของโดเมนเฉพาะเขียนดีเกี่ยวกับข้อมูลและอื่น ๆ

นักวิทยาศาสตร์ข้อมูลประเภท B: B สำหรับการสร้าง นักวิทยาศาสตร์ด้านข้อมูลประเภท B แบ่งปันภูมิหลังทางสถิติบางอย่างกับ Type A แต่เป็นนักเขียนโค้ดที่แข็งแกร่งมากและอาจเป็นวิศวกรซอฟต์แวร์ที่ผ่านการฝึกอบรมมาแล้ว นักวิทยาศาสตร์ด้านข้อมูลประเภท B ส่วนใหญ่ให้ความสนใจในการใช้ข้อมูล“ ในการผลิต” พวกเขาสร้างแบบจำลองที่โต้ตอบกับผู้ใช้ซึ่งมักจะให้คำแนะนำ (ผลิตภัณฑ์คนที่คุณอาจรู้จักโฆษณาภาพยนตร์ผลการค้นหา)

ในแง่นี้นักวิทยาศาสตร์ด้านข้อมูลประเภท A คือนักสถิติที่สามารถเขียนโปรแกรมได้ แต่แม้ในเชิงปริมาณอาจมีคนที่มีพื้นฐานด้านวิทยาศาสตร์คอมพิวเตอร์ (เช่นการเรียนรู้ของเครื่อง) มากกว่าสถิติปกติหรือคนที่มุ่งเน้นเช่นการสร้างภาพข้อมูล

และData Science Venn Diagram (ที่นี่: การแฮ็ก ~ การเขียนโปรแกรม):

Data Science Venn Diagram

ดูไดอะแกรมเวนน์ทางเลือกเพิ่มเติม (อันนี้และที่ ) หรือแม้แต่ทวีตในขณะที่อารมณ์ขันแสดงรายการสมดุลของทักษะทั่วไปและกิจกรรมของนักวิทยาศาสตร์ข้อมูล:

นักวิทยาศาสตร์ข้อมูลควรจะสามารถ

ดูโพสต์นี้: นักวิทยาศาสตร์ข้อมูล - สถิติ, โปรแกรมเมอร์, ที่ปรึกษาและ visualizer? .


14
ฉันชอบทวีต ฉันจะเพิ่มว่าเขาควรจะรู้วิธีการอบพิซซ่าปลูกผักระบบนิเวศของตัวเองเขียนบทกวีและซัลซ่าเต้น :)
ทิม

3
การพูดคลุมเครือเล็กน้อย: ไม่ใช่ "วิทยาศาสตร์" ทุกคนที่ให้ความสำคัญกับ "การพิสูจน์หรือความบริสุทธิ์ทางคณิตศาสตร์" คิดเช่นชีววิทยา
อะมีบา

2
การแฮ็กค่า p หมายความว่าอย่างไร สำหรับฉันดูเหมือนว่าใครบางคน (หรือที่รู้จักลูกค้า) มีเป้าหมายค่า p-value ที่กำหนดและนักวิทยาศาสตร์ด้านข้อมูลควรจะตัดและทำลายข้อมูลเพื่อให้บรรลุเป้าหมายค่า p หรือมันควรจะหมายถึงสิ่งที่แตกต่างกันอย่างไร
emory

2
@amory ทวีตนี้มีอารมณ์ขัน (มันเป็น pastishe ของย่อหน้าจากen.wikiquote.org/wiki/Time_Enough_for_Love , "มนุษย์ควรจะสามารถ [รายการ] ความเชี่ยวชาญสำหรับแมลง") "การแฮ็กค่า p" เป็นการฝึกหัดที่มืดมน (น่าเศร้าที่แพร่หลายในบางสาขาวิชา) และ (ฉันหวังว่า) เป็นเรื่องตลกที่นี่
Piotr Migdal

4
+1 สำหรับข้อสังเกตเกี่ยวกับการไม่เรียกใครบางคนเป็นนักวิทยาศาสตร์ข้อมูลที่คำนวณ "สถิติ" แบบง่าย ๆ บนชุดข้อมูลขนาดใหญ่ ฉันคิดว่าเรากำลังจะย้ายออกจากขั้นตอนด้านวิทยาศาสตร์ข้อมูลซึ่งนักวิทยาศาสตร์คอมพิวเตอร์ที่เชี่ยวชาญในการประมวลผลแบบกลุ่ม (Hadoop ฯลฯ ) ได้รับการระบุว่า "นักวิทยาศาสตร์ข้อมูล" ฉันไม่ได้มองลงไปที่ทักษะเหล่านั้น แต่พวกเขาก็ไม่สำคัญเท่ากับทักษะทางสถิติ / การใช้เหตุผล / การสืบสวนและเทคโนโลยีกำลังก้าวข้ามแผนที่ลด
Wayne

42

มีการสำรวจจำนวนหนึ่งในสาขาวิทยาศาสตร์ข้อมูล ฉันชอบอันนี้เพราะมันพยายามวิเคราะห์โปรไฟล์ของคนที่ทำงานด้านวิทยาศาสตร์ข้อมูล แทนที่จะใช้หลักฐานเล็ก ๆ น้อย ๆ หรืออคติของผู้เขียนพวกเขาใช้เทคนิคข้อมูลเพื่อวิเคราะห์ DNA ของนักวิทยาศาสตร์ข้อมูล

เป็นการเปิดเผยให้เห็นทักษะที่นักวิทยาศาสตร์ด้านข้อมูลระบุไว้ สังเกตว่าทักษะ 20 อันดับแรกนั้นประกอบไปด้วยทักษะไอทีมากมาย

ในโลกปัจจุบันนักวิทยาศาสตร์ข้อมูลคาดว่าจะเป็นแจ็คของการซื้อขายทั้งหมด ผู้เรียนรู้ด้วยตนเองที่มีรากฐานเชิงปริมาณที่แข็งแกร่งความสามารถในการเขียนโปรแกรมความอยากรู้ทางปัญญาที่ไม่มีที่สิ้นสุดและทักษะการสื่อสารที่ยอดเยี่ยม

ป้อนคำอธิบายรูปภาพที่นี่

UPDATE:

ฉันเป็นนักสถิติ แต่ฉันเป็นนักวิทยาศาสตร์ด้านข้อมูลหรือไม่ ฉันทำงานเกี่ยวกับปัญหาทางวิทยาศาสตร์ดังนั้นฉันต้องเป็นนักวิทยาศาสตร์!

ถ้าคุณทำปริญญาเอกคุณน่าจะเป็นนักวิทยาศาสตร์อยู่แล้วโดยเฉพาะอย่างยิ่งถ้าคุณตีพิมพ์บทความและการวิจัยเชิงรุก คุณไม่จำเป็นต้องเป็นนักวิทยาศาสตร์เพื่อเป็นนักวิทยาศาสตร์ด้านข้อมูล มีบางบทบาทใน บริษัท บางแห่งเช่น Walmart (ดูด้านล่าง) ซึ่งเป็นที่ต้องการปริญญาเอก แต่โดยปกติแล้วนักวิทยาศาสตร์ด้านข้อมูลจะมีระดับ BS และ MS อย่างที่คุณเห็นจากตัวอย่างด้านล่าง

ดังที่คุณสามารถดูได้จากแผนภูมิด้านบนซึ่งส่วนใหญ่คุณจะต้องมีทักษะการเขียนโปรแกรมและการจัดการข้อมูลที่ดี ยิ่งไปกว่านั้นวิทยาศาสตร์ข้อมูลมักจะเกี่ยวข้องกับบางระดับซึ่งมักจะเป็น "ความลึก" ของความเชี่ยวชาญในการเรียนรู้ของเครื่อง แน่นอนคุณอาจเรียกตัวเองว่าเป็นนักวิทยาศาสตร์ด้านข้อมูลถ้าคุณมีปริญญาเอกด้านสถิติ อย่างไรก็ตามปริญญาเอกสาขาวิทยาการคอมพิวเตอร์จากโรงเรียนชั้นนำอาจมีความสามารถในการแข่งขันสูงกว่าผู้สำเร็จการศึกษาสถิติเนื่องจากพวกเขาอาจมีความรู้ด้านสถิติประยุกต์ที่แข็งแกร่งซึ่งเสริมด้วยทักษะการเขียนโปรแกรมที่แข็งแกร่ง เพื่อตอบโต้พวกเขาคุณต้องได้รับทักษะการเขียนโปรแกรมที่แข็งแกร่งดังนั้นในสมดุลคุณจะมีการแข่งขันสูงมาก สิ่งที่น่าสนใจคือปกติแล้วปริญญาเอกสถิติทุกคนจะมีประสบการณ์การเขียนโปรแกรมบางส่วน แต่ในด้านวิทยาศาสตร์ข้อมูลมักจะมีความต้องการสูงกว่านั้นมาก

สำหรับฉันข้อได้เปรียบของการมีปริญญาเอกด้านสถิติอยู่ในปัญหาที่เกิดขึ้นในวลี "แจ็คของการซื้อขายทั้งหมด" ที่มักจะถูกทิ้ง: "เจ้าแห่งไม่มีใคร" เป็นเรื่องดีที่มีคนที่รู้ทุกอย่างนิดหน่อย แต่ฉันมักจะมองหาคนที่รู้อะไรบางอย่างลึกซึ้งเช่นกันไม่ว่าจะเป็นสถิติหรือวิทยาการคอมพิวเตอร์ก็ไม่สำคัญเช่นกัน สิ่งที่สำคัญคือผู้ชายสามารถเข้าถึงจุดต่ำสุดได้คุณภาพที่สะดวกเมื่อคุณต้องการ

การสำรวจยังแสดงให้เห็นถึงนายจ้างชั้นนำของนักวิทยาศาสตร์ด้านข้อมูล Microsoft อยู่ในอันดับต้น ๆ ซึ่งน่าประหลาดใจสำหรับฉัน หากคุณต้องการได้แนวคิดที่ดียิ่งขึ้นเกี่ยวกับสิ่งที่พวกเขากำลังมองหาการค้นหา LinkeIn ด้วย "วิทยาศาสตร์ข้อมูล" ในส่วนงานจะเป็นประโยชน์ ด้านล่างเป็นข้อความที่ตัดตอนมาสองงานจาก MS และงานของ Walmart ใน LinkedIn เพื่อสร้างจุด

  • นักวิทยาศาสตร์ข้อมูลของ Microsoft

    • ประสบการณ์การพัฒนาซอฟต์แวร์มากกว่า 5 ปีในการสร้างระบบ / บริการประมวลผลข้อมูล
    • ปริญญาตรีหรือสูงกว่าในสาขาวิทยาศาสตร์คอมพิวเตอร์ EE หรือคณิตศาสตร์ที่มีความเชี่ยวชาญในด้านสถิติการทำเหมืองข้อมูลหรือการเรียนรู้ของเครื่อง
    • มีทักษะการเขียนโปรแกรมที่ยอดเยี่ยม (C #, Java, Python และอื่น ๆ ) ในการจัดการข้อมูลขนาดใหญ่
    • ความรู้เกี่ยวกับการทำงานของ Hadoop หรือเทคโนโลยีการประมวลผลข้อมูลขนาดใหญ่อื่น ๆ
    • ความรู้เกี่ยวกับผลิตภัณฑ์วิเคราะห์ (เช่น R, SQL AS, SAS, Mahout ฯลฯ ) เป็นข้อดี

ขอให้สังเกตว่าการรู้แพคเกจสถิติเป็นเพียงข้อดี แต่ทักษะการเขียนโปรแกรมที่ยอดเยี่ยมใน Java เป็นข้อกำหนด

  • Walmart นักวิทยาศาสตร์ด้านข้อมูล

    • ปริญญาเอกสาขาวิทยาศาสตร์คอมพิวเตอร์หรือสาขาที่คล้ายกันหรือ MS ที่มีประสบการณ์อย่างน้อย 2-5 ปี
    • มีทักษะการเขียนโปรแกรมที่ดีใน C ++ หรือ Java (Java เป็นที่ต้องการอย่างมาก)
    • ต้องสามารถใช้จ่ายได้มากถึง 10% ทุกวันทำงานในการเขียนรหัสการผลิตใน C ++ / Java / Hadoop / Hive
    • ความรู้ระดับผู้เชี่ยวชาญของหนึ่งในภาษาสคริปต์เช่น Python หรือ Perl
    • ประสบการณ์การทำงานกับชุดข้อมูลขนาดใหญ่และเครื่องมือคำนวณแบบกระจาย a plus (Map / Reduce, Hadoop, Hive, Spark ฯลฯ )

ที่นี่ต้องการปริญญาเอก แต่มีสาขาวิชาวิทยาการคอมพิวเตอร์เท่านั้นที่มีชื่อ การคำนวณแบบกระจายด้วย Hadoop หรือ Spark อาจเป็นทักษะที่ผิดปกติสำหรับนักสถิติ แต่นักฟิสิกส์เชิงทฤษฎีและนักคณิตศาสตร์ประยุกต์บางคนใช้เครื่องมือที่คล้ายกัน

อัปเดต 2:

"ถึงเวลาแล้วที่จะฆ่า" นักวิทยาศาสตร์ข้อมูล "ชื่อ"โทมัสดาเวนพอร์ทผู้ร่วมเขียนบทความใน Harvard Business Review ในปี 2012 หัวข้อ"นักวิทยาศาสตร์ข้อมูล: งานที่เซ็กซี่ที่สุดในศตวรรษที่ 21"ซึ่งเริ่มต้นจากนักวิทยาศาสตร์ด้านข้อมูล

วันนี้หมายความว่าอย่างไรที่คุณจะพูดว่า - หรือต้องการหรือต้องการจ้าง - "นักวิทยาศาสตร์ด้านข้อมูล" ไม่น่าเสียดายมาก


3
+1 สำหรับการใช้ข้อมูลและการเชื่อมโยงไปยังรายงานที่ขับเคลื่อนด้วยข้อมูลที่ดี แต่ภาพหน้าจอจำเป็นต้องมีเว็บเบราว์เซอร์หรือไม่?
Piotr Migdal

@PiotrMigdal ฉันควรจะเรียนรู้ที่จะตัดหรือหยุดขี้เกียจ
Aksakal

4
ฉันครอบตัดมันเพื่อคุณ
อะมีบา

1
ฉันถูกล่อลวงให้ลงคะแนนหลังจากอัปเดตในวันนี้: หัวข้อนี้ยุ่งมากและการมีกำแพงขนาดใหญ่ของการอ้างอิงเพื่อเลื่อนลงไม่เป็นประโยชน์ในความคิดของฉัน ... บางทีลิงก์ + การสรุปย่ออาจพอเพียง?
อะมีบา

1
@ amoeba ฉันถอดรายการ มันเป็นความคิดเห็นที่ยุติธรรม
Aksakal

39

ที่ไหนสักแห่งฉันได้อ่านสิ่งนี้ (แก้ไข: Josh Will กำลังอธิบายทวีตของเขา ):

นักวิทยาศาสตร์ด้านข้อมูลคือบุคคลที่มีสถิติดีกว่าโปรแกรมเมอร์และนักเขียนโปรแกรมดีกว่านักสถิติ

คำพูดนี้สามารถอธิบายได้ในไม่ช้านี้โดยกระบวนการทางวิทยาศาสตร์ข้อมูล ดูครั้งแรกในรูปแบบนี้ดูเหมือนว่า "ดีส่วนการเขียนโปรแกรมอยู่ที่ไหน?" แต่ถ้าคุณมีตันของข้อมูลที่คุณจะต้องสามารถดำเนินการได้


11
ดังนั้นผู้มีส่วนร่วม R ทุกคนที่เป็นนักสถิติจึงเป็นนักวิทยาศาสตร์ด้านข้อมูล? ;)
ทิม

15
ว้าวฉันเพิ่งเดินเล่นในเว็บไซต์สงสัยเกี่ยวกับคำถามนี้ (เนื่องจากมีข้อมูล ) และจากนั้นในการผ่านเรียนรู้ว่าฉันมีหน้า Wikipedia friggin ' ? นั่นคือข่าวสำหรับฉัน ... และสำหรับสิ่งที่คุ้มค่าที่ฉันได้รับการฝึกฝนในสาขาเศรษฐมิติไม่ใช่สถิติ แต่ได้ทำงานเป็น 'ควอนตัม' มานานกว่า 20 ปี นั่นคือได้อย่างมีประสิทธิภาพเช่นเดียวกับวิทยาศาสตร์ข้อมูล ...
เดิร์ค Eddelbuettel

3
-1 ฉัน downvote ไม่ได้เพราะฉันไม่ชอบคำพูด (มันอาจเป็นภาษาที่แก้มมากที่สุด) แต่เนื่องจากคำตอบสั้นเกินไปและไม่เป็นสาระโดยเฉพาะอย่างยิ่งเมื่อเทียบกับคำตอบอื่น ๆ ที่นี่ ฉันอยากจะแนะนำว่ามันถูกแปลงเป็นความคิดเห็นเว้นแต่คุณจะขยายมันอย่างใด
อะมีบา

3
นี่คือคำอธิบายของคำพูดนี้โดยผู้เขียนของจอชพินัยกรรม สามย่อหน้าแรกหลังจากการอ้างอิงค่อนข้างเกี่ยวข้องกับการสนทนานี้
อะมีบา

3
@ amoeba: ฉันชอบบทความของ Josh Wills จนถึงจุดนี้: "ฉันสงสัยว่าเราสอนสถิติขั้นสูงให้กับผู้คนในแบบที่ทำให้ตกใจนักวิทยาศาสตร์คอมพิวเตอร์โดยเน้นไปที่โมเดลพาราเมตริกซึ่งต้องการแคลคูลัสจำนวนมากแทนที่จะเป็นโมเดลที่ไม่ใช่พารามิเตอร์ นั่นคือการคำนวณขั้นต้น " นอกจากนี้ฉันไม่เห็นด้วยกับเขาว่าการสอนสถิติขั้นสูงให้กับผู้คนใน CS ง่ายกว่าการเขียนโปรแกรมให้กับนักสถิติ (แม้ว่าฉันเห็นด้วยอย่างแน่นอนว่านักสถิติส่วนใหญ่เป็นโปรแกรมเมอร์ที่แย่)
หน้าผา AB

15

ฉันเขียนคำตอบหลายข้อและทุกครั้งที่พวกเขาใช้เวลานานและในที่สุดฉันก็ตัดสินใจว่าจะลุกขึ้นยืนบนกล่องสบู่ แต่ฉันคิดว่าบทสนทนานี้ยังไม่ได้สำรวจปัจจัยสำคัญสองประการ:

  1. วิทยาศาสตร์ในข้อมูลวิทยาศาสตร์ วิธีการทางวิทยาศาสตร์เป็นวิธีหนึ่งที่คุณพยายามทำลายแบบจำลองของคุณเอง, ทฤษฎี, คุณสมบัติ, การเลือกใช้เทคนิคและอื่น ๆ และเมื่อคุณไม่สามารถทำได้คุณยอมรับว่าผลลัพธ์ของคุณอาจมีประโยชน์ มันเป็นความคิดและนักวิทยาศาสตร์ด้านข้อมูลที่ดีที่สุดหลายคนที่ฉันเคยพบมามีภูมิหลังทางวิทยาศาสตร์ที่แข็งกร้าว (เคมี, ชีววิทยา, วิศวกรรม)

  2. วิทยาศาสตร์ข้อมูลเป็นสาขาวิชาที่กว้างขวาง ผลลัพธ์ของวิทยาศาสตร์ข้อมูลที่ดีมักเกี่ยวข้องกับทีมนักวิทยาศาสตร์ข้อมูลขนาดเล็กโดยแต่ละทีมมีความเชี่ยวชาญเป็นพิเศษ ตัวอย่างเช่นสมาชิกในทีมคนหนึ่งมีความเข้มงวดและมีสถิติมากกว่าอีกคนเป็นโปรแกรมเมอร์ที่มีพื้นฐานด้านวิศวกรรมที่ดีกว่าและอีกคนเป็นที่ปรึกษาที่แข็งแกร่งพร้อมความเข้าใจในธุรกิจ ทั้งสามเรียนรู้อย่างรวดเร็วทั้งสามคนมีความอยากรู้อยากเห็นและต้องการค้นหาความจริง - แต่เจ็บปวด - และทำสิ่งที่เป็นประโยชน์สูงสุดของลูกค้า (ภายในหรือภายนอก) แม้ว่าลูกค้าจะไม่ ' ไม่เข้าใจ

แฟชั่นในช่วงไม่กี่ปีที่ผ่านมา - ตอนนี้ฉันกำลังจะจางหายไป - คือการรับสมัครนักวิทยาศาสตร์คอมพิวเตอร์ที่มีเทคโนโลยีคลัสเตอร์ที่เชี่ยวชาญ (ระบบนิเวศ Hadoop และอื่น ๆ ) และบอกว่านั่นคือนักวิทยาศาสตร์ด้านข้อมูลในอุดมคติ ฉันคิดว่านั่นคือสิ่งที่ OP เผชิญและฉันแนะนำ OP ให้ดันจุดแข็งของพวกเขาในความแม่นยำความถูกต้องและการคิดเชิงวิทยาศาสตร์


@RealStatistician: ไม่เป็นไร ฉันต้องการเพิ่มว่าการให้คำปรึกษาที่ฉันทำคือปริญญาเอก (วิศวกรรมศาสตร์ชีววิทยาดาราศาสตร์วิทยาการคอมพิวเตอร์) แต่ในมุมมองทั่วไปคุณวุฒิปริญญา MS - บ่อยครั้งที่คนที่มีประสบการณ์การทำงานที่กลับไปหา MS ใน Analytics - เป็นจุดที่น่าสนใจ . ที่กล่าวว่าฉันขอบคุณทุกวันสำหรับผู้ร่วมงานปริญญาเอกชีววิทยาของฉันที่กำลังอยู่ในโครงการที่ฉันเป็นผู้นำทางเทคโนโลยี นอกเหนือจากหัวหน้าโครงการที่มีพื้นฐานทางเศรษฐศาสตร์ (และ MS ใน Analytics) เราเป็นทีมที่ยอดเยี่ยม! (MS ของฉันอยู่ในปัญญาประดิษฐ์)
Wayne

+1 แต่ฉันสงสัยว่าสัญลักษณ์แสดงหัวข้อแรกของคุณบอกว่าวิทยาศาสตร์ข้อมูล [ดี] เป็นวิทยาศาสตร์ ถ้าเป็นเช่นนั้นมันเป็นคำที่สงสัยและอาจทำให้เข้าใจผิด (?) เพราะ "วิทยาศาสตร์ข้อมูล" ไม่ได้ศึกษา "ข้อมูล" ในตัวเอง มันใช้ข้อมูลเพื่อศึกษาอย่างอื่นไม่ว่าจะสนใจในแอปพลิเคชันใดก็ตาม ในทางตรงกันข้ามเช่น "รัฐศาสตร์" ควรจะศึกษาการเมืองและ "ประสาท" กำลังศึกษาเซลล์ประสาทตามชื่อที่แนะนำ
อะมีบา

1
@ amoeba: จริง ๆ แล้วฉันหมายความว่านักวิทยาศาสตร์ข้อมูลต้องใช้วิธีการทางวิทยาศาสตร์ ala Richard Feynman เป็นส่วนหนึ่งของวิธีที่พวกเขาเข้าใจและใช้ข้อมูล (ตามที่คุณพูดในการค้นหาแอปพลิเคชันเฉพาะ) มันเป็นส่วนหนึ่งของสถิติของงาน: "ตัวแปรนี้ดูมีความสำคัญอย่างยิ่ง - มันรั่วไหลจากอนาคตหรือไม่" หรือ "แบบจำลองนี้ดูเหมือนจะสมเหตุสมผล แต่เรามาเรียกใช้ CV ในกระบวนการสร้างแบบจำลองทั้งหมดแล้วลองทำตัวอย่างใหม่อีกครั้งที่ด้านบนของสิ่งนั้น" กำลังพยายามอย่างหนักที่จะพิสูจน์ตัวแบบของคุณ / ทฤษฎีและเกี่ยวข้องกับผู้อื่นในการทำเช่นนั้น ไม่ยอมรับ "Green M & Ms ทำให้เกิดมะเร็ง"
เวย์น

@Wayne เป็นเพียงคนเดียวที่พูดถึง "วิธีการทางวิทยาศาสตร์" เพื่อให้ห่างไกล มันช่างเศร้าเหลือเกิน
jgomo3

ความเข้าใจเกี่ยวกับฟิสิกส์โดยเฉพาะหน่วยเป็นสิ่งจำเป็นสำหรับทุกคนที่พยายามทำความเข้าใจกับสิ่งใด อย่างไรก็ตามในโลกใหม่ที่กล้าหาญของเรามันมักจะเพียงพอที่จะทำการสังเกตแบบฮิวริสติกซึ่งมีค่าการทำนายย่อยที่เหมาะสมที่สุดในฐานะ "gob-stoppers" แต่ไม่ใช่วิธีการแก้ปัญหาจริง
คาร์ล

14

ฉันคิดว่า Bitwise ครอบคลุมคำตอบส่วนใหญ่ของฉัน แต่ฉันจะเพิ่ม 2c ของฉัน

ไม่ฉันขอโทษ แต่นักสถิติไม่ใช่นักวิทยาศาสตร์ด้านข้อมูลอย่างน้อยก็ขึ้นอยู่กับว่า บริษัท ส่วนใหญ่กำหนดบทบาทในวันนี้อย่างไร โปรดทราบว่าคำจำกัดความมีการเปลี่ยนแปลงตลอดเวลาและความท้าทายหนึ่งของผู้ปฏิบัติงานคือการทำให้แน่ใจว่าพวกเขายังคงเกี่ยวข้อง

ฉันจะแบ่งปันสาเหตุทั่วไปบางประการเกี่ยวกับสาเหตุที่เราปฏิเสธผู้สมัครรับหน้าที่ "นักวิทยาศาสตร์ข้อมูล":

  • ความคาดหวังเกี่ยวกับขอบเขตของงาน โดยทั่วไปแล้ว DS จำเป็นต้องสามารถทำงานได้อย่างอิสระ นั่นหมายความว่าจะไม่มีใครสร้างชุดข้อมูลให้เขาเพื่อแก้ปัญหาที่ได้รับมอบหมาย ดังนั้นเขาจึงจำเป็นต้องสามารถค้นหาแหล่งข้อมูลแบบสอบถามพวกเขาสร้างแบบจำลองโซลูชันและจากนั้นบ่อยครั้งก็สร้างต้นแบบที่ช่วยแก้ปัญหา หลายครั้งที่เป็นเพียงการสร้างแดชบอร์ดการเตือนหรือรายงานสดที่อัปเดตอยู่เสมอ
  • การสื่อสาร ดูเหมือนว่านักสถิติหลายคนมีช่วงเวลาที่ยากลำบากในการ "ลดความซับซ้อน" และ "ขาย" ความคิดของพวกเขาให้กับนักธุรกิจ คุณสามารถแสดงกราฟเพียงกราฟเดียวและเล่าเรื่องจากข้อมูลในแบบที่ทุกคนในห้องสามารถรับได้ โปรดทราบว่านี่คือหลังจากที่คุณได้รับการยืนยันว่าคุณสามารถปกป้องการวิเคราะห์ทุก ๆ ครั้งหากถูกท้าทาย
  • ทักษะการเขียนโปรแกรม เราไม่ต้องการทักษะการเขียนรหัสระดับการผลิตเนื่องจากเรามีนักพัฒนาสำหรับสิ่งนั้น แต่เราต้องการให้เธอสามารถเขียนต้นแบบและปรับใช้เป็นบริการเว็บในอินสแตนซ์ AWS EC2 ดังนั้นทักษะการเขียนโค้ดจึงไม่ได้หมายถึงความสามารถในการเขียนสคริปต์ R ฉันสามารถเพิ่มความคล่องแคล่วใน Linux ได้ที่นี่ ดังนั้นบาร์จึงสูงกว่าสิ่งที่นักสถิติส่วนใหญ่มักจะเชื่อ
  • SQL และฐานข้อมูล ไม่เขาไม่สามารถรับมันได้เพราะเราต้องการให้เขาปรับ SQL พื้นฐานที่เขารู้อยู่แล้วและเรียนรู้วิธีการค้นหาระบบฐานข้อมูลที่แตกต่างกันที่เราใช้ข้ามองค์กรรวมถึง Redshift, HIVE และ Presto - ซึ่งใช้รสชาติของตัวเองของ SQL นอกจากนี้การเรียนรู้ SQL เกี่ยวกับงานหมายถึงผู้สมัครจะสร้างปัญหาในนักวิเคราะห์อื่น ๆ จนกว่าพวกเขาจะเรียนรู้วิธีการเขียนแบบสอบถามที่มีประสิทธิภาพ
  • เครื่องเรียนรู้ โดยทั่วไปแล้วพวกเขาใช้ Logistic Regression หรือเทคนิคอื่น ๆ เพื่อแก้ไขปัญหาตามชุดข้อมูลที่กำหนด (สไตล์ Kaggle) อย่างไรก็ตามถึงแม้ว่าการสัมภาษณ์จะเริ่มจากอัลกอริธึมและวิธีการในไม่ช้ามันก็จะเน้นไปที่หัวข้อต่าง ๆ เช่นการสร้างฟีเจอร์ (จำไว้ว่าคุณต้องสร้างชุดข้อมูล ไม่ชอบการค้า สำหรับบางบริบทคุณสามารถตรวจสอบเอกสารที่เกี่ยวข้องจาก Google ที่เผยแพร่ใน NIPS 2015
  • การวิเคราะห์ข้อความ ไม่จำเป็นต้องมี แต่ประสบการณ์บางอย่างในการประมวลผลภาษาธรรมชาติเป็นสิ่งที่ดีที่จะมี ท้ายที่สุดแล้วข้อมูลส่วนใหญ่อยู่ในรูปแบบข้อความ ดังที่ได้กล่าวไปแล้วไม่มีคนอื่นที่จะทำการเปลี่ยนแปลงและทำความสะอาดข้อความสำหรับคุณเพื่อที่จะทำให้สิ้นเปลืองโดยใช้ ML หรือวิธีการทางสถิติอื่น ๆ นอกจากนี้โปรดทราบว่าวันนี้แม้ CS grads ได้ทำโครงการที่ทำเครื่องหมายในช่องนี้แล้ว

แน่นอนว่าสำหรับบทจูเนียร์คุณไม่สามารถทำได้ทั้งหมด แต่ทักษะเหล่านี้คุณสามารถที่จะพลาดงานไปได้จำนวนเท่าไหร่?

ในที่สุดเพื่อชี้แจงเหตุผลที่พบบ่อยที่สุดในการปฏิเสธผู้ที่ไม่ใช่นักสถิติก็คือการขาดความรู้พื้นฐานทางสถิติ และที่ใดที่หนึ่งมีความแตกต่างระหว่างวิศวกรข้อมูลและนักวิทยาศาสตร์ข้อมูล อย่างไรก็ตามวิศวกรข้อมูลมักจะใช้กับบทบาทเหล่านี้เนื่องจากหลายครั้งที่พวกเขาเชื่อว่า "สถิติ" เป็นเพียงค่าเฉลี่ยความแปรปรวนและการแจกแจงแบบปกติ ดังนั้นเราอาจเพิ่มbuzzwords ทางสถิติที่เกี่ยวข้อง แต่น่ากลัวในรายละเอียดของงานเพื่อชี้แจงสิ่งที่เราหมายถึง "สถิติ" และป้องกันความสับสน


4
ตั้งแต่ปี 2549 ฉันสอนสถิติประยุกต์และหลักสูตรการวิเคราะห์ข้อมูลในโปรแกรมที่เรียกว่า "สารสนเทศธุรกิจ" ที่มหาวิทยาลัยสองแห่งและสิ่งนี้ใช้กับสิ่งที่นักเรียนเรียนรู้ 100% 1. พวกเขาจำเป็นต้องรวบรวมข้อมูลจริงอาจยุ่งเหยิงจากธุรกิจเว็บการสำรวจ ฯลฯ 2. ทำความสะอาดเตรียมและเก็บข้อมูลในฐานข้อมูล SQL สำหรับหลักสูตร 3. ทำการวิเคราะห์ทางสถิติต่าง ๆ เกี่ยวกับข้อมูล 4. เตรียมบทสรุปผู้บริหารสั้น 1-2 หน้าและเขียนรายงานเชิงลึกด้วยการเขียนโปรแกรมตามตัวอักษร (knitr หรือสิ่งที่คล้ายกัน) จากศาสตร์ข้อมูลนั้นเป็นสารสนเทศธุรกิจที่มีสถิติเพิ่มเติม / หลักสูตร ML ไม่ใช่หรือ?
Momo

4
แน่นอนว่าหลักสูตรของคุณครอบคลุมทักษะที่จำเป็นมากมาย ฉันคิดว่าเราสามารถหาชุดค่าผสมได้มากมายเช่นระดับวิทยาการคอมพิวเตอร์พร้อมหลักสูตรสถิติบางหลักสูตรและวิทยานิพนธ์ / การฝึกงานเกี่ยวกับปัญหา ML-based ในตอนท้ายของวันสิ่งที่สำคัญคือความลึกและความกว้างของทักษะที่เกี่ยวข้องที่ผู้สมัครนำมาลงบนโต๊ะ
iliasfl

11

อนุญาตให้ฉันเพิกเฉยต่อ hype และ buzzwords ฉันคิดว่า "นักวิทยาศาสตร์ข้อมูล" (หรือสิ่งที่คุณต้องการเรียกว่า) เป็นของจริงและนั่นแตกต่างจากนักสถิติ มีตำแหน่งหลายประเภทที่เป็นนักวิทยาศาสตร์ด้านข้อมูลได้อย่างมีประสิทธิภาพ แต่ไม่ได้รับชื่อ - ตัวอย่างหนึ่งคือคนที่ทำงานเกี่ยวกับจีโนม

วิธีที่ฉันเห็นนักวิทยาศาสตร์ด้านข้อมูลคือคนที่มีทักษะและความเชี่ยวชาญในการออกแบบและดำเนินการวิจัยเกี่ยวกับข้อมูลที่ซับซ้อนจำนวนมาก (เช่นมิติสูงซึ่งกลไกพื้นฐานไม่เป็นที่รู้จักและซับซ้อน)

หมายความว่า:

  • การเขียนโปรแกรม: ความสามารถในการใช้การวิเคราะห์และท่อมักจะต้องมีระดับของการขนานและการเชื่อมต่อกับฐานข้อมูลและทรัพยากรคอมพิวเตอร์ที่มีประสิทธิภาพสูง
  • วิทยาการคอมพิวเตอร์ (อัลกอริทึม): การออกแบบ / เลือกอัลกอริธึมที่มีประสิทธิภาพเช่นการวิเคราะห์ที่เลือกมีความเป็นไปได้และควบคุมอัตราความผิดพลาด บางครั้งสิ่งนี้อาจต้องมีความรู้ในการวิเคราะห์เชิงตัวเลขการปรับให้เหมาะสม ฯลฯ
  • วิทยาการคอมพิวเตอร์ / สถิติ (มักเน้นการเรียนรู้ของเครื่อง): การออกแบบและการใช้งานกรอบงานเพื่อถามคำถามเกี่ยวกับข้อมูลหรือค้นหา "รูปแบบ" ในนั้น สิ่งนี้จะรวมถึงความรู้เกี่ยวกับการทดสอบ / เครื่องมือ / อัลกอริทึมที่แตกต่างกัน แต่ยังรวมถึงวิธีการออกแบบการโฮลด์เอาท์ที่เหมาะสมการตรวจสอบข้ามและอื่น ๆ
  • การสร้างแบบจำลอง: บ่อยครั้งที่เราต้องการที่จะสามารถสร้างแบบจำลองบางอย่างที่ให้การแสดงข้อมูลที่ง่ายขึ้นซึ่งเราสามารถทำการคาดการณ์ที่เป็นประโยชน์และรับข้อมูลเชิงลึกเกี่ยวกับกลไกพื้นฐานของข้อมูล แบบจำลองความน่าจะเป็นที่นิยมมากสำหรับเรื่องนี้
  • ความเชี่ยวชาญเฉพาะโดเมน: สิ่งสำคัญอย่างหนึ่งที่ประสบความสำเร็จในการทำงานกับข้อมูลที่ซับซ้อนคือการรวมข้อมูลเชิงลึกเฉพาะโดเมน ดังนั้นฉันจะบอกว่ามันเป็นเรื่องสำคัญที่นักวิทยาศาสตร์ด้านข้อมูลต้องมีความเชี่ยวชาญในโดเมนสามารถเรียนรู้สาขาใหม่ได้อย่างรวดเร็วหรือควรจะติดต่อกับผู้เชี่ยวชาญในสาขาที่สามารถให้ข้อมูลเชิงลึกที่เป็นประโยชน์เกี่ยวกับวิธีการเข้าถึงข้อมูล .

6
และใครคือนักสถิติในความคิดของคุณ รายการทักษะนี้แตกต่างจากทักษะที่ "นักสถิติ" ควรมีอย่างไร
อะมีบา

4
@ amoeba ฉันอาจจะผิด แต่นักสถิติหลายคนไม่มีทักษะเหล่านี้ (เช่นการเขียนโปรแกรมอย่างกว้างขวางพร้อมชุดข้อมูลขนาดใหญ่การฝึกอบรมระดับบัณฑิตศึกษาสาขาวิทยาศาสตร์คอมพิวเตอร์) นอกจากนี้ทักษะทางสถิติบางอย่างอาจไม่เกี่ยวข้องกับนักวิทยาศาสตร์ข้อมูล (บางทฤษฎีบางสาขาย่อย)
Bitwise

4
@ ร็อกกี้: ฉันไม่เห็นด้วยอย่างยิ่งว่า "การเขียนโปรแกรมด้วย 'ชุดข้อมูลขนาดใหญ่' ไม่ได้เป็นอุปสรรคจริงๆ" ฉันไม่คิดว่าฉันรู้จักใครที่มีชื่อว่า "นักสถิติ" ซึ่งสามารถใช้งานซอฟต์แวร์ที่ตัดสินใจแบบเรียลไทม์โดยอิงตามแพ็กเก็ตขาเข้าบนเซิร์ฟเวอร์ ไม่แน่นอนข้อมูลทั้งหมดนักวิทยาศาสตร์อาจจะ แต่สัดส่วนมากที่สูงขึ้น
หน้าผา AB

3
@rocinante ความเข้าใจที่ดีของสถิติเป็นสิ่งที่จำเป็น แต่ไม่เพียงพอในมุมมองของฉัน เกี่ยวกับความลึกซึ้ง / ความยากของสถิติเทียบกับทักษะอื่น ๆ ฉันจะยืนยันว่าการได้รับความเข้าใจที่ดีของวิทยาศาสตร์คอมพิวเตอร์เป็นเรื่องที่ลึกซึ้ง / ยากถ้าไม่มาก นอกจากนี้เกี่ยวกับคำถามใน SE นั้นคุณพบคำถามประเภทนั้นใน SE ใด ๆ (รวมถึงคำถามนี้) - มันไม่ได้มีความหมายอะไรเลยนอกจากว่าบางคนต้องการทางออกที่ง่ายโดยไม่เข้าใจ
Bitwise

6
สิ่งหนึ่งที่ทำให้เหน็ดเหนื่อยในการโต้วาที "วิทยาศาสตร์ข้อมูลกับสถิติ" เหล่านี้คือความหมายที่ลึกซึ้งที่นักวิทยาศาสตร์ด้านข้อมูลเป็นเหมือนสายพันธุ์ที่เหนือกว่าของนักสถิติ ความจริงก็คือเมื่อความกว้างของความรู้ของคุณเพิ่มขึ้นความลึกจะลดลงและคนที่ดีกว่า clueless ในงานทั้งหมดที่จำเป็นในการเป็น "นักวิทยาศาสตร์ข้อมูล" ฉันจะนึกภาพความรู้ของสิ่งเหล่านี้ส่วนใหญ่จะเป็น ค่อนข้างตื้น โดยทั่วไปแล้วมันเป็นเรื่องยากมากที่จะใกล้ชิดกับการเป็นผู้เชี่ยวชาญในโดเมนใด ๆ ที่ผู้คนคาดหวังว่านักวิทยาศาสตร์ข้อมูลในตำนานเหล่านี้จะเชี่ยวชาญ
dsaxton

7

คำตอบที่ยอดเยี่ยมทั้งหมด แต่จากประสบการณ์การหางานทำของฉันฉันได้ตั้งข้อสังเกตว่าคำว่า "นักวิทยาศาสตร์ข้อมูล" ได้รับความสับสนกับ "นักวิเคราะห์ข้อมูลจูเนียร์" ในใจของนายหน้าที่ฉันติดต่อด้วย คนดีจำนวนมากที่ไม่มีสถิตินอกเหนือจากหลักสูตรระยะต้นที่พวกเขาทำเมื่อสองสามปีก่อนตอนนี้เรียกตัวเองว่านักวิทยาศาสตร์ด้านข้อมูล ในฐานะคนที่มีพื้นฐานด้านวิทยาการคอมพิวเตอร์และมีประสบการณ์หลายปีในฐานะนักวิเคราะห์ข้อมูลฉันทำปริญญาเอกสาขาสถิติในภายหลังในอาชีพการงานของฉันโดยคิดว่ามันจะช่วยให้ฉันโดดเด่นจากฝูงชนฉันพบว่าตัวเองอยู่ในฝูงชนขนาดใหญ่ " ฉันคิดว่าฉันอาจเปลี่ยนเป็น "นักสถิติ"!


5
โดยทั่วไปฉันเห็นสิ่งเดียวกัน งานใด ๆ ที่ของานกับข้อมูลหรือการวิเคราะห์บางอย่างเรียกว่า "วิทยาศาสตร์ข้อมูล" ฉันคิดว่าสิ่งที่คล้ายกันเกิดขึ้นกับ "Quant" ในด้านการเงินซึ่งใครก็ตามที่ทำงานกับข้อมูลเรียกตัวเองว่า "Quant"
Akavall

6

ฉันเป็นพนักงานรุ่นจูเนียร์ แต่ตำแหน่งงานของฉันคือ "นักวิทยาศาสตร์ด้านข้อมูล" ฉันคิดว่าคำตอบของ Bitwise เป็นคำอธิบายที่เหมาะสมสำหรับสิ่งที่ฉันได้รับการว่าจ้างให้ทำ แต่ฉันต้องการเพิ่มอีกหนึ่งจุดตามประสบการณ์การทำงานประจำวันของฉัน:

Data ScienceStatistics,
StatisticsData Science.

วิทยาศาสตร์เป็นกระบวนการสอบสวน เมื่อข้อมูลเป็นวิธีการสอบถามข้อมูลนั้นวิทยาศาสตร์ข้อมูลกำลังเกิดขึ้น ไม่ได้หมายความว่าทุกคนที่ทดลองหรือทำวิจัยกับข้อมูลนั้นจำเป็นต้องเป็นนักวิทยาศาสตร์ข้อมูลในลักษณะเดียวกับที่ทุกคนที่ทดลองหรือทำวิจัยด้วยการเดินสายไม่จำเป็นต้องเป็นวิศวกรไฟฟ้า แต่มันหมายความว่าเราสามารถได้รับการฝึกอบรมเพียงพอที่จะเป็น "ผู้สอบถามข้อมูล" แบบมืออาชีพในลักษณะเดียวกับที่เราสามารถได้รับการฝึกอบรมเพียงพอที่จะกลายเป็นช่างไฟฟ้ามืออาชีพ การฝึกอบรมนั้นมากหรือน้อยประกอบด้วยคะแนนในคำตอบของ Bitwise ซึ่งสถิติเป็นองค์ประกอบ แต่ไม่ใช่ทั้งหมด

คำตอบของ Piotr ยังเป็นบทสรุปที่ดีของทุกสิ่งที่ฉันต้องทำหวังว่าฉันรู้ว่าจะทำอย่างไรในสัปดาห์ที่กำหนด งานของฉันจนถึงตอนนี้ส่วนใหญ่ได้ช่วยในการยกเลิกความเสียหายที่ทำโดยอดีตพนักงานที่เป็นส่วนของ "โซนอันตราย" ของแผนภาพเวนน์


2
+1 ฉันคิดว่ามันมีค่ามากในกระทู้นี้ที่จะรับฟังจากผู้ที่ใช้งานจริงในฐานะ "นักวิทยาศาสตร์ข้อมูล"
อะมีบา

(+1) @amoeba ฉันเห็นด้วย 100% กับความรู้สึกของคุณ
RustyStatistician

8
Data ScienceStatisticsStatisticsData ScienceStatisticsData Science

@Caveman ฉันเห็นด้วยอย่างแน่นอน
RustyStatistician

1
StatisticsData ScienceStatisticsData ScienceData Science

3

ฉันเพิ่งเริ่มมีความสนใจในศาสตร์ข้อมูลเป็นอาชีพและเมื่อฉันคิดถึงสิ่งที่ฉันเรียนรู้เกี่ยวกับงานด้านวิทยาศาสตร์ข้อมูลเมื่อเปรียบเทียบกับหลักสูตรสถิติมากมายที่ฉันได้รับ (และสนุก!) ฉันเริ่มคิดว่านักวิทยาศาสตร์ด้านข้อมูลเป็น นักวิทยาศาสตร์คอมพิวเตอร์ที่หันมาสนใจข้อมูล โดยเฉพาะอย่างยิ่งฉันสังเกตเห็นความแตกต่างที่สำคัญดังต่อไปนี้ โปรดสังเกตว่าแม้ว่าความแตกต่างจะปรากฏอารมณ์ ต่อไปนี้เป็นเพียงการสะท้อนความรู้สึกส่วนตัวของฉันและฉันไม่ได้เรียกร้องความเป็นคนทั่วไป เพียงแค่ความประทับใจของฉัน!

  1. ในสถิติคุณสนใจเรื่องการแจกแจงความน่าจะเป็นและขั้นตอนการอนุมาน (วิธีการทดสอบสมมติฐานซึ่งเป็นการแจกแจงเป็นต้น) จากสิ่งที่ฉันเข้าใจวิทยาการข้อมูลมักจะไม่เกี่ยวกับการคาดการณ์และความกังวลเกี่ยวกับคำสั่งเชิงอนุมานจะถูกดูดกลืนโดยกระบวนการทางวิทยาศาสตร์คอมพิวเตอร์เช่นการตรวจสอบข้าม

  2. ในหลักสูตรสถิติฉันมักจะสร้างข้อมูลของตัวเองหรือใช้ข้อมูลสำเร็จรูปที่มีอยู่ในรูปแบบที่ค่อนข้างสะอาด ซึ่งหมายความว่ามันอยู่ในรูปแบบสี่เหลี่ยมที่ดีบางสเปรดชีต excel หรืออะไรทำนองนั้นที่เหมาะกับ RAM การทำความสะอาดข้อมูลนั้นมีส่วนเกี่ยวข้องอย่างแน่นอน แต่ฉันไม่เคยจัดการกับข้อมูล "แยก" จากเว็บนับประสาจากฐานข้อมูลที่ต้องตั้งค่าเพื่อเก็บข้อมูลจำนวนหนึ่งที่ไม่พอดีกับ RAM อีกต่อไป ความประทับใจของฉันคือด้านการคำนวณนี้มีความโดดเด่นในด้านวิทยาศาสตร์ข้อมูลมากกว่า

  3. บางทีนี่อาจสะท้อนถึงความไม่รู้ของฉันเกี่ยวกับสิ่งที่นักสถิติทำในงานสถิติทั่วไป แต่ก่อนที่วิทยาศาสตร์ข้อมูลฉันไม่เคยคิดถึงการสร้างแบบจำลองเป็นผลิตภัณฑ์ที่มีขนาดใหญ่ มีการวิเคราะห์ที่ต้องทำปัญหาทางสถิติที่ต้องแก้ไขพารามิเตอร์บางอย่างที่ต้องประมาณและนั่นก็คือ ในวิทยาศาสตร์ข้อมูลดูเหมือนว่าแบบจำลองการทำนายมักจะถูกสร้างขึ้นเพื่อบางสิ่งที่ใหญ่กว่า ตัวอย่างเช่นคุณคลิกที่ใดที่หนึ่งและภายในเสี้ยววินาทีอัลกอริธึมการคาดการณ์จะตัดสินใจว่าผลลัพธ์ใดที่แสดงผล ดังนั้นในขณะที่อยู่ในสถิติฉันมักจะสงสัยว่า "เราสามารถประมาณค่าพารามิเตอร์ได้อย่างไรและเราจะทำอย่างหรูหราได้อย่างไร" ดูเหมือนว่าในด้านวิทยาศาสตร์ข้อมูลการมุ่งเน้นจะอยู่ที่ "สิ่งที่เราคาดการณ์ได้ว่ามีประโยชน์ในผลิตภัณฑ์ข้อมูล" .

อีกครั้งข้างต้นไม่พยายามที่จะให้คำจำกัดความทั่วไป ฉันแค่ชี้ให้เห็นถึงความแตกต่างที่สำคัญที่ฉันรับรู้ตัวเอง ฉันยังไม่ได้อยู่ในศาสตร์ข้อมูล แต่ฉันหวังว่าจะเปลี่ยนแปลงในปีหน้า ในแง่นี้เอาสองเซ็นต์ของฉันที่นี่พร้อมเม็ดเกลือ


2

ฉันพูดว่านักวิทยาศาสตร์ข้อมูลเป็นบทบาทหนึ่งที่สร้างผลลัพธ์ที่มนุษย์สามารถอ่านได้สำหรับธุรกิจโดยใช้วิธีการทำให้ผลลัพธ์นั้นมีความมั่นคงทางสถิติ (สำคัญ)

หากส่วนใดส่วนหนึ่งของคำนิยามนี้ไม่ได้ถูกติดตามเราจะพูดถึงนักพัฒนานักวิทยาศาสตร์ / นักสถิติที่แท้จริงหรือวิศวกรข้อมูล


2

ฉันมักจะชอบที่จะตัดเนื้อหาของเรื่อง

statistics - science + some computer stuff + hype = data science

1
ฟังดูเหมือนความประทับใจที่ฉันได้รับจาก "การเรียนรู้ของเครื่อง" ซึ่งฉันสรุปว่า "การเรียนรู้วิธีใช้งานซอฟต์แวร์โดยไม่เข้าใจว่ามันใช้งานได้จริง" (แน่นอนว่าไม่ยุติธรรม แต่เราเห็น "การเรียนรู้ของเครื่องจักร" มากมาย คนออกมาจากโรงเรียนที่ไม่เข้าใจอะไรนอกจากพารามิเตอร์การปรับแต่งของอวนประสาทชนิดต่าง ๆ เป็นตัวแทน)
jbowman

1

วิทยาศาสตร์ข้อมูลคือการผสมผสานข้อมูลแบบสหสาขาของการอนุมานข้อมูลการพัฒนาอัลกอริทึมและเทคโนโลยีเพื่อแก้ปัญหาที่ซับซ้อนในเชิงวิเคราะห์ แต่เนื่องจากขาดแคลนนักวิทยาศาสตร์ด้านข้อมูลอาชีพด้านวิทยาศาสตร์ข้อมูลจึงสามารถสร้างโอกาสมากมาย อย่างไรก็ตามองค์กรต่าง ๆ กำลังมองหาผู้เชี่ยวชาญที่ได้รับการรับรองจาก SAS, Data Science Council of America (DASCA), Hortonworks และอื่น ๆ หวังว่านี่จะเป็นข้อมูลที่ดี!


1

นักวิทยาศาสตร์ด้านข้อมูลมีความเชี่ยวชาญในการพัฒนา Python, MySQL และ Java

พวกเขามีความเข้าใจอย่างชัดเจนเกี่ยวกับฟังก์ชั่นการวิเคราะห์คณิตศาสตร์สถิติการขุดข้อมูลทักษะการวิเคราะห์เชิงทำนายและพวกเขามีความรู้ที่ดีในภาษาการเขียนโปรแกรมเช่น Python และ R

นักวิทยาศาสตร์ด้านข้อมูลจำนวนมากในขณะนี้มีปริญญาเอก หรือปริญญาโทของพวกเขาตามการวิจัยจริงเพียงประมาณ 8% มีเพียงแค่ปริญญาตรีดังนั้นมันจึงเป็นเชิงลึกมากขึ้น

สร้างแบบจำลองทางสถิติที่ใช้ในการตัดสินใจบนพื้นฐานของข้อมูล การตัดสินใจแต่ละครั้งอาจเป็นเรื่องยากเช่นปิดกั้นหน้าจากการแสดงผลหรืออ่อนนุ่มเช่นกำหนดคะแนนสำหรับความเป็นอันตรายของหน้าเว็บที่ใช้โดยระบบหรือมนุษย์

ทำการทดลองเชิงเวรกรรมที่พยายามระบุสาเหตุของปรากฏการณ์ที่สังเกตได้ สิ่งนี้สามารถทำได้โดยการออกแบบการทดลอง A / B หรือถ้าการทดสอบ A / B ไม่สามารถใช้วิธีการทางระบาดวิทยากับปัญหาเช่น @ รูบินโมเดลสาเหตุเชิงสาเหตุ

การระบุผลิตภัณฑ์หรือคุณสมบัติใหม่ที่มาจากการปลดล็อคคุณค่าของข้อมูล การเป็นผู้นำทางความคิดเกี่ยวกับคุณค่าของข้อมูล ตัวอย่างที่ดีคือคุณลักษณะการแนะนำผลิตภัณฑ์ที่ Amazon เปิดให้ผู้ชมจำนวนมากใช้เป็นครั้งแรก


1
ไม่เลย ฉันสูงเท่าที่คุณจะได้รับในสายงานนักวิทยาศาสตร์ด้านข้อมูลและฉันไม่รู้ Java เลยและฉันก็ไม่มีความเชี่ยวชาญใน Python และทักษะ MySQL ของฉันนั้นมีคุณภาพดีที่สุด ในกลุ่มของฉันเรามีคนอื่น ๆ ที่รู้จัก Python เล็กน้อยชอบ R และมีเพียงคนเดียวเท่านั้นที่รู้ Java แต่เขาส่วนใหญ่ใช้รหัสใน R และ C / C ++ (เช่นฉัน) สามคนรู้จัก Python แต่ไม่รู้อะไรเลย ภาษาระดับต่ำกว่า ฉันไม่ต้องการเข้าไปใน Python v. R flame wars หรือ Java v. C / C ++ แต่มันก็ไม่ได้เป็นอย่างนั้นในกรณีที่รายการทักษะที่เกี่ยวข้องกับการเขียนโปรแกรมของคุณจำเป็น
jbowman

0

เพื่อตอบคำถามของคุณ "นักวิทยาศาสตร์ด้านข้อมูลคืออะไร" มันอาจจะคุ้มค่าที่จะตระหนักถึงความแตกต่างระหว่าง Data Scientist และ Data Mechanic ตามที่ระบุไว้ในhttp://sites.temple.edu/deepstat/data-scientist-and-data-mechanic/


1
เพื่อให้เป็นคำตอบที่สมบูรณ์กรุณาเน้นประเด็นหลักจากบทความในคำตอบของคุณเพื่อให้ OP และผู้อ่านคนอื่น ๆ มีประเด็นสำคัญ
Greenparker
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.