ฉันเป็นโปรแกรมเมอร์ฉันจะเข้าสู่สาขาวิทยาศาสตร์ข้อมูลได้อย่างไร


13

ก่อนอื่นคำนี้ฟังดูคลุมเครือมาก

อย่างไรก็ตาม .. ฉันเป็นโปรแกรมเมอร์ซอฟต์แวร์ หนึ่งในภาษาที่ฉันสามารถใช้รหัสคือ Python การพูดของข้อมูลฉันสามารถใช้ SQL และสามารถทำ Data Scraping ได้ สิ่งที่ฉันรู้หลังจากอ่านบทความมากมายที่วิทยาศาสตร์ข้อมูลเป็นเรื่องที่ดีที่:

1- สถิติ

2- พีชคณิต

3- การวิเคราะห์ข้อมูล

4- การสร้างภาพ

5- การเรียนรู้ของเครื่อง

สิ่งที่ฉันรู้จนถึงตอนนี้:

1- การเขียนโปรแกรม Python 2- การทิ้งข้อมูลใน Python

ผู้เชี่ยวชาญช่วยแนะนำฉันหรือแนะนำแผนงานเพื่อปัดกวาดทั้งทฤษฎีและการปฏิบัติได้หรือไม่? ฉันให้เวลากับตัวเองประมาณ 8 เดือน


โปรดเจาะจงเกี่ยวกับสิ่งที่คุณต้องการ "เข้าไป" ไม่เพียง แต่สนาม แต่ยังอยู่ในระดับใด ตัวอย่างเช่น "" เครื่องมือการแพทย์ข้อความมืออาชีพ "หรือ" ผู้ตรวจสอบฟิสิกส์ดาราศาสตร์มือสมัครเล่นจักรวาล "
Pete

ฉันยินดีที่จะเป็นบางสิ่งบางอย่างที่สามารถทำงานเป็นที่ปรึกษาหรือพนักงานที่สามารถติดต่อ บริษัท เพื่อขุดข้อมูลของพวกเขาและรับข้อมูลเชิงลึกของมัน
Volatil3

(1) หลักสูตร Ng ของ Andrew เกี่ยวกับการเรียนรู้ของเครื่อง (2) หลักสูตร Yaser Abu-Mostafa เกี่ยวกับการเรียนรู้จากข้อมูล; ทั้งสองสามารถเข้าถึงได้ (ไม่รวมเวลา) และจะทำให้คุณมีความเข้าใจที่ดี
Vladislavs Dovgalecs


คำศัพท์ Data Science นั้นกว้างมาก บางทีคุณอาจคิดเกี่ยวกับประเภทของงานที่คุณต้องการและใน บริษัท ที่คุณต้องการทำงานด้วยให้ดูข้อกำหนดและความรับผิดชอบของพวกเขา จากนั้นคุณจะรู้ว่างานตรงตามความคาดหวังและความสามารถของคุณหรือไม่ นี่คือข้อกำหนดของนักวิทยาศาสตร์ข้อมูลใน GOOGLE ! [ข้อกำหนดของนักวิทยาศาสตร์ข้อมูลจาก Google ] ( i.stack.imgur.com/5KSN6.png )
Octoparse

คำตอบ:


18

มุ่งเน้นที่ทักษะการได้รับน้อยลงและประสบการณ์การได้รับมากขึ้น พยายามแก้ปัญหาจริง ๆ แล้วโพสต์งานของคุณบน GitHub คุณจะได้เรียนรู้เพิ่มเติมในกระบวนการและสามารถแสดงความรู้และประสบการณ์ให้กับนายจ้างซึ่งมีค่ามากกว่าการมีความเข้าใจในหัวข้อหรือทฤษฎีอย่างลึกซึ้ง

ปัจจุบันนี้ Data Science เป็นสาขาที่ค่อนข้างโหลดดังนั้นฉันไม่แน่ใจว่างานประเภทใดที่คุณต้องการทำโดยเฉพาะ แต่สมมติว่าการเรียนรู้ด้วยเครื่องเป็นส่วนประกอบของมันแล้ว kaggle.com เป็นจุดเริ่มต้นที่ดี ในแง่ของเป้าหมายถ้าคุณสามารถทำงานกับข้อมูลใน pandas / numpy / scipy สร้างแบบจำลองใน sci-kit เรียนรู้และสร้างกราฟสวย ๆ ใน seaborn, ggplot หรือแม้แต่ matplotlib คุณจะไม่มีปัญหาในการรับ งานจากมุมมองทักษะ - โดยเฉพาะถ้าคุณมีตัวอย่างโค้ดและตัวอย่างเพื่อแสดงความสามารถของคุณ หากคุณติดขัดแล้ว stackexchange จะมีคำตอบหรือคุณสามารถโพสต์คำถามและคุณจะได้คำตอบในไม่ช้า เมื่อคุณทำงานเพื่อหาเลี้ยงชีพคุณจะได้เรียนรู้มากขึ้นจากสมาชิกในทีมอาวุโสที่คอยให้คำปรึกษาคุณ

ขอให้โชคดี


7

ฉันชอบหลักสูตร Berkeley เกี่ยวกับวิทยาศาสตร์ข้อมูลจะให้พื้นฐานที่ดีและมีรสชาติสำหรับวิทยาศาสตร์ข้อมูลหลังจากย้ายไปที่ความอู้อี้และหลักสูตรและทรัพยากรอื่น ๆ อีกมากมาย ดังนั้นหากคุณมีทักษะการเขียนโปรแกรมมากกว่าที่จะต้องมีคณิตศาสตร์และสถิติและการสร้างภาพจำนวนมาก นอกจากนี้ยังเป็นเรื่องดีที่จะคุ้นเคยกับ IPython เพราะจำเป็นต้องดูทุกขั้นตอน (เห็นภาพ) ว่ามันทำงานอย่างไรแทนที่จะเขียนสคริปต์ทั้งหมดและทดสอบหลังจากนั้น (อนาคอนดานั้นติดตั้งง่ายและใช้งานได้) หลักสูตรมีการระบุไว้ด้านล่าง: bcourses.berkeley.edu/courses/1267848/wiki ยังเป็นหลักสูตรที่ดีสำหรับการเรียนรู้จาก SAS: สถิติ 1: ANOVA, Regression และ Logistic Regression support.sas.com/edu/schedules.html ? ctry = เรา & id = 1979

เริ่มต้นด้วย ML จะแนะนำ: www.kaggle.com/c/titanic/details/getting-started-with-python

ทางด้านซ้ายสำหรับ Excel โดยใช้ตาราง Pivot และ R. DataCamp ได้เปิดตัวการสอนเกี่ยวกับวิธีการใช้อาร์เมื่อคุณทำตามขั้นตอนนี้มากกว่าการแข่งขันเพื่อรับประสบการณ์อยู่ที่ kaggle (เพิ่งเปิดตัวหนึ่งสำหรับการจำแนกอาชญากรรมซานฟรานซิสโก) บทเรียนวิดีโอที่น่าตื่นตาตื่นใจจาก www.dataschool.io

หวังว่ามันจะช่วย ...


ขอบคุณสำหรับคำตอบ. คุณเรียนรู้ได้อย่างไร
Volatil3

1
หนังสือแบบฝึกหัดออนไลน์และโค้ดมากมายที่เกี่ยวข้องกับการเล่นกับข้อมูล ลอง kaggle.com และลองผ่านการแข่งขัน เป็นสิ่งที่ดีในการเริ่มต้นเรียนรู้ ML
n1tk

และในที่สุดพยายามค้นหาชุมชนของนักวิทยาศาสตร์ข้อมูลและมีส่วนร่วมในโครงการคุณจะได้รับประสบการณ์มากมายในโครงการที่ไม่มีหนังสือที่สามารถสอนได้
n1tk

แต่ฉันไม่เก่งในด้านทฤษฎีเช่นสถิติ, คณิตศาสตร์และอื่น ๆ ฉันได้ศึกษาพวกเขาใน Uni days
Volatil3

ฉันเป็นกรณีเฉพาะของฉันฉันได้พิจารณากลับไปโรงเรียนและย้ายไปที่โปรแกรม Ph.D ใน Analytics และวิทยาศาสตร์ข้อมูล ... ต้องการแคลคูลัส 1,2, พีชคณิตเชิงเส้น, พีชคณิตเชิงเส้นเชิงตัวเลข, SAS, R, คณิตศาสตร์สำหรับข้อมูลขนาดใหญ่ ทฤษฎีกราฟและอีกมากมาย ...
n1tk

5

ไม่เห็นด้วยกับเดวิดนักวิทยาศาสตร์ด้านข้อมูลที่แท้จริงคือนักสถิติประยุกต์ที่ใช้รหัสและรู้วิธีใช้อัลกอริทึมการเรียนรู้ของเครื่องด้วยเหตุผลที่เหมาะสม สถิติเป็นฐานของวิทยาศาสตร์ข้อมูลทั้งหมด มันเป็น "เค้ก" ต่อ se ทุกอย่างอื่นก็แค่ไอซิ่ง

คำถามคือคุณต้องการเป็นนักวิทยาศาสตร์ด้านข้อมูลประเภทใด? คุณต้องการที่จะเป็นผู้เชี่ยวชาญเรื่อง (ความรู้ว่าทำไมเมื่อใดและเมื่อใดที่จะไม่ใช้อัลกอริทึมหรือเทคนิค) หรือ Kaggle Script Kiddie โดยใช้ Scipy และคิดว่าเขาเป็นนักวิทยาศาสตร์ข้อมูล?

1 - สถิติ

2- ทุกอย่างอื่น


2
ไม่แน่ใจว่าฉันเข้าใจสิ่งที่คุณพูด ฉันไม่เคยบอกว่าการรู้ "สถิติที่ใช้" ไม่สำคัญ - ฉันแค่สร้างความแตกต่างว่าการได้รับประสบการณ์การใช้วิธีการนั้นสำคัญกว่าการได้รับความรู้ทางทฤษฎีเกี่ยวกับวิธีการนั้น
David

1
เดวิดนั่นคือจุดที่ฉันไม่เห็นด้วย โดยไม่ต้องมีความรู้ทางทฤษฎีเกี่ยวกับวิธีการของตัวเองเราก็เป็นเพียง kiddies สคริปต์ ประสบการณ์เป็นสิ่งสำคัญ แต่เป็นผลพลอยได้จากความรู้ทางทฤษฎีไม่ใช่วิธีอื่น
Hidden Markov Model

2
ไม่มันไม่ใช่ มีความแตกต่างอย่างมากระหว่างประสบการณ์การใช้งานและความรู้เชิงทฤษฎีบ่อยครั้งที่ความแตกต่างระหว่างสิ่งที่ได้รับจากอุตสาหกรรมเทียบกับในห้องเรียน ตัวอย่างเช่นมีค่ามากกว่าที่จะทราบวิธีตรวจสอบอย่างมีประสิทธิภาพว่าแบบจำลองไม่ได้ใช้วิธีการที่ใช้เช่นการตรวจสอบความถูกต้องแบบไขว้เกินกว่าที่จะรู้ได้ว่าการวางรากฐานเชิงทฤษฎีของการทำให้เป็นมาตรฐาน นอกจากนี้โปรดหยุดพูดถึง "script kidies" - ไม่มีใครสนับสนุนการใช้ฟังก์ชั่น one-click-to-submit ใหม่ของ kaggle
David

1
หากสิ่งที่คุณพูดนั้นเป็นเรื่องจริงเหตุใด บริษัท จึงเลือกเรียนระดับปริญญาเอกและผู้ที่มีวุฒิปริญญาโทมากกว่าผู้ที่มีเพียงปริญญาตรี เป็นเพราะพวกเขามีความรู้ทางทฤษฎีของเทคนิคที่ขับเคลื่อนอัลกอริทึม พวกเขาเป็นผู้สร้างเครื่องยนต์ต่อ ความรู้เชิงทฤษฎีคือความรู้ที่ลึกซึ้งยิ่งขึ้น Kaggle เป็นรถถังสำหรับสคริปต์ kiddies
Hidden Markov Model

1
ในขณะที่ฉันสามารถเห็นประเด็นที่คุณทั้งคู่พยายามทำ แต่ฉันคิดว่ามันอาจไม่เหมาะสม คำถามเดิมคือ 'โปรแกรมเมอร์สามารถเปลี่ยนเป็นงานด้านวิทยาศาสตร์ข้อมูลได้อย่างไร' หากคำตอบคือ 'ทิ้งทุกอย่างใช้เวลาหลายปีเพื่อรับปริญญาเอกด้านสถิติจากนั้นทำโครงการด้วยตัวคุณเองแล้วเริ่มใช้งาน' นั่นเป็นอุปสรรคที่ค่อนข้างหนักหน่วงและคุณอาจบอกพวกเขาด้วยว่าไม่ต้องกังวล ความรู้สึก ในทางกลับกันเมื่อพิจารณาจากจำนวนสถิติ PHD (หรือแม้แต่ผู้เชี่ยวชาญ) และจำนวนคนที่กำลังมองหานายจ้างอาจพิจารณาผู้ที่สามารถแสดงประสบการณ์โดยไม่ต้องมีปริญญา
chrisfs

4

หากคุณต้องการที่จะเป็นคนที่มีความรู้จริงเริ่มต้นด้วยคณิตศาสตร์ (แคลคูลัส, ความน่าจะเป็น + สถิติ, พีชคณิตเส้นตรง) ในทุกขั้นตอนพยายามใช้ทุกอย่างด้วยการวางโปรแกรมหลามดีสำหรับสิ่งนี้ เมื่อคุณเริ่มต้นได้ดีเล่นกับข้อมูลจริงและแก้ไขปัญหา

หลักสูตร พีชคณิตเชิงเส้น - edx Laff หรือการเข้ารหัสเมทริกซ์ Stat - edx stat 2x Barkley แคลคูลัส - อ่าน ... มันง่าย


2

เดวิดมีจุดดีฉันอยากจะแนะนำให้คุณจดจ่อกับสิ่งที่ทำให้คุณสนใจมากขึ้น มันเป็นวิธีเดียวที่จะประสบความสำเร็จในความพยายามทุกประเภท หากคุณต้องการสร้างสิ่งดีๆให้เริ่มด้วย หากคุณต้องการอ่านหนังสือที่ดีเช่นกัน จุดเริ่มต้นไม่สำคัญ ไม่กี่วันข้างหน้าคุณจะมีความเข้าใจที่ดีขึ้นเกี่ยวกับสิ่งที่คุณต้องการและควรทำต่อไป


1

วิทยาศาสตร์ข้อมูลนั้นกว้างมากมีเส้นทางที่แตกต่างกันมากมาย มันมักจะแบ่งออกเป็น 4 หรือ 5 ประเภทที่แตกต่างกันเช่น:

ป้อนคำอธิบายรูปภาพที่นี่

คุณสามารถดูได้จากโพสต์อื่น ๆ ในหัวข้อนี้ผู้คนที่มาจากพื้นหลังสถิติประยุกต์ (ใช้อัลกอริทึมที่ถูกต้อง), พื้นหลังการเขียนโปรแกรม (เข้าร่วม Kaggle) และคนอื่น ๆ นำไปใช้กับพื้นหลังธุรกิจ

บริษัท ที่มีความชำนาญสามารถอ้างถึงบุคคลที่เขียนโปรแกรมเบ้เป็น "วิศวกรข้อมูล" บริษัท ขนาดใหญ่ยังใช้แต่ละประเภทสำหรับทีมวิทยาศาสตร์ข้อมูลของพวกเขาดังนั้นการแสดงให้เห็นถึงทักษะรูปตัวทีดีจะเป็นสิ่งที่ดี


0

หากคุณเป็นโปรแกรมเมอร์คุณสามารถเริ่มต้นด้วยตัวแยกประเภท Decision Tree โดยมุ่งเน้นที่การทำความเข้าใจคณิตศาสตร์ที่อยู่เบื้องหลัง Entropy และ Information-Gain จำเป็นอย่างยิ่งที่ต้องเข้าใจว่า ML เป็นเพียงการบีบอัดข้อมูลเท่านั้น

ฉันไม่เห็นด้วยอย่างยิ่งกับคำตอบอื่น ๆ เกี่ยวกับคุณค่าของหลักสูตรการปฏิบัติ สิ่งที่มีค่ามากที่สุดสำหรับ ML คือคณิตศาสตร์: ทฤษฎีจำนวน, พีชคณิตเชิงเส้นและทฤษฎีความน่าจะเป็น

หากคุณไม่ได้มุ่งเน้นไปที่คณิตศาสตร์สิ่งเดียวที่คุณจะได้เรียนรู้คือวิธีการใช้ห้องสมุดบางอย่างในการทำเวทมนตร์นั่นไม่ใช่การเรียนรู้ด้วยเครื่องและไม่ใช่วิทยาศาสตร์เลย

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.