สถิติ + วิทยาการคอมพิวเตอร์ = วิทยาศาสตร์ข้อมูล? [ปิด]


10

ฉันต้องการที่จะกลายเป็นนักวิทยาศาสตร์ข้อมูล ฉันศึกษาสถิติประยุกต์(วิทยาศาสตร์คณิตศาสตร์ประกันภัย) ดังนั้นฉันจึงมีภูมิหลังทางสถิติที่ยอดเยี่ยม (การถดถอยกระบวนการสโตแคสติกอนุกรมเวลาการพูดถึงเพียงไม่กี่อย่าง) แต่ตอนนี้ฉันกำลังจะเรียนปริญญาโทด้านวิทยาการคอมพิวเตอร์ในระบบอัจฉริยะ

นี่คือแผนการศึกษาของฉัน:

  • การเรียนรู้ของเครื่อง
  • การเรียนรู้ของเครื่องจักรขั้นสูง
  • การขุดข้อมูล
  • ตรรกะคลุมเครือ
  • ระบบการแนะนำ
  • ระบบข้อมูลแบบกระจาย
  • Cloud Computing
  • การค้นพบความรู้
  • ระบบธุรกิจอัจฉริยะ
  • การดึงข้อมูล
  • การขุดข้อความ

ในตอนท้ายด้วยความรู้ทางสถิติและวิทยาศาสตร์คอมพิวเตอร์ทั้งหมดของฉันฉันสามารถเรียกตัวเองว่าเป็นนักวิทยาศาสตร์ด้านข้อมูลได้หรือไม่? หรือฉันผิด

ขอบคุณสำหรับคำตอบ



คำถามนี้ดูเหมือนจะไม่อยู่ในหัวเพราะเป็นเรื่องเกี่ยวกับคำแนะนำด้านอาชีพ คำแนะนำด้านอาชีพนั้นได้รับการพิสูจน์แล้วว่าส่งผลให้เกิดคำถามเชิงความคิดเห็นคำถามทั่วไปหรือคำถามที่ จำกัด อย่างมากบางครั้งผลลัพธ์ส่วนใหญ่ไม่มีประโยชน์ในการสนทนา หากคุณไม่เห็นด้วยกับความเห็นนี้โปรดยกประเด็นเกี่ยวกับข้อมูลวิทยาศาสตร์ Meta
asheeshr

โดยย่อไม่มี Data + Scientific Method = Data Science :-) ทุกอย่างอื่นเป็นเพียงวิธีการที่จะไปถึงที่นั่น
I_Play_With_Data

คำตอบ:


1

ผมคิดว่าคุณกำลังอยู่บนเส้นทางที่ถูกต้องต่อการกลายเป็นผู้เชี่ยวชาญ นักวิทยาศาสตร์ข้อมูล เมื่อเร็ว ๆ นี้ฉันได้ตอบคำถามที่เกี่ยวข้องที่นี่ใน Data Science StackExchange: https://datascience.stackexchange.com/a/742/2452 (ให้ความสนใจกับคำจำกัดความที่ฉันพูดถึงเพราะฉันตอบคำถามของคุณด้วยตัวเองเช่นเดียวกับ แง่มุมของการฝึก วิศวกรรมซอฟต์แวร์และการใช้ความรู้ในการแก้ปัญหาในโลกแห่งความจริง ) ฉันหวังว่าคุณจะพบว่ามีประโยชน์ทั้งหมด ขอให้โชคดีในอาชีพของคุณ!


9

มันขึ้นอยู่กับ "Data Science" แบบไหนที่คุณต้องการ สำหรับการวิเคราะห์ขั้นพื้นฐานและสถิติการรายงานจะช่วยได้อย่างแน่นอน แต่สำหรับการเรียนรู้ของเครื่องและปัญญาประดิษฐ์คุณจะต้องการทักษะเพิ่มเติมอีกเล็กน้อย

  • ทฤษฎีความน่าจะเป็น - คุณต้องมีพื้นฐานที่มั่นคงในความน่าจะเป็นบริสุทธิ์เพื่อให้คุณสามารถสลายปัญหาใด ๆ ไม่ว่าจะเห็นมาก่อนหรือไม่เป็นหลักการที่น่าจะเป็น สถิติช่วยได้มากสำหรับปัญหาที่แก้ไขแล้ว แต่ปัญหาใหม่และที่ยังไม่ได้แก้ต้องมีความเข้าใจอย่างลึกซึ้งเกี่ยวกับความน่าจะเป็นเพื่อให้คุณสามารถออกแบบเทคนิคที่เหมาะสม

  • ข้อมูลทฤษฎี - นี่ (เทียบกับสถิติ) ค่อนข้างใหม่ (แม้ว่ายังอายุหลายสิบปี) งานที่สำคัญที่สุดคือแชนนอน แต่ที่สำคัญกว่าและบ่อยครั้งที่ถูกทอดทิ้งในวรรณคดีคืองานเขียนโดย Hobson พิสูจน์ว่า Kullback - Leibler Divergence เป็นคำจำกัดความทางคณิตศาสตร์เพียงอย่างเดียวที่จับความคิดของ"การวัดข้อมูล"อย่างแท้จริง ตอนนี้พื้นฐานในการสร้างปัญญาประดิษฐ์นั้นสามารถที่จะหาปริมาณข้อมูลได้ แนะนำให้อ่าน "แนวคิดในกลศาสตร์สถิติ" - Arthur Hobson (หนังสือราคาแพงมากมีเฉพาะในห้องสมุดทางวิชาการเท่านั้น)

  • ทฤษฎีความซับซ้อน- ปัญหาใหญ่ที่นักวิทยาศาสตร์ด้านข้อมูลจำนวนมากเผชิญที่ไม่มีพื้นฐานความซับซ้อนที่ซับซ้อนคืออัลกอริธึมของพวกมันไม่ได้ปรับขนาดหรือใช้เวลานานมากในการเรียกใช้ข้อมูลขนาดใหญ่ ยกตัวอย่าง PCA คำตอบที่ผู้คนชื่นชอบในคำถามสัมภาษณ์ "คุณจะลดจำนวนฟีเจอร์ในชุดข้อมูลของเราได้อย่างไร" แต่ถึงแม้ว่าคุณจะบอกผู้สมัคร "ชุดข้อมูลมีขนาดใหญ่มากจริง ๆ " พวกเขายังเสนอรูปแบบต่างๆ PCA ที่เป็น O (n ^ 3) หากคุณต้องการโดดเด่นคุณต้องการที่จะสามารถแก้ปัญหาแต่ละปัญหาได้ด้วยตัวเองอย่าทิ้งโซลูชันหนังสือเรียนที่ออกแบบมานานแล้วก่อนที่ Big Data จะเป็นสิ่งที่ทันสมัย เพื่อที่คุณจะต้องเข้าใจว่าสิ่งต่าง ๆ ใช้เวลาในการดำเนินการนานแค่ไหนในทางทฤษฎี แต่ในทางปฏิบัติ - ในทางปฏิบัติดังนั้นวิธีการใช้คลัสเตอร์คอมพิวเตอร์เพื่อกระจายอัลกอริทึม

  • ทักษะการสื่อสาร - ส่วนใหญ่ของวิทยาศาสตร์ข้อมูลคือการทำความเข้าใจธุรกิจ ไม่ว่าจะเป็นการประดิษฐ์ผลิตภัณฑ์ที่ขับเคลื่อนด้วยวิทยาศาสตร์ข้อมูลหรือให้ข้อมูลเชิงลึกทางธุรกิจที่ขับเคลื่อนด้วยวิทยาศาสตร์ข้อมูลความสามารถในการสื่อสารที่ดีกับทั้งผู้จัดการโครงการและผลิตภัณฑ์ทีมเทคโนโลยีและนักวิทยาศาสตร์ข้อมูลเพื่อนของคุณมีความสำคัญมาก คุณสามารถมีความคิดที่น่าทึ่งพูดถึงวิธีแก้ปัญหา AI ที่ยอดเยี่ยม แต่ถ้าคุณไม่สามารถสื่อสารได้อย่างมีประสิทธิภาพ (a) ทำไมต้องทำเงินธุรกิจ (ข) โน้มน้าวให้เพื่อนร่วมงานของคุณรู้ว่ามันจะทำงานอย่างไร พวกเขาช่วยสร้างมันขึ้นมาแล้วมันก็ไม่ได้ทำ


6

นักวิทยาศาสตร์ข้อมูล (สำหรับฉัน) เป็นคำที่ใช้เรียกร่มใหญ่ ฉันจะเห็นนักวิทยาศาสตร์ข้อมูลว่าเป็นบุคคลที่สามารถใช้เทคนิคอย่างเชี่ยวชาญจากสาขาการทำเหมืองข้อมูลการเรียนรู้ของเครื่องการจำแนกรูปแบบและสถิติ

อย่างไรก็ตามคำเหล่านั้นมีความเกี่ยวข้องกับ: การเรียนรู้ของเครื่องถูกผูกไว้กับการจำแนกรูปแบบและการทำเหมืองข้อมูลทับซ้อนเมื่อมันมาถึงการค้นหารูปแบบในข้อมูล และเทคนิคทั้งหมดมีหลักการทางสถิติพื้นฐาน ฉันมักจะนึกภาพนี้ว่าเป็นแผนภาพเวนน์ที่มีจุดตัดขนาดใหญ่

วิทยาการคอมพิวเตอร์เกี่ยวข้องกับทุกสาขาเหล่านั้นด้วย ฉันจะบอกว่าคุณต้องใช้เทคนิค "วิทยาศาสตร์ข้อมูล" เพื่อทำการวิจัยทางวิทยาศาสตร์คอมพิวเตอร์ แต่ความรู้ด้านวิทยาการคอมพิวเตอร์นั้นไม่จำเป็นต้องบอกเป็นนัยใน "วิทยาศาสตร์ข้อมูล" อย่างไรก็ตามทักษะการเขียนโปรแกรม - ฉันเห็นการเขียนโปรแกรมและวิทยาการคอมพิวเตอร์เป็นอาชีพที่แตกต่างกันซึ่งการเขียนโปรแกรมเป็นเครื่องมือในการแก้ปัญหามากขึ้นก็เป็นสิ่งสำคัญเช่นกันในการทำงานกับข้อมูลและการวิเคราะห์ข้อมูล

คุณมีแผนการเรียนที่ดีมาก ๆ และมันก็สมเหตุสมผล แต่ฉันไม่แน่ใจว่าถ้าคุณ "ต้องการ" เรียกตัวเองว่า "นักวิทยาศาสตร์ข้อมูล" ฉันมีความรู้สึกว่า "นักวิทยาศาสตร์ด้านข้อมูล" เป็นคำที่คลุมเครือซึ่งอาจหมายถึงทุกอย่างหรือไม่มีอะไรเลย สิ่งที่ฉันต้องการสื่อคือคุณจะต้องจบลงด้วยการเป็นอะไรที่มากกว่า "ความเชี่ยวชาญ" - มากกว่า "เพียงแค่" นักวิทยาศาสตร์ด้านข้อมูล

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.