คำถามติดแท็ก definitions

4
วิทยาศาสตร์ข้อมูลเหมือนกับการทำ Data หรือไม่?
ฉันแน่ใจว่าวิทยาศาสตร์ข้อมูลตามที่จะกล่าวถึงในฟอรัมนี้มีคำพ้องความหมายหลายคำหรืออย่างน้อยฟิลด์ที่เกี่ยวข้องที่มีการวิเคราะห์ข้อมูลขนาดใหญ่ คำถามเฉพาะของฉันเกี่ยวกับ Data Mining ฉันเข้าเรียนระดับบัณฑิตศึกษาสาขา Data Mining เมื่อไม่กี่ปีก่อน อะไรคือความแตกต่างระหว่าง Data Science และ Data Mining และโดยเฉพาะอย่างยิ่งฉันจะต้องมองอะไรที่จะมีความเชี่ยวชาญใน Data Mining มากขึ้น?

3
เริ่มต้นอาชีพการเป็นนักวิทยาศาสตร์ข้อมูลต้องมีประสบการณ์ด้านวิศวกรรมซอฟต์แวร์หรือไม่? [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นหัวข้อสำหรับ Data Science Stack Exchange ปิดให้บริการใน5 ปีที่ผ่านมา ฉันเป็นนักเรียนปริญญาโทที่มหาวิทยาลัยเอดินบะระมีความเชี่ยวชาญในการเรียนรู้เครื่องและการประมวลผลภาษาธรรมชาติ ฉันมีหลักสูตรภาคปฏิบัติที่เน้นการขุดข้อมูลและอื่น ๆ ที่เกี่ยวข้องกับการเรียนรู้ของเครื่องสถิติแบบเบย์และโมเดลกราฟิก พื้นหลังของฉันคือ BSc ในสาขาวิทยาศาสตร์คอมพิวเตอร์ ฉันทำวิศวกรรมซอฟต์แวร์บ้างและเรียนรู้แนวคิดพื้นฐานเช่นรูปแบบการออกแบบ แต่ฉันไม่เคยเกี่ยวข้องกับโครงการพัฒนาซอฟต์แวร์ขนาดใหญ่ อย่างไรก็ตามฉันมีโครงการขุดข้อมูลในปริญญาโทวิทยาศาสตร์ คำถามของฉันคือถ้าฉันต้องการมีอาชีพเป็นนักวิทยาศาสตร์ด้านข้อมูลฉันควรสมัครตำแหน่งนักวิทยาศาสตร์ข้อมูลระดับบัณฑิตศึกษาก่อนหรือฉันควรจะได้ตำแหน่งวิศวกรซอฟต์แวร์ระดับบัณฑิตศึกษาก่อนอาจเป็นบางสิ่งที่เกี่ยวข้องกับวิทยาศาสตร์ข้อมูลเช่นข้อมูลขนาดใหญ่ โครงสร้างพื้นฐานหรือการพัฒนาซอฟต์แวร์เรียนรู้เครื่อง? ความกังวลของฉันคือฉันอาจต้องมีทักษะวิศวกรรมซอฟต์แวร์ที่ดีสำหรับวิทยาศาสตร์ข้อมูลและฉันไม่แน่ใจว่าสิ่งเหล่านี้สามารถได้รับจากการทำงานในฐานะนักวิทยาศาสตร์ข้อมูลระดับบัณฑิตศึกษาโดยตรงหรือไม่ ยิ่งไปกว่านั้นในตอนนี้ฉันชอบ Data Mining แต่ถ้าฉันต้องการเปลี่ยนอาชีพเป็นวิศวกรรมซอฟต์แวร์ในอนาคต มันอาจเป็นเรื่องยากถ้าฉันมีความเชี่ยวชาญในศาสตร์ข้อมูลมาก ฉันยังไม่ได้รับการว่าจ้างดังนั้นความรู้ของฉันจึงยัง จำกัด ยินดีต้อนรับสู่การชี้แจงหรือคำแนะนำใด ๆ เนื่องจากฉันกำลังจะสำเร็จการศึกษาระดับปริญญาโทและต้องการเริ่มสมัครเข้าเรียนระดับบัณฑิตในช่วงต้นเดือนตุลาคม

3
การคำนวณแบบขนานและแบบกระจาย
ความแตกต่างระหว่างการคำนวณแบบขนานและแบบกระจายคืออะไร เมื่อพูดถึงความสามารถในการปรับขนาดและประสิทธิภาพมันเป็นเรื่องธรรมดามากที่จะเห็นโซลูชันที่เกี่ยวข้องกับการคำนวณในกลุ่มของเครื่องจักรและบางครั้งมันถูกเรียกว่าการประมวลผลแบบขนานหรือการประมวลผลแบบกระจาย ในบางวิธีการคำนวณดูเหมือนจะขนานกันเสมอเนื่องจากมีสิ่งต่าง ๆ ที่ทำงานพร้อมกัน แต่การคำนวณแบบกระจายนั้นเกี่ยวข้องกับการใช้มากกว่าหนึ่งเครื่องหรือมีความเฉพาะเจาะจงเพิ่มเติมใด ๆ ที่ทำให้การประมวลผลทั้งสองประเภทนี้แตกต่างกันหรือไม่? มันจะไม่ซ้ำซ้อนที่จะพูดเช่นการคำนวณที่ขนานและกระจาย ?

3
ชุดข้อมูล / คำถามวิจัยทางวิทยาศาสตร์ข้อมูลสำหรับวิทยานิพนธ์ปริญญาโทวิทยาศาสตร์สาขาสถิติ
ฉันต้องการสำรวจ 'วิทยาศาสตร์ข้อมูล' คำดูเหมือนคลุมเครือเล็กน้อยสำหรับฉัน แต่ฉันคาดหวังว่าจะต้อง: การเรียนรู้ของเครื่อง (มากกว่าสถิติดั้งเดิม); ชุดข้อมูลขนาดใหญ่เพียงพอที่คุณต้องเรียกใช้การวิเคราะห์บนคลัสเตอร์ มีชุดข้อมูลและปัญหาอะไรบ้างที่สามารถเข้าถึงได้โดยนักสถิติที่มีพื้นฐานการเขียนโปรแกรมที่ฉันสามารถใช้เพื่อสำรวจสาขาวิทยาศาสตร์ข้อมูลได้ เพื่อให้แคบที่สุดเท่าที่จะทำได้ฉันต้องการเชื่อมโยงไปยังชุดข้อมูลเปิดและชุดข้อมูลที่ใช้งานได้ดีและปัญหาตัวอย่าง

3
ภาษาที่ดีที่สุดสำหรับการคำนวณทางวิทยาศาสตร์ [ปิด]
ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน5 ปีที่ผ่านมา ดูเหมือนว่าภาษาส่วนใหญ่จะมีห้องสมุดคำนวณทางวิทยาศาสตร์จำนวนหนึ่ง Python มี Scipy Rust มี SciRust C++มีหลายอย่างรวมถึงViennaCLและArmadillo JavaมีJava NumericsและColtเช่นเดียวกับหลาย ๆ ไม่ต้องพูดถึงภาษาที่ชอบRและJuliaออกแบบมาอย่างชัดเจนสำหรับการคำนวณทางวิทยาศาสตร์ ด้วยตัวเลือกมากมายคุณจะเลือกภาษาที่ดีที่สุดสำหรับงานอย่างไร นอกจากนี้ภาษาใดที่จะเป็นคนที่มีประสิทธิภาพมากที่สุด? PythonและRดูเหมือนว่าจะมีแรงฉุดที่สุดในอวกาศ แต่ภาษาที่รวบรวมได้ดูเหมือนจะเป็นทางเลือกที่ดีกว่า และจะมีอะไรดีกว่านี้Fortranไหม ภาษาที่คอมไพล์ด้วยนอกจากนี้มักจะมีการเร่งความเร็วของ GPU ในขณะที่ตีความภาษาเช่นRและPythonไม่ ฉันควรคำนึงถึงอะไรเมื่อเลือกภาษาและภาษาใดให้ความสมดุลของยูทิลิตี้และประสิทธิภาพที่ดีที่สุด มีภาษาใดบ้างที่มีทรัพยากรการคำนวณทางวิทยาศาสตร์ที่สำคัญที่ฉันพลาดไป
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

2
เหตุใดขอบเขต จำกัด จึงมีปัญหาในการเรียนรู้ของเครื่อง?
คุณช่วยอธิบายความแม่นยำอัน จำกัด ได้อย่างไร? เหตุใดขอบเขต จำกัด จึงมีปัญหาในการเรียนรู้ของเครื่อง?
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.