คำถามติดแท็ก tools

8
ทำไม บริษัท อินเทอร์เน็ตถึงชอบ Java / Python สำหรับนักวิทยาศาสตร์ข้อมูล?
ฉันเห็นรายละเอียดงานหลายครั้งสำหรับนักวิทยาศาสตร์ข้อมูลที่ขอประสบการณ์ Python / Java และไม่สนใจอาร์ด้านล่างเป็นอีเมลส่วนตัวที่ฉันได้รับจากหัวหน้านักวิทยาศาสตร์ข้อมูลของ บริษัท ที่ฉันสมัครผ่าน LinkedIn X ขอขอบคุณที่เชื่อมต่อและแสดงความสนใจ คุณมีทักษะการวิเคราะห์ที่ดี อย่างไรก็ตามนักวิทยาศาสตร์ด้านข้อมูลของเราทุกคนต้องมีทักษะการเขียนโปรแกรมที่ดีใน Java / Python เนื่องจากเราเป็นองค์กรอินเทอร์เน็ต / มือถือและทุกอย่างที่เราทำออนไลน์อยู่ ในขณะที่ฉันเคารพการตัดสินใจของหัวหน้านักวิทยาศาสตร์ด้านข้อมูล แต่ฉันไม่สามารถเข้าใจได้อย่างชัดเจนว่าอะไรคืองานที่ Python สามารถทำสิ่งที่ R ไม่สามารถทำได้ ใครบ้างที่สามารถใส่ใจในรายละเอียด? จริง ๆ แล้วฉันกระตือรือร้นที่จะเรียนรู้ Python / Java หากฉันได้รับรายละเอียดเพิ่มเติม แก้ไข: ฉันพบการสนทนาที่น่าสนใจเกี่ยวกับ Quora ทำไม Python เป็นภาษาที่ถูกเลือกสำหรับนักวิทยาศาสตร์ด้านข้อมูล? แก้ไข 2: บล็อกจาก Udacity เกี่ยวกับภาษาและไลบรารีสำหรับการเรียนรู้ของเครื่อง

9
เครื่องมือและโปรโตคอลสำหรับวิทยาศาสตร์ข้อมูลที่สามารถทำซ้ำได้โดยใช้ Python
ฉันกำลังทำงานในโครงการวิทยาศาสตร์ข้อมูลโดยใช้ Python โครงการมีหลายขั้นตอน แต่ละขั้นตอนประกอบด้วยการเก็บชุดข้อมูลโดยใช้สคริปต์ Python ข้อมูลเสริมการกำหนดค่าและพารามิเตอร์และการสร้างชุดข้อมูลอื่น ฉันเก็บรหัสในคอมไพล์ดังนั้นส่วนที่ครอบคลุม ฉันอยากจะได้ยินเกี่ยวกับ: เครื่องมือสำหรับการควบคุมเวอร์ชันของข้อมูล เครื่องมือที่เปิดใช้งานการทำซ้ำขั้นตอนและการทดลอง โปรโตคอลและโครงสร้างไดเรกทอรีที่แนะนำสำหรับโครงการดังกล่าว เครื่องมือสร้าง / เรียกใช้อัตโนมัติ

9
ทางเลือก IDE สำหรับการเขียนโปรแกรม R (RStudio, IntelliJ IDEA, Eclipse, Visual Studio)
ฉันใช้ RStudio สำหรับการเขียนโปรแกรม R ฉันจำเกี่ยวกับ IDE-s ที่มั่นคงจากกองเทคโนโลยีอื่น ๆ เช่น Visual Studio หรือ Eclipse ฉันมีสองคำถาม: มีการใช้ IDE-s อื่นใดนอกเหนือจาก RStudio (โปรดพิจารณาให้คำอธิบายสั้น ๆ กับพวกเขา) มีผู้ใดบ้างที่มีข้อได้เปรียบที่เด่นชัดกว่า RStudio? ฉันส่วนใหญ่หมายถึงคุณสมบัติการดีบัก / สร้าง / ปรับใช้นอกจากการเขียนโปรแกรมเอง (ดังนั้นโปรแกรมแก้ไขข้อความอาจไม่ใช่วิธีแก้ปัญหา)
45 r  tools  rstudio  programming 

11
นักวิทยาศาสตร์ข้อมูลใช้ Excel หรือไม่
ฉันจะคิดว่าตัวเองเป็นนักวิทยาศาสตร์ข้อมูลมืออาชีพ เช่นเดียวกับคนส่วนใหญ่ (ฉันคิดว่า) ฉันทำแผนภูมิแรกของฉันและทำการรวมครั้งแรกของฉันในโรงเรียนมัธยมและวิทยาลัยโดยใช้ Excel ขณะที่ฉันเรียนวิทยาลัยจบการศึกษาและมีประสบการณ์การทำงานประมาณ 7 ปีฉันเลือกสิ่งที่ฉันคิดว่าเป็นเครื่องมือขั้นสูงเช่น SQL, R, Python, Hadoop, LaTeX เป็นต้น เรากำลังสัมภาษณ์ตำแหน่งนักวิทยาศาสตร์ด้านข้อมูลและผู้สมัครคนหนึ่งประกาศตัวเองว่าเป็น "นักวิทยาศาสตร์ด้านข้อมูลอาวุโส" (คำศัพท์ที่ค่อนข้างยุ่งเหยิงในสมัยนี้) ที่มีประสบการณ์มากกว่า 15 ปี เมื่อถูกถามว่าชุดเครื่องมือที่เขาต้องการคืออะไรเขาตอบว่านั่นคือ Excel ฉันใช้สิ่งนี้เป็นหลักฐานว่าเขาไม่ได้มีประสบการณ์มากเท่ากับประวัติย่อของเขาที่จะเรียกร้อง แต่ไม่แน่ใจ ท้ายที่สุดเพียงเพราะมันไม่ใช่เครื่องมือที่ฉันชอบไม่ได้หมายความว่าไม่ใช่คนอื่น นักวิทยาศาสตร์ข้อมูลที่มีประสบการณ์ใช้ Excel หรือไม่ คุณสามารถสมมติว่าขาดประสบการณ์จากคนที่ใช้ Excel เป็นหลักหรือไม่?
37 tools  career  excel 

5
อิมเมจ VM สำหรับโครงการวิทยาศาสตร์ข้อมูล
เนื่องจากมีเครื่องมือมากมายสำหรับงานด้าน data data และมันยุ่งยากในการติดตั้งทุกอย่างและสร้างระบบที่สมบูรณ์แบบ มีอิมเมจ Linux / Mac OS พร้อม Python, R และเครื่องมือวิทยาศาสตร์ข้อมูลโอเพ่นซอร์สอื่น ๆ ที่ติดตั้งและพร้อมให้คนใช้งานได้ทันทีหรือไม่? Ubuntu หรือระบบปฏิบัติการน้ำหนักเบาที่มี Python, R (รวมถึง IDEs) เวอร์ชันล่าสุดและเครื่องมือสร้างภาพข้อมูลแบบโอเพนซอร์สอื่น ๆ ที่ติดตั้งจะเหมาะสมที่สุด ฉันไม่เจอสิ่งใดในการค้นหาอย่างรวดเร็วบน Google โปรดแจ้งให้เราทราบหากมีบางคนหรือคนที่คุณสร้างขึ้นมาเพื่อตัวเอง? ฉันคิดว่ามหาวิทยาลัยบางแห่งอาจมีภาพ VM ของตัวเอง กรุณาแบ่งปันลิงค์ดังกล่าว
24 python  r  tools 


5
ทำให้แผนที่ความร้อนของทะเลใหญ่ขึ้น
ฉันสร้างcorr()df จาก df ดั้งเดิม corr()DF ออก 70 X 70 มาและมันเป็นไปไม่ได้ที่จะเห็นภาพ heatmap ส sns.heatmap(df)... ถ้าฉันพยายามที่จะแสดงcorr = df.corr()ตารางที่ไม่พอดีกับหน้าจอและฉันสามารถดูความสัมพันธ์ทั้งหมด มันเป็นวิธีที่จะพิมพ์ทั้งdfโดยไม่คำนึงถึงขนาดของมันหรือเพื่อควบคุมขนาดของ heatmap หรือไม่?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

2
ความแตกต่างระหว่าง Hadoop และ noSQL คืออะไร
ฉันได้ยินเกี่ยวกับเครื่องมือ / กรอบการทำงานมากมายสำหรับช่วยเหลือผู้คนในการประมวลผลข้อมูล (สภาพแวดล้อมของข้อมูลขนาดใหญ่) หนึ่งเรียกว่า Hadoop และอื่น ๆ เป็นแนวคิด noSQL ความแตกต่างของการประมวลผลคืออะไร? พวกเขาเสริมหรือไม่

2
เครื่องมือ Opensource สำหรับความช่วยเหลือในการขุดคะแนนกระดานผู้นำ
พิจารณาสตรีมที่มีtuples ซึ่ง (user, new_score)แสดงคะแนนของผู้ใช้ในเกมออนไลน์ สตรีมสามารถมีองค์ประกอบใหม่ 100-1,000 รายการต่อวินาที เกมดังกล่าวมีผู้เล่นที่ไม่ซ้ำกัน 200K ถึง 300K ฉันต้องการมีข้อความค้นหาที่ยืนอยู่เช่น: ผู้เล่นคนใดโพสต์คะแนนมากกว่า x ในหน้าต่างบานเลื่อนหนึ่งชั่วโมง ผู้เล่นคนใดที่ได้คะแนน x% ในหน้าต่างบานเลื่อนหนึ่งชั่วโมง คำถามของฉันคือเครื่องมือโอเพนซอร์สที่ฉันสามารถใช้เพื่อเริ่มต้นโครงการนี้ได้อย่างไร ฉันกำลังพิจารณาEsperในขณะนี้ หมายเหตุ: ฉันเพิ่งเสร็จสิ้นการอ่าน "Mining Data Streams" (ตอนที่ 4 ของการขุดชุดข้อมูลขนาดใหญ่ ) และฉันค่อนข้างใหม่สำหรับการขุดกระแสข้อมูล

2
การเก็บหนังสือของการทดสอบและผลการทดสอบ
ฉันเป็นนักวิจัยและฉันชอบการทดสอบวิธีแก้ปัญหาที่มีศักยภาพดังนั้นฉันมักจะทำการทดลองมากมาย ตัวอย่างเช่นหากฉันกำลังคำนวณคะแนนความคล้ายคลึงกันระหว่างเอกสารฉันอาจต้องการลองใช้มาตรการหลายอย่าง ที่จริงแล้วสำหรับแต่ละการวัดฉันอาจต้องทำการทดสอบหลายครั้งเพื่อทดสอบผลกระทบของพารามิเตอร์บางอย่าง จนถึงตอนนี้ฉันได้ติดตามอินพุตและผลลัพธ์ของพวกเขาโดยการเขียนผลลัพธ์ลงในไฟล์ที่มีข้อมูลเกี่ยวกับอินพุตมากพอ ปัญหาคือการดึงผลลัพธ์ที่เฉพาะเจาะจงกลายเป็นสิ่งที่ท้าทายในบางครั้งแม้ว่าฉันจะพยายามเพิ่มข้อมูลอินพุตให้กับชื่อไฟล์ ฉันลองใช้สเปรดชีตพร้อมลิงก์ไปยังผลลัพธ์ แต่นี่ก็ไม่ได้สร้างความแตกต่างอย่างมาก คุณใช้เครื่องมือ / กระบวนการใดในการทำหนังสือของคุณ

3
ภาษาที่ดีที่สุดสำหรับการคำนวณทางวิทยาศาสตร์ [ปิด]
ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน5 ปีที่ผ่านมา ดูเหมือนว่าภาษาส่วนใหญ่จะมีห้องสมุดคำนวณทางวิทยาศาสตร์จำนวนหนึ่ง Python มี Scipy Rust มี SciRust C++มีหลายอย่างรวมถึงViennaCLและArmadillo JavaมีJava NumericsและColtเช่นเดียวกับหลาย ๆ ไม่ต้องพูดถึงภาษาที่ชอบRและJuliaออกแบบมาอย่างชัดเจนสำหรับการคำนวณทางวิทยาศาสตร์ ด้วยตัวเลือกมากมายคุณจะเลือกภาษาที่ดีที่สุดสำหรับงานอย่างไร นอกจากนี้ภาษาใดที่จะเป็นคนที่มีประสิทธิภาพมากที่สุด? PythonและRดูเหมือนว่าจะมีแรงฉุดที่สุดในอวกาศ แต่ภาษาที่รวบรวมได้ดูเหมือนจะเป็นทางเลือกที่ดีกว่า และจะมีอะไรดีกว่านี้Fortranไหม ภาษาที่คอมไพล์ด้วยนอกจากนี้มักจะมีการเร่งความเร็วของ GPU ในขณะที่ตีความภาษาเช่นRและPythonไม่ ฉันควรคำนึงถึงอะไรเมื่อเลือกภาษาและภาษาใดให้ความสมดุลของยูทิลิตี้และประสิทธิภาพที่ดีที่สุด มีภาษาใดบ้างที่มีทรัพยากรการคำนวณทางวิทยาศาสตร์ที่สำคัญที่ฉันพลาดไป
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

4
ฉันควรใช้ขั้นตอนเริ่มต้นใดเพื่อให้เข้าใจถึงชุดข้อมูลขนาดใหญ่และฉันควรใช้เครื่องมือใด
Caveat: ฉันเป็นผู้เริ่มต้นที่สมบูรณ์เมื่อพูดถึงการเรียนรู้ด้วยเครื่องจักร แต่กระตือรือร้นที่จะเรียนรู้ ฉันมีชุดข้อมูลขนาดใหญ่และฉันพยายามค้นหารูปแบบในนั้น อาจมี / อาจไม่มีความสัมพันธ์ข้ามข้อมูลไม่ว่าจะเป็นตัวแปรที่รู้จักหรือตัวแปรที่มีอยู่ในข้อมูล แต่ที่ฉันยังไม่ได้ตระหนักคือตัวแปร / เกี่ยวข้องจริง ๆ ฉันเดาว่านี่จะเป็นปัญหาที่คุ้นเคยในโลกของการวิเคราะห์ข้อมูลดังนั้นฉันจึงมีคำถามสองสามข้อ: 'กระสุนเงิน' จะทำให้ข้อมูลทั้งหมดนี้เป็นโปรแกรมวิเคราะห์สถิติ / ข้อมูลและเพื่อบีบอัดข้อมูลที่มองหารูปแบบที่เป็นที่รู้จัก / ไม่รู้จักซึ่งพยายามค้นหาความสัมพันธ์ SPSS เหมาะสมหรือมีแอปพลิเคชันอื่นซึ่งอาจเหมาะสมกว่า ฉันควรเรียนรู้ภาษาเช่น R และหาวิธีการประมวลผลข้อมูลด้วยตนเอง สิ่งนี้จะไม่ประกอบด้วยการค้นหาความสัมพันธ์เพราะฉันจะต้องระบุสิ่งที่และวิธีการวิเคราะห์ข้อมูลด้วยตนเอง? นักขุดข้อมูลมืออาชีพจะเข้าถึงปัญหานี้ได้อย่างไรและขั้นตอนใดที่เขา / เธอต้องทำ?
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.