คำถามติดแท็ก programming

9
ทางเลือก IDE สำหรับการเขียนโปรแกรม R (RStudio, IntelliJ IDEA, Eclipse, Visual Studio)
ฉันใช้ RStudio สำหรับการเขียนโปรแกรม R ฉันจำเกี่ยวกับ IDE-s ที่มั่นคงจากกองเทคโนโลยีอื่น ๆ เช่น Visual Studio หรือ Eclipse ฉันมีสองคำถาม: มีการใช้ IDE-s อื่นใดนอกเหนือจาก RStudio (โปรดพิจารณาให้คำอธิบายสั้น ๆ กับพวกเขา) มีผู้ใดบ้างที่มีข้อได้เปรียบที่เด่นชัดกว่า RStudio? ฉันส่วนใหญ่หมายถึงคุณสมบัติการดีบัก / สร้าง / ปรับใช้นอกจากการเขียนโปรแกรมเอง (ดังนั้นโปรแกรมแก้ไขข้อความอาจไม่ใช่วิธีแก้ปัญหา)
45 r  tools  rstudio  programming 

11
ข้อมูลวิทยาศาสตร์ใน C (หรือ C ++)
ฉันเป็นRโปรแกรมเมอร์ภาษา ฉันยังอยู่ในกลุ่มคนที่ถือว่าเป็นนักวิทยาศาสตร์ด้านข้อมูล แต่มาจากสาขาวิชาการที่ไม่ใช่ CS สิ่งนี้ทำงานได้ดีในบทบาทของฉันในฐานะนักวิทยาศาสตร์ข้อมูล แต่ด้วยการเริ่มต้นอาชีพของฉันRและมีความรู้พื้นฐานเกี่ยวกับภาษาสคริปต์ / เว็บภาษาอื่น ๆ ฉันรู้สึกไม่เพียงพอใน 2 ประเด็นสำคัญ: ขาดความรู้ที่เป็นของแข็งเกี่ยวกับทฤษฎีการเขียนโปรแกรม ขาดระดับการแข่งขันของทักษะในภาษาได้เร็วขึ้นและกว้างขวางมากขึ้นมาใช้เช่นC, C++และJavaซึ่งสามารถนำมาใช้ในการเพิ่มความเร็วของท่อและข้อมูลขนาดใหญ่การคำนวณเช่นเดียวกับการสร้าง DS / ผลิตภัณฑ์ข้อมูลซึ่งสามารถได้รับการพัฒนามากขึ้นอย่างรวดเร็วเข้าไปอย่างรวดเร็ว สคริปต์แบ็คเอนด์หรือแอพพลิเคชันแบบสแตนด์อโลน วิธีแก้ปัญหานั้นง่ายมาก - ไปเรียนรู้เกี่ยวกับการเขียนโปรแกรมซึ่งเป็นสิ่งที่ฉันทำโดยลงทะเบียนในบางคลาส (ปัจจุบันคือการเขียนโปรแกรม C) อย่างไรก็ตามตอนนี้ฉันเริ่มที่จะแก้ไขปัญหาที่ # 1 และ # 2 ข้างต้นแล้วฉันก็ถามตัวเองว่า " ภาษาเป็นอย่างไรCและC++วิทยาศาสตร์ข้อมูลเป็นอย่างไร? " ตัวอย่างเช่นฉันสามารถย้ายข้อมูลไปมาอย่างรวดเร็วและโต้ตอบกับผู้ใช้ได้ดี แต่สิ่งที่เกี่ยวกับการถดถอยขั้นสูงการเรียนรู้ของเครื่องการทำเหมืองข้อความและการดำเนินการทางสถิติขั้นสูงอื่น ๆ ดังนั้น. สามารถCทำงานได้ - มีเครื่องมืออะไรบ้างสำหรับสถิติขั้นสูง ML, AI และสาขาอื่น ๆ ของ Data Science หรือฉันต้องหลวมประสิทธิภาพส่วนใหญ่ที่ได้จากการเขียนโปรแกรมCด้วยการโทรหาRสคริปต์หรือภาษาอื่น ๆ …

1
ทำไม xgboost จึงเร็วกว่า GradientBoostingClassifier ของ sklearn มาก?
ฉันพยายามที่จะฝึกอบรมการยกระดับความลาดชันของตัวอย่างมากกว่า 50k ด้วยคุณสมบัติตัวเลข 100 ตัว XGBClassifierจัดการ 500 ต้นภายใน 43 วินาทีบนเครื่องของฉันในขณะที่GradientBoostingClassifierจัดการเพียง 10 ต้น (!) ใน 1 นาทีและ 2 วินาที :( ฉันไม่ได้พยายามที่จะเติบโต 500 ต้นเพราะจะใช้เวลาหลายชั่วโมงฉันใช้แบบเดียวกันlearning_rateและmax_depthการตั้งค่า ดูด้านล่าง อะไรทำให้ XGBoost เร็วขึ้นมาก? มันใช้การปรับแต่งแบบใหม่เพื่อส่งเสริมการไล่ระดับสีที่พวก sklearn ไม่รู้หรือไม่? หรือว่า "ตัดมุม" และปลูกต้นไม้ที่ตื้นขึ้น? ป.ล. ฉันตระหนักถึงการสนทนานี้: https://www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-surveyแต่ไม่สามารถหาคำตอบได้ที่นั่น ... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

5
ทำให้แผนที่ความร้อนของทะเลใหญ่ขึ้น
ฉันสร้างcorr()df จาก df ดั้งเดิม corr()DF ออก 70 X 70 มาและมันเป็นไปไม่ได้ที่จะเห็นภาพ heatmap ส sns.heatmap(df)... ถ้าฉันพยายามที่จะแสดงcorr = df.corr()ตารางที่ไม่พอดีกับหน้าจอและฉันสามารถดูความสัมพันธ์ทั้งหมด มันเป็นวิธีที่จะพิมพ์ทั้งdfโดยไม่คำนึงถึงขนาดของมันหรือเพื่อควบคุมขนาดของ heatmap หรือไม่?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

6
Excel มีความเพียงพอสำหรับวิทยาศาสตร์ข้อมูลหรือไม่
ฉันกำลังอยู่ระหว่างการเตรียมการสอนหลักสูตรเบื้องต้นเกี่ยวกับวิทยาศาสตร์ข้อมูลโดยใช้ภาษาการเขียนโปรแกรม R ผู้ชมของฉันคือนักศึกษาระดับปริญญาตรีสาขาวิชาธุรกิจ ปริญญาตรีธุรกิจทั่วไปไม่มีประสบการณ์ในการเขียนโปรแกรมคอมพิวเตอร์ แต่ได้เรียนสองสามวิชาที่ใช้ Excel โดยส่วนตัวแล้วฉันรู้สึกสบายใจกับ R (หรือภาษาการเขียนโปรแกรมอื่น ๆ ) เพราะฉันเรียนวิชาเอกวิทยาการคอมพิวเตอร์ อย่างไรก็ตามฉันมีความรู้สึกว่านักเรียนของฉันหลายคนจะรู้สึกระแวดระวังในการเรียนรู้ภาษาการเขียนโปรแกรมเพราะมันอาจดูยากสำหรับพวกเขา ฉันมีความคุ้นเคยกับ Excel และฉันเชื่อว่าแม้ว่า Excel จะมีประโยชน์สำหรับวิทยาศาสตร์ข้อมูลแบบง่าย แต่ก็เป็นสิ่งจำเป็นสำหรับนักเรียนที่จะเรียนรู้ภาษาการเขียนโปรแกรมอย่างจริงจังสำหรับวิทยาศาสตร์ข้อมูล (เช่น R หรือ Python) ฉันจะโน้มน้าวใจตัวเองและนักเรียนว่า Excel ไม่เพียงพอสำหรับนักเรียนธุรกิจที่จริงจังในการเรียนวิทยาศาสตร์ข้อมูลและมันเป็นสิ่งจำเป็นสำหรับพวกเขาในการเรียนรู้การเขียนโปรแกรมบางอย่าง? แก้ไขเพื่อตอบสนองต่อความคิดเห็น นี่คือบางส่วนของหัวข้อที่ฉันจะกล่าวถึง: การประมวลผลข้อมูลและการทำความสะอาดข้อมูล วิธีจัดการตารางข้อมูลเช่นเลือกชุดย่อยของแถว (ตัวกรอง) เพิ่มตัวแปรใหม่ (กลายพันธุ์) เรียงลำดับแถวตามคอลัมน์ SQL เข้าร่วมโดยใช้แพ็คเกจdplyr วิธีการวาดแปลง (แปลงกระจาย, แปลงแท่ง, ฮิสโทแกรม ฯลฯ ) โดยใช้แพ็คเกจggplot2 วิธีการประเมินและตีความตัวแบบทางสถิติเช่นการถดถอยเชิงเส้นการถดถอยโลจิสติกส์การจำแนกต้นไม้และเพื่อนบ้านที่ใกล้ที่สุด เนื่องจากฉันไม่รู้จัก Excel เป็นอย่างดีฉันจึงไม่รู้ว่างานเหล่านี้ทั้งหมดสามารถทำได้อย่างง่ายดายใน Excel
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.