คำถามติดแท็ก r

R เป็นภาษาการเขียนโปรแกรมแบบโอเพ่นซอร์สฟรีและสภาพแวดล้อมซอฟต์แวร์สำหรับการคำนวณทางสถิติชีวสารสนเทศและกราฟิก

15
Python vs R สำหรับการเรียนรู้ของเครื่อง
ฉันเพิ่งเริ่มพัฒนาแอปพลิเคชั่นการเรียนรู้ของเครื่องจักรเพื่อจุดประสงค์ทางวิชาการ ฉันกำลังใช้Rและฝึกฝนตัวเองอยู่ คนอย่างไรก็ตามในจำนวนมากที่ผมได้เห็นการใช้งูหลาม ผู้คนกำลังใช้อะไรในสถาบันการศึกษาและอุตสาหกรรมและคำแนะนำคืออะไร

1
วิธีรับความสัมพันธ์ระหว่างตัวแปรเด็ดขาดสองประเภทกับตัวแปรเด็ดขาดและตัวแปรต่อเนื่องได้อย่างไร
ฉันกำลังสร้างแบบจำลองการถดถอยและฉันจำเป็นต้องคำนวณด้านล่างเพื่อตรวจสอบความสัมพันธ์ ความสัมพันธ์ระหว่างตัวแปรเด็ดขาด 2 ระดับหลายระดับ ความสัมพันธ์ระหว่างตัวแปรเด็ดขาดหลายระดับและตัวแปรต่อเนื่อง VIF (ปัจจัยเงินเฟ้อความแปรปรวน) สำหรับตัวแปรเด็ดขาดหลายระดับ ฉันเชื่อว่ามันผิดที่จะใช้สัมประสิทธิ์สหสัมพันธ์ของเพียร์สันสำหรับสถานการณ์ข้างต้นเพราะเพียร์สันใช้ได้กับตัวแปร 2 ตัวต่อเนื่องเท่านั้น กรุณาตอบคำถามด้านล่าง สัมประสิทธิ์สหสัมพันธ์ใดดีที่สุดสำหรับกรณีข้างต้น การคำนวณ VIF ใช้งานได้เฉพาะกับข้อมูลต่อเนื่องดังนั้นทางเลือกอื่นคืออะไร ฉันต้องตรวจสอบสมมติฐานอะไรก่อนที่ฉันจะใช้สัมประสิทธิ์สหสัมพันธ์ที่คุณแนะนำ วิธีการนำไปใช้ใน SAS & R

9
ภาษา R เหมาะสำหรับ Big Data หรือไม่
R มีห้องสมุดหลายแห่งที่มุ่งเน้นการวิเคราะห์ข้อมูล (เช่น JAGS, BUGS, ARULES และอื่น ๆ ) และถูกกล่าวถึงในหนังสือเรียนที่ได้รับความนิยมเช่น: J.Krusche, การวิเคราะห์ข้อมูลแบบเบย์ B. Lantz, "การเรียนรู้ของเครื่องจักรด้วย R" ฉันเห็นแนวทาง 5TB สำหรับชุดข้อมูลที่ถือว่าเป็นข้อมูลขนาดใหญ่ คำถามของฉันคือ R เหมาะสมกับปริมาณข้อมูลที่มักพบในปัญหา Big Data หรือไม่? มีกลยุทธ์ที่จะใช้เมื่อใช้ R กับชุดข้อมูลขนาดนี้หรือไม่?
48 bigdata  r 

9
ทางเลือก IDE สำหรับการเขียนโปรแกรม R (RStudio, IntelliJ IDEA, Eclipse, Visual Studio)
ฉันใช้ RStudio สำหรับการเขียนโปรแกรม R ฉันจำเกี่ยวกับ IDE-s ที่มั่นคงจากกองเทคโนโลยีอื่น ๆ เช่น Visual Studio หรือ Eclipse ฉันมีสองคำถาม: มีการใช้ IDE-s อื่นใดนอกเหนือจาก RStudio (โปรดพิจารณาให้คำอธิบายสั้น ๆ กับพวกเขา) มีผู้ใดบ้างที่มีข้อได้เปรียบที่เด่นชัดกว่า RStudio? ฉันส่วนใหญ่หมายถึงคุณสมบัติการดีบัก / สร้าง / ปรับใช้นอกจากการเขียนโปรแกรมเอง (ดังนั้นโปรแกรมแก้ไขข้อความอาจไม่ใช่วิธีแก้ปัญหา)
45 r  tools  rstudio  programming 

7
จัดระเบียบกระบวนการเพื่อล้างข้อมูล
จากการเล่นน้ำกับวิทยาศาสตร์ข้อมูลโดยใช้ R ฉันได้ตระหนักว่าการล้างข้อมูลที่ไม่ดีเป็นส่วนสำคัญในการเตรียมข้อมูลสำหรับการวิเคราะห์ มีวิธีปฏิบัติหรือกระบวนการที่ดีที่สุดในการล้างข้อมูลก่อนประมวลผลหรือไม่? ถ้าเป็นเช่นนั้นมีเครื่องมืออัตโนมัติหรือกึ่งอัตโนมัติที่ใช้แนวทางปฏิบัติที่ดีที่สุดเหล่านี้หรือไม่?
34 r  data-cleaning 

1
ทำไม xgboost จึงเร็วกว่า GradientBoostingClassifier ของ sklearn มาก?
ฉันพยายามที่จะฝึกอบรมการยกระดับความลาดชันของตัวอย่างมากกว่า 50k ด้วยคุณสมบัติตัวเลข 100 ตัว XGBClassifierจัดการ 500 ต้นภายใน 43 วินาทีบนเครื่องของฉันในขณะที่GradientBoostingClassifierจัดการเพียง 10 ต้น (!) ใน 1 นาทีและ 2 วินาที :( ฉันไม่ได้พยายามที่จะเติบโต 500 ต้นเพราะจะใช้เวลาหลายชั่วโมงฉันใช้แบบเดียวกันlearning_rateและmax_depthการตั้งค่า ดูด้านล่าง อะไรทำให้ XGBoost เร็วขึ้นมาก? มันใช้การปรับแต่งแบบใหม่เพื่อส่งเสริมการไล่ระดับสีที่พวก sklearn ไม่รู้หรือไม่? หรือว่า "ตัดมุม" และปลูกต้นไม้ที่ตื้นขึ้น? ป.ล. ฉันตระหนักถึงการสนทนานี้: https://www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-surveyแต่ไม่สามารถหาคำตอบได้ที่นั่น ... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

3
Hypertuning พารามิเตอร์ XGBoost
XGBoost ทำงานได้อย่างยอดเยี่ยมเมื่อพูดถึงการจัดการกับตัวแปรตามหมวดหมู่และต่อเนื่อง แต่ฉันจะเลือกพารามิเตอร์ที่เหมาะสมสำหรับปัญหา XGBoost ได้อย่างไร นี่คือวิธีที่ฉันใช้พารามิเตอร์สำหรับปัญหา Kaggle ล่าสุด: param <- list( objective = "reg:linear", booster = "gbtree", eta = 0.02, # 0.06, #0.01, max_depth = 10, #changed from default of 8 subsample = 0.5, # 0.7 colsample_bytree = 0.7, # 0.7 num_parallel_tree = 5 # alpha = 0.0001, # lambda …
27 r  python  xgboost 

9
คอนโซล R ออนไลน์ใด ๆ
ฉันกำลังมองหาคอนโซลออนไลน์สำหรับภาษาอาร์เช่นเดียวกับฉันเขียนรหัสและเซิร์ฟเวอร์ควรดำเนินการและให้ผลลัพธ์ คล้ายกับเว็บไซต์ Datacamp
24 r  statistics 

5
อิมเมจ VM สำหรับโครงการวิทยาศาสตร์ข้อมูล
เนื่องจากมีเครื่องมือมากมายสำหรับงานด้าน data data และมันยุ่งยากในการติดตั้งทุกอย่างและสร้างระบบที่สมบูรณ์แบบ มีอิมเมจ Linux / Mac OS พร้อม Python, R และเครื่องมือวิทยาศาสตร์ข้อมูลโอเพ่นซอร์สอื่น ๆ ที่ติดตั้งและพร้อมให้คนใช้งานได้ทันทีหรือไม่? Ubuntu หรือระบบปฏิบัติการน้ำหนักเบาที่มี Python, R (รวมถึง IDEs) เวอร์ชันล่าสุดและเครื่องมือสร้างภาพข้อมูลแบบโอเพนซอร์สอื่น ๆ ที่ติดตั้งจะเหมาะสมที่สุด ฉันไม่เจอสิ่งใดในการค้นหาอย่างรวดเร็วบน Google โปรดแจ้งให้เราทราบหากมีบางคนหรือคนที่คุณสร้างขึ้นมาเพื่อตัวเอง? ฉันคิดว่ามหาวิทยาลัยบางแห่งอาจมีภาพ VM ของตัวเอง กรุณาแบ่งปันลิงค์ดังกล่าว
24 python  r  tools 

3
มีเครื่องมือจัดเก็บข้อมูลสำหรับ python / pandas คล้ายกับเครื่องมือ R tidyr หรือไม่?
ฉันกำลังทำงานกับความท้าทาย Kaggle ที่มีตัวแปรบางตัวแสดงแทนแถวแทนที่จะเป็นคอลัมน์ (Telstra Network Disruption) ขณะนี้ฉันกำลังค้นหาเทียบเท่ากับรวบรวม () แยก () และสเปรด () ซึ่งสามารถพบได้ในเครื่องมือ R tidyr

6
คุณใช้อะไรในการสร้างแดชบอร์ดใน R
ฉันต้องสร้างรายงานแดชบอร์ดการวิเคราะห์เว็บเป็นรายวัน (รายเดือน) สิ่งเหล่านี้จะคงที่และไม่ต้องการการโต้ตอบดังนั้นให้จินตนาการว่าไฟล์ PDF เป็นเอาต์พุตเป้าหมาย รายงานจะผสมตารางและแผนภูมิ (ส่วนใหญ่เป็นประกายและกราฟแสดงหัวข้อย่อยที่สร้างด้วย ggplot2) คิดว่าแดชบอร์ดสไตล์ Stephen Few / Perceptual Edge เช่น: แต่นำไปใช้กับการวิเคราะห์เว็บ คำแนะนำใด ๆ เกี่ยวกับแพ็คเกจที่จะใช้ในการสร้างรายงานแดชบอร์ดเหล่านี้ สัญชาตญาณแรกของฉันคือใช้ R markdown และ knitr แต่บางทีคุณอาจพบทางออกที่ดีกว่า ฉันไม่สามารถหาตัวอย่างมากมายของแดชบอร์ดที่สร้างจาก R
17 r  visualization 

2
แนะนำภาพยนตร์ที่มีคุณสมบัติเพิ่มเติมโดยใช้การกรองร่วมกัน
ฉันกำลังพยายามสร้างระบบการแนะนำโดยใช้การกรองร่วมกัน ฉันมี[user, movie, rating]ข้อมูลปกติ ฉันต้องการรวมคุณสมบัติเพิ่มเติมเช่น 'ภาษา' หรือ 'ระยะเวลาของภาพยนตร์' ฉันไม่แน่ใจว่าเทคนิคใดที่ฉันสามารถใช้สำหรับปัญหาดังกล่าว กรุณาแนะนำการอ้างอิงหรือแพคเกจในหลาม / R

5
ทำให้แผนที่ความร้อนของทะเลใหญ่ขึ้น
ฉันสร้างcorr()df จาก df ดั้งเดิม corr()DF ออก 70 X 70 มาและมันเป็นไปไม่ได้ที่จะเห็นภาพ heatmap ส sns.heatmap(df)... ถ้าฉันพยายามที่จะแสดงcorr = df.corr()ตารางที่ไม่พอดีกับหน้าจอและฉันสามารถดูความสัมพันธ์ทั้งหมด มันเป็นวิธีที่จะพิมพ์ทั้งdfโดยไม่คำนึงถึงขนาดของมันหรือเพื่อควบคุมขนาดของ heatmap หรือไม่?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

4
ตอนนี้แพนด้าเร็วกว่า data.table หรือไม่
https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping มาตรฐานที่ data.table ยังไม่ได้รับการปรับปรุงตั้งแต่ปี 2014 ผมได้ยินมาว่าที่ใดที่หนึ่งคือตอนนี้เร็วกว่าPandas data.tableมันเป็นเรื่องจริงเหรอ? มีใครทำเปรียบเทียบบ้างไหม? ฉันไม่เคยใช้ Python มาก่อน แต่จะพิจารณาเปลี่ยนหากpandasสามารถเอาชนะได้data.tableหรือไม่
17 python  r  pandas  data  data.table 

3
วิธีการทำนายความน่าจะเป็นใน xgboost?
ฟังก์ชันการทำนายด้านล่างให้ค่า -ve เช่นกันดังนั้นจึงไม่น่าจะเป็น param <- list(max.depth = 5, eta = 0.01, objective="binary:logistic",subsample=0.9) bst <- xgboost(param, data = x_mat, label = y_mat,nround = 3000) pred_s <- predict(bst, x_mat_s2) ฉันลองใช้ Google แล้วpred_s <- predict(bst, x_mat_s2,type="response") แต่มันไม่ทำงาน คำถาม จะทำนายความน่าจะเป็นแทนได้อย่างไร?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.