คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '


4
เวลาการคำนวณฟอเรสต์แบบสุ่มใน R
ฉันใช้แพ็คเกจปาร์ตี้ใน R ที่มี 10,000 แถวและ 34 คุณสมบัติและคุณสมบัติตัวประกอบบางอย่างมีมากกว่า 300 ระดับ เวลาในการคำนวณยาวเกินไป (ใช้เวลาประมาณ 3 ชั่วโมงและยังไม่เสร็จ) ฉันต้องการทราบว่าองค์ประกอบใดมีผลกระทบอย่างใหญ่หลวงต่อเวลาการคำนวณของฟอเรสต์แบบสุ่ม มันมีปัจจัยหลายระดับหรือไม่ มีวิธีการใดที่ได้รับการปรับแต่งเพื่อปรับปรุงเวลาประมวลผล RF หรือไม่?
48 r  random-forest 

1
วิธีการใช้มาตรฐาน / การทำให้เป็นมาตรฐานในการฝึกอบรมและชุดทดสอบหากการทำนายเป็นเป้าหมาย?
ฉันจะแปลงข้อมูลทั้งหมดหรือเท่าของฉัน (ถ้าใช้ CV) ในเวลาเดียวกันได้หรือไม่? เช่น (allData - mean(allData)) / sd(allData) ฉันจะแปลงชุดรถไฟและชุดทดสอบแยกกันได้หรือไม่? เช่น (trainData - mean(trainData)) / sd(trainData) (testData - mean(testData)) / sd(testData) หรือว่าฉันจะแปลงชุดรถไฟและใช้การคำนวณกับชุดทดสอบ? เช่น (trainData - mean(trainData)) / sd(trainData) (testData - mean(trainData)) / sd(trainData) ฉันเชื่อว่า 3 เป็นวิธีที่ถูกต้อง ถ้า 3 ถูกต้องฉันต้องกังวลเกี่ยวกับค่าเฉลี่ยไม่ใช่ 0 หรือช่วงที่ไม่อยู่ระหว่าง [0; 1] หรือ [-1; 1] (การทำให้เป็นมาตรฐาน) ของชุดทดสอบหรือไม่

7
จะเริ่มต้นด้วยสถิติสำหรับนักพัฒนาที่มีประสบการณ์
ในช่วงครึ่งแรกของปี 2558 ฉันเรียนหลักสูตร Machine Learning (โดย Andrew Ng หลักสูตร GREAT) และเรียนรู้พื้นฐานของการเรียนรู้ของเครื่อง (การถดถอยเชิงเส้น, การถดถอยโลจิสติก, SVM, Neuronal Networks ... ) นอกจากนี้ฉันยังเป็นนักพัฒนาเป็นเวลา 10 ปีดังนั้นการเรียนรู้ภาษาการเขียนโปรแกรมใหม่จะไม่เป็นปัญหา เมื่อเร็ว ๆ นี้ฉันเริ่มเรียนรู้ R เพื่อที่จะใช้อัลกอริทึมการเรียนรู้ของเครื่อง อย่างไรก็ตามฉันได้ตระหนักว่าถ้าฉันต้องการเรียนรู้ต่อไปฉันจะต้องมีความรู้ด้านสถิติอย่างเป็นทางการมากขึ้นในปัจจุบันฉันมีความรู้นอกระบบ แต่มีข้อ จำกัด อย่างเช่นฉันไม่สามารถระบุได้ว่าแบบจำลองเชิงเส้นแบบใด จะดีกว่า (ปกติฉันมักจะใช้ R-Square สำหรับมัน แต่เห็นได้ชัดว่าไม่ใช่ความคิดที่ดีมาก) ดังนั้นสำหรับฉันดูเหมือนว่าจะค่อนข้างชัดเจนว่าฉันต้องเรียนรู้พื้นฐานของสถิติ (ฉันศึกษาว่าในสถาบันเดียว แต่ลืมไปแล้วส่วนใหญ่) ที่ฉันควรเรียนรู้โปรดทราบว่าฉันไม่ต้องการหลักสูตรที่ครบวงจรจริง ๆ เพียงบางอย่าง ภายในหนึ่งเดือนให้ฉันรู้มากพอฉันจะกระตือรือร้นและเรียนรู้เพิ่มเติม :) จนถึงตอนนี้ฉันได้อ่าน " สถิติไร้น้ำตา " แล้วมีคำแนะนำอื่น ๆ อีกไหม?

5
R - QQPlot: วิธีการดูว่ามีการกระจายข้อมูลตามปกติ
ฉันได้วางแผนเรื่องนี้หลังจากที่ฉันทำการทดสอบตามปกติ การทดสอบแสดงให้เห็นว่ามีโอกาสที่ประชากรจะกระจายตัวตามปกติ อย่างไรก็ตามวิธีดู "พฤติกรรม" นี้ในพล็อตนี้ UPDATE ฮิสโตแกรมอย่างง่ายของข้อมูล: UPDATE การทดสอบของ Shapiro-Wilk พูดว่า:

4
จะเลือกชุดย่อยการถดถอยโลจิสติกได้อย่างไร?
ฉันเหมาะกับครอบครัวทวินามใน glm และฉันมีกลุ่มของตัวแปรอธิบายทั้งหมดและฉันต้องการค้นหาสิ่งที่ดีที่สุด (R-squared เนื่องจากการวัดเป็นเรื่องปกติ) สั้น ๆ ในการเขียนสคริปต์เพื่อวนผ่านชุดค่าผสมที่แตกต่างกันของตัวแปรอธิบายแล้วการบันทึกที่มีประสิทธิภาพดีที่สุดฉันไม่รู้ว่าจะทำอย่างไร และleapsฟังก์ชั่นจากแพคเกจกระโดดดูเหมือนจะไม่ถดถอยโลจิสติก ความช่วยเหลือหรือข้อเสนอแนะใด ๆ ที่จะได้รับการชื่นชมอย่างมาก
47 r  logistic 

5
ซอร์สโค้ด R แพ็กเกจแรกเพื่อศึกษาในการเตรียมการเขียนแพ็กเกจของตัวเอง
ฉันวางแผนที่จะเริ่มเขียนแพ็คเกจ R ฉันคิดว่ามันเป็นการดีที่จะศึกษาซอร์สโค้ดของแพ็กเกจที่มีอยู่เพื่อเรียนรู้ข้อตกลงการสร้างแพ็กเกจ เกณฑ์ของฉันสำหรับแพ็คเกจที่ดีในการศึกษา: แนวคิดทางสถิติ / ทางเทคนิคอย่างง่าย : ประเด็นคือเพื่อเรียนรู้เกี่ยวกับกลไกการสร้างบรรจุภัณฑ์ การทำความเข้าใจกับแพ็คเกจไม่จำเป็นต้องมีความรู้เฉพาะโดเมนอย่างละเอียดเกี่ยวกับหัวข้อจริงของแพ็คเกจ สไตล์การเขียนโปรแกรมที่เรียบง่ายและธรรมดา : ฉันกำลังมองหาบางสิ่งที่มากกว่าHello Worldแต่ไม่มากไปกว่านี้อีกแล้ว เทคนิคและไอเดียการซิงค์จะเบี่ยงเบนความสนใจเมื่อเรียนรู้แพ็กเกจ R ครั้งแรก รูปแบบการเข้ารหัสที่ดี : รหัสนั้นเขียนได้ดี มันแสดงให้เห็นทั้งความเข้าใจในการเขียนโปรแกรมที่ดีโดยทั่วไปและการรับรู้ถึงอนุสัญญาของการเข้ารหัสในอาร์ คำถาม: แพ็คเกจไหนดีที่จะเรียน? ทำไมรหัสแหล่งข้อมูลแพ็กเกจที่แนะนำจะดีต่อการศึกษาเทียบกับเกณฑ์ที่กล่าวถึงข้างต้นหรือเกณฑ์อื่น ๆ ที่อาจเกี่ยวข้อง Update (13/12/2010) การ ติดตามความคิดเห็นของเดิร์คฉันต้องการทำให้ชัดเจนว่าไม่ต้องสงสัยเลยว่าแพคเกจมากมายจะเป็นการดีที่จะศึกษาก่อน ฉันยอมรับด้วยว่าแพคเกจจะให้แบบจำลองสำหรับสิ่งต่าง ๆ (เช่น vignettes, คลาส S3, คลาส S4, การทดสอบหน่วย, Roxygen ฯลฯ ) อย่างไรก็ตามมันน่าสนใจที่จะอ่านคำแนะนำที่เป็นรูปธรรมเกี่ยวกับแพ็คเกจที่ดีที่จะเริ่มต้นและสาเหตุที่พวกเขาจะเป็นแพ็คเกจที่ดีที่จะเริ่มต้นด้วย ฉันได้อัปเดตคำถามข้างต้นด้วยเพื่ออ้างถึง "แพ็คเกจ" แทนที่จะเป็น "แพ็คเกจ"
47 r 

3
เป็นไปได้ไหมที่จะทำการจัดกลุ่มอนุกรมเวลาตามรูปร่างโค้ง
ฉันมีข้อมูลการขายสำหรับร้านค้าต่างๆและต้องการจัดหมวดหมู่พวกเขาตามรูปร่างของเส้นโค้งเมื่อเวลาผ่านไป ข้อมูลดูเหมือนประมาณนี้ (แต่เห็นได้ชัดว่าไม่ได้สุ่มและมีข้อมูลขาดหายไป): n.quarters <- 100 n.stores <- 20 if (exists("test.data")){ rm(test.data) } for (i in 1:n.stores){ interval <- runif(1, 1, 200) new.df <- data.frame( var0 = interval + c(0, cumsum(runif(49, -5, 5))), date = seq.Date(as.Date("1990-03-30"), by="3 month", length.out=n.quarters), store = rep(paste("Store", i, sep=""), n.quarters)) if (exists("test.data")){ test.data <- rbind(test.data, …

5
วิธีการคำนวณหลอก -
การเขียนของ Christopher Manning เกี่ยวกับการถดถอยโลจิสติกใน Rแสดงการถดถอยโลจิสติกใน R ดังนี้: ced.logr <- glm(ced.del ~ cat + follows + factor(class), family=binomial) เอาท์พุทบาง: > summary(ced.logr) Call: glm(formula = ced.del ~ cat + follows + factor(class), family = binomial("logit")) Deviance Residuals: Min 1Q Median 3Q Max -3.24384 -1.34325 0.04954 1.01488 6.40094 Coefficients: Estimate Std. Error z …

3
การแปลความหมายของตัวทำนายการแปลงสภาพบันทึกและ / หรือการตอบสนอง
ฉันสงสัยว่ามันจะสร้างความแตกต่างในการตีความไม่ว่าจะเป็นเพียงขึ้นอยู่กับทั้งขึ้นอยู่กับและเป็นอิสระหรือตัวแปรอิสระเท่านั้นที่ถูกเปลี่ยนเข้าสู่ระบบ พิจารณากรณีของ log(DV) = Intercept + B1*IV + Error ฉันสามารถตีความ IV เป็นเปอร์เซ็นต์เพิ่มขึ้น แต่จะเปลี่ยนแปลงได้อย่างไรเมื่อฉันมี log(DV) = Intercept + B1*log(IV) + Error หรือเมื่อฉันมี DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

2
วิธีการจำลองข้อมูลเทียมสำหรับการถดถอยโลจิสติก?
ฉันรู้ว่าฉันไม่มีอะไรในการทำความเข้าใจเกี่ยวกับการถดถอยโลจิสติกและขอขอบคุณสำหรับความช่วยเหลือ เท่าที่ฉันเข้าใจแล้วการถดถอยโลจิสติกถือว่าความน่าจะเป็นของผลลัพธ์ '1' ที่ได้รับจากอินพุตคือการรวมกันเชิงเส้นของอินพุตที่ส่งผ่านฟังก์ชันผกผัน - โลจิสติกส์ นี่คือสุดขั้วในรหัส R ต่อไปนี้: #create data: x1 = rnorm(1000) # some continuous variables x2 = rnorm(1000) z = 1 + 2*x1 + 3*x2 # linear combination with a bias pr = 1/(1+exp(-z)) # pass through an inv-logit function y = pr > 0.5 # take …

5
ใช้ R ออนไลน์ - โดยไม่ต้องติดตั้ง [ปิด]
มีความเป็นไปได้ที่จะใช้ R ใน webinterface โดยไม่จำเป็นต้องติดตั้งหรือไม่ ฉันมีสคริปต์ตัวเล็ก ๆ เพียงตัวเดียวซึ่งฉันชอบเรียกใช้ แต่ฉันต้องการให้ภาพโดยไม่ต้องใช้ขั้นตอนการติดตั้งนาน ขอขอบคุณ.
45 r 

3
Deviance คืออะไร (โดยเฉพาะใน CART / rpart)
"Deviance" คืออะไรคำนวณอย่างไรและการใช้งานในด้านต่าง ๆ ของสถิติคืออะไร โดยเฉพาะอย่างยิ่งฉันมีความสนใจเป็นการส่วนตัวในการใช้งาน CART (และการนำไปใช้ใน rpart ใน R) ฉันถามสิ่งนี้เนื่องจากบทความ wikiดูเหมือนว่าค่อนข้างขาดและข้อมูลเชิงลึกของคุณจะได้รับการต้อนรับมากที่สุด
45 r  cart  rpart  deviance 

3
มีความแตกต่างระหว่าง lm และ glm สำหรับตระกูล gaussian ของ glm หรือไม่?
โดยเฉพาะผมต้องการที่จะทราบว่ามีความแตกต่างระหว่างและlm(y ~ x1 + x2) glm(y ~ x1 + x2, family=gaussian)ฉันคิดว่ากรณีเฉพาะของ glm นี้เท่ากับ lm ฉันผิดหรือเปล่า?

1
วิธีการตีความ type I, type II และ type III ANOVA และ MANOVA
คำถามหลักของฉันคือวิธีการตีความเอาท์พุท (ค่าสัมประสิทธิ์ F, P) เมื่อดำเนินการวิเคราะห์ความแปรปรวนแบบที่ 1 (เรียงลำดับ)? ปัญหาการวิจัยเฉพาะของฉันซับซ้อนกว่าเล็กน้อยดังนั้นฉันจะแบ่งตัวอย่างเป็นส่วน ๆ ก่อนอื่นถ้าฉันสนใจผลของความหนาแน่นของแมงมุม (X1) ต่อการเจริญเติบโตของพืช (Y1) และฉันปลูกต้นกล้าในเปลือกและความหนาแน่นของแมงมุมที่จัดการแล้วฉันสามารถวิเคราะห์ข้อมูลด้วยการวิเคราะห์ความแปรปรวนแบบง่ายหรือเชิงเส้น ถ้าเช่นนั้นฉันจะใช้ Type I, II หรือ III Sum of Squares (SS) สำหรับ ANOVA ของฉัน ในกรณีของฉันฉันมี 4 ซ้ำของ 5 ระดับความหนาแน่นดังนั้นฉันสามารถใช้ความหนาแน่นเป็นปัจจัยหรือเป็นตัวแปรต่อเนื่อง ในกรณีนี้ฉันชอบที่จะตีความว่ามันเป็นตัวแปรอิสระ (ทำนาย) อย่างต่อเนื่อง ใน RI อาจเรียกใช้สิ่งต่อไปนี้: lm1 <- lm(y1 ~ density, data = Ena) summary(lm1) anova(lm1) การใช้งานฟังก์ชั่น anova …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.