สถิติและข้อมูลขนาดใหญ่ r

5

ฉันอยากรู้ว่าทำไมบางภาษาเช่น R มีทั้ง NA และ NaN อะไรคือความแตกต่างหรือเท่ากัน จำเป็นหรือไม่ที่จะต้องมี NA

48 r

4

ฉันใช้แพ็คเกจปาร์ตี้ใน R ที่มี 10,000 แถวและ 34 คุณสมบัติและคุณสมบัติตัวประกอบบางอย่างมีมากกว่า 300 ระดับ เวลาในการคำนวณยาวเกินไป (ใช้เวลาประมาณ 3 ชั่วโมงและยังไม่เสร็จ) ฉันต้องการทราบว่าองค์ประกอบใดมีผลกระทบอย่างใหญ่หลวงต่อเวลาการคำนวณของฟอเรสต์แบบสุ่ม มันมีปัจจัยหลายระดับหรือไม่ มีวิธีการใดที่ได้รับการปรับแต่งเพื่อปรับปรุงเวลาประมวลผล RF หรือไม่?

48 r random-forest

1

วิธีการใช้มาตรฐาน / การทำให้เป็นมาตรฐานในการฝึกอบรมและชุดทดสอบหากการทำนายเป็นเป้าหมาย?

ฉันจะแปลงข้อมูลทั้งหมดหรือเท่าของฉัน (ถ้าใช้ CV) ในเวลาเดียวกันได้หรือไม่? เช่น (allData - mean(allData)) / sd(allData) ฉันจะแปลงชุดรถไฟและชุดทดสอบแยกกันได้หรือไม่? เช่น (trainData - mean(trainData)) / sd(trainData) (testData - mean(testData)) / sd(testData) หรือว่าฉันจะแปลงชุดรถไฟและใช้การคำนวณกับชุดทดสอบ? เช่น (trainData - mean(trainData)) / sd(trainData) (testData - mean(trainData)) / sd(trainData) ฉันเชื่อว่า 3 เป็นวิธีที่ถูกต้อง ถ้า 3 ถูกต้องฉันต้องกังวลเกี่ยวกับค่าเฉลี่ยไม่ใช่ 0 หรือช่วงที่ไม่อยู่ระหว่าง [0; 1] หรือ [-1; 1] (การทำให้เป็นมาตรฐาน) ของชุดทดสอบหรือไม่

47 r cross-validation data-transformation normalization standardization

7

จะเริ่มต้นด้วยสถิติสำหรับนักพัฒนาที่มีประสบการณ์

ในช่วงครึ่งแรกของปี 2558 ฉันเรียนหลักสูตร Machine Learning (โดย Andrew Ng หลักสูตร GREAT) และเรียนรู้พื้นฐานของการเรียนรู้ของเครื่อง (การถดถอยเชิงเส้น, การถดถอยโลจิสติก, SVM, Neuronal Networks ... ) นอกจากนี้ฉันยังเป็นนักพัฒนาเป็นเวลา 10 ปีดังนั้นการเรียนรู้ภาษาการเขียนโปรแกรมใหม่จะไม่เป็นปัญหา เมื่อเร็ว ๆ นี้ฉันเริ่มเรียนรู้ R เพื่อที่จะใช้อัลกอริทึมการเรียนรู้ของเครื่อง อย่างไรก็ตามฉันได้ตระหนักว่าถ้าฉันต้องการเรียนรู้ต่อไปฉันจะต้องมีความรู้ด้านสถิติอย่างเป็นทางการมากขึ้นในปัจจุบันฉันมีความรู้นอกระบบ แต่มีข้อ จำกัด อย่างเช่นฉันไม่สามารถระบุได้ว่าแบบจำลองเชิงเส้นแบบใด จะดีกว่า (ปกติฉันมักจะใช้ R-Square สำหรับมัน แต่เห็นได้ชัดว่าไม่ใช่ความคิดที่ดีมาก) ดังนั้นสำหรับฉันดูเหมือนว่าจะค่อนข้างชัดเจนว่าฉันต้องเรียนรู้พื้นฐานของสถิติ (ฉันศึกษาว่าในสถาบันเดียว แต่ลืมไปแล้วส่วนใหญ่) ที่ฉันควรเรียนรู้โปรดทราบว่าฉันไม่ต้องการหลักสูตรที่ครบวงจรจริง ๆ เพียงบางอย่าง ภายในหนึ่งเดือนให้ฉันรู้มากพอฉันจะกระตือรือร้นและเรียนรู้เพิ่มเติม :) จนถึงตอนนี้ฉันได้อ่าน " สถิติไร้น้ำตา " แล้วมีคำแนะนำอื่น ๆ อีกไหม?

47 r regression machine-learning references

5

R - QQPlot: วิธีการดูว่ามีการกระจายข้อมูลตามปกติ

ฉันได้วางแผนเรื่องนี้หลังจากที่ฉันทำการทดสอบตามปกติ การทดสอบแสดงให้เห็นว่ามีโอกาสที่ประชากรจะกระจายตัวตามปกติ อย่างไรก็ตามวิธีดู "พฤติกรรม" นี้ในพล็อตนี้ UPDATE ฮิสโตแกรมอย่างง่ายของข้อมูล: UPDATE การทดสอบของ Shapiro-Wilk พูดว่า:

47 r data-visualization normal-distribution histogram qq-plot

4

จะเลือกชุดย่อยการถดถอยโลจิสติกได้อย่างไร?

ฉันเหมาะกับครอบครัวทวินามใน glm และฉันมีกลุ่มของตัวแปรอธิบายทั้งหมดและฉันต้องการค้นหาสิ่งที่ดีที่สุด (R-squared เนื่องจากการวัดเป็นเรื่องปกติ) สั้น ๆ ในการเขียนสคริปต์เพื่อวนผ่านชุดค่าผสมที่แตกต่างกันของตัวแปรอธิบายแล้วการบันทึกที่มีประสิทธิภาพดีที่สุดฉันไม่รู้ว่าจะทำอย่างไร และleapsฟังก์ชั่นจากแพคเกจกระโดดดูเหมือนจะไม่ถดถอยโลจิสติก ความช่วยเหลือหรือข้อเสนอแนะใด ๆ ที่จะได้รับการชื่นชมอย่างมาก

47 r logistic

5

ซอร์สโค้ด R แพ็กเกจแรกเพื่อศึกษาในการเตรียมการเขียนแพ็กเกจของตัวเอง

ฉันวางแผนที่จะเริ่มเขียนแพ็คเกจ R ฉันคิดว่ามันเป็นการดีที่จะศึกษาซอร์สโค้ดของแพ็กเกจที่มีอยู่เพื่อเรียนรู้ข้อตกลงการสร้างแพ็กเกจ เกณฑ์ของฉันสำหรับแพ็คเกจที่ดีในการศึกษา: แนวคิดทางสถิติ / ทางเทคนิคอย่างง่าย : ประเด็นคือเพื่อเรียนรู้เกี่ยวกับกลไกการสร้างบรรจุภัณฑ์ การทำความเข้าใจกับแพ็คเกจไม่จำเป็นต้องมีความรู้เฉพาะโดเมนอย่างละเอียดเกี่ยวกับหัวข้อจริงของแพ็คเกจ สไตล์การเขียนโปรแกรมที่เรียบง่ายและธรรมดา : ฉันกำลังมองหาบางสิ่งที่มากกว่าHello Worldแต่ไม่มากไปกว่านี้อีกแล้ว เทคนิคและไอเดียการซิงค์จะเบี่ยงเบนความสนใจเมื่อเรียนรู้แพ็กเกจ R ครั้งแรก รูปแบบการเข้ารหัสที่ดี : รหัสนั้นเขียนได้ดี มันแสดงให้เห็นทั้งความเข้าใจในการเขียนโปรแกรมที่ดีโดยทั่วไปและการรับรู้ถึงอนุสัญญาของการเข้ารหัสในอาร์ คำถาม: แพ็คเกจไหนดีที่จะเรียน? ทำไมรหัสแหล่งข้อมูลแพ็กเกจที่แนะนำจะดีต่อการศึกษาเทียบกับเกณฑ์ที่กล่าวถึงข้างต้นหรือเกณฑ์อื่น ๆ ที่อาจเกี่ยวข้อง Update (13/12/2010) การ ติดตามความคิดเห็นของเดิร์คฉันต้องการทำให้ชัดเจนว่าไม่ต้องสงสัยเลยว่าแพคเกจมากมายจะเป็นการดีที่จะศึกษาก่อน ฉันยอมรับด้วยว่าแพคเกจจะให้แบบจำลองสำหรับสิ่งต่าง ๆ (เช่น vignettes, คลาส S3, คลาส S4, การทดสอบหน่วย, Roxygen ฯลฯ ) อย่างไรก็ตามมันน่าสนใจที่จะอ่านคำแนะนำที่เป็นรูปธรรมเกี่ยวกับแพ็คเกจที่ดีที่จะเริ่มต้นและสาเหตุที่พวกเขาจะเป็นแพ็คเกจที่ดีที่จะเริ่มต้นด้วย ฉันได้อัปเดตคำถามข้างต้นด้วยเพื่ออ้างถึง "แพ็คเกจ" แทนที่จะเป็น "แพ็คเกจ"

47 r

3

เป็นไปได้ไหมที่จะทำการจัดกลุ่มอนุกรมเวลาตามรูปร่างโค้ง

ฉันมีข้อมูลการขายสำหรับร้านค้าต่างๆและต้องการจัดหมวดหมู่พวกเขาตามรูปร่างของเส้นโค้งเมื่อเวลาผ่านไป ข้อมูลดูเหมือนประมาณนี้ (แต่เห็นได้ชัดว่าไม่ได้สุ่มและมีข้อมูลขาดหายไป): n.quarters <- 100 n.stores <- 20 if (exists("test.data")){ rm(test.data) } for (i in 1:n.stores){ interval <- runif(1, 1, 200) new.df <- data.frame( var0 = interval + c(0, cumsum(runif(49, -5, 5))), date = seq.Date(as.Date("1990-03-30"), by="3 month", length.out=n.quarters), store = rep(paste("Store", i, sep=""), n.quarters)) if (exists("test.data")){ test.data <- rbind(test.data, …

47 r time-series clustering

5

วิธีการคำนวณหลอก -

การเขียนของ Christopher Manning เกี่ยวกับการถดถอยโลจิสติกใน Rแสดงการถดถอยโลจิสติกใน R ดังนี้: ced.logr <- glm(ced.del ~ cat + follows + factor(class), family=binomial) เอาท์พุทบาง: > summary(ced.logr) Call: glm(formula = ced.del ~ cat + follows + factor(class), family = binomial("logit")) Deviance Residuals: Min 1Q Median 3Q Max -3.24384 -1.34325 0.04954 1.01488 6.40094 Coefficients: Estimate Std. Error z …

46 r logistic log-likelihood

3

การแปลความหมายของตัวทำนายการแปลงสภาพบันทึกและ / หรือการตอบสนอง

ฉันสงสัยว่ามันจะสร้างความแตกต่างในการตีความไม่ว่าจะเป็นเพียงขึ้นอยู่กับทั้งขึ้นอยู่กับและเป็นอิสระหรือตัวแปรอิสระเท่านั้นที่ถูกเปลี่ยนเข้าสู่ระบบ พิจารณากรณีของ log(DV) = Intercept + B1*IV + Error ฉันสามารถตีความ IV เป็นเปอร์เซ็นต์เพิ่มขึ้น แต่จะเปลี่ยนแปลงได้อย่างไรเมื่อฉันมี log(DV) = Intercept + B1*log(IV) + Error หรือเมื่อฉันมี DV = Intercept + B1*log(IV) + Error ?

46 regression data-transformation interpretation regression-coefficients logarithm r dataset stata hypothesis-testing contingency-tables hypothesis-testing statistical-significance standard-deviation unbiased-estimator t-distribution r functional-data-analysis maximum-likelihood bootstrap regression change-point regression sas hypothesis-testing bayesian randomness predictive-models nonparametric terminology parametric correlation effect-size loess mean pdf quantile-function bioinformatics regression terminology r-squared pdf maximum multivariate-analysis references data-visualization r pca r mixed-model lme4-nlme distributions probability bayesian prior anova chi-squared binomial generalized-linear-model anova repeated-measures t-test post-hoc clustering variance probability hypothesis-testing references binomial profile-likelihood self-study excel data-transformation skewness distributions statistical-significance econometrics spatial r regression anova spss linear-model

2

วิธีการจำลองข้อมูลเทียมสำหรับการถดถอยโลจิสติก?

ฉันรู้ว่าฉันไม่มีอะไรในการทำความเข้าใจเกี่ยวกับการถดถอยโลจิสติกและขอขอบคุณสำหรับความช่วยเหลือ เท่าที่ฉันเข้าใจแล้วการถดถอยโลจิสติกถือว่าความน่าจะเป็นของผลลัพธ์ '1' ที่ได้รับจากอินพุตคือการรวมกันเชิงเส้นของอินพุตที่ส่งผ่านฟังก์ชันผกผัน - โลจิสติกส์ นี่คือสุดขั้วในรหัส R ต่อไปนี้: #create data: x1 = rnorm(1000) # some continuous variables x2 = rnorm(1000) z = 1 + 2*x1 + 3*x2 # linear combination with a bias pr = 1/(1+exp(-z)) # pass through an inv-logit function y = pr > 0.5 # take …

45 r regression logistic generalized-linear-model simulation

5

ใช้ R ออนไลน์ - โดยไม่ต้องติดตั้ง [ปิด]

มีความเป็นไปได้ที่จะใช้ R ใน webinterface โดยไม่จำเป็นต้องติดตั้งหรือไม่ ฉันมีสคริปต์ตัวเล็ก ๆ เพียงตัวเดียวซึ่งฉันชอบเรียกใช้ แต่ฉันต้องการให้ภาพโดยไม่ต้องใช้ขั้นตอนการติดตั้งนาน ขอขอบคุณ.

45 r

3

Deviance คืออะไร (โดยเฉพาะใน CART / rpart)

"Deviance" คืออะไรคำนวณอย่างไรและการใช้งานในด้านต่าง ๆ ของสถิติคืออะไร โดยเฉพาะอย่างยิ่งฉันมีความสนใจเป็นการส่วนตัวในการใช้งาน CART (และการนำไปใช้ใน rpart ใน R) ฉันถามสิ่งนี้เนื่องจากบทความ wikiดูเหมือนว่าค่อนข้างขาดและข้อมูลเชิงลึกของคุณจะได้รับการต้อนรับมากที่สุด

45 r cart rpart deviance

3

มีความแตกต่างระหว่าง lm และ glm สำหรับตระกูล gaussian ของ glm หรือไม่?

โดยเฉพาะผมต้องการที่จะทราบว่ามีความแตกต่างระหว่างและlm(y ~ x1 + x2) glm(y ~ x1 + x2, family=gaussian)ฉันคิดว่ากรณีเฉพาะของ glm นี้เท่ากับ lm ฉันผิดหรือเปล่า?

45 r normal-distribution generalized-linear-model lm

1

วิธีการตีความ type I, type II และ type III ANOVA และ MANOVA

คำถามหลักของฉันคือวิธีการตีความเอาท์พุท (ค่าสัมประสิทธิ์ F, P) เมื่อดำเนินการวิเคราะห์ความแปรปรวนแบบที่ 1 (เรียงลำดับ)? ปัญหาการวิจัยเฉพาะของฉันซับซ้อนกว่าเล็กน้อยดังนั้นฉันจะแบ่งตัวอย่างเป็นส่วน ๆ ก่อนอื่นถ้าฉันสนใจผลของความหนาแน่นของแมงมุม (X1) ต่อการเจริญเติบโตของพืช (Y1) และฉันปลูกต้นกล้าในเปลือกและความหนาแน่นของแมงมุมที่จัดการแล้วฉันสามารถวิเคราะห์ข้อมูลด้วยการวิเคราะห์ความแปรปรวนแบบง่ายหรือเชิงเส้น ถ้าเช่นนั้นฉันจะใช้ Type I, II หรือ III Sum of Squares (SS) สำหรับ ANOVA ของฉัน ในกรณีของฉันฉันมี 4 ซ้ำของ 5 ระดับความหนาแน่นดังนั้นฉันสามารถใช้ความหนาแน่นเป็นปัจจัยหรือเป็นตัวแปรต่อเนื่อง ในกรณีนี้ฉันชอบที่จะตีความว่ามันเป็นตัวแปรอิสระ (ทำนาย) อย่างต่อเนื่อง ใน RI อาจเรียกใช้สิ่งต่อไปนี้: lm1 <- lm(y1 ~ density, data = Ena) summary(lm1) anova(lm1) การใช้งานฟังก์ชั่น anova …

45 r hypothesis-testing anova manova sums-of-squares

คำถามติดแท็ก r