สถิติและข้อมูลขนาดใหญ่ r

2

Binning ที่เหมาะสมที่สุดที่เกี่ยวข้องกับตัวแปรตอบกลับที่กำหนด

ฉันกำลังมองหาวิธีการ binning ที่ดีที่สุด (discretization) ของตัวแปรต่อเนื่องที่เกี่ยวข้องกับการตอบสนองที่กำหนด (เป้าหมาย) ตัวแปรไบนารีและมีจำนวนช่วงเวลาสูงสุดเป็นพารามิเตอร์ ตัวอย่าง: ฉันมีชุดการสังเกตของผู้ที่มี "ความสูง" (ต่อเนื่องเป็นตัวเลข) และ "has_back_pains" (ไบนารี) ตัวแปร ฉันต้องการแยกความสูงออกเป็น 3 ช่วง (กลุ่ม) อย่างน้อยที่สุดด้วยสัดส่วนที่แตกต่างกันของคนที่มีอาการปวดหลังดังนั้นอัลกอริทึมจึงเพิ่มความแตกต่างระหว่างกลุ่ม (ด้วยข้อ จำกัด ที่กำหนดเช่นแต่ละช่วงเวลามีการสังเกตอย่างน้อย x) ทางออกที่ชัดเจนสำหรับปัญหานี้คือใช้ต้นไม้ตัดสินใจ (โมเดลหนึ่งตัวแปรแบบง่าย) แต่ฉันไม่สามารถหาฟังก์ชั่นใด ๆ ใน R ที่จะมี "จำนวนสาขาสูงสุด" เป็นพารามิเตอร์ - พวกเขาทั้งหมดแบ่งตัวแปร เป็น 2 gropus (<= x และ> x) SAS miner มีพารามิเตอร์ "branch branch" แต่ฉันกำลังมองหาโซลูชันที่ไม่ใช่เชิงพาณิชย์ ตัวแปรบางตัวของฉันมีค่าเฉพาะไม่กี่ค่า (และสามารถถือว่าเป็นตัวแปรแบบแยก) …

12 r dataset optimization discrete-data binning

2

อัลกอริทึมการเรียนรู้ของเครื่องสำหรับข้อมูลพาเนล

ในคำถามนี้ - มีวิธีการสร้างต้นไม้การตัดสินใจที่คำนึงถึงตัวทำนายที่มีโครงสร้าง / ลำดับชั้น / หลายระดับหรือไม่? - พวกเขาพูดถึงวิธีการข้อมูลแผงสำหรับต้นไม้ มีวิธีข้อมูลพาเนลเฉพาะสำหรับการสนับสนุน Vector Machines และ Neural Networks หรือไม่? ถ้าเป็นเช่นนั้นคุณสามารถอ้างอิงเอกสารสำหรับอัลกอริทึมและ (ถ้ามี) แพ็คเกจ R ที่ใช้งานได้หรือไม่

12 r machine-learning svm panel-data cart

1

การทดสอบชุดข้อมูลขนาดใหญ่เพื่อหาข้อได้เปรียบ - อย่างไรและเชื่อถือได้อย่างไร?

ฉันกำลังตรวจสอบส่วนหนึ่งของชุดข้อมูลของฉันที่มีค่าสองเท่า 46840 ตั้งแต่ 1 ถึง 1690 จัดกลุ่มในสองกลุ่ม เพื่อที่จะวิเคราะห์ความแตกต่างระหว่างกลุ่มเหล่านี้ฉันเริ่มต้นด้วยการตรวจสอบการกระจายของค่าเพื่อเลือกการทดสอบที่ถูกต้อง ทำตามคำแนะนำในการทดสอบความเป็นมาตรฐานฉันทำ qqplot, histogram & boxplot นี่ดูเหมือนจะไม่ใช่การแจกแจงแบบปกติ เนื่องจากไกด์ระบุค่อนข้างถูกต้องว่าการตรวจสอบเชิงกราฟิกล้วนไม่เพียงพอฉันจึงต้องการทดสอบการแจกแจงแบบปกติ เมื่อพิจารณาถึงขนาดของชุดข้อมูลและข้อ จำกัด ของการทดสอบ shapiro-wilks ใน R แล้วการแจกแจงที่ให้มาจะถูกทดสอบเพื่อความเป็นมาตรฐานและพิจารณาขนาดของชุดข้อมูลเป็นสิ่งที่น่าเชื่อถือหรือไม่ ( ดูคำตอบที่ยอมรับสำหรับคำถามนี้ ) แก้ไข: ข้อ จำกัด ของการทดสอบ Shapiro-Wilk ที่ฉันอ้างถึงคือชุดข้อมูลที่จะทดสอบนั้น จำกัด ไว้ที่ 5,000 คะแนน หากต้องการอ้างอิงคำตอบที่ดีอีกข้อเกี่ยวกับหัวข้อนี้: ปัญหาเพิ่มเติมของการทดสอบของ Shapiro-Wilk คือเมื่อคุณป้อนข้อมูลเพิ่มเติมโอกาสในการปฏิเสธสมมติฐานที่ใหญ่กว่านั้นจะกลายเป็นเรื่องใหญ่ ดังนั้นสิ่งที่เกิดขึ้นก็คือสำหรับข้อมูลจำนวนมากแม้จะตรวจพบความเบี่ยงเบนเล็ก ๆ น้อย ๆ จากภาวะปกติซึ่งนำไปสู่การปฏิเสธเหตุการณ์สมมติฐานว่างสำหรับการใช้งานจริงข้อมูลนั้นมากกว่าปกติพอ [... ] โชคดีที่ shapiro.test ปกป้องผู้ใช้จากเอฟเฟกต์ที่อธิบายข้างต้นโดย จำกัด …

12 r normal-distribution normality-assumption large-data

1

การทดสอบที่แน่นอนของฟิชเชอร์และการกระจาย hypergeometric

ฉันต้องการที่จะเข้าใจการทดสอบที่แม่นยำของฟิชเชอร์มากขึ้นดังนั้นฉันจึงคิดค้นตัวอย่างของเล่นต่อไปนี้โดยที่ f และ m สอดคล้องกับเพศชายและเพศหญิงและ n และ y สอดคล้องกับ "การบริโภคโซดา" เช่นนี้: > soda_gender f m n 0 5 y 5 0 เห็นได้ชัดว่านี่คือการทำให้เข้าใจง่ายมาก แต่ฉันไม่ต้องการให้บริบทเข้ามาขวางทาง ที่นี่ฉันเพิ่งสันนิษฐานว่าผู้ชายไม่ดื่มโซดาและหญิงดื่มโซดาและต้องการดูว่าวิธีการทางสถิติมาถึงข้อสรุปเดียวกัน เมื่อฉันทำการทดสอบฟิชเชอร์ที่แน่นอนใน R ฉันจะได้ผลลัพธ์ต่อไปนี้: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 …

12 fishers-exact hypergeometric clustering supervised-learning modeling econometrics r regression residuals heteroscedasticity independence distributions self-study matlab libsvm self-study conditional-probability conditional-expectation hypothesis-testing self-study multiple-comparisons mode statistical-significance chi-squared multiple-comparisons maximum-likelihood poisson-process optimization uncertainty genetic-algorithms bayesian model-selection overfitting maximum-likelihood optimization approximation r prediction model-evaluation r machine-learning survival neural-networks cox-model machine-learning bayesian bayesian-network hierarchical-bayesian pooling

1

จำเป็นต้องดำเนินการ preprocessing ก่อนการทำนายโดยใช้ FinalModel ของ RandomForest กับ caret package หรือไม่

ฉันใช้ชุดคาเร็ตสำหรับฝึกวัตถุสุ่มป่าด้วย 10x10CV library(caret) tc <- trainControl("repeatedcv", number=10, repeats=10, classProbs=TRUE, savePred=T) RFFit <- train(Defect ~., data=trainingSet, method="rf", trControl=tc, preProc=c("center", "scale")) หลังจากนั้นฉันทดสอบ randomForest บน testSet (ข้อมูลใหม่) RF.testSet$Prediction <- predict(RFFit, newdata=testSet) เมทริกซ์ความสับสนแสดงให้ฉันเห็นว่าแบบจำลองนั้นไม่เลว confusionMatrix(data=RF.testSet$Prediction, RF.testSet$Defect) Reference Prediction 0 1 0 886 179 1 53 126 Accuracy : 0.8135 95% CI : (0.7907, 0.8348) No …

12 r random-forest prediction caret

2

เหตุใดโมแรนฉันจึงไม่เท่ากับ“ -1” ในรูปแบบจุดกระจายอย่างสมบูรณ์แบบ

วิกิพีเดียผิด ... หรือฉันไม่เข้าใจ วิกิพีเดีย:สี่เหลี่ยมสีขาวและสีดำ ("รูปแบบหมากรุก") จะแยกย้ายกันอย่างสมบูรณ์แบบดังนั้นโมแรนฉันจะเป็น −1 หากสี่เหลี่ยมสีขาวซ้อนกันครึ่งหนึ่งของกระดานและสี่เหลี่ยมสีดำอยู่อีกอันหนึ่งโมแรนฉันจะเข้าใกล้ +1 การจัดเรียงสีแบบสุ่มจะทำให้ค่าของ Moran I ใกล้เคียงกับ 0 # Example data: x_coor<-rep(c(1:8), each=8) y_coor<-rep(c(1:8), length=64) my.values<-rep(c(1,0,1,0,1,0,1,0,0,1,0,1,0,1,0,1), length=64) rbPal <- colorRampPalette(c("darkorchid","darkorange")) my.Col <- rbPal(10)[as.numeric(cut(my.values,breaks = 10))] # plot the point pattern... plot(y_coor,x_coor,col = my.Col, pch=20, cex=8, xlim=c(0,9),ylim=c(0,9)) ดังนั้นอย่างที่คุณเห็นจุดต่าง ๆ กระจัดกระจายอย่างสมบูรณ์แบบ # Distance matrix my.dists <- …

12 r autocorrelation spatial pattern-recognition

1

การวิเคราะห์ปัจจัยแบบไดนามิกเทียบกับแบบจำลองพื้นที่ของรัฐ

แพ็คเกจ MARSS ใน R เสนอฟังก์ชันสำหรับการวิเคราะห์ตัวประกอบแบบไดนามิก ในแพคเกจนี้ตัวแบบไดนามิกแฟคเตอร์ถูกเขียนเป็นรูปแบบพิเศษของแบบจำลองพื้นที่รัฐและพวกเขาคิดว่าแนวโน้มทั่วไปเป็นไปตามกระบวนการ AR (1) เนื่องจากฉันไม่คุ้นเคยกับสองวิธีนี้ฉันจึงมาพร้อมกับคำถามสองข้อ: การวิเคราะห์ปัจจัยแบบไดนามิกเป็นรูปแบบพิเศษของแบบจำลองพื้นที่ของรัฐหรือไม่ ความแตกต่างระหว่างสองวิธีคืออะไร? นอกจากนี้การวิเคราะห์ปัจจัยแบบไดนามิกไม่จำเป็นต้องถือว่าแนวโน้มทั่วไปเป็นกระบวนการ AR (1) มีแพ็คเกจใดบ้างที่อนุญาตให้มีแนวโน้มทั่วไปว่าเป็น ARIMA ตามฤดูกาล (หรือบางอย่าง) กระบวนการ?

12 r time-series forecasting factor-analysis state-space-models

1

การจัดการแบบจำลองการถดถอยโลจิสติก

ฉันต้องการเข้าใจว่าโค้ดต่อไปนี้กำลังทำอะไร คนที่เขียนรหัสไม่สามารถใช้งานได้ที่นี่อีกต่อไปและเกือบจะไม่มีเอกสารทั้งหมด ฉันถูกขอให้ตรวจสอบโดยคนที่คิดว่า " เป็นแบบจำลองการถดถอยโลจิสติกแบบเบย์ " bglm <- function(Y,X) { # Y is a vector of binary responses # X is a design matrix fit <- glm.fit(X,Y, family = binomial(link = logit)) beta <- coef(fit) fs <- summary.glm(fit) M <- t(chol(fs$cov.unscaled)) betastar <- beta + M %*% rnorm(ncol(M)) p <- …

12 r logistic bayesian generalized-linear-model

2

การตีความพล็อต QQ

พิจารณารหัสและผลลัพธ์ต่อไปนี้: par(mfrow=c(3,2)) # generate random data from weibull distribution x = rweibull(20, 8, 2) # Quantile-Quantile Plot for different distributions qqPlot(x, "log-normal") qqPlot(x, "normal") qqPlot(x, "exponential", DB = TRUE) qqPlot(x, "cauchy") qqPlot(x, "weibull") qqPlot(x, "logistic") ดูเหมือนว่าพล็อต QQ สำหรับบันทึกปกติเกือบจะเหมือนกับพล็อต QQ สำหรับ weibull เราจะแยกแยะพวกมันได้อย่างไร นอกจากนี้หากคะแนนอยู่ในพื้นที่ที่กำหนดโดยเส้นสีดำด้านนอกสองเส้นนั่นแสดงว่ามันเป็นไปตามการแจกแจงที่ระบุหรือไม่?

12 r data-visualization interpretation qq-plot

1

ฟังก์ชันต้นทุนสำหรับการตรวจสอบแบบจำลองการถดถอยของปัวซอง

สำหรับข้อมูลนับที่ฉันรวบรวมฉันใช้การถดถอยปัวซองเพื่อสร้างแบบจำลอง ฉันไม่นี้โดยใช้ฟังก์ชั่นในการวิจัยที่ผมใช้glm family = "poisson"เพื่อประเมินตัวแบบที่เป็นไปได้ (ฉันมีตัวทำนายหลายตัว) ฉันใช้ AIC จนถึงตอนนี้ดีมาก ตอนนี้ฉันต้องการทำการตรวจสอบข้าม ฉันประสบความสำเร็จในการทำสิ่งนี้โดยใช้cv.glmฟังก์ชั่นจากbootแพ็คเกจ จากเอกสารของcv.glmฉันเห็นว่าเช่นสำหรับข้อมูลทวินามคุณต้องใช้ฟังก์ชั่นค่าใช้จ่ายเฉพาะเพื่อรับข้อผิดพลาดการทำนายที่มีความหมาย อย่างไรก็ตามฉันไม่รู้เลยว่าฟังก์ชั่นค่าใช้จ่ายใดเหมาะสมfamily = poissonและการค้นหาโดย Google ที่กว้างขวางไม่ได้ให้ผลลัพธ์ที่เฉพาะเจาะจง คำถามของฉันคือทุกคนมีแสงที่จะหลั่งซึ่งฟังก์ชันต้นทุนเหมาะสมสำหรับcv.glmกรณีของ poisson glm

12 r generalized-linear-model poisson-distribution

2

การตีความผลลัพธ์ของ k-หมายถึงการจัดกลุ่มใน R

ฉันใช้kmeansคำสั่งของ R ในการดำเนินการอัลกอริธึม k-mean บนชุดข้อมูล iris ของ Anderson ฉันมีคำถามเกี่ยวกับพารามิเตอร์บางอย่างที่ฉันได้รับ ผลลัพธ์ที่ได้คือ: Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000 0.246000 ในกรณีนี้ "คลัสเตอร์หมายถึง" หมายถึงอะไร มันหมายถึงระยะทางของวัตถุทั้งหมดในกลุ่มหรือไม่ นอกจากนี้ในส่วนสุดท้ายฉันมี: Within cluster sum of squares by cluster: [1] 15.15100 39.82097 23.87947 (between_SS / total_SS = 88.4 %) ค่านั้น 88.4% สิ่งที่สามารถตีความได้?

12 r machine-learning clustering interpretation k-means

1

การทำนาย logit สั่งใน R

ฉันพยายามทำการถดถอย logit สั่ง ฉันกำลังใช้รูปแบบเช่นนั้น (เพียงแบบจำลองโง่ ๆ ประมาณจำนวน บริษัท ในตลาดจากรายรับและมาตรการประชากร) คำถามของฉันเกี่ยวกับการทำนาย nfirm.opr<-polr(y~pop0+inc0, Hess = TRUE) pr_out<-predict(nfirm.opr) เมื่อฉันใช้ทำนาย (ซึ่งฉันพยายามใช้เพื่อให้ได้ค่า y ที่คาดการณ์) ผลลัพธ์จะเป็น 0, 3, หรือ 27 ซึ่งไม่มีทางที่จะสะท้อนให้เห็นถึงสิ่งที่ควรจะเป็นคำทำนายจากค่าสัมประสิทธิ์ของฉันเองจากค่าสัมประสิทธิ์ ประมาณการและดัก ไม่มีใครรู้ว่าจะได้รับการทำนาย "ถูกต้อง" สำหรับรุ่น logit ของฉันได้อย่างไร แก้ไข เพื่อชี้แจงข้อกังวลของฉันข้อมูลการตอบสนองของฉันมีการสังเกตในทุกระดับ >head(table(y)) y 0 1 2 3 4 5 29 21 19 27 15 16 ที่ซึ่งตัวแปรทำนายของฉันดูเหมือนจะพัวพัน > head(table(pr_out)) …

12 r econometrics logit ordered-logit

1

ฉันจะใส่โมเดลเอฟเฟกต์แบบไม่เชิงเส้นสำหรับข้อมูลการวัดซ้ำโดยใช้ nlmer () ได้อย่างไร

ฉันพยายามวิเคราะห์ข้อมูลการวัดซ้ำ ๆ และพยายามดิ้นรนเพื่อให้มันทำงานRได้ ข้อมูลของฉันเป็นหลักต่อไปนี้ฉันมีสองกลุ่มการรักษา ทุกวิชาในแต่ละกลุ่มมีการทดสอบทุกวันและได้รับคะแนน (เปอร์เซ็นต์ที่ถูกต้องในการทดสอบ) ข้อมูลอยู่ในรูปแบบยาว: Time Percent Subject Group 1 0 GK11 Ethanol 2 0 GK11 Ethanol 3 0 GK11 Ethanol 4 0 GK11 Ethanol 5 0 GK11 Ethanol 6 0 GK11 Ethanol ข้อมูลมีลักษณะเป็นเส้นโค้งโลจิสติกส์วัตถุไม่ดีในสองสามวันตามด้วยการปรับปรุงอย่างรวดเร็วตามด้วยที่ราบสูง ฉันต้องการทราบว่าการรักษามีผลต่อกราฟประสิทธิภาพการทดสอบหรือไม่ ความคิดของฉันคือการใช้nlmer()ในแพคเกจในlme4 Rฉันสามารถใส่ไลน์สำหรับแต่ละกลุ่มโดยใช้สิ่งต่อไปนี้ print(nm1 <- nlmer(Percent ~ SSlogis(Time,Asym, xmid, scal) ~ Asym | Subject, …

12 r mixed-model repeated-measures lme4-nlme

4

Bootstrap, Monte Carlo

ฉันถูกตั้งคำถามต่อไปนี้เป็นส่วนหนึ่งของการบ้าน: ออกแบบและดำเนินการศึกษาแบบจำลองเพื่อตรวจสอบประสิทธิภาพของ bootstrap เพื่อให้ได้ช่วงความเชื่อมั่น 95% จากค่าเฉลี่ยของตัวอย่างข้อมูลที่ไม่แปรเปลี่ยน การติดตั้งของคุณอาจอยู่ใน R หรือ SAS แง่มุมของประสิทธิภาพที่คุณอาจต้องการดูคือช่วงความมั่นใจช่วงเวลา (เช่นสัดส่วนช่วงเวลาความมั่นใจมีค่าเฉลี่ยจริง) และการเปลี่ยนแปลงของมอนติคาร์โล (กล่าวคือขีด จำกัด ความเชื่อมั่นสูงสุดและล่างแตกต่างกันระหว่างการจำลอง) ไม่มีใครรู้วิธีที่จะไปเกี่ยวกับแง่มุมการเปลี่ยนแปลงของ Monte Carlo นี้? ฉันไม่สามารถแม้แต่จะหาอัลกอริทึมหรืออะไรก็ได้ มันจะทำอย่างไรกับการรวม Monte Carlo? ขอบคุณ!

12 r self-study bootstrap monte-carlo

3

วิธีการสุ่มตัวอย่างใหม่ใน R โดยไม่ต้องเปลี่ยนลำดับซ้ำ?

ใน R ถ้าฉัน set.seed () จากนั้นใช้ฟังก์ชั่นตัวอย่างเพื่อสุ่มรายการฉันสามารถรับประกันได้ว่าฉันจะไม่สร้างการเปลี่ยนแปลงแบบเดียวกันหรือไม่? เช่น ... set.seed(25) limit <- 3 myindex <- seq(0,limit) for (x in seq(1,factorial(limit))) { permutations <- sample(myindex) print(permutations) } สิ่งนี้ผลิต [1] 1 2 0 3 [1] 0 2 1 3 [1] 0 3 2 1 [1] 3 1 2 0 [1] 2 3 0 …

12 r sampling combinatorics resampling

คำถามติดแท็ก r