คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

3
วิธีการรับค่า p ของสัมประสิทธิ์จากการถดถอย bootstrap?
จากQuick-Rของ Robert Kabacoff ฉันมี # Bootstrap 95% CI for regression coefficients library(boot) # function to obtain regression weights bs <- function(formula, data, indices) { d <- data[indices,] # allows boot to select sample fit <- lm(formula, data=d) return(coef(fit)) } # bootstrapping with 1000 replications results <- boot(data=mtcars, statistic=bs, R=1000, formula=mpg~wt+disp) …

1
การเปรียบเทียบสองตัวอย่างของสัดส่วนการประมาณขนาดตัวอย่าง: R กับ Stata
การเปรียบเทียบสองตัวอย่างของสัดส่วนการประมาณขนาดตัวอย่าง: R กับ Stata ฉันได้ผลลัพธ์ที่แตกต่างกันสำหรับขนาดตัวอย่างดังนี้: ในอาร์ power.prop.test(p1 = 0.70, p2 = 0.85, power = 0.90, sig.level = 0.05) ผลลัพธ์: (ดังนั้น 161) สำหรับแต่ละกลุ่มn = 160.7777n=160.7777n = 160.7777 ในStata sampsi 0.70 0.85, power(0.90) alpha(0.05) ผลลัพธ์:สำหรับแต่ละกลุ่มn = 174n=174n = 174 ทำไมถึงแตกต่าง ขอบคุณ BTW ฉันรันการคำนวณขนาดตัวอย่างเดียวกันในSAS JMPผลลัพธ์: (เกือบจะเหมือนกับผลลัพธ์ R)n = 160n=160n = 160

1
ป่าสุ่มสามารถทำได้ดีกว่าข้อผิดพลาดการทดสอบ 2.8% ใน MNIST หรือไม่?
ฉันไม่ได้พบวรรณกรรมใด ๆ เกี่ยวกับการใช้ Random Forests กับ MNIST, CIFAR, STL-10 ฯลฯ ดังนั้นฉันจึงคิดว่าฉันจะลองใช้มันด้วยMNIST ที่ไม่เปลี่ยนแปลง ในRฉันลอง: randomForest(train$x, factor(train$y), test$x, factor(test$y), ntree=500) สิ่งนี้ใช้เวลา 2 ชั่วโมงและมีข้อผิดพลาดการทดสอบ 2.8% ฉันยังได้ลองscikit เรียนรู้ด้วย RandomForestClassifier(n_estimators=2000, max_features="auto", max_depth=None) หลังจาก 70 นาทีฉันได้รับข้อผิดพลาดการทดสอบ 2.9% แต่ด้วย n_estimators = 200 แทนฉันได้รับข้อผิดพลาดการทดสอบ 2.8% หลังจากเพียง 7 นาที ด้วยOpenCVฉันพยายาม rf.train(images.reshape(-1, 28**2), cv2.CV_ROW_SAMPLE, labels.astype('int')) การดำเนินการนี้ใช้เวลา 6.5 นาทีและrfการคาดการณ์ทำให้ข้อผิดพลาดในการทดสอบ 15% ฉันไม่ทราบว่ามีต้นไม้กี่ต้นที่ได้รับการฝึกฝนเนื่องจาก …

1
บันทึกโอกาสสำหรับ GLM
ในรหัสต่อไปนี้ฉันทำการถดถอยโลจิสติกในข้อมูลที่จัดกลุ่มโดยใช้ glm และ "ด้วยมือ" โดยใช้ mle2 ทำไมฟังก์ชั่น logLik ใน R จึงให้ความเป็นไปได้ในการบันทึก logLik (fit.glm) = - 2.336 ที่แตกต่างจากหนึ่ง logLik (fit.ml) = - 5.514 ฉันได้รับด้วยมือ? library(bbmle) #successes in first column, failures in second Y <- matrix(c(1,2,4,3,2,0),3,2) #predictor X <- c(0,1,2) #use glm fit.glm <- glm(Y ~ X,family=binomial (link=logit)) summary(fit.glm) #use mle2 invlogit …

1
SMOTE พ่นข้อผิดพลาดสำหรับปัญหาความไม่สมดุลหลายระดับ
ฉันกำลังพยายามใช้ SMOTE เพื่อแก้ไขความไม่สมดุลในปัญหาการจำแนกประเภทของฉัน แม้ว่า SMOTE ทำงานได้อย่างสมบูรณ์บนชุดข้อมูล iris ตามเอกสารวิธีใช้ SMOTE แต่จะไม่ทำงานบนชุดข้อมูลที่คล้ายกัน นี่คือลักษณะของข้อมูลของฉัน หมายเหตุมันมีสามคลาสที่มีค่า 1, 2, 3 > data looking risk every status 1 0 1 0 1 2 0 0 0 1 3 0 0 0 2 4 0 0 0 1 5 0 0 0 1 6 3 0 0 …

2
AIC, ข้อผิดพลาด anova: โมเดลไม่ได้ติดตั้งทั้งหมดกับจำนวนการสังเกตเท่ากันทุกรุ่นไม่ได้พอดีกับชุดข้อมูลขนาดเดียวกันทั้งหมด
ฉันมีโมเดลเช่นนี้: require(nlme) set.seed(123) n <- 100 k <- 5 cat <- as.factor(rep(1:k, n)) cat_i <- 1:k # intercept per kategorie x <- rep(1:n, each = k) sigma <- 0.2 alpha <- 0.001 y <- cat_i[cat] + alpha * x + rnorm(n*k, 0, sigma) plot(x, y) m1 <- lm(y ~ x) …
10 r  mixed-model  aic 

4
รูปแบบประวัติเหตุการณ์แบบไม่ต่อเนื่อง (การอยู่รอด) ใน R
ฉันกำลังพยายามปรับโมเดลที่ไม่ต่อเนื่องใน R แต่ฉันไม่แน่ใจว่าจะทำอย่างไร ฉันได้อ่านแล้วว่าคุณสามารถจัดระเบียบตัวแปรตามในแถวต่างกันหนึ่งตัวสำหรับแต่ละการสังเกตเวลาและการใช้glmฟังก์ชั่นที่มีลิงค์ logit หรือ cloglog ในแง่นี้ฉันมีสามคอลัมน์: ID, Event(1 หรือ 0 ในแต่ละช่วงเวลา) และTime Elapsed(ตั้งแต่จุดเริ่มต้นของการสังเกต) รวมทั้ง covariates อื่น ๆ ฉันจะเขียนรหัสเพื่อให้พอดีกับรุ่นได้อย่างไร ตัวแปรตามคืออะไร ฉันเดาว่าฉันสามารถใช้Eventเป็นตัวแปรตามและรวมTime Elapsedอยู่ใน covariates แต่สิ่งที่เกิดขึ้นกับID? ฉันต้องการมันไหม ขอบคุณ
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

1
การระบุคำ Error () ในการวัด ANOVA ซ้ำ ๆ ใน R
ฉันกำลังมีปัญหากับการกำหนดเงื่อนไขข้อผิดพลาดสำหรับการวัด ANOVA แบบสองทางซ้ำ ๆ ในอาร์ข้อมูลของฉันประกอบด้วยการประเมินความหนาแน่นของไม้สำหรับตำแหน่งรัศมีสามตำแหน่ง (ด้านในกลางและด้านนอก) ตามแกนกลางที่สกัดจากต้นไม้ มีต้นไม้ทั้งหมด 20 ชนิด 6 บุคคลในแต่ละเผ่าพันธุ์และสองแกนจากต้นไม้แต่ละต้น ในการทดสอบผลกระทบของตำแหน่งรัศมีต่อความหนาแน่นของไม้ฉันใช้ ANOVA แบบสองทางต่อไปนี้พร้อมกับข้อความแสดงข้อผิดพลาดที่อธิบายถึงความแปรปรวนระหว่างบุคคล: radpos.aov <- aov(WD ~ Species*Radialposition + Error(Individual), data=Radpos) อย่างไรก็ตามฉันไม่แน่ใจว่าข้อกำหนดคุณสมบัติของข้อผิดพลาดเพียงพอหรือไม่ ฉันควรที่จะคำนึงถึงความแปรปรวนภายในคอร์ด้วยหรือไม่? สำหรับฉันความแปรปรวนนี้เป็นแบบเดียวกันเนื่องจากตำแหน่งในแนวรัศมีซึ่งเป็นปัจจัยหลักที่ฉันสนใจ แม้ว่าฉันจะทุ่มเทเวลาในการอ่านเกี่ยวกับการระบุคำผิดในมาตรการ ANOVA ซ้ำหลายครั้งฉันยังคงมีปัญหากับการระบุคำผิดพลาดจริง ฉันจะขอบคุณความช่วยเหลือเกี่ยวกับเรื่องนี้

2
REML vs ML stepAIC
ฉันรู้สึกท่วมท้นหลังจากพยายามขุดลงไปในวรรณคดีว่าจะใช้การวิเคราะห์แบบผสมของฉันได้อย่างไรหลังจากใช้ AIC เพื่อเลือกแบบจำลองหรือแบบจำลองที่ดีที่สุด ฉันไม่คิดว่าข้อมูลของฉันมีความซับซ้อน แต่ฉันกำลังมองหาการยืนยันว่าสิ่งที่ฉันทำถูกต้องแล้วแนะนำวิธีดำเนินการต่อ ฉันไม่แน่ใจว่าควรใช้ lme หรือ lmer หรือไม่ถ้าใช้อย่างใดอย่างหนึ่งควรใช้ REML หรือ ML ฉันมีคุณค่าในการเลือกและฉันต้องการรู้ว่า covariates ที่ดีที่สุดมีอิทธิพลต่อคุณค่านั้นและอนุญาตให้มีการคาดการณ์ นี่คือตัวอย่างข้อมูลและโค้ดสำหรับการทดสอบที่ฉันใช้: ID=as.character(rep(1:5,3)) season=c("s","w","w","s","s","s","s","w","w","w","s","w","s","w","w") time=c("n","d","d","n","d","d","n","n","n","n","n","n","d","d","d") repro=as.character(rep(1:3,5)) risk=runif(15, min=0, max=1.1) comp1=rnorm(15, mean = 0, sd = 1) mydata=data.frame(ID, season, time, repro, risk, comp1) c1.mod1<-lmer(comp1~1+(1|ID),REML=T,data=mydata) c1.mod2<-lmer(comp1~risk+(1|ID),REML=T,data=mydata) c1.mod3<-lmer(comp1~season+(1|ID),REML=T,data=mydata) c1.mod4<-lmer(comp1~repro+(1|ID),REML=T,data=mydata) c1.mod5<-lmer(comp1~time+(1|ID),REML=T,data=mydata) c1.mod6<-lmer(comp1~season+repro+time+(1|ID),REML=T,data=mydata) c1.mod7<-lmer(comp1~risk+season+season*time+(1|ID),REML=T,data=mydata) ฉันมีโมเดล 19 รุ่นที่สำรวจข้อมูลนี้ด้วยชุดค่าผสมที่หลากหลายและมีเงื่อนไขการโต้ตอบ 2 ทาง แต่จะใช้ …

3
Winbugs และ MCMC อื่น ๆ โดยไม่มีข้อมูลสำหรับการเผยแพร่ก่อนหน้า
จะเกิดอะไรขึ้นเมื่อคุณไม่มีแนวคิดเกี่ยวกับการกระจายพารามิเตอร์ เราควรใช้วิธีใด เวลาส่วนใหญ่ของเรามุ่งไปที่ขีดล่างหากตัวแปรบางตัวมีอิทธิพลเหนือการมีอยู่ / ไม่มีชนิดที่แน่นอนและตัวแปรนั้นได้รับการยอมรับหรือไม่ตามความสำคัญของตัวแปร ซึ่งหมายความว่าส่วนใหญ่เราไม่ได้คิดเกี่ยวกับการแจกแจงแบบ expetcted พารามิเตอร์ควรมี มันถูกต้องหรือไม่ที่จะสมมติว่าพารามิเตอร์ทั้งหมดเป็นไปตามการแจกแจงปกติเมื่อทุกอย่างที่ฉันรู้คือว่า b1, b2, b3 และ b4 ควรแตกต่างกันระหว่าง -2 ถึง 2 และ b0 สามารถแตกต่างกันระหว่าง -5 และ 5? model { # N observations for (i in 1:N) { species[i] ~ dbern(p[i]) logit(p[i]) <- b0 + b1*var1[i] + b2*var2[i] + b3*var3[i] + b4*var4[i] } # …
10 r  bayesian  mcmc  bugs  winbugs 

2
การตรวจสอบข้าม GAM เพื่อทดสอบข้อผิดพลาดการทำนาย
คำถามของฉันเกี่ยวกับเกมในแพ็คเกจ mgcv R เนื่องจากขนาดตัวอย่างเล็กฉันต้องการตรวจสอบข้อผิดพลาดการทำนายโดยใช้การตรวจสอบความถูกต้องแบบลาก่อน มันสมเหตุสมผลหรือไม่ ฉันมีแพคเกจหรือรหัสที่ฉันสามารถทำได้หรือไม่? errorest()ฟังก์ชั่นในIPREDแพคเกจไม่ทำงาน ชุดข้อมูลการทดสอบอย่างง่ายคือ: library(mgcv) set.seed(0) dat <- gamSim(1,n=400,dist="normal",scale=2) b<-gam(y~s(x0)+s(x1)+s(x2)+s(x3),data=dat) summary(b) pred <- predict(b, type="response") ขอบคุณมากสำหรับความช่วยเหลือของคุณ!
10 r  cross-validation  gam  mgcv 

3
วิธีการค้นหาความคล้ายคลึงกันระหว่างอนุกรมเวลา?
ในตัวอย่างต่อไปนี้ผมมีกรอบข้อมูลซึ่งประกอบด้วยอนุกรมเวลาของการวัดอุณหภูมิของน้ำบันทึกที่ 5 ระดับความลึกในมหาสมุทรที่แต่ละค่าในTempสอดคล้องกับวันที่และความลึกในDateTimeDepth set.seed(1) Temp <- rnorm(43800,sd=20) AirT <- rnorm(8760,sd=20) Depth <- c(1:5) DateTime = seq(from=as.POSIXct("2010-01-01 00:00"), to=as.POSIXct("2010-12-31 23:00"), length=8760) Time <- as.POSIXct(DateTime, format = "%Y-%m-%d %H:%M") DatT <- data.frame(Temp) ## bind together FinalDat <- cbind(DatT, Date = rep(Time,5)) FinalDat <- cbind(FinalDat, AirT = rep(AirT, 5), Depth = rep(Depth, each …

1
เป็นที่ยอมรับหรือไม่ที่เรียกใช้โมเดลเชิงเส้นสองชุดในชุดข้อมูลเดียวกัน
สำหรับการถดถอยเชิงเส้นที่มีหลายกลุ่ม (กลุ่มธรรมชาติที่กำหนดเบื้องต้น) เป็นที่ยอมรับหรือไม่ที่จะเรียกใช้สองรุ่นที่แตกต่างกันในชุดข้อมูลเดียวกันเพื่อตอบคำถามสองข้อต่อไปนี้ แต่ละกลุ่มมีความชันที่ไม่เป็นศูนย์และการสกัดกั้นที่ไม่ใช่ศูนย์และพารามิเตอร์สำหรับแต่ละกลุ่มภายในการถดถอยกลุ่มคืออะไร? มีไม่ว่าจะเป็นสมาชิกกลุ่มแนวโน้มที่ไม่เป็นศูนย์และการสกัดกั้นที่ไม่เป็นศูนย์หรือไม่และพารามิเตอร์สำหรับการถดถอยแบบกลุ่มนี้คืออะไร? ใน R, รุ่นแรกจะเป็นเพื่อให้ค่าสัมประสิทธิ์ประมาณอาจตีความได้โดยตรงขณะที่ตัดและความลาดชันสำหรับแต่ละรุ่นที่สองจะเป็นlm(y ~ group + x:group - 1) group.Thelm(y ~ x + 1) ทางเลือกจะเป็นlm(y ~ x + group + x:group + 1)ซึ่งส่งผลในตารางสรุปค่าสัมประสิทธิ์ที่ซับซ้อนภายในกลุ่มลาดและดักต้องคำนวณจากความแตกต่างในลาดและดักจากการอ้างอิงบางส่วน นอกจากนี้คุณต้องเรียงลำดับกลุ่มใหม่และเรียกใช้แบบจำลองเป็นครั้งที่สองต่อไปเพื่อรับค่า p สำหรับความแตกต่างของกลุ่มสุดท้าย (บางครั้ง) สิ่งนี้ใช้สองรุ่นแยกกันส่งผลเสียต่อการอนุมานในทางใดทางหนึ่งหรือการปฏิบัติตามมาตรฐานนี้หรือไม่? ในการพิจารณาเรื่องนี้ให้พิจารณาว่า x เป็นปริมาณยาและกลุ่มที่มีเชื้อชาติต่างกัน อาจเป็นเรื่องที่น่าสนใจที่จะทราบความสัมพันธ์ของการตอบสนองต่อขนาดยาสำหรับแพทย์เฉพาะทางหรือยาที่ใช้ในการแข่งขัน แต่บางครั้งก็น่าสนใจที่จะทราบความสัมพันธ์ของการตอบสนองต่อยาสำหรับประชากรทั้งหมด (มนุษย์) โดยไม่คำนึงถึงเชื้อชาติสำหรับเจ้าหน้าที่สาธารณสุข นี่เป็นเพียงตัวอย่างของวิธีการที่คนอาจสนใจทั้งภายในกลุ่มและระหว่างการถดถอยกลุ่ม ความสัมพันธ์ระหว่างปริมาณและการตอบสนองควรเป็นเชิงเส้นหรือไม่ไม่ใช่สิ่งสำคัญ

4
ฉันสามารถคำนวณเพียร์สันสถิติทดสอบสำหรับการขาดความพอดีกับรูปแบบการถดถอยโลจิสติกใน R?
อัตราส่วนความน่าจะเป็น (การเบี่ยงเบน aka)สถิติและการทดสอบแบบไม่พอดี (หรือความดีของความพอดี) นั้นค่อนข้างตรงไปตรงมาที่จะได้รับแบบจำลองการถดถอยแบบโลจิสติก (พอดีกับการใช้งาน) ในอาร์ ง่ายที่จะให้จำนวนเซลล์บางส่วนสิ้นสุดต่ำพอที่การทดสอบจะไม่น่าเชื่อถือ วิธีหนึ่งในการตรวจสอบความน่าเชื่อถือของการทดสอบอัตราส่วนความน่าจะเป็นสำหรับการขาดความพอดีคือการเปรียบเทียบสถิติการทดสอบและP- value กับการทดสอบไคสแควร์ของ Pearson (หรือ ) การทดสอบแบบไม่พอดีG2G2G^2glm(..., family = binomial)χ2χ2\chi^2 ทั้งglmวัตถุและsummary()วิธีการรายงานสถิติการทดสอบสำหรับการทดสอบไคสแควร์ของเพียร์สันสำหรับการขาดความพอดี ในการค้นหาของฉันสิ่งเดียวที่ฉันคิดไว้คือchisq.test()ฟังก์ชั่น (ในstatsแพ็คเกจ): เอกสารประกอบของมันบอกว่า " chisq.testทำการทดสอบตารางฉุกเฉินแบบไคสแควร์และการทดสอบความดีแบบพอดี" อย่างไรก็ตามเอกสารประกอบกระจัดกระจายในวิธีการทดสอบดังกล่าว: ถ้าxเป็นเมทริกซ์ที่มีหนึ่งแถวหรือคอลัมน์หรือถ้าxเป็นเวกเตอร์และyไม่ได้ให้ไว้จะทำการทดสอบความดี - พอดี ( xถือว่าเป็นตารางฉุกเฉินหนึ่งมิติ) รายการของxต้องเป็นจำนวนเต็มที่ไม่เป็นลบ ในกรณีนี้สมมติฐานที่ทดสอบคือความน่าจะเป็นของประชากรเท่ากับpหรือไม่เท่ากันทั้งหมดหากpไม่ได้รับ ฉันคิดว่าคุณสามารถใช้yส่วนประกอบของglmวัตถุสำหรับข้อโต้แย้งของx chisq.testอย่างไรก็ตามคุณไม่สามารถใช้fitted.valuesองค์ประกอบของglmวัตถุสำหรับการpโต้แย้งchisq.testเพราะคุณจะได้รับข้อผิดพลาด: " probabilities must sum to 1." อย่างน้อยฉันจะ (ใน R) คำนวณสถิติการทดสอบPearsonสำหรับการขาดความฟิตโดยไม่ต้องทำตามขั้นตอนด้วยตนเองได้อย่างไรχ2χ2\chi^2

1
R ตัวแปรเชิงเส้นถดถอยหมวดหมู่ "ซ่อน" ค่า
นี่เป็นเพียงตัวอย่างที่ฉันเจอหลายครั้งดังนั้นฉันจึงไม่มีข้อมูลตัวอย่าง ใช้แบบจำลองการถดถอยเชิงเส้นใน R: a.lm = lm(Y ~ x1 + x2) x1เป็นตัวแปรต่อเนื่อง x2เป็นหมวดหมู่และมีสามค่าเช่น "ต่ำ", "ปานกลาง" และ "สูง" อย่างไรก็ตามเอาต์พุตที่กำหนดโดย R จะเป็นดังนี้: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 ฉันเข้าใจว่า R แนะนำการเข้ารหัสแบบหลอกบางอย่างเกี่ยวกับปัจจัยดังกล่าว ( …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.