คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

3
ใช้ glm () แทนการทดสอบไคสแควร์อย่างง่าย
ฉันสนใจที่จะเปลี่ยนสมมติฐานว่างที่ใช้glm()ใน R ตัวอย่างเช่น: x = rbinom(100, 1, .7) summary(glm(x ~ 1, family = "binomial")) การทดสอบสมมติฐานที่ว่า0.5 ถ้าฉันต้องการเปลี่ยนค่า null เป็น = ค่าที่กำหนดเองภายในจะทำอย่างไร p=0.5p=0.5p = 0.5pppglm() ฉันรู้ว่าสิ่งนี้สามารถทำได้ด้วยprop.test()และchisq.test()แต่ฉันต้องการสำรวจความคิดของการใช้glm()เพื่อทดสอบสมมติฐานทั้งหมดที่เกี่ยวข้องกับข้อมูลเด็ดขาด

1
วิธีการพอดีกับแบบผสมกับตัวแปรการตอบสนองระหว่าง 0 และ 1
ฉันกำลังพยายามใช้lme4::glmer()ให้พอดีกับแบบจำลองผสมแบบทวินามทั่วไป (GLMM) กับตัวแปรตามที่ไม่ใช่ไบนารี แต่เป็นตัวแปรต่อเนื่องระหว่างศูนย์ถึงหนึ่ง ใคร ๆ ก็นึกถึงตัวแปรนี้ว่าเป็นความน่าจะเป็น ในความเป็นจริงมันเป็นความน่าจะเป็นตามรายงานของมนุษย์ (ในการทดลองที่ฉันช่วยวิเคราะห์) คือมันไม่ใช่เศษส่วนแบบแยก แต่เป็นตัวแปรต่อเนื่อง glmer()สายของฉันไม่ทำงานตามที่คาดไว้ (ดูด้านล่าง) ทำไม? ฉันควรทำอย่างไร แก้ไขในภายหลัง: คำตอบของฉันด้านล่างกว้างกว่าคำถามเดิมของรุ่นนี้ดังนั้นฉันจึงแก้ไขคำถามให้กว้างขึ้นเช่นกัน รายละเอียดเพิ่มเติม เห็นได้ชัดว่ามันเป็นไปได้ที่จะใช้การถดถอยโลจิสติกไม่เพียง แต่สำหรับไบนารี DV แต่สำหรับ DV ต่อเนื่องระหว่างศูนย์และหนึ่ง แน่นอนเมื่อฉันวิ่ง glm(reportedProbability ~ a + b + c, myData, family="binomial") ฉันได้รับข้อความเตือน Warning message: In eval(expr, envir, enclos) : non-integer #successes in a binomial glm! แต่แบบที่สมเหตุสมผลมาก (ปัจจัยทั้งหมดเป็นหมวดหมู่ดังนั้นฉันสามารถตรวจสอบได้อย่างง่ายดายว่าการคาดการณ์แบบจำลองนั้นใกล้เคียงกับวิธีการข้ามวิชาและเป็นอย่างไร) …

1
การเขียนสมการทางคณิตศาสตร์สำหรับแบบจำลองเอฟเฟกต์หลายระดับ
คำถาม CV ฉันกำลังพยายามให้รายละเอียดทางคณิตศาสตร์ที่ละเอียดและรัดกุมกับโมเดลเอฟเฟกต์ผสม ฉันใช้lme4แพ็กเกจใน R การแสดงทางคณิตศาสตร์ที่ถูกต้องสำหรับโมเดลของฉันคืออะไร ข้อมูลคำถามวิทยาศาสตร์และรหัส R ชุดข้อมูลของฉันประกอบด้วยสปีชีส์ในภูมิภาคต่างๆ ฉันกำลังทดสอบว่าความชุกของเผ่าพันธุ์เปลี่ยนแปลงในเวลาที่นำไปสู่การสูญพันธุ์หรือไม่ (การสูญพันธุ์ไม่จำเป็นต้องเป็นการถาวรมันสามารถเรียกคืน) หรือตามการล่าอาณานิคม lmer(prevalence ~ time + time:type + (1 + time + type:time | reg) + (1 + time + type:time | reg:spp)) ความชุกเป็นสัดส่วนของชั้นที่ถูกสปีชีส์ครอบครองในภูมิภาคหนึ่งปี เวลาเป็นตัวแปรต่อเนื่องที่บ่งบอกเวลาในการสูญพันธุ์หรือการล่าอาณานิคม มันเป็นบวกเสมอ Typeเป็นตัวแปรเด็ดขาดที่มีสองระดับ สองระดับนี้คือ "-" และ "+" เมื่อประเภทคือ - มันคือการตั้งอาณานิคม (ระดับเริ่มต้น) เมื่อชนิดคือ + จะเป็นการสูญพันธุ์ Regเป็นตัวแปรเด็ดขาดที่มีเก้าระดับซึ่งบ่งชี้ภูมิภาค Sppเป็นตัวแปรเด็ดขาด …

4
การเพิ่มความแม่นยำของเครื่องไล่ระดับสีจะลดลงเมื่อจำนวนการทำซ้ำเพิ่มขึ้น
ฉันกำลังทดลองกับอัลกอริทึมของเครื่องเร่งการไล่ระดับสีผ่านcaretแพ็คเกจใน R ใช้ชุดข้อมูลการรับสมัครวิทยาลัยขนาดเล็กฉันใช้รหัสต่อไปนี้: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

2
การคาดการณ์จากรุ่น BSTS (ใน R) ล้มเหลวอย่างสมบูรณ์
หลังจากอ่านโพสต์บล็อกนี้เกี่ยวกับแบบจำลองอนุกรมเวลาของ Bayesian ฉันต้องการดูการใช้สิ่งนี้ในบริบทของปัญหาที่ฉันเคยใช้ ARIMA สำหรับ ฉันมีข้อมูลบางส่วนที่มีส่วนประกอบตามฤดูกาลที่ทราบ (แต่มีเสียงดัง) มีองค์ประกอบประจำปีรายเดือนและรายสัปดาห์สำหรับเรื่องนี้และยังมีผลกระทบบางอย่างเนื่องจากวันพิเศษ (เช่นวันหยุดราชการหรือวันหยุดทางศาสนา) ฉันใช้bstsแพคเกจเพื่อใช้งานและเท่าที่ฉันสามารถบอกได้ว่าฉันไม่ได้ทำอะไรผิดพลาดถึงแม้ว่าส่วนประกอบและการคาดการณ์จะไม่ดูอย่างที่ฉันคาดไว้ ไม่ชัดเจนสำหรับฉันหากการนำไปใช้ของฉันผิดไม่สมบูรณ์หรือมีปัญหาอื่น ซีรี่ส์เต็มเวลามีลักษณะดังนี้: ฉันสามารถฝึกโมเดลในส่วนย่อยของข้อมูลและโมเดลโดยทั่วไปจะดูดีในแง่ของความพอดี (พล็อตต่ำกว่า) รหัสที่ฉันใช้ในการทำสิ่งนี้อยู่ที่นี่: library(bsts) predict_length = 90 training_cut_date <- '2015-05-01' test_cut_date <- as.Date(training_cut_date) + predict_length df = read.csv('input.tsv', sep ='\t') df$date <- as.Date(as.character(df$date),format="%Y-%m-%d") df_train = df[df$date < training_cut_date,] yts <- xts(log10(df_train$count), order.by=df_train$date) ss <- AddLocalLinearTrend(list(), yts) ss <- …
15 r  time-series  bayesian  mcmc  bsts 

1
ทำความเข้าใจเกี่ยวกับการแยกส่วนประกอบ QR
ฉันมีตัวอย่างการทำงาน (ใน R) ว่าฉันพยายามที่จะเข้าใจเพิ่มเติม ฉันใช้ Limma เพื่อสร้างแบบจำลองเชิงเส้นและฉันพยายามที่จะเข้าใจสิ่งที่เกิดขึ้นทีละขั้นตอนในการคำนวณการเปลี่ยนแปลงการพับ ฉันส่วนใหญ่พยายามคิดว่าเกิดอะไรขึ้นกับการคำนวณค่าสัมประสิทธิ์ จากสิ่งที่ฉันสามารถหาได้พบว่าการย่อยสลาย QR ใช้เพื่อให้ได้ค่าสัมประสิทธิ์ดังนั้นฉันจึงต้องมองหาคำอธิบายหรือวิธีการดูสมการทีละขั้นตอนในการคำนวณหรือทีละขั้นตอนสำหรับรหัส qr () ใน R เพื่อติดตามตัวเอง ใช้ข้อมูลต่อไปนี้: expression_data <- c(1.27135202935009, 1.41816160331787, 1.2572772420417, 1.70943398046296, 1.30290218641586, 0.632660015122616, 1.73084258791384, 0.863826352944684, 0.62481665344628, 0.356064235030147, 1.31542028558644, 0.30549909383238, 0.464963176430548, 0.132181421105667, -0.284799809563931, 0.216198538884642, -0.0841133304341238, -0.00184472290008803, -0.0924271878885008, -0.340291804468472, -0.236829711453303, 0.0529690806587626, 0.16321956624511, -0.310513510587778, -0.12970035111176, -0.126398635780533, 0.152550803185228, -0.458542514769473, 0.00243517688116406, -0.0190192219685527, 0.199329876859774, …

1
ป่าสุ่มของ Breiman ใช้ข้อมูลที่ได้รับหรือดัชนี Gini หรือไม่
ฉันต้องการทราบว่าป่าสุ่มของ Breiman (ป่าสุ่มในแพคเกจ R สุ่มป่า) ใช้เป็นเกณฑ์แยก (เกณฑ์สำหรับการเลือกคุณลักษณะ) ได้รับข้อมูลหรือดัชนี Gini หรือไม่ ฉันพยายามค้นหามันในhttp://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htmและในเอกสารสำหรับแพ็คเกจ randomForest ใน R แต่สิ่งเดียวที่ฉันพบคือดัชนี Gini สามารถใช้สำหรับ การคำนวณความสำคัญของตัวแปร

2
วิธีปรับรูปแบบการผสมสำหรับการจัดกลุ่ม
ฉันมีสองตัวแปร - X และ Y และฉันต้องทำให้คลัสเตอร์สูงสุด (และเหมาะสมที่สุด) = 5 ขอพล็อตที่เหมาะของตัวแปรเป็นดังนี้: ฉันต้องการสร้าง 5 กลุ่มจากสิ่งนี้ บางสิ่งเช่นนี้ ดังนั้นฉันคิดว่านี่คือรูปแบบผสมที่มี 5 กลุ่ม แต่ละกลุ่มมีจุดกึ่งกลางและวงกลมความเชื่อมั่นรอบ ๆ กระจุกนั้นไม่ได้สวยแบบนี้เสมอไปมันมีลักษณะดังต่อไปนี้ซึ่งบางครั้งก็มีสองกลุ่มอยู่ใกล้กันหรือหนึ่งหรือสองกลุ่มหายไปโดยสิ้นเชิง จะเหมาะสมกับรูปแบบผสมและดำเนินการจำแนก (การจัดกลุ่ม) ในสถานการณ์นี้ได้อย่างมีประสิทธิภาพ? ตัวอย่าง: set.seed(1234) X <- c(rnorm(200, 10, 3), rnorm(200, 25,3), rnorm(200,35,3), rnorm(200,65, 3), rnorm(200,80,5)) Y <- c(rnorm(1000, 30, 2)) plot(X,Y, ylim = c(10, 60), pch = 19, col …

2
การคำนวณ AIC“ ด้วยมือ” ใน R
ฉันได้ลองคำนวณ AIC ของการถดถอยเชิงเส้นใน R แต่ไม่ได้ใช้AICฟังก์ชันเช่นนี้ lm_mtcars <- lm(mpg ~ drat, mtcars) nrow(mtcars)*(log((sum(lm_mtcars$residuals^2)/nrow(mtcars))))+(length(lm_mtcars$coefficients)*2) [1] 97.98786 อย่างไรก็ตามAICให้ค่าที่แตกต่าง: AIC(lm_mtcars) [1] 190.7999 มีคนบอกฉันว่าฉันทำอะไรผิดหรือเปล่า?

1
สัญชาตญาณของตัวอย่างที่แลกเปลี่ยนได้ภายใต้สมมติฐานว่างคืออะไร
การทดสอบการเปลี่ยนรูป (เรียกอีกอย่างว่าการทดสอบแบบสุ่มการทดสอบแบบสุ่มอีกครั้งหรือการทดสอบที่แน่นอน) มีประโยชน์มากและมีประโยชน์เมื่อสมมติฐานของการแจกแจงปกติที่ต้องการโดยตัวอย่างเช่นt-testไม่พบและเมื่อการเปลี่ยนแปลงของค่าโดยการจัดอันดับ การทดสอบแบบไม่มีพารามิเตอร์Mann-Whitney-U-testจะนำไปสู่การสูญเสียข้อมูลมากขึ้น อย่างไรก็ตามไม่ควรมองข้ามสมมุติฐานข้อเดียวและข้อเดียวเพียงข้อเดียวเมื่อใช้การทดสอบชนิดนี้คือข้อสมมติฐานของความสามารถแลกเปลี่ยนได้ของตัวอย่างภายใต้สมมติฐานว่าง เป็นที่น่าสังเกตว่าวิธีการแบบนี้สามารถใช้ได้เมื่อมีตัวอย่างมากกว่าสองตัวอย่างเช่นสิ่งที่นำไปใช้ในcoinแพ็คเกจ R คุณช่วยกรุณาใช้ภาษาที่เป็นรูปเป็นร่างหรือปรีชาเชิงแนวคิดในภาษาอังกฤษธรรมดาเพื่อแสดงสมมติฐานนี้ได้หรือไม่? นี่จะมีประโยชน์มากในการอธิบายปัญหาที่ถูกมองข้ามในหมู่ผู้ที่ไม่ใช่นักสถิติเช่นฉัน หมายเหตุ: จะเป็นประโยชน์อย่างมากหากพูดถึงกรณีที่การใช้การทดสอบการเปลี่ยนแปลงไม่ถือหรือไม่ถูกต้องภายใต้สมมติฐานเดียวกัน ปรับปรุง: สมมติว่าฉันมี 50 วิชาที่รวบรวมจากคลินิกท้องถิ่นในเขตของฉันโดยการสุ่ม พวกเขาถูกสุ่มให้รับยาหรือยาหลอกในอัตราส่วน 1: 1 พวกเขาทั้งหมดถูกวัดสำหรับ Paramerter 1 Par1ที่ V1 (พื้นฐาน), V2 (3 เดือนต่อมา) และ V3 (1 ปีต่อมา) วิชาทั้งหมด 50 กลุ่มสามารถแบ่งเป็น 2 กลุ่มตามคุณสมบัติ A; ค่าบวก = 20 และค่าลบ = 30 นอกจากนี้ยังสามารถจัดกลุ่มย่อยได้อีก 2 กลุ่มตามคุณลักษณะ B; B positive = …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

1
การแปลงแปลงการติดตามตัวแปร LASSO
ฉันยังใหม่กับglmnetแพ็คเกจและฉันก็ยังไม่แน่ใจว่าจะตีความผลลัพธ์ได้อย่างไร ใครช่วยกรุณาอ่านพล็อตการติดตามต่อไปนี้ได้ไหม กราฟได้มาจากการรันสิ่งต่อไปนี้: library(glmnet) return <- matrix(ret.ff.zoo[which(index(ret.ff.zoo)==beta.df$date[2]), ]) data <- matrix(unlist(beta.df[which(beta.df$date==beta.df$date[2]), ][ ,-1]), ncol=num.factors) model <- cv.glmnet(data, return, standardize=TRUE) op <- par(mfrow=c(1, 2)) plot(model$glmnet.fit, "norm", label=TRUE) plot(model$glmnet.fit, "lambda", label=TRUE) par(op)

1
จะตีความค่าสัมประสิทธิ์จากการถดถอยเบต้าได้อย่างไร?
ฉันมีข้อมูลบางอย่างที่ถูกล้อมรอบระหว่าง 0 และ 1 ฉันได้ใช้betaregแพคเกจใน R เพื่อให้พอดีกับรูปแบบการถดถอยกับข้อมูลที่ถูกผูกไว้เป็นตัวแปรตาม คำถามของฉันคือฉันจะตีความสัมประสิทธิ์จากการถดถอยได้อย่างไร

5
สร้างตัวเลขสุ่มที่กระจายแบบกระจายด้วยเมทริกซ์ความแปรปรวนร่วมแบบไม่แน่นอนที่แน่นอน
ฉันประเมินเมทริกซ์ความแปรปรวนร่วมตัวอย่างของตัวอย่างและรับเมทริกซ์สมมาตร ด้วย , ผมอยากจะสร้าง -variate rn กระจายปกติ แต่เพราะฉะนั้นเราจึงจำเป็นต้องมีการสลายตัว Cholesky ของCฉันควรทำอย่างไรถ้าไม่แน่นอนแน่นอนC n CCCCCCCnnnCCCCCC

1
การพยากรณ์อนุกรมเวลาด้วยข้อมูลรายวัน: ARIMA พร้อม regressor
ฉันใช้ชุดข้อมูลการขายรายวันที่มีจุดข้อมูลรายวันประมาณ 2 ปี จากบทเรียนออนไลน์ / ตัวอย่างบางส่วนฉันพยายามระบุฤดูกาลในข้อมูล ดูเหมือนว่ามีรายสัปดาห์รายเดือนและอาจเป็นระยะ / ปีตามฤดูกาล ตัวอย่างเช่นมีวันจ่ายเงินโดยเฉพาะอย่างยิ่งในวันที่ 1 ของเดือนที่มีผลในสองสามวันในช่วงสัปดาห์ นอกจากนี้ยังมีเอฟเฟกต์วันหยุดบางอย่างซึ่งสามารถระบุได้อย่างชัดเจนโดยสังเกตจากการสังเกต เมื่อติดตั้งกับข้อสังเกตเหล่านี้ฉันได้ลองทำสิ่งต่อไปนี้: ARIMA (พร้อมArimaและauto.arimaจากแพคเกจ R- คาดการณ์) โดยใช้ regressor (และค่าเริ่มต้นอื่น ๆ ที่จำเป็นในการทำงาน) regressor ที่ฉันสร้างนั้นเป็นเมทริกซ์ที่มีค่า 0/1: ตัวแปร 11 เดือน (n-1) 12 ตัวแปรวันหยุด ไม่สามารถหาส่วนของวันจ่ายเงินได้ ... เนื่องจากมันมีผลกระทบที่ซับซ้อนกว่าที่ฉันคิดเล็กน้อย เอฟเฟกต์ payday ทำงานแตกต่างกันไปขึ้นอยู่กับวันทำงานของวันที่ 1 ของเดือน ฉันใช้ 7 (เช่นความถี่รายสัปดาห์) เพื่อทำโมเดลอนุกรมเวลา ฉันลองทดสอบ - คาดการณ์ครั้งละ 7 วัน ผลลัพธ์มีความสมเหตุสมผล: …

1
ggplot คำนวณช่วงความเชื่อมั่นสำหรับการถดถอยอย่างไร
แพ็คเกจการลงจุด R ggplot2 มีฟังก์ชั่นที่ยอดเยี่ยมที่เรียกว่าstat_smoothสำหรับการลงจุดเส้นถดถอย (หรือเส้นโค้ง) ด้วยแถบความเชื่อมั่นที่เกี่ยวข้อง อย่างไรก็ตามฉันมีเวลายากที่จะหาว่าแถบความเชื่อมั่นนี้จะถูกสร้างขึ้นได้อย่างไรในทุกครั้งที่มีการถดถอย (หรือ "วิธี") ฉันจะหาข้อมูลนี้ได้อย่างไร

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.