คำถามติดแท็ก intraclass-correlation

Intraclass correlation coefficient (ICC) วัดว่าค่าเชิงปริมาณมีความคล้ายคลึงหรือสัมพันธ์กันภายในกลุ่มมากน้อยเพียงใด ICC มีหลายเวอร์ชันและสูตรทางเลือก ความสัมพันธ์นี้ใช้เพื่อประเมินความเป็นกลุ่มของชุดข้อมูลข้อตกลงระหว่างผู้ประเมินและในการตั้งค่าอื่น ๆ

1
การคำนวณซ้ำของเอฟเฟกต์จากโมเดล lmer
ฉันเพิ่งอ่านบทความนี้ซึ่งอธิบายถึงวิธีการคำนวณความสามารถในการทำซ้ำ (ความน่าเชื่อถือหรือความสัมพันธ์ภายในอินทราเน็ต) ของการวัดผ่านการสร้างแบบจำลองเอฟเฟกต์ผสม รหัส R จะเป็น: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

1
ความสัมพันธ์ Intraclass (ICC) สำหรับการโต้ตอบ?
สมมติว่าฉันมีการวัดสำหรับแต่ละเรื่องในแต่ละเว็บไซต์ ตัวแปรสองตัวคือหัวเรื่องและไซต์เป็นที่สนใจในแง่ของการคำนวณค่าความสัมพันธ์ภายในเซลล์ (ICC) โดยทั่วไปฉันจะใช้ฟังก์ชั่นlmerจากแพคเกจ R lme4และเรียกใช้ lmer(measurement ~ 1 + (1 | subject) + (1 | site), mydata) ค่า ICC สามารถหาได้จากผลต่างสำหรับเอฟเฟกต์แบบสุ่มในโมเดลด้านบน อย่างไรก็ตามเมื่อเร็ว ๆ นี้ฉันอ่านกระดาษที่ไขปริศนาตัวฉันจริงๆ จากตัวอย่างข้างต้นผู้เขียนคำนวณค่า ICC สามค่าในกระดาษพร้อมฟังก์ชั่น lme จากแพ็คเกจ nlme: หนึ่งค่าสำหรับหัวเรื่อง, หนึ่งค่าสำหรับไซต์และค่าหนึ่งสำหรับการโต้ตอบของหัวเรื่องและไซต์ ไม่มีการให้รายละเอียดเพิ่มเติมในเอกสาร ฉันสับสนจากสองมุมมองต่อไปนี้: จะคำนวณค่า ICC ด้วย lme ได้อย่างไร? ฉันไม่รู้วิธีระบุเอฟเฟกต์สุ่มทั้งสาม (หัวเรื่องไซต์และการโต้ตอบ) ใน lme การพิจารณา ICC เป็นเรื่องที่มีความหมายจริงๆหรือไม่สำหรับการโต้ตอบของหัวเรื่องและไซต์ จากการสร้างแบบจำลองหรือมุมมองทางทฤษฎีคุณสามารถคำนวณได้ แต่ในทางแนวคิดแล้วฉันมีปัญหาในการตีความการโต้ตอบดังกล่าว

1
แสดงให้เห็นว่าการวัด 100 ครั้งสำหรับ 5 วัตถุให้ข้อมูลน้อยกว่าการวัด 5 ครั้งสำหรับ 100 วัตถุ
ในการประชุมฉันได้ยินคำสั่งต่อไปนี้: การวัด 100 ครั้งสำหรับ 5 วิชาให้ข้อมูลน้อยกว่าการวัด 5 รายการสำหรับ 100 วิชา เห็นได้ชัดว่ามันเป็นเรื่องจริง แต่ฉันสงสัยว่าจะพิสูจน์ได้ในเชิงคณิตศาสตร์อย่างไร ... ฉันคิดว่าแบบจำลองเชิงเส้นผสมสามารถใช้งานได้ อย่างไรก็ตามฉันไม่รู้อะไรมากเกี่ยวกับคณิตศาสตร์ที่ใช้ในการประมาณค่า (ฉันเพิ่งเรียกใช้lmer4สำหรับ LMM และbmrsสำหรับ GLMMs) คุณช่วยแสดงตัวอย่างของสิ่งที่เป็นจริงได้ไหม ฉันต้องการคำตอบกับสูตรบางอย่างมากกว่าแค่บางโค้ดใน R. รู้สึกอิสระที่จะตั้งค่าอย่างง่ายเช่นตัวแบบผสมแบบเชิงเส้นที่มีการสกัดแบบสุ่มและการลาดชันแบบกระจายตามปกติ ป.ล. คำตอบทางคณิตศาสตร์ที่ไม่เกี่ยวข้องกับ LMM ก็ถือว่าใช้ได้เช่นกัน ฉันคิดถึง LMM เพราะพวกเขาดูเหมือนจะเป็นเครื่องมือตามธรรมชาติที่จะอธิบายว่าทำไมการวัดน้อยลงจากวิชาเพิ่มเติมนั้นดีกว่าการวัดเพิ่มเติมจากบางวิชา แต่ฉันอาจผิด

4
ค่าที่ถูกต้องสำหรับความแม่นยำและการเรียกคืนในกรณีขอบคืออะไร?
ความแม่นยำหมายถึง: p = true positives / (true positives + false positives) มันถูกต้องหรือไม่ที่ในฐานะtrue positivesและfalse positivesวิธีที่ 0 ความแม่นยำเข้าใกล้ 1? คำถามเดียวกันสำหรับการเรียกคืน: r = true positives / (true positives + false negatives) ขณะนี้ฉันกำลังใช้การทดสอบทางสถิติที่ฉันต้องการคำนวณค่าเหล่านี้และบางครั้งมันก็เกิดขึ้นที่ตัวส่วนเป็น 0 และฉันสงสัยว่าจะคืนค่าใดให้กับกรณีนี้ PS: ขอโทษแท็กที่ไม่เหมาะสมผมอยากจะใช้recall, precisionและlimitแต่ฉันไม่สามารถสร้างแท็กใหม่ ๆ
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

2
ความไม่ลงรอยกันครั้งใหญ่ในการประเมินความชันเมื่อกลุ่มได้รับการปฏิบัติแบบสุ่มและคงที่ในรูปแบบผสม
ฉันเข้าใจว่าเราใช้แบบจำลองเอฟเฟกต์แบบสุ่ม (หรือเอ็ฟเฟ็กต์แบบผสม) เมื่อเราเชื่อว่าพารามิเตอร์โมเดลบางตัวมีการสุ่มแตกต่างกันตามปัจจัยการจัดกลุ่ม ฉันมีความปรารถนาที่จะสร้างแบบจำลองที่การตอบสนองได้รับการทำให้เป็นมาตรฐานและเป็นศูนย์กลาง (ไม่สมบูรณ์แบบ แต่ใกล้เคียงกันมาก) กับปัจจัยการจัดกลุ่ม แต่ตัวแปรอิสระxไม่ได้ถูกปรับในทางใดทางหนึ่ง สิ่งนี้นำฉันไปสู่การทดสอบต่อไปนี้ (โดยใช้ข้อมูลที่สร้างขึ้น ) เพื่อให้แน่ใจว่าฉันจะพบผลกระทบที่ฉันกำลังมองหาถ้ามันมีอยู่จริง ฉันใช้โมเดลเอฟเฟ็กต์แบบผสมหนึ่งแบบโดยมีการสกัดแบบสุ่ม (ข้ามกลุ่มที่กำหนดโดยf) และแบบจำลองเอฟเฟกต์คงที่ที่สองโดยใช้ปัจจัย f เป็นตัวทำนายผลคงที่ ฉันใช้แพ็คเกจ R lmerสำหรับโมเดลเอฟเฟกต์ผสมและฟังก์ชั่นพื้นฐานlm()สำหรับโมเดลเอฟเฟกต์คงที่ ต่อไปนี้เป็นข้อมูลและผลลัพธ์ โปรดสังเกตว่าyโดยไม่คำนึงถึงกลุ่มจะมีค่าประมาณ 0 และxแตกต่างกันไปyตามกลุ่ม แต่จะแตกต่างกันมากในกลุ่มมากกว่าy > data y x f 1 -0.5 2 1 2 0.0 3 1 3 0.5 4 1 4 -0.6 -4 2 5 0.0 -3 2 …

4
การเพิ่มความแม่นยำของเครื่องไล่ระดับสีจะลดลงเมื่อจำนวนการทำซ้ำเพิ่มขึ้น
ฉันกำลังทดลองกับอัลกอริทึมของเครื่องเร่งการไล่ระดับสีผ่านcaretแพ็คเกจใน R ใช้ชุดข้อมูลการรับสมัครวิทยาลัยขนาดเล็กฉันใช้รหัสต่อไปนี้: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

2
ค่าสัมประสิทธิ์สหสัมพันธ์สหสัมพันธ์ (ICC) ที่มีหลายตัวแปร
สมมติว่าฉันได้วัดตัวแปรบางอย่างในพี่น้องซึ่งซ้อนกันภายในครอบครัว โครงสร้างข้อมูลมีลักษณะดังนี้: คุณค่าของครอบครัวพี่น้อง ------ ------- ----- 1 1 y_11 1 2 y_12 2 1 y_21 2 2 y_22 2 3 y_23 ... ... ... ฉันต้องการทราบความสัมพันธ์ระหว่างการวัดกับพี่น้องในครอบครัวเดียวกัน วิธีปกติในการทำเช่นนั้นคือการคำนวณ ICC ตามรูปแบบการสกัดกั้นแบบสุ่ม: res <- lme(yij ~ 1, random = ~ 1 | family, data=dat) getVarCov(res)[[1]] / (getVarCov(res)[[1]] + res$s^2) สิ่งนี้จะเทียบเท่ากับ: res <- gls(yij ~ …

2
ICC ตามความคาดหวังความสัมพันธ์ระหว่างหน่วยสุ่มสองหน่วยที่อยู่ในกลุ่มเดียวกัน
ในการสร้างแบบจำลองหลายระดับความสัมพันธ์ intraclass มักจะได้รับการคำนวณจากการสุ่มผลกระทบ ANOVA yij=γ00+uj+eijyij=γ00+uj+eij y_{ij} = \gamma_{00} + u_j + e_{ij} โดยที่เป็นค่าระดับ 2 และเป็นค่าระดับ 1 จากนั้นเราจะได้รับการประมาณและสำหรับความแปรปรวนของและตามลำดับและเสียบเข้ากับสมการต่อไปนี้:ujuju_jeijeije_{ij}σ^2uσ^u2\hat{\sigma}_u^2σ^2eσ^e2\hat{\sigma}_e^2ujuju_jeijeije_{ij} ρ=σ^2uσ^2u+σ^2eρ=σ^u2σ^u2+σ^e2 ρ = \frac{\hat{\sigma}_u^2}{\hat{\sigma}_u^2 +\hat{\sigma}_e^2} Hox (2002) เขียนบน p15ที่ ความสัมพันธ์ภายใน intraclass ρยังสามารถตีความได้ว่าเป็นความสัมพันธ์ที่คาดหวังระหว่างหน่วยสุ่มสองหน่วยที่อยู่ในกลุ่มเดียวกัน มีคำถามอยู่ที่นี่ซึ่งถามคำถามขั้นสูง (เพราะเหตุใดมันจึงมีค่าเท่ากับนี้แทนที่จะเท่ากับโดยประมาณ) และได้รับคำตอบขั้นสูง อย่างไรก็ตามฉันต้องการถามคำถามที่ง่ายกว่านี้มาก คำถาม:การพูดคุยเกี่ยวกับความสัมพันธ์ระหว่างหน่วยสุ่มสองหน่วยที่อยู่ในกลุ่มเดียวกันหมายความว่าอย่างไร ฉันมีความเข้าใจพื้นฐานเกี่ยวกับความจริงที่ว่าความสัมพันธ์ภายในอินทราเน็ตทำงานในกลุ่มและไม่ได้อยู่ในข้อมูลที่จับคู่ อย่างไรก็ตามฉันยังไม่เข้าใจว่าสามารถคำนวณความสัมพันธ์ได้อย่างไรหากเรามีหน่วยสุ่มสองกลุ่มจากกลุ่มเดียวกัน ถ้าฉันดูจุดแปลงในหน้า Wikipedia สำหรับ ICCเช่นเรามีหลายกลุ่มและหลายจุดภายในแต่ละกลุ่ม

2
เปรียบเทียบค่าสัมประสิทธิ์สหสัมพันธ์
ฉันมีชุดข้อมูลสองชุดที่มีค่า ~ 250.000 สำหรับตัวอย่าง 78 และ 35 ตัวอย่างบางส่วนเป็นสมาชิกของครอบครัวและอาจมีผลกระทบของข้อมูล ฉันคำนวณความสัมพันธ์แบบคู่และมันแตกต่างกันระหว่าง 0.7 และ 0.95 แต่อยากทราบว่ามีความแตกต่างอย่างมีนัยสำคัญในค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างครอบครัวกับครอบครัวหรือไม่? วิธีที่ดีที่สุดในการทำเช่นนี้คืออะไร? ขอบคุณ

1
ค่าสัมประสิทธิ์สหสัมพันธ์ในแบบจำลองผสมกับความลาดชันแบบสุ่ม
ฉันมีโมเดลต่อไปนี้ที่m_plotมีเอlme4::lmerฟเฟ็กต์แบบสุ่มข้ามสำหรับผู้เข้าร่วม ( lfdn) และรายการ ( content): Random effects: Groups Name Variance Std.Dev. Corr lfdn (Intercept) 172.173 13.121 role1 62.351 7.896 0.03 inference1 24.640 4.964 0.08 -0.30 inference2 52.366 7.236 -0.05 0.17 -0.83 inference3 21.295 4.615 -0.03 0.22 0.86 -0.77 content (Intercept) 23.872 4.886 role1 2.497 1.580 -1.00 inference1 18.929 4.351 …

1
ฉันจะรวมเอานวัตกรรมล้ำสมัยที่การสังเกตที่ 48 ในโมเดล ARIMA ของฉันได้อย่างไร
ฉันกำลังทำงานกับชุดข้อมูล หลังจากใช้เทคนิคการระบุตัวแบบบางอย่างฉันก็ออกมาพร้อมกับแบบจำลอง ARIMA (0,2,1) ผมใช้detectIOฟังก์ชั่นในแพคเกจTSAในการวิจัยที่จะตรวจพบนวัตกรรมขอบเขต (IO) ที่สังเกต 48th ของชุดข้อมูลเดิมของฉัน ฉันจะรวมค่าผิดปกตินี้ไว้ในแบบจำลองของฉันเพื่อที่ฉันจะสามารถใช้เพื่อวัตถุประสงค์ในการพยากรณ์ได้อย่างไร ฉันไม่ต้องการใช้แบบจำลอง ARIMAX เนื่องจากฉันอาจไม่สามารถคาดการณ์ได้จากสิ่งนั้นใน R มีวิธีอื่นที่ฉันสามารถทำได้หรือไม่ นี่คือค่านิยมของฉันตามลำดับ: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

1
สัมประสิทธิ์สหสัมพันธ์ Intraclass vs. F-test (one-way ANOVA)
ฉันสับสนเล็กน้อยเกี่ยวกับค่าสัมประสิทธิ์สหสัมพันธ์ของ intraclass และการวิเคราะห์ความแปรปรวนทางเดียว เมื่อฉันเข้าใจแล้วทั้งคู่ก็บอกคุณว่าการสังเกตแบบเดียวกันภายในกลุ่มนั้นเกี่ยวข้องกับการสังเกตในกลุ่มอื่นอย่างไร ใครช่วยอธิบายสิ่งนี้ให้ดีขึ้นได้บ้างและอาจอธิบายสถานการณ์ที่แต่ละวิธีมีประโยชน์มากกว่ากัน
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.