คำถามติดแท็ก paired-comparisons

5
วิธีจัดการกับข้อมูลแบบลำดับชั้น / ซ้อนในการเรียนรู้ของเครื่อง
ฉันจะอธิบายปัญหาด้วยตัวอย่าง สมมติว่าคุณต้องการที่จะทำนายรายได้ของแต่ละบุคคลที่มีคุณลักษณะบางอย่าง: {อายุ, เพศ, ประเทศ, ภูมิภาค, เมือง} คุณมีชุดข้อมูลการฝึกอบรมเช่นนั้น train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
การคำนวณซ้ำของเอฟเฟกต์จากโมเดล lmer
ฉันเพิ่งอ่านบทความนี้ซึ่งอธิบายถึงวิธีการคำนวณความสามารถในการทำซ้ำ (ความน่าเชื่อถือหรือความสัมพันธ์ภายในอินทราเน็ต) ของการวัดผ่านการสร้างแบบจำลองเอฟเฟกต์ผสม รหัส R จะเป็น: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

5
วิธีการแสดงแถบข้อผิดพลาดสำหรับการทดลองข้ามคู่
สถานการณ์ต่อไปนี้ได้กลายเป็นคำถามที่พบบ่อยที่สุดในสามผู้ตรวจสอบ (I) ผู้ตรวจสอบ / บรรณาธิการ (R ไม่เกี่ยวข้องกับ CRAN) และฉัน (M) ในฐานะผู้สร้างพล็อต เราสามารถสรุปได้ว่า (R) เป็นผู้ตรวจทานบอสใหญ่ทางการแพทย์โดยทั่วไปที่รู้ว่าแต่ละพล็อตต้องมีแถบข้อผิดพลาดมิฉะนั้นจะผิด เมื่อผู้ตรวจทานเชิงสถิติเข้ามาเกี่ยวข้องปัญหาก็สำคัญน้อยกว่ามาก สถานการณ์ ในการศึกษาทางเภสัชวิทยาทั่วไปพบว่ามีการทดสอบยา A และ B สองตัวเพื่อดูผลของระดับน้ำตาลในเลือด ผู้ป่วยแต่ละรายจะถูกทดสอบสองครั้งตามลำดับแบบสุ่มและอยู่ภายใต้ข้อสมมติว่าไม่มีการพกพา จุดสิ้นสุดหลักคือความแตกต่างระหว่างกลูโคส (BA) และเราคิดว่าการทดสอบแบบจับคู่นั้นเพียงพอแล้ว (I) ต้องการพล็อตที่แสดงระดับน้ำตาลที่แน่นอนในทั้งสองกรณี เขากลัวความต้องการของแถบข้อผิดพลาดและขอข้อผิดพลาดมาตรฐานในกราฟแท่ง อย่าเริ่มสงครามกราฟแท่งที่นี่เลย) (I): นั่นไม่เป็นความจริง แท่งมีการทับซ้อนกันและเรามี p = 0.03? นั่นไม่ใช่สิ่งที่ฉันได้เรียนรู้ในโรงเรียนมัธยม (M): เรามีการออกแบบที่จับคู่ที่นี่ แถบข้อผิดพลาดที่ร้องขอนั้นไม่เกี่ยวข้องทั้งหมดสิ่งที่นับคือ SE / CI ของความแตกต่างที่จับคู่ซึ่งไม่ได้แสดงในพล็อต ถ้าฉันมีตัวเลือกและมีข้อมูลไม่มากเกินไปฉันจะชอบพล็อตต่อไปนี้ เพิ่ม 1:นี่คือพล็อตพิกัดขนานที่กล่าวถึงในหลายคำตอบ (M): เส้นแสดงการจับคู่และเส้นส่วนใหญ่ขึ้นไปและนั่นคือความประทับใจที่ถูกต้องเพราะความลาดชันคือสิ่งที่นับได้ (ตกลงนี่คือการจัดหมวดหมู่ แต่อย่างไรก็ตาม) …

4
การเพิ่มความแม่นยำของเครื่องไล่ระดับสีจะลดลงเมื่อจำนวนการทำซ้ำเพิ่มขึ้น
ฉันกำลังทดลองกับอัลกอริทึมของเครื่องเร่งการไล่ระดับสีผ่านcaretแพ็คเกจใน R ใช้ชุดข้อมูลการรับสมัครวิทยาลัยขนาดเล็กฉันใช้รหัสต่อไปนี้: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

3
ฉันจะทำนายราคาต่อรองที่ทีมดอดจ์บอลจะชนะได้อย่างไรโดยอ้างอิงจากประวัติการชนะของผู้เล่น
ลองนึกภาพมี 80 ผู้เล่นดอดจ์บอลในโลก แต่ละคนเล่นดอดจ์บอลหลายพันเกมกับผู้เล่น 79 คนตามลำดับแบบสุ่มมากหรือน้อย นี่คือโลกที่ไม่มีทีม (เช่นผู้เล่นทุกคนมีโอกาสถูกร่างในแต่ละทีมในแต่ละเกม) ฉันรู้ว่าอัตราการชนะก่อนหน้าของผู้เล่นแต่ละคน (เช่นหนึ่งชนะ 46% ของเกมก่อนหน้านี้ทั้งหมดและอีกชนะ 56% ของเกมก่อนหน้าของเขาทั้งหมด) ให้บอกว่ามีการแข่งขันขึ้นมาและฉันรู้ว่าใครกำลังเล่นในแต่ละทีม ฉันรู้อัตราการชนะครั้งก่อนของพวกเขาด้วย วิธีที่ดีที่สุดในการคำนวณความน่าจะเป็นของแต่ละทีมที่ชนะขึ้นอยู่กับองค์ประกอบของทีมคืออะไร? หากต้องการการคำนวณขั้นสูง (เช่นการถดถอยโลจิสติก) แจ้งให้เราทราบข้อมูลเฉพาะบางอย่าง ฉันค่อนข้างคุ้นเคยกับ SPSS แต่ฉันไม่ต้องการถามคำถามติดตาม นอกจากนี้ฉันจะสำรวจความถูกต้องของวิธีการของฉันโดยใช้ข้อมูลเก็บถาวรได้อย่างไร ฉันรู้ว่ามันจะไม่ถูกตัดออกอย่างชัดเจนเนื่องจากผู้เล่นส่วนใหญ่วางตัวประมาณ 40-60% แต่ก็ยัง โดยเฉพาะเจาะจงว่าอะไรคือโอกาสที่ทีม A จะชนะ? A - ประกอบด้วยบุคคลที่มีอัตราการชนะก่อนหน้า 52%, 54%, 56%, 58%, 60% B - ประกอบด้วยบุคคลที่มีอัตราการชนะก่อนหน้านี้ 48%, 55%, 56%, 58%, 60% (นี่เป็นเพียงตัวอย่างแบบสุ่มสำหรับวัตถุประสงค์ในการอธิบายสองทีมที่ดีงาม) แก้ไข: มีวิธีเริ่มต้นด้วยอัลกอริทึมที่ง่ายมากแล้วดูว่ามันทำงานอย่างไร บางทีเราอาจสรุปเปอร์เซ็นต์ของแต่ละทีมและคาดการณ์ว่าส่วนที่มีเปอร์เซ็นต์สูงสุดจะชนะ …

2
ความแตกต่างในความหมายกับความแตกต่างเฉลี่ย
เมื่อศึกษาวิธีการสองตัวอย่างที่เป็นอิสระเราจะบอกว่าเรากำลังดูที่ "ความแตกต่างของสองวิธี" นี่หมายความว่าเราใช้ค่าเฉลี่ยจากประชากร 1 ( ) และลบออกจากค่าเฉลี่ยจากประชากร 2 ( ) ดังนั้น "ความแตกต่างของสองวิธี" ของเราคือ ( - )y¯1y¯1\bar y_1y¯2y¯2\bar y_2y¯1y¯1\bar y_1y¯2y¯2\bar y_2 เมื่อศึกษาตัวอย่างที่จับคู่หมายถึงเราจะบอกเรากำลังมองหาที่ "หมายถึงความแตกต่าง"d สิ่งนี้คำนวณจากการใช้ความแตกต่างระหว่างแต่ละคู่แล้วทำการหาค่าเฉลี่ยของความแตกต่างเหล่านั้นทั้งหมดd¯d¯\bar d คำถามของฉันคือ: เราได้รับเหมือนกัน ( - ) เมื่อเทียบกับถ้าเราคำนวณพวกเขาจากคอลัมน์ข้อมูลสองคอลัมน์และครั้งแรกที่พิจารณามันเป็นสองตัวอย่างอิสระและครั้งที่สองถือว่าเป็นคู่ ข้อมูล? ฉันได้เล่นกับข้อมูลสองคอลัมน์และดูเหมือนว่าค่าเหมือนกัน! ในกรณีนั้นสามารถพูดได้หรือไม่ว่ามีการใช้ชื่อที่ต่างกันด้วยเหตุผลที่ไม่ใช่เชิงปริมาณ?y¯1y¯1\bar y_1y¯2y¯2\bar y_2d¯d¯\bar d
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.