คำถามติดแท็ก ranks

4
ข้อมูลที่เชื่อมโยงในบริบทของสัมประสิทธิ์สหสัมพันธ์อันดับคืออะไร
ฉันไม่ได้อยู่ในฟิลด์สถิติ ฉันเห็นคำว่า "ผูกข้อมูล" ในขณะที่อ่านเกี่ยวกับค่าสัมประสิทธิ์สหสัมพันธ์อันดับ ข้อมูลที่เชื่อมโยงคืออะไร? ตัวอย่างของข้อมูลที่เชื่อมโยงคืออะไร?

4
การเพิ่มความแม่นยำของเครื่องไล่ระดับสีจะลดลงเมื่อจำนวนการทำซ้ำเพิ่มขึ้น
ฉันกำลังทดลองกับอัลกอริทึมของเครื่องเร่งการไล่ระดับสีผ่านcaretแพ็คเกจใน R ใช้ชุดข้อมูลการรับสมัครวิทยาลัยขนาดเล็กฉันใช้รหัสต่อไปนี้: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

2
ทำไมการทดสอบ Mann-Whitney U ถึงมีความสำคัญเมื่อค่ามัธยฐานเท่ากัน?
ฉันได้รับผลลัพธ์จากการทดสอบระดับ Mann-Whitney ที่ฉันไม่เข้าใจ ค่ามัธยฐานของ 2 ประชากรนั้นเหมือนกัน (6.9) ตัวพิมพ์ใหญ่และควอนไทล์ที่ต่ำกว่าของแต่ละประชากรคือ: 6.64 และ 7.2 6.60 และ 7.1 ค่า p ที่เป็นผลมาจากการทดสอบเปรียบเทียบประชากรเหล่านี้คือ 0.007 ประชากรเหล่านี้จะแตกต่างกันอย่างมีนัยสำคัญได้อย่างไร? เป็นเพราะการแพร่กระจายเกี่ยวกับค่าเฉลี่ยหรือไม่ boxplot เปรียบเทียบ 2 แสดงว่าอันที่สองมีค่าผิดปกติมากกว่าครั้งแรก ขอบคุณสำหรับคำแนะนำใด ๆ

1
Caret glmnet กับ cv.glmnet
ดูเหมือนจะมีความสับสนมากในการเปรียบเทียบการใช้glmnetภายในcaretเพื่อค้นหาแลมบ์ดาที่ดีที่สุดและใช้cv.glmnetในการทำงานเดียวกัน มีการตั้งคำถามมากมายเช่น: โมเดลการจำแนกประเภท train.glmnet vs. cv.glmnet วิธีที่เหมาะสมในการใช้ glmnet กับคาเร็ตคืออะไร? การตรวจสอบข้าม `glmnet 'โดยใช้` คาเร็ต' แต่ไม่ได้รับคำตอบซึ่งอาจเป็นเพราะความสามารถในการทำซ้ำของคำถาม ตามคำถามแรกฉันให้ตัวอย่างที่คล้ายกัน แต่มีคำถามเดียวกัน: ทำไม lambdas โดยประมาณแตกต่างกันอย่างไร library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to …

5
จะทำการใส่ค่าในจุดข้อมูลจำนวนมากได้อย่างไร?
ฉันมีชุดข้อมูลที่มีขนาดใหญ่มากและมีค่าสุ่มประมาณ 5% หายไป ตัวแปรเหล่านี้มีความสัมพันธ์ซึ่งกันและกัน ตัวอย่างชุดข้อมูล R ต่อไปนี้เป็นเพียงตัวอย่างของเล่นที่มีข้อมูลที่สัมพันธ์กันจำลอง set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
การแสดงข้อมูลลำดับ - หมายถึงค่ามัธยฐานและค่าเฉลี่ยอันดับ
ฉันมีข้อมูลลำดับที่ไม่ได้กระจายตามปกติดังนั้นฉันตัดสินใจทำการทดสอบแบบไม่อิงพารามิเตอร์โดยใช้ Mann-Whitney U Test ฉันกำลังดูความแตกต่างระหว่างกลุ่มสำหรับเจ็ดคะแนน - คะแนนเหล่านี้เป็น 0, 1, 2 หรือ 3 สำหรับแต่ละวิชา ฉันมีช่วงเวลาที่ยากลำบากในการหาวิธีแสดงข้อมูลของฉัน! ถ้าฉันนำเสนอข้อมูลโดยใช้ค่ามัธยฐาน (และค่า IQR ของค่ามัธยฐาน) ก็ไม่ชัดเจนเลยว่าความแตกต่างนั้นเป็นเพราะส่วนใหญ่ค่าเฉลี่ยของสื่อกลางอยู่ที่ 0 หรือ 1 ดังนั้นแม้จะทดสอบ Mann-Whitney U แสดงความแตกต่างอย่างมีนัยสำคัญ ตารางดูไม่น่าสนใจ ฉันยังสามารถนำเสนอข้อมูลโดยใช้วิธีการ มีเอกสารทางวิทยาศาสตร์บางฉบับที่บอกว่าคุณสามารถใช้วิธีการที่มีข้อมูลลำดับ แต่คุณไม่สามารถตั้งสมมติฐานประเภทเดียวกันเกี่ยวกับความแตกต่างระหว่างคะแนน (เช่นความแตกต่างระหว่าง 0 และ 1 ไม่เหมือนกับระหว่าง 1 และ 2) การใช้หมายถึงจะเป็นการโต้เถียงเล็กน้อยแม้ว่าตัวเลขในตารางจะบอกเล่าเรื่องราวได้ดีเมื่อฉันใช้ ตัวเลือกที่สามคือการใช้อันดับเฉลี่ยที่ SPSS มอบให้ฉันในผลลัพธ์ของ Mann-Whitney อันดับเฉลี่ยคือสิ่งที่มีการเปรียบเทียบระหว่างกลุ่มดังนั้นบางทีฉันควรใช้เหล่านั้น ปัญหาเดียวที่ฉันมีคือค่าเฉลี่ยไม่ได้หมายถึงอะไรจริง ๆ ที่เกี่ยวกับข้อมูลจริง (เช่นฉันไม่เห็นว่าวิชาอยู่ใกล้กับ 3 ในขณะที่การควบคุมอยู่ใกล้กับ …

1
ทำไม Anova () และ drop1 () จึงให้คำตอบที่แตกต่างกันสำหรับ GLMM
ฉันมีแบบฟอร์ม GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) เมื่อฉันใช้drop1(model, test="Chi")ฉันได้รับผลลัพธ์ที่แตกต่างกว่าถ้าผมใช้จากแพคเกจรถหรือAnova(model, type="III") summary(model)สองหลังนี้ให้คำตอบเดียวกัน จากการใช้ข้อมูลที่ประดิษฐ์ขึ้นมาฉันพบว่าทั้งสองวิธีปกติไม่แตกต่างกัน พวกเขาให้คำตอบเดียวกันสำหรับแบบจำลองเชิงเส้นที่มีความสมดุลแบบจำลองเชิงเส้นที่ไม่สมดุล (ซึ่งไม่เท่ากันในกลุ่มต่าง ๆ ) และสำหรับแบบจำลองเชิงเส้นที่สมดุลแบบทั่วไป ดังนั้นจึงปรากฏว่าเฉพาะในกรณีที่มีการรวมปัจจัยแบบสุ่มเข้าด้วยกัน ทำไมจึงมีความคลาดเคลื่อนระหว่างสองวิธีนี้? เมื่อใช้ GLMM ควรAnova()หรือdrop1()จะใช้งานอย่างไร ความแตกต่างระหว่างสองสิ่งนี้ค่อนข้างเล็กน้อยอย่างน้อยสำหรับข้อมูลของฉัน มันมีความสำคัญต่อการใช้งานหรือไม่?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
เหตุใดความสัมพันธ์ของเพียร์สันถึงอันดับที่ถูกต้องแม้จะมีการสันนิษฐานทั่วไป
ฉันกำลังอ่านข้อสมมติฐานสำหรับสหสัมพันธ์ของเพียร์สัน ข้อสันนิษฐานที่สำคัญสำหรับการทดสอบทีตามมาดูเหมือนว่าตัวแปรทั้งสองมาจากการแจกแจงแบบปกติ หากพวกเขาไม่ทำเช่นนั้นการใช้มาตรการทางเลือกเช่น Rho Spearman จะได้รับการสนับสนุน ความสัมพันธ์ของสเปียร์แมนคำนวณได้จากความสัมพันธ์ของเพียร์สันโดยใช้อันดับ X และ Y แทน X และ Y เท่านั้นใช่ไหม? คำถามของฉันคือ: หากตัวแปรอินพุตเข้าสู่ความสัมพันธ์แบบเพียร์สันจำเป็นต้องกระจายตามปกติทำไมการคำนวณความสัมพันธ์สเปียร์แมนจึงใช้ได้แม้ว่าตัวแปรอินพุตจะถูกจัดอันดับ อันดับของฉันไม่ได้มาจากการแจกแจงแบบปกติ ... คำอธิบายเดียวที่ฉันเกิดขึ้นจนถึงตอนนี้ก็คือความสำคัญของ Rho นั้นอาจถูกทดสอบแตกต่างจากของ Pearson t-test correlation (ในวิธีที่ไม่ต้องใช้กฎเกณฑ์) แต่จนถึงตอนนี้ฉันไม่พบสูตร อย่างไรก็ตามเมื่อฉันวิ่งไปสองสามตัวอย่างค่า p สำหรับ rho และสำหรับ t-test ของ Pearson correlation ของอันดับตรงกันเสมอประหยัดสำหรับตัวเลขสองสามตัวสุดท้าย สำหรับฉันนี่ดูเหมือนจะไม่เหมือนขั้นตอนที่แตกต่าง คำอธิบายและความคิดใด ๆ ที่คุณอาจได้รับการชื่นชม!
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.