คำถามติดแท็ก chi-squared

การทดสอบ (โดยทั่วไปคือการกระจายความเป็นอิสระหรือความเหมาะสม) หรือตระกูลของการแจกแจงที่เกี่ยวข้องกับการทดสอบดังกล่าว

1
R ตัวแปรเชิงเส้นถดถอยหมวดหมู่ "ซ่อน" ค่า
นี่เป็นเพียงตัวอย่างที่ฉันเจอหลายครั้งดังนั้นฉันจึงไม่มีข้อมูลตัวอย่าง ใช้แบบจำลองการถดถอยเชิงเส้นใน R: a.lm = lm(Y ~ x1 + x2) x1เป็นตัวแปรต่อเนื่อง x2เป็นหมวดหมู่และมีสามค่าเช่น "ต่ำ", "ปานกลาง" และ "สูง" อย่างไรก็ตามเอาต์พุตที่กำหนดโดย R จะเป็นดังนี้: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 ฉันเข้าใจว่า R แนะนำการเข้ารหัสแบบหลอกบางอย่างเกี่ยวกับปัจจัยดังกล่าว ( …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

1
รูปแบบการเรียนรู้แบบลึกใดที่สามารถจำแนกหมวดหมู่ที่ไม่ได้เกิดร่วมกัน
ตัวอย่าง: ฉันมีประโยคในรายละเอียดงาน: "วิศวกรอาวุโสของ Java ในสหราชอาณาจักร" ฉันต้องการที่จะใช้รูปแบบการเรียนรู้ที่ลึกที่จะคาดการณ์ว่ามันเป็น 2 ประเภทและEnglish IT jobsถ้าฉันใช้รูปแบบการจำแนกแบบดั้งเดิมมันสามารถทำนายได้เพียง 1 ฉลากที่มีsoftmaxฟังก์ชั่นที่ชั้นสุดท้าย ดังนั้นฉันสามารถใช้โครงข่ายประสาทเทียม 2 แบบในการทำนาย "ใช่" / "ไม่" กับทั้งสองหมวดหมู่ แต่ถ้าเรามีหมวดหมู่มากขึ้นมันก็แพงเกินไป ดังนั้นเราจึงมีรูปแบบการเรียนรู้หรือการเรียนรู้ด้วยเครื่องเพื่อคาดการณ์ 2 หมวดหมู่ขึ้นไปพร้อมกันหรือไม่ "แก้ไข": ด้วย 3 ป้ายกำกับโดยวิธีดั้งเดิมมันจะถูกเข้ารหัสโดย [1,0,0] แต่ในกรณีของฉันมันจะถูกเข้ารหัสโดย [1,1,0] หรือ [1,1,1] ตัวอย่าง: หากเรามี 3 ป้ายกำกับและประโยคอาจเหมาะกับป้ายกำกับเหล่านี้ทั้งหมด ดังนั้นถ้าผลลัพธ์จากฟังก์ชัน softmax คือ [0.45, 0.35, 0.2] เราควรแบ่งมันออกเป็น 3 label หรือ 2 label หรืออาจเป็นหนึ่ง? ปัญหาหลักเมื่อเราทำคือ: …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
ทางเลือกสำหรับการทดสอบแบบไคสแควร์เพื่อความเป็นอิสระสำหรับตารางที่มากกว่า 2 x 2
มีทางเลือกอะไรบ้างในการทดสอบแบบไคสแควร์สำหรับตัวแปรเด็ดขาดที่มีตารางใหญ่กว่า 2 x 2 และเซลล์ที่มีจำนวนน้อยกว่า 5 ถ้าฉันไม่ต้องการรวมคลาส?

1
จะค้นหาและประเมิน discretization ที่เหมาะสมที่สุดสำหรับตัวแปรต่อเนื่องที่มีเกณฑ์อย่างไร
ฉันมีชุดข้อมูลที่มีตัวแปรต่อเนื่องและตัวแปรเป้าหมายไบนารี (0 และ 1) ฉันต้องจำแนกตัวแปรต่อเนื่อง (สำหรับการถดถอยโลจิสติก) ด้วยความเคารพต่อตัวแปรเป้าหมายและด้วยข้อ จำกัด ที่ความถี่ของการสังเกตในแต่ละช่วงเวลาควรมีความสมดุล ฉันลองใช้กลไกการเรียนรู้ของเครื่องอย่าง Chi Merge ต้นไม้ตัดสินใจ การรวมกันของชี่ทำให้ฉันมีช่วงเวลาที่มีจำนวนไม่สมดุลมากในแต่ละช่วงเวลา (ช่วงเวลาที่มีการสังเกต 3 ครั้งและอีกช่วงหนึ่งมี 1,000 ครั้ง) ต้นไม้ตัดสินใจยากที่จะตีความ ฉันได้ข้อสรุปว่าการแยกส่วนที่ดีที่สุดควรเพิ่มค่าสถิติระหว่างตัวแปรที่แยกส่วนกับตัวแปรเป้าหมายและควรมีช่วงเวลาที่มีจำนวนการสังเกตประมาณเท่ากันχ2χ2\chi^2 มีอัลกอริทึมสำหรับการแก้ปัญหานี้หรือไม่? นี่มันมีลักษณะอย่างไรใน R (def คือตัวแปรเป้าหมายและ x เป็นตัวแปรที่จะแยกส่วน) ฉันคำนวณของ Tschuprow เพื่อประเมิน "สหสัมพันธ์" ระหว่างการแปลงและตัวแปรเป้าหมายเนื่องจากสถิติมีแนวโน้มที่จะเพิ่มขึ้นตามจำนวนช่วงเวลา ฉันไม่แน่ใจว่านี่เป็นวิธีที่ถูกต้องหรือไม่TTTχ2χ2\chi^2 มีวิธีอื่นในการประเมินหรือไม่หาก discretization ของฉันนั้นดีที่สุดนอกเหนือจาก Tschuprow (เพิ่มขึ้นเมื่อจำนวนคลาสลดลง)?TTT chitest <- function(x){ interv <- cut(x, c(0, 1.6,1.9, 2.3, 2.9, max(x)), …

1
วิธีการคำนวณไคสแควร์ใน Excel vs R
ฉันกำลังดูแผ่น excel ที่อ้างว่าคำนวณแต่ฉันไม่รู้จักวิธีนี้และฉันสงสัยว่าฉันทำอะไรหายไปหรือเปล่าχ2χ2\chi^2 นี่คือข้อมูลที่วิเคราะห์: +------------------+----------+----------+ | Total Population | Observed | Expected | +------------------+----------+----------+ | 2000 | 42 | 32.5 | | 2000 | 42 | 32.5 | | 2000 | 25 | 32.5 | | 2000 | 21 | 32.5 | +------------------+----------+----------+ และนี่คือผลรวมของแต่ละกลุ่มเพื่อคำนวณไคสแควร์: P = (sum of all observed)/(sum …
9 r  chi-squared  excel 

1
กฎการใช้การจำลองแบบ Monte Carlo ของค่า p สำหรับการทดสอบไคสแควร์
ฉันต้องการเข้าใจการใช้การจำลอง Monte Carlo ในchisq.test()ฟังก์ชันใน R ฉันมีตัวแปรเชิงคุณภาพซึ่งมี 128 ระดับ / คลาส ขนาดตัวอย่างของฉันคือ 26 (ฉันไม่สามารถสุ่มตัวอย่าง "บุคคล" เพิ่มเติมได้) เห็นได้ชัดว่าฉันจะมีบางระดับที่มี 0 "บุคคล" แต่ความจริงก็คือฉันมีชั้นเรียนจำนวนน้อยมากจากจำนวน 127 ที่เป็นไปได้ ตามที่ฉันได้ยินมาว่าการใช้การทดสอบแบบไคสแควร์เราควรมีอย่างน้อย 5 คนในแต่ละระดับ (ฉันไม่เข้าใจเหตุผลอย่างสมบูรณ์) ฉันคิดว่าฉันต้องใช้simulate.p.valueตัวเลือกในการใช้การจำลอง Monte Carlo เพื่อประเมินการกระจายตัว และคำนวณค่า p หากไม่มีการจำลองมอนติคาร์โล R จะให้ค่า p กับ< 1e-16ฉัน ด้วยการจำลอง Monte Carlo มันทำให้ฉัน p-value 4e-5ที่ ฉันพยายามคำนวณ p-value ด้วยเวกเตอร์ 26 อันและ 101 ศูนย์และด้วยการจำลอง …

2
สมมติฐานการพึ่งพา Benjamini-Hochberg เป็นธรรม?
ฉันมีชุดข้อมูลที่ฉันทดสอบความแตกต่างอย่างมีนัยสำคัญระหว่างสามประชากรที่เกี่ยวกับตัวแปรที่แตกต่างกัน 50 รายการ ฉันทำสิ่งนี้โดยใช้การทดสอบ Kruskal-Wallis บนมือข้างหนึ่งและโดยการทดสอบอัตราส่วนความน่าจะเป็นของโมเดล GLM แบบซ้อนกันพอดี (ที่มีและไม่มีประชากรเป็นตัวแปรอิสระ) ในอีกด้านหนึ่ง เป็นผลให้ฉันมีรายชื่อ Kruskal-Wallis ppp- ค่าในมือข้างหนึ่งและสิ่งที่ฉันคิดว่าเป็นไคสแควร์ ppp- ค่าจากการเปรียบเทียบ LRT ที่อื่น ๆ ฉันต้องทำการแก้ไขการทดสอบหลายรูปแบบบางรูปแบบเนื่องจากมีการทดสอบมากกว่า 50 รายการและ Benjamini-Hochberg FDR ดูเหมือนว่าเป็นตัวเลือกที่เหมาะสมที่สุด อย่างไรก็ตามตัวแปรอาจไม่เป็นอิสระโดยมี "แคลน" หลายตัวที่สัมพันธ์กัน คำถามคือ: ฉันจะบอกได้อย่างไรว่าชุดของสถิติพื้นฐานสำหรับฉันppp- ค่าตอบสนองความต้องการของการพึ่งพาในเชิงบวกที่จำเป็นสำหรับกระบวนการ Benjamini-Hochberg ที่จะยังคงผูกพันกับ FDR? กระดาษ Benjamini-Hochberg-Yekutieli จากปี 2544 ระบุว่าสภาพ PRDS มีไว้สำหรับการแจกแจงแบบปกติหลายตัวแปรและการแจกแจงแบบนักศึกษา สิ่งที่เกี่ยวกับการทดสอบอัตราส่วนความน่าจะเป็นของฉันค่าไคสแควร์สำหรับการเปรียบเทียบแบบจำลอง? เกี่ยวกับppp- ค่าที่ฉันมีสำหรับการทดสอบ Kruskal-Wallis? ฉันสามารถใช้การแก้ไข FDR ที่เลวร้ายที่สุดกรณี Benjamini-Hochberg-Yekutieli ที่ไม่มีอะไรขึ้นอยู่กับการพึ่งพา …

1
จะเปรียบเทียบเหตุการณ์ที่สังเกตได้กับเหตุการณ์ที่คาดหวังได้อย่างไร
สมมติว่าฉันมีตัวอย่างหนึ่งความถี่ของเหตุการณ์ที่เป็นไปได้ 4 เหตุการณ์: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 และฉันมีโอกาสที่จะเกิดเหตุการณ์ที่คาดหวัง: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 ด้วยผลรวมของความถี่ที่สังเกตได้จากเหตุการณ์ทั้งสี่ของฉัน (18) ฉันสามารถคำนวณความถี่ที่คาดหวังของเหตุการณ์ได้ใช่ไหม expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

4
วิธีการทดสอบไคสแควร์หลังการทดสอบหลายตารางในตาราง 2 X 3
ชุดข้อมูลของฉันประกอบด้วยการเสียชีวิตโดยรวมหรือการอยู่รอดของสิ่งมีชีวิตที่ไซต์สามประเภททั้งฝั่งกลางและกลาง ตัวเลขในตารางด้านล่างแสดงถึงจำนวนเว็บไซต์ 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 ฉันต้องการทราบว่า # ของเว็บไซต์ที่มีอัตราการตาย 100% มีความสำคัญตามประเภทของไซต์หรือไม่ ถ้าฉันใช้ไคสแควร์ 2 x 3 ฉันจะได้ผลลัพธ์ที่สำคัญ มีการเปรียบเทียบแบบคู่หลังที่ฉันสามารถเรียกใช้หรือฉันควรใช้ ANOVA จิสติกส์หรือการถดถอยด้วยการแจกแจงแบบทวินามหรือไม่ ขอบคุณ!

2
คำนวณ ROC curve สำหรับข้อมูล
ดังนั้นฉันมีการทดลอง 16 ครั้งที่ฉันพยายามพิสูจน์ตัวตนบุคคลจากลักษณะทางชีวภาพโดยใช้ Hamming Distance เกณฑ์ของฉันถูกตั้งไว้ที่ 3.5 ข้อมูลของฉันอยู่ด้านล่างและเฉพาะการทดลองใช้ 1 เท่านั้นคือ True Positive: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 จุดสับสนของฉันคือฉันไม่แน่ใจจริงๆเกี่ยวกับวิธีสร้าง ROC curve …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

2
การแก้ไขความต่อเนื่องของ Yates สำหรับตารางฉุกเฉิน 2 x 2
ฉันต้องการรวบรวมข้อมูลจากผู้คนในสนามเกี่ยวกับการแก้ไขความต่อเนื่องของ Yates สำหรับตารางฉุกเฉิน 2 x 2 บทความวิกิพีเดียกล่าวถึงว่ามันอาจปรับได้ไกลเกินไปและถูกนำมาใช้ในแง่ที่ จำกัด เท่านั้น โพสต์ที่เกี่ยวข้องกับที่นี่ไม่ได้มีข้อมูลเชิงลึกต่อไปมาก ดังนั้นสำหรับคนที่ใช้การทดสอบเหล่านี้เป็นประจำคุณมีความคิดเห็นอย่างไร? มันจะดีกว่าที่จะใช้การแก้ไขหรือไม่? และตัวอย่างโลกแห่งความจริงซึ่งจะให้ผลลัพธ์ที่แตกต่างกันในระดับความเชื่อมั่น 95% โปรดทราบว่านี่เป็นปัญหาการบ้าน แต่ชั้นเรียนของเราไม่ได้จัดการกับการแก้ไขความต่อเนื่องของ Yates เลยดังนั้นให้นอนหลับง่ายเพราะรู้ว่าคุณไม่ได้ทำการบ้านให้ฉัน samp <- matrix(c(13, 12, 15, 3), byrow = TRUE, ncol = 2) colnames(samp) <- c("No", "Yes") rownames(samp) <- c("Female", "Male") chisq.test(samp, correct = TRUE) chisq.test(samp, correct = FALSE)

2
มีใครบ้างที่ใช้ขั้นตอน Marascuilo เพื่อเปรียบเทียบหลายสัดส่วน?
กระบวนการ Marascuilo ตามที่อธิบายไว้ที่นี่ดูเหมือนจะเป็นการทดสอบที่เน้นปัญหาของการเปรียบเทียบหลายอย่างสำหรับสัดส่วนเมื่อคุณต้องการทดสอบว่าสัดส่วนใดที่เฉพาะเจาะจงแตกต่างจากกันหลังจากปฏิเสธโมฆะในการทดสอบไคสแควร์โดยรวม อย่างไรก็ตามฉันไม่คุ้นเคยกับการทดสอบนี้มากนัก ดังนั้นคำถามของฉัน: ความแตกต่าง (ถ้ามี) ที่ฉันควรกังวลเมื่อใช้การทดสอบนี้คืออะไร? ฉันรู้วิธีการอื่นอย่างน้อยสองวิธี (ดูด้านล่าง) เพื่อแก้ไขปัญหาเดียวกัน การทดสอบแบบไหนดีกว่า: กำลังดำเนินการกับคำสั่งนี้โดย @Brett Magill การใช้วิธีHolm – Bonferroniเพื่อปรับค่า p
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.