คำถามติดแท็ก chi-squared

การทดสอบ (โดยทั่วไปคือการกระจายความเป็นอิสระหรือความเหมาะสม) หรือตระกูลของการแจกแจงที่เกี่ยวข้องกับการทดสอบดังกล่าว

2
เมื่อพิจารณาถึงพลังของคอมพิวเตอร์ในปัจจุบันมีเหตุผลที่จะทำการทดสอบแบบไคสแควร์มากกว่าการทดสอบที่แน่นอนของฟิชเชอร์หรือไม่?
เนื่องจากซอฟต์แวร์นั้นสามารถทำการคำนวณการทดสอบที่แน่นอนของ Fisher ได้อย่างง่ายดายในปัจจุบันมีสถานการณ์ใดที่การทดสอบไคสแควร์ดีกว่าการทดสอบที่แน่นอนของฟิชเชอร์จริงหรือไม่ ข้อดีของการทดสอบที่แน่นอนของฟิชเชอร์รวมถึง: สเกลไปยังตารางฉุกเฉินที่มีขนาดใหญ่กว่า 2x2 (เช่นตารางr x cใด ๆ) ให้ค่า p ที่แน่นอน ไม่จำเป็นต้องมีจำนวนเซลล์ขั้นต่ำที่คาดว่าจะถูกต้อง

3
ตัวอย่าง: การถดถอย LASSO โดยใช้ glmnet สำหรับผลลัพธ์ไบนารี
ฉันเริ่มตะลุยกับการใช้งานglmnetกับการถดถอยแบบ LASSOซึ่งผลลัพธ์ของความสนใจของฉันนั้นเป็นแบบขั้วคู่ ฉันได้สร้างกรอบข้อมูลจำลองขนาดเล็กด้านล่าง: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

2
ความสัมพันธ์ระหว่างการทดสอบไคสแควร์และการทดสอบในสัดส่วนเท่ากันคืออะไร?
สมมติว่าฉันมีประชากรสามคนที่มีสี่ลักษณะที่ไม่เหมือนกันซึ่งกันและกัน ฉันสุ่มตัวอย่างตัวอย่างจากประชากรแต่ละคนและสร้างแท็บไขว้หรือตารางความถี่สำหรับลักษณะที่ฉันวัด ฉันถูกต้องในการพูดว่า: ถ้าฉันต้องการทดสอบว่ามีความสัมพันธ์ใด ๆ ระหว่างประชากรและลักษณะ (เช่นว่าหนึ่งประชากรมีความถี่สูงกว่าหนึ่งในลักษณะ) ฉันควรใช้การทดสอบไคสแควร์และดูว่าผลที่มีความสำคัญ หากการทดสอบแบบไคสแควร์มีความสำคัญแสดงให้ฉันเห็นว่ามีความสัมพันธ์ระหว่างประชากรและคุณลักษณะบางอย่าง แต่ไม่ใช่ความสัมพันธ์ ยิ่งไปกว่านั้นคุณสมบัติบางอย่างนั้นไม่จำเป็นต้องเกี่ยวข้องกับประชากร ตัวอย่างเช่นหากประชากรที่แตกต่างกันมีการแจกแจงที่แตกต่างกันอย่างมากของคุณสมบัติ A และ B แต่ไม่ใช่ของ C และ D ดังนั้นการทดสอบไคสแควร์อาจยังกลับมามีความหมาย ถ้าผมต้องการที่จะวัดหรือไม่ว่าลักษณะที่เฉพาะเจาะจงได้รับผลกระทบโดยประชากรแล้วฉันสามารถเรียกใช้การทดสอบสำหรับสัดส่วนที่เท่ากัน (ฉันได้เห็นนี้เรียกว่า Z-test หรือเป็นprop.test()ในR) เพียงลักษณะที่ กล่าวอีกนัยหนึ่งเหมาะสมที่จะใช้prop.test()เพื่อกำหนดลักษณะของความสัมพันธ์ระหว่างชุดสองประเภทอย่างแม่นยำมากขึ้นเมื่อการทดสอบไคสแควร์บอกว่ามีความสัมพันธ์ที่สำคัญหรือไม่

7
ไคสแควร์กำลังทำการทดสอบด้านเดียวเสมอหรือไม่?
บทความที่ตีพิมพ์ ( pdf ) มี 2 ประโยคเหล่านี้: นอกจากนี้การรายงานที่ผิดอาจเกิดจากการใช้กฎที่ไม่ถูกต้องหรือขาดความรู้ในการทดสอบทางสถิติ ตัวอย่างเช่นยอดรวม df ใน ANOVA อาจถูกใช้เป็นข้อผิดพลาด df ในการรายงานการทดสอบหรือผู้วิจัยอาจแบ่งค่า p ที่รายงานของการหรือสองเพื่อให้ได้ค่าด้านเดียวในขณะที่ค่าของการหรือเป็นการทดสอบด้านเดียวแล้วχ 2 F p p χ 2 FFFFχ2χ2\chi^2FFFppppppχ2χ2\chi^2FFF ทำไมพวกเขาถึงพูดอย่างนั้น? การทดสอบไคสแควร์เป็นการทดสอบสองด้าน (ฉันได้ถามผู้เขียนคนหนึ่ง แต่ไม่มีการตอบสนอง) ฉันกำลังมองอะไร

3
การแปลความหมายของตัวทำนายการแปลงสภาพบันทึกและ / หรือการตอบสนอง
ฉันสงสัยว่ามันจะสร้างความแตกต่างในการตีความไม่ว่าจะเป็นเพียงขึ้นอยู่กับทั้งขึ้นอยู่กับและเป็นอิสระหรือตัวแปรอิสระเท่านั้นที่ถูกเปลี่ยนเข้าสู่ระบบ พิจารณากรณีของ log(DV) = Intercept + B1*IV + Error ฉันสามารถตีความ IV เป็นเปอร์เซ็นต์เพิ่มขึ้น แต่จะเปลี่ยนแปลงได้อย่างไรเมื่อฉันมี log(DV) = Intercept + B1*log(IV) + Error หรือเมื่อฉันมี DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

5
คำเตือนใน R - การประมาณ Chi-squared อาจไม่ถูกต้อง
ฉันมีข้อมูลแสดงผลการสอบเข้านักดับเพลิง ฉันกำลังทดสอบสมมติฐานที่ผลการสอบและเชื้อชาติไม่ได้เป็นอิสระร่วมกัน เพื่อทดสอบสิ่งนี้ฉันได้ทำการทดสอบเพียร์สันไคสแควร์ในอาร์ผลลัพธ์แสดงให้เห็นสิ่งที่ฉันคาดหวัง แต่ก็มีคำเตือนว่า " In chisq.test(a) : Chi-squared approximation may be incorrect" > a white black asian hispanic pass 5 2 2 0 noShow 0 1 0 0 fail 0 2 3 4 > chisq.test(a) Pearson's Chi-squared test data: a X-squared = 12.6667, df = 6, p-value = 0.04865 …

2
การทดสอบ A / B: z-test กับ t-test เทียบกับไคสแควร์เทียบกับการทดสอบที่แม่นยำของฟิชเชอร์
ฉันพยายามที่จะเข้าใจเหตุผลโดยเลือกวิธีการทดสอบที่เฉพาะเจาะจงเมื่อจัดการกับการทดสอบ A / B แบบง่าย - (เช่นสองรูปแบบ / กลุ่มที่มีการตอบกลับแบบไบนารี (แปลงหรือไม่) ตัวอย่างเช่นฉันจะใช้ข้อมูลด้านล่าง Version Visits Conversions A 2069 188 B 1826 220 คำตอบยอดนิยมที่นี่ดีมากและพูดคุยเกี่ยวกับข้อสมมติฐานพื้นฐานสำหรับการทดสอบ z, t และ chi square แต่สิ่งที่ฉันสับสนคือแหล่งข้อมูลออนไลน์ที่แตกต่างกันจะอ้างอิงแนวทางที่แตกต่างกันและคุณจะคิดว่าสมมติฐานสำหรับการทดสอบ A / B พื้นฐานควรเหมือนกันหรือไม่ ตัวอย่างเช่นบทความนี้ใช้คะแนน z : บทความนี้ใช้สูตรต่อไปนี้ (ซึ่งฉันไม่แน่ใจว่าแตกต่างจากการคำนวณ zscore หรือไม่): บทความนี้อ้างอิงการทดสอบ t (p 152): ดังนั้น arguemnts อะไรที่สามารถทำให้เป็นที่นิยมในแนวทางที่แตกต่างกันเหล่านี้? ทำไมหนึ่งจะมีการตั้งค่า? หากต้องการโยนผู้สมัครอีกหนึ่งคนตารางด้านบนสามารถเขียนใหม่เป็นตารางฉุกเฉิน 2x2 ซึ่งสามารถใช้การทดสอบฟิชเชอร์ (p5) …

2
เหตุใดการทดสอบอัตราส่วนความน่าจะเป็นกระจายแบบไคสแควร์
ทำไมสถิติการทดสอบของการทดสอบอัตราส่วนความน่าจะเป็นแบบกระจายไคสแควร์ 2(ln Lalt model−ln Lnull model)∼χ2dfalt−dfnull2(ln⁡ Lalt model−ln⁡ Lnull model)∼χdfalt−dfnull22(\ln \text{ L}_{\rm alt\ model} - \ln \text{ L}_{\rm null\ model} ) \sim \chi^{2}_{df_{\rm alt}-df_{\rm null}}

4
อะไรคือความแตกต่างระหว่างการทดสอบของ McNemar กับการทดสอบแบบไคสแควร์และคุณรู้ได้อย่างไรว่าจะใช้เมื่อใด
ฉันได้ลองอ่านจากแหล่งข้อมูลต่าง ๆ แล้ว แต่ฉันยังไม่ชัดเจนว่าการทดสอบใดที่จะเหมาะสมในกรณีของฉัน มีคำถามที่แตกต่างกันสามคำถามที่ฉันถามเกี่ยวกับชุดข้อมูลของฉัน: วิชาถูกทดสอบการติดเชื้อจาก X ในเวลาต่างกัน ฉันต้องการทราบว่าสัดส่วนของการบวกสำหรับ X หลังจากนั้นเกี่ยวข้องกับสัดส่วนการบวกสำหรับ X ก่อนหน้านี้หรือไม่: After |no |yes| Before|No |1157|35 | |Yes |220 |13 | results of chi-squared test: Chi^2 = 4.183 d.f. = 1 p = 0.04082 results of McNemar's test: Chi^2 = 134.2 d.f. = 1 p = 4.901e-31 จากความเข้าใจของฉันเนื่องจากข้อมูลเป็นการวัดซ้ำฉันต้องใช้การทดสอบของ …

6
ฉันจะทดสอบความเป็นธรรมของ d20 ได้อย่างไร?
ฉันจะทดสอบความเป็นธรรมของผู้ตายยี่สิบคน (d20) ได้อย่างไร? เห็นได้ชัดว่าฉันจะเปรียบเทียบการกระจายตัวของค่าเทียบกับการกระจายตัวแบบสม่ำเสมอ ฉันจำไม่ได้ว่าใช้การทดสอบ Chi-Square ในวิทยาลัย ฉันจะใช้สิ่งนี้เพื่อดูว่าผู้ตายมีความยุติธรรมได้อย่างไร

1
การคำนวณซ้ำของเอฟเฟกต์จากโมเดล lmer
ฉันเพิ่งอ่านบทความนี้ซึ่งอธิบายถึงวิธีการคำนวณความสามารถในการทำซ้ำ (ความน่าเชื่อถือหรือความสัมพันธ์ภายในอินทราเน็ต) ของการวัดผ่านการสร้างแบบจำลองเอฟเฟกต์ผสม รหัส R จะเป็น: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

1
องศาอิสระเป็นหมายเลขที่ไม่ใช่จำนวนเต็มหรือไม่
เมื่อฉันใช้ GAM มันให้ DF ที่เหลือกับฉันคือ (บรรทัดสุดท้ายในรหัส) นั่นหมายความว่าอย่างไร? นอกเหนือไปจากตัวอย่างของ GAM โดยทั่วไปแล้วจำนวนองศาความเป็นอิสระจะเป็นจำนวนที่ไม่ใช่จำนวนเต็มหรือไม่26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

4
นี่เป็นวิธีที่เหมาะสมในการทดสอบผลกระทบตามฤดูกาลในข้อมูลการนับการฆ่าตัวตายหรือไม่?
ฉันมีข้อมูลใบรับรองการเสียชีวิต 17 ปี (1995 ถึง 2011) ที่เกี่ยวข้องกับการฆ่าตัวตายของรัฐในสหรัฐอเมริกามีตำนานมากมายเกี่ยวกับการฆ่าตัวตายและเดือน / ฤดูกาลจำนวนมากที่ขัดแย้งกันและวรรณกรรมที่ฉัน ' ที่ผ่านมาฉันไม่เข้าใจวิธีการที่ใช้หรือความมั่นใจในผลลัพธ์ ดังนั้นฉันจึงออกเดินทางเพื่อดูว่าฉันสามารถตัดสินได้หรือไม่ว่าการฆ่าตัวตายมีแนวโน้มที่จะเกิดขึ้นมากหรือน้อยในเดือนใดก็ตามภายในชุดข้อมูลของฉัน การวิเคราะห์ทั้งหมดของฉันเสร็จสิ้นใน R จำนวนการฆ่าตัวตายทั้งหมดในข้อมูลคือ 13,909 หากคุณดูปีที่มีการฆ่าตัวตายน้อยที่สุดพวกเขาจะเกิดขึ้นใน 309/365 วัน (85%) หากคุณดูปีที่มีการฆ่าตัวตายมากที่สุดพวกเขาจะเกิดขึ้นใน 339/365 วัน (93%) ดังนั้นจึงมีจำนวนวันที่ยุติธรรมในแต่ละปีโดยไม่มีการฆ่าตัวตาย อย่างไรก็ตามเมื่อรวมกันตลอดทั้ง 17 ปีมีการฆ่าตัวตายในทุกวันของปีรวมถึงวันที่ 29 กุมภาพันธ์ (แม้ว่าจะเพียง 5 เมื่อเฉลี่ย 38) เพียงแค่เพิ่มจำนวนการฆ่าตัวตายในแต่ละวันของปีไม่ได้บ่งบอกถึงฤดูกาลที่ชัดเจน (ในสายตาของฉัน) เมื่อรวมกันในระดับรายเดือนการฆ่าตัวตายเฉลี่ยต่อเดือนมีตั้งแต่: (m = 65, sd = 7.4, ถึง m = 72, sd = 11.1) …

3
จะคำนวณ p-value ของพารามิเตอร์สำหรับ ARIMA model ใน R ได้อย่างไร?
เมื่อทำการวิจัยอนุกรมเวลาใน R ฉันพบว่าarima ให้เฉพาะค่าสัมประสิทธิ์และข้อผิดพลาดมาตรฐานของโมเดลที่ติดตั้ง อย่างไรก็ตามฉันต้องการได้รับ p-value ของสัมประสิทธิ์ ฉันไม่พบฟังก์ชันใด ๆ ที่ให้ความสำคัญของ coef ดังนั้นฉันต้องการคำนวณด้วยตัวเอง แต่ฉันไม่รู้ระดับความอิสระในการแจกแจงค่า t หรือ chisq ของสัมประสิทธิ์ ดังนั้นคำถามของฉันคือทำอย่างไรจึงจะได้ค่า p สำหรับสัมประสิทธิ์ของแบบจำลอง arima ที่พอดีใน R?

4
วิธี Z-คะแนนของ Stouffer: สิ่งที่ถ้าเราสรุป
ฉันกำลังทำการทดสอบทางสถิติอิสระด้วยสมมติฐานว่างเดียวกันและต้องการรวมผลลัพธ์เป็นค่าpเดียว มันดูเหมือนว่าจะมีสอง "ได้รับการยอมรับ" วิธีการ: วิธีการฟิชเชอร์และวิธีการของ Stoufferยังไม่มีข้อความNNพีpp คำถามของฉันเกี่ยวกับวิธีการของ Stouffer สำหรับการทดสอบแต่ละแยกต่างหากที่ผมได้รับคะแนน Z- ฉัน ภายใต้สมมติฐานแต่ละของพวกเขามีการกระจายและมีการกระจายแบบปกติมาตรฐานดังนั้นผลรวมΣ Z ฉันต่อไปนี้การแจกแจงแบบปกติที่มีความแปรปรวนN ดังนั้นวิธีของ Stouffer แนะนำให้คำนวณΣ z i / √Zผมziz_iΣ zผมΣzi\Sigma z_iยังไม่มีข้อความNNซึ่งควรกระจายตามปกติด้วยความแปรปรวนของหน่วยแล้วใช้สิ่งนี้เป็นคะแนน z ร่วมΣ zผม/ N--√Σzi/N\Sigma z_i / \sqrt{N} นี่เป็นเหตุผล แต่นี่เป็นอีกแนวทางหนึ่งที่ฉันคิดขึ้นและนั่นก็สมเหตุสมผลกับฉันเช่นกัน ในฐานะที่เป็นแต่ละมาจากการกระจายปกติมาตรฐานผลรวมของสี่เหลี่ยมS = Σ Z 2 ฉันควรมาจากการกระจายไคสแควร์กับNองศาอิสระ ดังนั้นเราสามารถคำนวณSและแปลงเป็นp-valueโดยใช้ฟังก์ชันการแจกแจงสะสมแบบ chi-squared ที่มีองศาอิสระN ( p = 1 - X N ( S …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.