คำถามติดแท็ก contingency-tables

ตารางของการนับ (สัดส่วนของการนับส่วนเพิ่ม) บางครั้งจัดโดย (อย่างน้อย) สองประเภทที่ระบุโดยแสดงความถี่ bivariate หรือหลายตัวแปร บางครั้งเรียกว่าแท็บไขว้

1
R / mgcv: เพราะเหตุใดผลิตภัณฑ์ te () และ ti () เทนเซอร์จึงให้พื้นผิวที่แตกต่างกัน
mgcvแพคเกจสำหรับการRมีสองฟังก์ชั่นสำหรับการปฏิสัมพันธ์กระชับเมตริกซ์ผลิตภัณฑ์: และte() ti()ฉันเข้าใจการแบ่งขั้นพื้นฐานของการใช้แรงงานระหว่างคนทั้งสอง (ปรับให้เหมาะสมกับการทำงานแบบไม่เป็นเชิงเส้นเปรียบเทียบกับการย่อยสลายการโต้ตอบนี้เป็นผลกระทบหลักและการโต้ตอบ) สิ่งที่ฉันไม่เข้าใจคือสาเหตุte(x1, x2)และti(x1) + ti(x2) + ti(x1, x2)อาจให้ผลลัพธ์ที่แตกต่าง (เล็กน้อย) MWE (ดัดแปลงมาจาก?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
การทดสอบแบบฟิชเชอร์มีการกระจายแบบใด
ในงานของฉันฉันได้เห็นการทดสอบที่แม่นยำของฟิชเชอร์หลายครั้งและฉันสงสัยว่ามันเหมาะกับข้อมูลของฉันมากแค่ไหน เมื่อดูที่หลายแหล่งฉันเข้าใจวิธีคำนวณสถิติ แต่ไม่เคยเห็นคำอธิบายที่ชัดเจนและเป็นทางการของสมมติฐานว่าง ใครสามารถช่วยอธิบายหรือแนะนำฉันให้อธิบายอย่างเป็นทางการเกี่ยวกับการแจกแจงที่สันนิษฐานได้? จะขอบคุณสำหรับคำอธิบายในแง่ของค่าในตารางฉุกเฉิน

1
การทดสอบใดสำหรับการวิเคราะห์ข้ามตาราง: Boschloo หรือ Barnard
ฉันกำลังวิเคราะห์ตาราง 2x2 จากชุดข้อมูลขนาดเล็กจำนวน 30 ราย เราพยายามค้นหาตัวแปรบางอย่างที่ให้คำแนะนำว่าควรเลือกการรักษาแบบใด ตัวแปร (obs ปกติ / แปลก) และการตัดสินใจในการรักษา (A / B) มีความสนใจเป็นพิเศษและข้อมูลจึงมีลักษณะดังนี้: Obs / Tr ธันวาคมปกติแปลกA12012B1351825530Obs/Tr. Dec.ABnormal121325strange055121830\begin{array} {|r|r|r|r|} \hline \text{Obs/Tr. Dec.} &\text{A} &\text{B}\\ \hline \text{normal} &12 &13 &25\\ \hline \text{strange} &0 &5 &5\\ \hline &12 &18 &30\\ \hline \hline \end{array} เห็นได้ชัดว่าเซลล์หนึ่งขาดรายการที่ไม่รวมการทดสอบไคสแควร์และการทดสอบที่แม่นยำของฟิชเชอร์ไม่ได้ให้ค่า p ที่อิ่มตัว (แต่ยังคงอยู่ <10%) ดังนั้นความคิดแรกของฉันคือการหาการทดสอบที่มีพลังมากขึ้นและฉันกำลังอ่านใน …

1
ฟิชเชอร์ทดสอบใน R
สมมติว่าเรามีชุดข้อมูลต่อไปนี้: Men Women Dieting 10 30 Non-dieting 5 60 ถ้าฉันใช้การทดสอบที่แน่นอนของฟิชเชอร์ใน R ดังนั้นอะไรalternative = greater(หรือน้อยกว่า) หมายถึงอะไร ตัวอย่างเช่น: mat = matrix(c(10,5,30,60), 2,2) fisher.test(mat, alternative="greater") ฉันจะได้รับและp-value = 0.01588 odds ratio = 3.943534นอกจากนี้เมื่อฉันพลิกแถวของตารางฉุกเฉินเช่นนี้ mat = matrix(c(5,10,60,30), 2, 2) fisher.test(mat, alternative="greater") แล้วฉันจะได้รับและp-value = 0.9967 odds ratio = 0.2535796แต่เมื่อผมทำงานตารางสองฉุกเฉินโดยไม่มีข้อโต้แย้งทางเลือก (เช่นfisher.test(mat)) p-value = 0.02063แล้วฉันจะได้รับ คุณช่วยอธิบายเหตุผลให้ฉันได้ไหม นอกจากนี้สมมติฐานว่างและสมมติฐานทางเลือกในกรณีข้างต้นคืออะไร? ฉันสามารถทำการทดสอบการประมงบนโต๊ะฉุกเฉินได้ไหม …

2
Paradox ของ Simpson ครอบคลุมการกลับรายการทั้งหมดจากตัวแปรที่ซ่อนอยู่หรือไม่?
ต่อไปนี้เป็นคำถามเกี่ยวกับการสร้างภาพข้อมูลจำนวนมากที่เสนอเป็น 'พิสูจน์ด้วยภาพ' ของการดำรงอยู่ของบุคคลที่ผิดธรรมดาของ Simpson และอาจเป็นคำถามเกี่ยวกับคำศัพท์ ซิมป์สัน Paradox เป็นปรากฏการณ์ที่ค่อนข้างง่ายที่จะอธิบายและยกตัวอย่างตัวเลขของ (เหตุผลที่ว่าทำไมนี้สามารถเกิดขึ้นได้เป็นลึกและน่าสนใจ) ความขัดแย้งก็คือมีตารางฉุกเฉิน 2x2x2 อยู่ (Agresti, การวิเคราะห์ข้อมูลอย่างมีหมวดหมู่) ซึ่งสมาคมร่อแร่มีทิศทางที่แตกต่างจากความสัมพันธ์ตามเงื่อนไข นั่นคือการเปรียบเทียบอัตราส่วนในสองประชากรย่อยสามารถไปในทิศทางเดียว แต่การเปรียบเทียบในประชากรที่รวมกันไปในทิศทางอื่น ในสัญลักษณ์: มีเช่นนั้น a + ba , b , c , d, e , f, g, ชั่วโมงa,b,c,d,e,f,g,ha,b,c,d,e,f,g,ha + bc + d&gt; e + fก.+ ชมa+bc+d&gt;e+fg+h \frac{a+b}{c+d} > \frac{e+f}{g+h} แต่ และaค&lt; eก.ac&lt;eg \frac{a}{c} < \frac{e}{g} …

1
การถดถอยโลจิสติกเทียบกับไคสแควร์ใน 2x2 และ Ix2 (ปัจจัยเดียว - การตอบสนองแบบไบนารี) ตารางฉุกเฉิน?
ฉันพยายามที่จะเข้าใจการใช้การถดถอยโลจิสติกในตารางฉุกเฉิน 2x2 และ Ix2 ตัวอย่างเช่นการใช้สิ่งนี้เป็นตัวอย่าง ความแตกต่างระหว่างการใช้การทดสอบไคสแควร์และการใช้การถดถอยโลจิสติกคืออะไร? เกี่ยวกับตารางที่มีปัจจัยหลายอย่าง (ตาราง Ix2) ดังนี้: มีคำถามที่คล้ายกันที่นี่ - แต่คำตอบคือส่วนใหญ่ที่ไคสแควร์สามารถจัดการตาราง mxn แต่คำถามของฉันคือสิ่งที่เป็น specificalyl เมื่อมีผลไบนารีและปัจจัยเดียวที่ระบุ (เธรดที่เชื่อมโยงนั้นอ้างถึงเธรดนี้ด้วย แต่สิ่งนี้เกี่ยวข้องกับตัวแปร / ปัจจัยหลายตัว) หากเป็นเพียงปัจจัยเดียว (เช่นไม่จำเป็นต้องควบคุมตัวแปรอื่น ๆ ) ด้วยการตอบกลับแบบไบนารีจุดประสงค์ของการถดถอยแบบโลจิสติกคืออะไร

3
G-test เทียบกับการทดสอบ Chi-squared ของ Pearson
ฉันกำลังทดสอบความเป็นอิสระในตารางฉุกเฉินฉันไม่รู้ว่าการทดสอบ G-testหรือการทดสอบไคสแควร์ของ Pearson นั้นดีกว่าหรือไม่ ขนาดตัวอย่างเป็นร้อย แต่มีจำนวนเซลล์ต่ำนับ ตามที่ระบุไว้ในหน้า Wikipediaการประมาณค่าการกระจายไคสแควร์นั้นดีกว่าสำหรับการทดสอบ G-test กว่าสำหรับการทดสอบไคสแควร์ของ Pearson แต่ฉันใช้การจำลอง Monte Carlo เพื่อคำนวณค่า p ดังนั้นจึงมีความแตกต่างระหว่างการทดสอบทั้งสองนี้หรือไม่?ยังไม่มีข้อความ× Mยังไม่มีข้อความ×MN \times M

1
จะตีความการทดสอบ Cochran-Mantel-Haenszel ได้อย่างไร
ฉันกำลังทดสอบความเป็นอิสระของตัวแปรสองตัวคือ A และ B แบ่งเป็นชั้น ๆ โดย C. A และ B เป็นตัวแปรไบนารีและ C คือหมวดหมู่ (5 ค่า) ทำการทดสอบที่แม่นยำของฟิชเชอร์สำหรับ A และ B (ชั้นทั้งหมดรวมกัน) ฉันได้รับ: ## (B) ## (A) FALSE TRUE ## FALSE 1841 85 ## TRUE 915 74 OR: 1.75 (1.25 -- 2.44), p = 0.0007 * โดยที่ OR เป็นอัตราต่อรอง (ประมาณและช่วงความมั่นใจ 95%) …

1
ทำไม Anova () และ drop1 () จึงให้คำตอบที่แตกต่างกันสำหรับ GLMM
ฉันมีแบบฟอร์ม GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) เมื่อฉันใช้drop1(model, test="Chi")ฉันได้รับผลลัพธ์ที่แตกต่างกว่าถ้าผมใช้จากแพคเกจรถหรือAnova(model, type="III") summary(model)สองหลังนี้ให้คำตอบเดียวกัน จากการใช้ข้อมูลที่ประดิษฐ์ขึ้นมาฉันพบว่าทั้งสองวิธีปกติไม่แตกต่างกัน พวกเขาให้คำตอบเดียวกันสำหรับแบบจำลองเชิงเส้นที่มีความสมดุลแบบจำลองเชิงเส้นที่ไม่สมดุล (ซึ่งไม่เท่ากันในกลุ่มต่าง ๆ ) และสำหรับแบบจำลองเชิงเส้นที่สมดุลแบบทั่วไป ดังนั้นจึงปรากฏว่าเฉพาะในกรณีที่มีการรวมปัจจัยแบบสุ่มเข้าด้วยกัน ทำไมจึงมีความคลาดเคลื่อนระหว่างสองวิธีนี้? เมื่อใช้ GLMM ควรAnova()หรือdrop1()จะใช้งานอย่างไร ความแตกต่างระหว่างสองสิ่งนี้ค่อนข้างเล็กน้อยอย่างน้อยสำหรับข้อมูลของฉัน มันมีความสำคัญต่อการใช้งานหรือไม่?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
การทดสอบไคสแควร์เพื่อความเท่าเทียมกันของการแจกแจง: มีศูนย์กี่ตัวที่ทนได้?
ฉันกำลังเปรียบเทียบการกลายพันธุ์สองกลุ่มแต่ละกลุ่มสามารถมีฟีโนไทป์ที่แตกต่างกันเพียงหนึ่งใน 21 ชนิด ฉันต้องการดูว่าการกระจายตัวของผลลัพธ์เหล่านี้คล้ายกันระหว่างสองกลุ่มหรือไม่ ฉันพบการทดสอบออนไลน์ ที่คำนวณ "การทดสอบไคสแควร์เพื่อความเท่าเทียมของการแจกแจง" และให้ผลลัพธ์ที่น่าเชื่อถือแก่ฉัน อย่างไรก็ตามฉันมีเลขศูนย์สองสามตัวในตารางนี้ฉันสามารถใช้ไคสแควร์ในกรณีนี้ได้หรือไม่? นี่คือตารางที่มีสองกลุ่มและจำนวนฟีโนไทป์โดยเฉพาะ: 2 1 2 3 1 6 1 4 13 77 7 27 0 1 0 4 0 2 2 7 2 3 1 5 1 9 2 6 0 3 3 0 1 3 0 3 1 0 1 2 …

4
ฟิชเชอร์ทดสอบที่ถูกต้องกับข้อมูลที่จับคู่
ป.ร. ให้ไว้ 404040 ผู้ป่วยมะเร็งปอดและ 404040การควบคุมที่จับคู่ (ไม่มีมะเร็งปอด) (การจับคู่ขึ้นอยู่กับอายุเพศ ฯลฯ ) เพื่อพยายามหาหลักฐานระหว่างผลของการสูบบุหรี่ต่อโรคมะเร็งปอดฉันใช้การทดสอบที่แน่นอนของฟิชเชอร์ในตารางฉุกเฉิน อย่างไรก็ตามเรื่องนี้ไม่ได้คำนึงถึงว่าการควบคุมและกรณีถูกจับคู่ ดังนั้นฉันสงสัยว่ามีวิธีใช้การทดสอบที่แน่นอนของฟิชเชอร์ที่คำนึงถึงการจับคู่ระหว่างสองกลุ่มหรือไม่?

2
การวิเคราะห์แบบเบส์ของตารางฉุกเฉิน: วิธีการอธิบายขนาดผลกระทบ
ฉันกำลังทำงานผ่านตัวอย่างในการวิเคราะห์ข้อมูล Doing Bayesianของ Kruschke โดยเฉพาะการวิเคราะห์ความแปรปรวนแบบปัวซองในพัวซอง 22 ซึ่งเขานำเสนอเป็นทางเลือกแทนการทดสอบไคสแควร์เป็นประจำสำหรับความเป็นอิสระสำหรับตารางฉุกเฉิน ฉันสามารถดูวิธีที่เราได้รับข้อมูลเกี่ยวกับการโต้ตอบที่เกิดขึ้นบ่อยหรือน้อยกว่าที่คาดไว้ถ้าตัวแปรนั้นเป็นอิสระ (เช่นเมื่อ HDI ไม่รวมศูนย์) คำถามของฉันคือฉันจะคำนวณหรือตีความขนาดผลกระทบในกรอบงานนี้ได้อย่างไร ยกตัวอย่างเช่น Kruschke เขียน "การรวมกันของดวงตาสีฟ้ากับผมสีดำเกิดขึ้นน้อยกว่าที่คาดถ้าสีตาและสีผมเป็นอิสระ" แต่เราจะอธิบายความแข็งแกร่งของความสัมพันธ์นั้นได้อย่างไร? ฉันจะรู้ได้อย่างไรว่าการโต้ตอบใดที่รุนแรงกว่าการโต้ตอบอื่น ๆ หากเราทำการทดสอบไคสแควร์ของข้อมูลเหล่านี้เราอาจคำนวณCramér V เป็นเครื่องวัดขนาดเอฟเฟกต์โดยรวม ฉันจะแสดงขนาดลักษณะพิเศษในบริบทเบย์นี้ได้อย่างไร นี่คือตัวอย่างที่มีในตัวเองจากหนังสือ (เขียนในR) ในกรณีที่คำตอบถูกซ่อนจากฉันในสายตาธรรมดา ... df &lt;- structure(c(20, 94, 84, 17, 68, 7, 119, 26, 5, 16, 29, 14, 15, 10, 54, 14), .Dim = c(4L, 4L), .Dimnames …

2
ความสัมพันธ์ระหว่างหมวดหมู่ระหว่างตัวแปรระบุแน่ชัด
ฉันมีชุดข้อมูลที่มีตัวแปรระบุหมวดหมู่สองชุด ฉันต้องการทราบว่า (และวิธี) ฉันสามารถระบุความสัมพันธ์ที่เป็นไปได้ระหว่างหมวดหมู่จากตัวแปรทั้งสองนี้หรือไม่ กล่าวอีกนัยหนึ่งไม่ว่าตัวอย่างเช่นผลลัพธ์ของหมวดหมู่ ผมii ในตัวแปร 1 แสดงความสัมพันธ์ที่ดีกับหมวดหมู่เฉพาะ Jjj ในตัวแปร 2 เนื่องจากฉันมีสองตัวแปรที่มี 5 หมวดหมู่การวิเคราะห์สหสัมพันธ์ทั้งหมดสำหรับหมวดหมู่ทั้งหมดจะลดลงถึง 25 ผลลัพธ์ (อย่างน้อยถ้ามันทำงานตามที่ฉันหวัง / คาดหวังว่ามันจะทำงาน) ฉันได้พยายามกำหนดปัญหาให้เป็นคำถามที่เป็นรูปธรรม: คำถามที่ 1: สมมติว่าฉันโอนตัวแปรเด็ดขาดเป็นตัวแปรดัมมี่ 5 ตัวต่อค่า (หมวดหมู่) ขั้นตอนเดียวกันนี้ฉันใช้สำหรับตัวแปรที่สองเช่นกัน จากนั้นฉันต้องการหาความสัมพันธ์ระหว่าง dummy 1.i และ 2.i (ตัวอย่าง) มันถูกต้องทางสถิติหรือไม่ที่ฉันจะดำเนินการตามขั้นตอนนี้ด้วยวิธีการของสัมประสิทธิ์สหสัมพันธ์สามัญ? สัมประสิทธิ์สหสัมพันธ์ที่เกิดจากขั้นตอนนี้ให้ข้อมูลเชิงลึกที่เหมาะสมในความสัมพันธ์ระหว่างตัวแปรจำลองทั้งสองหรือไม่? คำถามที่ 2: หากกระบวนการที่อธิบายไว้ในคำถามที่หนึ่งเป็นกระบวนการที่ถูกต้องมีวิธีดำเนินการวิเคราะห์นี้สำหรับทุกหมวดหมู่ของ 2 (หรืออาจมากกว่า) ตัวแปรระบุหมวดหมู่ทั้งหมดในครั้งเดียวหรือไม่? โปรแกรมที่ฉันใช้คือ SPSS (20)
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.