คำถามติดแท็ก chi-squared

การทดสอบ (โดยทั่วไปคือการกระจายความเป็นอิสระหรือความเหมาะสม) หรือตระกูลของการแจกแจงที่เกี่ยวข้องกับการทดสอบดังกล่าว

1
ฉันจะปรับ ANOVA สำหรับข้อมูลไบนารีได้อย่างไร
ฉันมีโมเดลการแข่งขันสี่แบบที่ฉันใช้ในการทำนายตัวแปรผลลัพธ์แบบไบนารี (เช่นสถานะการจ้างงานหลังจบการศึกษา 1 = มีงานทำ, 0 = ไม่มีงานทำ) สำหรับอาสาสมัคร n คน ตัวชี้วัดตามธรรมชาติของประสิทธิภาพของแบบจำลองคืออัตราการเข้าชมซึ่งเป็นอัตราร้อยละของการทำนายที่ถูกต้องสำหรับแต่ละแบบจำลอง สำหรับฉันดูเหมือนว่าฉันไม่สามารถใช้ ANOVA ในการตั้งค่านี้ได้เนื่องจากข้อมูลละเมิดสมมติฐานที่ ANOVA อ้างอิง มีขั้นตอนที่เทียบเท่ากันที่ฉันสามารถใช้แทน ANOVA ในการตั้งค่าด้านบนเพื่อทดสอบสมมติฐานที่ว่าทั้งสี่รุ่นมีประสิทธิภาพเท่าเทียมกันหรือไม่

1
R / mgcv: เพราะเหตุใดผลิตภัณฑ์ te () และ ti () เทนเซอร์จึงให้พื้นผิวที่แตกต่างกัน
mgcvแพคเกจสำหรับการRมีสองฟังก์ชั่นสำหรับการปฏิสัมพันธ์กระชับเมตริกซ์ผลิตภัณฑ์: และte() ti()ฉันเข้าใจการแบ่งขั้นพื้นฐานของการใช้แรงงานระหว่างคนทั้งสอง (ปรับให้เหมาะสมกับการทำงานแบบไม่เป็นเชิงเส้นเปรียบเทียบกับการย่อยสลายการโต้ตอบนี้เป็นผลกระทบหลักและการโต้ตอบ) สิ่งที่ฉันไม่เข้าใจคือสาเหตุte(x1, x2)และti(x1) + ti(x2) + ti(x1, x2)อาจให้ผลลัพธ์ที่แตกต่าง (เล็กน้อย) MWE (ดัดแปลงมาจาก?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
การทดสอบแบบฟิชเชอร์มีการกระจายแบบใด
ในงานของฉันฉันได้เห็นการทดสอบที่แม่นยำของฟิชเชอร์หลายครั้งและฉันสงสัยว่ามันเหมาะกับข้อมูลของฉันมากแค่ไหน เมื่อดูที่หลายแหล่งฉันเข้าใจวิธีคำนวณสถิติ แต่ไม่เคยเห็นคำอธิบายที่ชัดเจนและเป็นทางการของสมมติฐานว่าง ใครสามารถช่วยอธิบายหรือแนะนำฉันให้อธิบายอย่างเป็นทางการเกี่ยวกับการแจกแจงที่สันนิษฐานได้? จะขอบคุณสำหรับคำอธิบายในแง่ของค่าในตารางฉุกเฉิน

1
การทดสอบใดสำหรับการวิเคราะห์ข้ามตาราง: Boschloo หรือ Barnard
ฉันกำลังวิเคราะห์ตาราง 2x2 จากชุดข้อมูลขนาดเล็กจำนวน 30 ราย เราพยายามค้นหาตัวแปรบางอย่างที่ให้คำแนะนำว่าควรเลือกการรักษาแบบใด ตัวแปร (obs ปกติ / แปลก) และการตัดสินใจในการรักษา (A / B) มีความสนใจเป็นพิเศษและข้อมูลจึงมีลักษณะดังนี้: Obs / Tr ธันวาคมปกติแปลกA12012B1351825530Obs/Tr. Dec.ABnormal121325strange055121830\begin{array} {|r|r|r|r|} \hline \text{Obs/Tr. Dec.} &\text{A} &\text{B}\\ \hline \text{normal} &12 &13 &25\\ \hline \text{strange} &0 &5 &5\\ \hline &12 &18 &30\\ \hline \hline \end{array} เห็นได้ชัดว่าเซลล์หนึ่งขาดรายการที่ไม่รวมการทดสอบไคสแควร์และการทดสอบที่แม่นยำของฟิชเชอร์ไม่ได้ให้ค่า p ที่อิ่มตัว (แต่ยังคงอยู่ <10%) ดังนั้นความคิดแรกของฉันคือการหาการทดสอบที่มีพลังมากขึ้นและฉันกำลังอ่านใน …

2
ความคาดหวังของ
ให้X1X1X_1 , X2X2X_2 , ⋯⋯\cdots , Xd∼N(0,1)Xd∼N(0,1)X_d \sim \mathcal{N}(0, 1)และเป็นอิสระ ความคาดหวังของX 4 1คืออะไรX41(X21+⋯+X2d)2X14(X12+⋯+Xd2)2\frac{X_1^4}{(X_1^2 + \cdots + X_d^2)^2} ? หาEได้ง่าย( X 2 1)E(X21X21+⋯+X2d)=1dE(X12X12+⋯+Xd2)=1d\mathbb{E}\left(\frac{X_1^2}{X_1^2 + \cdots + X_d^2}\right) = \frac{1}{d}โดยสมมาตร แต่ฉันไม่รู้วิธีการค้นหาความคาดหวังของX41(X21+⋯+X2d)2X14(X12+⋯+Xd2)2\frac{X_1^4}{(X_1^2 + \cdots + X_d^2)^2} . คุณช่วยให้คำแนะนำหน่อยได้ไหม? สิ่งที่ฉันได้รับจนถึงตอนนี้ ฉันต้องการหาE(X41(X21+⋯+X2d)2)E(X14(X12+⋯+Xd2)2)\mathbb{E}\left(\frac{X_1^4}{(X_1^2 + \cdots + X_d^2)^2}\right)โดยสมมาตร แต่กรณีนี้แตกต่างจากกรณีสำหรับE(X21X21+⋯+X2d)E(X12X12+⋯+Xd2)\mathbb{E}\left(\frac{X_1^2}{X_1^2 + \cdots + X_d^2}\right)เพราะE(X4i(X21+⋯+X2d)2)E(Xi4(X12+⋯+Xd2)2)\mathbb{E}\left(\frac{X_i^4}{(X_1^2 + \cdots + X_d^2)^2}\right)อาจไม่เท่ากับE(X2iX2j(X21+⋯+X2d)2)E(Xi2Xj2(X12+⋯+Xd2)2)\mathbb{E}\left(\frac{X_i^2X_j^2}{(X_1^2 …

1
ตัวอย่างการทดสอบไคสองกำลังสอง
คำถามนี้มาจากหนังสือ Asymptotic Statistics, pg. ของ Van Van Vaart 253 # 3: สมมติว่าและเวกเตอร์พหุนามอิสระที่มีพารามิเตอร์และb_k) ภายใต้สมมติฐานว่างที่แสดงให้เห็นว่าXmXm\mathbf{X}_mYnYn\mathbf{Y}_n(m,a1,…,ak)(m,a1,…,ak)(m,a_1,\ldots,a_k)(n,b1,…,bk)(n,b1,…,bk)(n,b_1,\ldots,b_k)ai=biai=bia_i=b_i ∑i=1k(Xm,i−mc^i)2mc^i+∑i=1k(Yn,i−nc^i)2nc^i∑i=1k(Xm,i−mc^i)2mc^i+∑i=1k(Yn,i−nc^i)2nc^i\sum_{i=1}^k \dfrac{(X_{m,i} - m\hat{c}_i)^2}{m\hat{c}_i} + \sum_{i=1}^k \dfrac{(Y_{n,i} - n\hat{c}_i)^2}{n\hat{c}_i}มีการจัดจำหน่าย ที่n)χ2k−1χk−12\chi^2_{k-1}c^i=(Xm,i+Yn,i)/(m+n)c^i=(Xm,i+Yn,i)/(m+n)\hat{c}_i = (X_{m,i} + Y_{n,i})/(m+n) ฉันต้องการความช่วยเหลือในการเริ่มต้น กลยุทธ์ที่นี่คืออะไร? ฉันสามารถรวมการเรียกทั้งสองเข้าด้วยกันเป็น: ∑i=1k(mYn,i−nXm,i)2mn(m+n)c^i∑i=1k(mYn,i−nXm,i)2mn(m+n)c^i\sum_{i=1}^k \dfrac{(mY_{n,i} - nX_{m,i})^2}{mn(m+n)\hat{c}_i} แต่งานนี้เคยชินกับ CLT เพราะการรวมกันถ่วงน้ำหนักของและy_nไม่แน่ใจว่านี่เป็นเส้นทางที่ถูกต้องหรือไม่ ข้อเสนอแนะใด ๆXmXmX_mYnYnY_n แก้ไข: ถ้ามันค่อนข้างง่ายเพราะเราได้รับm=nm=nm=n mYn−nXmmn(m+n)−−−−−−−−−√=Yn−Xm(m+n)−−−−−−−√mYn−nXmmn(m+n)=Yn−Xm(m+n)\begin{align*} \dfrac{mY_{n} - nX_{m}}{\sqrt{mn(m+n)}} &= \dfrac{Y_{n} - X_{m}}{\sqrt{(m+n)}} \end{align*} …

1
การถดถอยโลจิสติกเทียบกับไคสแควร์ใน 2x2 และ Ix2 (ปัจจัยเดียว - การตอบสนองแบบไบนารี) ตารางฉุกเฉิน?
ฉันพยายามที่จะเข้าใจการใช้การถดถอยโลจิสติกในตารางฉุกเฉิน 2x2 และ Ix2 ตัวอย่างเช่นการใช้สิ่งนี้เป็นตัวอย่าง ความแตกต่างระหว่างการใช้การทดสอบไคสแควร์และการใช้การถดถอยโลจิสติกคืออะไร? เกี่ยวกับตารางที่มีปัจจัยหลายอย่าง (ตาราง Ix2) ดังนี้: มีคำถามที่คล้ายกันที่นี่ - แต่คำตอบคือส่วนใหญ่ที่ไคสแควร์สามารถจัดการตาราง mxn แต่คำถามของฉันคือสิ่งที่เป็น specificalyl เมื่อมีผลไบนารีและปัจจัยเดียวที่ระบุ (เธรดที่เชื่อมโยงนั้นอ้างถึงเธรดนี้ด้วย แต่สิ่งนี้เกี่ยวข้องกับตัวแปร / ปัจจัยหลายตัว) หากเป็นเพียงปัจจัยเดียว (เช่นไม่จำเป็นต้องควบคุมตัวแปรอื่น ๆ ) ด้วยการตอบกลับแบบไบนารีจุดประสงค์ของการถดถอยแบบโลจิสติกคืออะไร

3
G-test เทียบกับการทดสอบ Chi-squared ของ Pearson
ฉันกำลังทดสอบความเป็นอิสระในตารางฉุกเฉินฉันไม่รู้ว่าการทดสอบ G-testหรือการทดสอบไคสแควร์ของ Pearson นั้นดีกว่าหรือไม่ ขนาดตัวอย่างเป็นร้อย แต่มีจำนวนเซลล์ต่ำนับ ตามที่ระบุไว้ในหน้า Wikipediaการประมาณค่าการกระจายไคสแควร์นั้นดีกว่าสำหรับการทดสอบ G-test กว่าสำหรับการทดสอบไคสแควร์ของ Pearson แต่ฉันใช้การจำลอง Monte Carlo เพื่อคำนวณค่า p ดังนั้นจึงมีความแตกต่างระหว่างการทดสอบทั้งสองนี้หรือไม่?ยังไม่มีข้อความ× Mยังไม่มีข้อความ×MN \times M

2
สถิติของ Chi Squared ของ Pearson ประมาณว่าการกระจายตัวของ Chi Squared อย่างไร
ดังนั้นหากได้รับสถิติ Chi Squared ของ Pearson สำหรับตารางรูปแบบของมันคือ:1×N1×N1 \times N ∑i=1n(Oi−Ei)2Ei∑i=1n(Oi−Ei)2Ei\sum_{i=1}^n\frac{(O_i - E_i)^2}{E_i} จากนั้นสิ่งนี้จะประมาณการกระจาย Chi-Squared ที่มีอิสระขององศาเมื่อขนาดตัวอย่างมีขนาดใหญ่ขึ้น χ2n−1χn−12\chi_{n-1}^2n−1n−1n-1NNN สิ่งที่ฉันไม่เข้าใจก็คือวิธีการประมาณ asymptotic นี้ทำงานอย่างไร ฉันรู้สึกเหมือน 's ในหารจะถูกแทนที่ด้วย{} นับได้ว่าจะให้คุณสำหรับ(0,1) แต่แน่นอนว่ามันมีอิสระแบบองศาไม่ใช่ดังนั้นจึงมีบางอย่างที่ชัดเจนเกิดขึ้นEiEiE_is2inisi2ni\frac{s_i^2}{n_i}χ2n=∑ni=1Z2iχn2=∑i=1nZi2\chi_n^2 = \sum_{i=1}^nZ_i^2Zi∼n(0,1)Zi∼n(0,1)Z_i\sim n(0,1)nnnn−1n−1n-1

1
ทำไม Anova () และ drop1 () จึงให้คำตอบที่แตกต่างกันสำหรับ GLMM
ฉันมีแบบฟอร์ม GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) เมื่อฉันใช้drop1(model, test="Chi")ฉันได้รับผลลัพธ์ที่แตกต่างกว่าถ้าผมใช้จากแพคเกจรถหรือAnova(model, type="III") summary(model)สองหลังนี้ให้คำตอบเดียวกัน จากการใช้ข้อมูลที่ประดิษฐ์ขึ้นมาฉันพบว่าทั้งสองวิธีปกติไม่แตกต่างกัน พวกเขาให้คำตอบเดียวกันสำหรับแบบจำลองเชิงเส้นที่มีความสมดุลแบบจำลองเชิงเส้นที่ไม่สมดุล (ซึ่งไม่เท่ากันในกลุ่มต่าง ๆ ) และสำหรับแบบจำลองเชิงเส้นที่สมดุลแบบทั่วไป ดังนั้นจึงปรากฏว่าเฉพาะในกรณีที่มีการรวมปัจจัยแบบสุ่มเข้าด้วยกัน ทำไมจึงมีความคลาดเคลื่อนระหว่างสองวิธีนี้? เมื่อใช้ GLMM ควรAnova()หรือdrop1()จะใช้งานอย่างไร ความแตกต่างระหว่างสองสิ่งนี้ค่อนข้างเล็กน้อยอย่างน้อยสำหรับข้อมูลของฉัน มันมีความสำคัญต่อการใช้งานหรือไม่?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
ช่วงความเชื่อมั่นสำหรับไคสแควร์
ฉันพยายามหาวิธีแก้ปัญหาเพื่อเปรียบเทียบการทดสอบ "ดี - พอดี - แบบไค - สแควร์" แม่นยำยิ่งขึ้นฉันต้องการเปรียบเทียบผลลัพธ์จากการทดสอบอิสระสองครั้ง ในการทดลองเหล่านี้ผู้เขียนใช้ความดีแบบพอดีไคสแควร์เพื่อเปรียบเทียบการคาดเดาแบบสุ่ม (ความถี่ที่คาดหวัง) กับความถี่ที่สังเกตได้ การทดลองสองรายการมีจำนวนผู้เข้าร่วมเท่ากันและขั้นตอนการทดลองเหมือนกันมีเพียงสิ่งเร้าที่เปลี่ยนไป ผลการทดลองทั้งสองระบุว่าไคสแควร์อย่างมีนัยสำคัญ (exp. 1: X² (18) = 45; p <.0005 และ exp 2: X² (18) = 79; p <.0001) ทีนี้สิ่งที่ฉันอยากทำคือทดสอบว่ามีความแตกต่างระหว่างสองผลลัพธ์นี้หรือไม่ ฉันคิดว่าวิธีแก้ปัญหาอาจใช้ช่วงความเชื่อมั่น แต่ฉันไม่รู้วิธีคำนวณช่วงความมั่นใจเหล่านี้กับผลลัพธ์เหล่านี้เท่านั้น หรืออาจเป็นการทดสอบเพื่อเปรียบเทียบขนาดเอฟเฟกต์ (Cohen's w)? ใครมีทางออก? ขอบคุณมาก! FD

2
การทดสอบไคสแควร์เพื่อความเท่าเทียมกันของการแจกแจง: มีศูนย์กี่ตัวที่ทนได้?
ฉันกำลังเปรียบเทียบการกลายพันธุ์สองกลุ่มแต่ละกลุ่มสามารถมีฟีโนไทป์ที่แตกต่างกันเพียงหนึ่งใน 21 ชนิด ฉันต้องการดูว่าการกระจายตัวของผลลัพธ์เหล่านี้คล้ายกันระหว่างสองกลุ่มหรือไม่ ฉันพบการทดสอบออนไลน์ ที่คำนวณ "การทดสอบไคสแควร์เพื่อความเท่าเทียมของการแจกแจง" และให้ผลลัพธ์ที่น่าเชื่อถือแก่ฉัน อย่างไรก็ตามฉันมีเลขศูนย์สองสามตัวในตารางนี้ฉันสามารถใช้ไคสแควร์ในกรณีนี้ได้หรือไม่? นี่คือตารางที่มีสองกลุ่มและจำนวนฟีโนไทป์โดยเฉพาะ: 2 1 2 3 1 6 1 4 13 77 7 27 0 1 0 4 0 2 2 7 2 3 1 5 1 9 2 6 0 3 3 0 1 3 0 3 1 0 1 2 …

4
วิธีการพิสูจน์ทางสถิติว่าคอลัมน์มีข้อมูลหมวดหมู่หรือไม่ใช้ Python
ฉันมี data frame ใน python ที่ฉันต้องการค้นหาตัวแปรเด็ดขาดทั้งหมด การตรวจสอบประเภทของคอลัมน์นั้นไม่ได้ผลเสมอไปเพราะintประเภทยังสามารถจัดหมวดหมู่ได้ ดังนั้นฉันจึงขอความช่วยเหลือในการค้นหาวิธีทดสอบสมมติฐานที่ถูกต้องเพื่อระบุว่าคอลัมน์นั้นเป็นหมวดหมู่หรือไม่ ฉันพยายามทดสอบไคสแควร์ด้านล่าง แต่ไม่แน่ใจว่าดีพอหรือไม่ import numpy as np data = np.random.randint(0,5,100) import scipy.stats as ss ss.chisquare(data) กรุณาแนะนำ

2
การทดสอบความเป็นอิสระเทียบกับการทดสอบความเป็นเนื้อเดียวกัน
ฉันกำลังสอนหลักสูตรสถิติขั้นพื้นฐานและวันนี้ฉันจะครอบคลุมการทดสอบความเป็นอิสระของไคสแควร์สำหรับสองประเภทและการทดสอบความเป็นเนื้อเดียวกัน สถานการณ์ทั้งสองนี้แตกต่างกันตามแนวคิด แต่สามารถใช้สถิติการทดสอบและการกระจายแบบเดียวกันได้ ในการทดสอบความเป็นเนื้อเดียวกันผลรวมส่วนล่างสำหรับหนึ่งในหมวดหมู่จะถือว่าเป็นส่วนหนึ่งของการออกแบบ - เป็นตัวแทนของจำนวนวิชาที่เลือกสำหรับแต่ละกลุ่มการทดลอง แต่เนื่องจากการทดสอบไคสแควร์หมุนรอบการปรับสภาพบนยอดรวมทั้งหมดจึงไม่มีผลทางคณิตศาสตร์ที่จะแยกความแตกต่างระหว่างการทดสอบความเป็นเนื้อเดียวกันและการทดสอบความเป็นอิสระด้วยข้อมูลเด็ดขาดอย่างน้อยก็ไม่มีเมื่อใช้การทดสอบนี้ คำถามของฉันมีดังต่อไปนี้: มีโรงเรียนแห่งใดที่มีความคิดทางสถิติหรือวิธีการทางสถิติที่จะให้ผลการวิเคราะห์ที่แตกต่างกันขึ้นอยู่กับว่าเรากำลังทดสอบความเป็นอิสระ (โดยที่ margin ทั้งหมดเป็นตัวแปรสุ่ม) หรือทดสอบความเป็นเนื้อเดียวกัน กำหนดโดยการออกแบบ)? ในกรณีที่ต่อเนื่องบอกว่าเราสังเกตในเรื่องเดียวกันและทดสอบความเป็นอิสระหรือสังเกตในประชากรที่แตกต่างกันและทดสอบว่าพวกเขามาจากการกระจายตัวเดียวกันวิธีการที่แตกต่างกัน การวิเคราะห์ vs t-test) เกิดอะไรขึ้นถ้าข้อมูลหมวดหมู่มาจากตัวแปรที่ต่อเนื่องแบบแยกส่วน การทดสอบความเป็นอิสระและความเป็นเนื้อเดียวกันควรแยกไม่ออกหรือไม่?( X, วาย)(X,Y)(X,Y)(X1,X2)(X1,X2)(X_1, X_2)

4
ฉันสามารถคำนวณเพียร์สันสถิติทดสอบสำหรับการขาดความพอดีกับรูปแบบการถดถอยโลจิสติกใน R?
อัตราส่วนความน่าจะเป็น (การเบี่ยงเบน aka)สถิติและการทดสอบแบบไม่พอดี (หรือความดีของความพอดี) นั้นค่อนข้างตรงไปตรงมาที่จะได้รับแบบจำลองการถดถอยแบบโลจิสติก (พอดีกับการใช้งาน) ในอาร์ ง่ายที่จะให้จำนวนเซลล์บางส่วนสิ้นสุดต่ำพอที่การทดสอบจะไม่น่าเชื่อถือ วิธีหนึ่งในการตรวจสอบความน่าเชื่อถือของการทดสอบอัตราส่วนความน่าจะเป็นสำหรับการขาดความพอดีคือการเปรียบเทียบสถิติการทดสอบและP- value กับการทดสอบไคสแควร์ของ Pearson (หรือ ) การทดสอบแบบไม่พอดีG2G2G^2glm(..., family = binomial)χ2χ2\chi^2 ทั้งglmวัตถุและsummary()วิธีการรายงานสถิติการทดสอบสำหรับการทดสอบไคสแควร์ของเพียร์สันสำหรับการขาดความพอดี ในการค้นหาของฉันสิ่งเดียวที่ฉันคิดไว้คือchisq.test()ฟังก์ชั่น (ในstatsแพ็คเกจ): เอกสารประกอบของมันบอกว่า " chisq.testทำการทดสอบตารางฉุกเฉินแบบไคสแควร์และการทดสอบความดีแบบพอดี" อย่างไรก็ตามเอกสารประกอบกระจัดกระจายในวิธีการทดสอบดังกล่าว: ถ้าxเป็นเมทริกซ์ที่มีหนึ่งแถวหรือคอลัมน์หรือถ้าxเป็นเวกเตอร์และyไม่ได้ให้ไว้จะทำการทดสอบความดี - พอดี ( xถือว่าเป็นตารางฉุกเฉินหนึ่งมิติ) รายการของxต้องเป็นจำนวนเต็มที่ไม่เป็นลบ ในกรณีนี้สมมติฐานที่ทดสอบคือความน่าจะเป็นของประชากรเท่ากับpหรือไม่เท่ากันทั้งหมดหากpไม่ได้รับ ฉันคิดว่าคุณสามารถใช้yส่วนประกอบของglmวัตถุสำหรับข้อโต้แย้งของx chisq.testอย่างไรก็ตามคุณไม่สามารถใช้fitted.valuesองค์ประกอบของglmวัตถุสำหรับการpโต้แย้งchisq.testเพราะคุณจะได้รับข้อผิดพลาด: " probabilities must sum to 1." อย่างน้อยฉันจะ (ใน R) คำนวณสถิติการทดสอบPearsonสำหรับการขาดความฟิตโดยไม่ต้องทำตามขั้นตอนด้วยตนเองได้อย่างไรχ2χ2\chi^2

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.