คำถามติดแท็ก z-test

2
ความสัมพันธ์ระหว่างการทดสอบไคสแควร์และการทดสอบในสัดส่วนเท่ากันคืออะไร?
สมมติว่าฉันมีประชากรสามคนที่มีสี่ลักษณะที่ไม่เหมือนกันซึ่งกันและกัน ฉันสุ่มตัวอย่างตัวอย่างจากประชากรแต่ละคนและสร้างแท็บไขว้หรือตารางความถี่สำหรับลักษณะที่ฉันวัด ฉันถูกต้องในการพูดว่า: ถ้าฉันต้องการทดสอบว่ามีความสัมพันธ์ใด ๆ ระหว่างประชากรและลักษณะ (เช่นว่าหนึ่งประชากรมีความถี่สูงกว่าหนึ่งในลักษณะ) ฉันควรใช้การทดสอบไคสแควร์และดูว่าผลที่มีความสำคัญ หากการทดสอบแบบไคสแควร์มีความสำคัญแสดงให้ฉันเห็นว่ามีความสัมพันธ์ระหว่างประชากรและคุณลักษณะบางอย่าง แต่ไม่ใช่ความสัมพันธ์ ยิ่งไปกว่านั้นคุณสมบัติบางอย่างนั้นไม่จำเป็นต้องเกี่ยวข้องกับประชากร ตัวอย่างเช่นหากประชากรที่แตกต่างกันมีการแจกแจงที่แตกต่างกันอย่างมากของคุณสมบัติ A และ B แต่ไม่ใช่ของ C และ D ดังนั้นการทดสอบไคสแควร์อาจยังกลับมามีความหมาย ถ้าผมต้องการที่จะวัดหรือไม่ว่าลักษณะที่เฉพาะเจาะจงได้รับผลกระทบโดยประชากรแล้วฉันสามารถเรียกใช้การทดสอบสำหรับสัดส่วนที่เท่ากัน (ฉันได้เห็นนี้เรียกว่า Z-test หรือเป็นprop.test()ในR) เพียงลักษณะที่ กล่าวอีกนัยหนึ่งเหมาะสมที่จะใช้prop.test()เพื่อกำหนดลักษณะของความสัมพันธ์ระหว่างชุดสองประเภทอย่างแม่นยำมากขึ้นเมื่อการทดสอบไคสแควร์บอกว่ามีความสัมพันธ์ที่สำคัญหรือไม่

5
วิธีจัดการกับข้อมูลแบบลำดับชั้น / ซ้อนในการเรียนรู้ของเครื่อง
ฉันจะอธิบายปัญหาด้วยตัวอย่าง สมมติว่าคุณต้องการที่จะทำนายรายได้ของแต่ละบุคคลที่มีคุณลักษณะบางอย่าง: {อายุ, เพศ, ประเทศ, ภูมิภาค, เมือง} คุณมีชุดข้อมูลการฝึกอบรมเช่นนั้น train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

2
การเลือกระหว่าง -test และ -test
ความเป็นมา: ฉันกำลังนำเสนอให้กับเพื่อนร่วมงานที่ทำงานเกี่ยวกับการทดสอบสมมติฐานและเข้าใจว่าส่วนใหญ่ดี แต่มีแง่มุมหนึ่งที่ฉันคาดว่าจะเป็นปมพยายามเข้าใจและอธิบายให้ผู้อื่นฟัง นี่คือสิ่งที่ฉันคิดว่าฉันรู้ (โปรดแก้ไขถ้าผิด!) สถิติที่อาจเป็นเรื่องปกติหากทราบความแปรปรวนให้ทำตามการแจกแจงแบบtttหากไม่ทราบความแปรปรวน CLT (ทฤษฎีขีด จำกัด กลาง): การกระจายตัวตัวอย่างของค่าเฉลี่ยตัวอย่างนั้นประมาณปกติสำหรับขนาดใหญ่พอnnn (อาจเป็น303030 , อาจสูงถึง300300300สำหรับการแจกแจงแบบเบ้สูง) ttt -distribution สามารถพิจารณาปกติองศาอิสระ&gt;30&gt;30> 30 คุณใช้การทดสอบถ้า:zzz ประชากรปกติและความแปรปรวนเป็นที่รู้จัก (สำหรับขนาดตัวอย่างใด ๆ ) ประชากรปกติไม่ทราบความแปรปรวนและ (เนื่องจาก CLT)n&gt;30n&gt;30n>30 ประชากรทวินาม, , n q &gt; 10np&gt;10np&gt;10np>10nq&gt;10nq&gt;10nq>10 คุณใช้ -test ถ้า:ttt ประชากรปกติไม่ทราบความแปรปรวนและn&lt;30n&lt;30n<30 ไม่มีความรู้เกี่ยวกับประชากรหรือความแปรปรวนและแต่ข้อมูลตัวอย่างดูเป็นปกติ / ผ่านการทดสอบและอื่น ๆ เพื่อให้ประชากรสามารถสันนิษฐานได้ว่าเป็นปกติn&lt;30n&lt;30n<30 ดังนั้นฉันเหลือ: สำหรับตัวอย่างและ&lt; ≈ 300 (?) ไม่มีความรู้เกี่ยวกับประชากรและความแปรปรวนที่ทราบ / ไม่รู้จัก&gt;30&gt;30>30&lt;≈300&lt;≈300<\approx 300 …

4
การเพิ่มความแม่นยำของเครื่องไล่ระดับสีจะลดลงเมื่อจำนวนการทำซ้ำเพิ่มขึ้น
ฉันกำลังทดลองกับอัลกอริทึมของเครื่องเร่งการไล่ระดับสีผ่านcaretแพ็คเกจใน R ใช้ชุดข้อมูลการรับสมัครวิทยาลัยขนาดเล็กฉันใช้รหัสต่อไปนี้: library(caret) ### Load admissions dataset. ### mydata &lt;- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] &lt;- "no" mydata$admit_factor[mydata$admit==1] &lt;- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl &lt;- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid &lt;- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
ที่ระดับอะไรคือการทดสอบ
ความเป็นมา:ข้ามอย่างปลอดภัย - อยู่ที่นี่เพื่อการอ้างอิงและทำให้คำถามถูกต้อง การเปิดอ่านบทความนี้: "การทดสอบไคสแควร์ที่มีชื่อเสียงของคาร์ลเพียร์สันได้มาจากสถิติอื่นที่เรียกว่าสถิติซีตามการแจกแจงแบบปกติรุ่นที่ง่ายที่สุดของχ2χ2\chi^2สามารถแสดงให้เห็นว่าเป็นคณิตศาสตร์ในทางคณิตศาสตร์เหมือนกับการทดสอบซีที่เทียบเท่า ในทุกสถานการณ์สำหรับทุกเจตนารมณ์และวัตถุประสงค์ "ไคสแควร์" อาจเรียกว่า "ซีสแควร์" ค่าวิกฤตของχ2χ2\chi^2สำหรับระดับอิสระหนึ่งระดับคือจตุรัสของค่าวิกฤตที่สอดคล้องกันของซี " นี้ได้รับการยืนยันหลายครั้งใน CV ( ที่นี่ , ที่นี่ , ที่นี่และอื่น ๆ ) และแน่นอนเราสามารถพิสูจน์ได้ว่าχ21dfχ1df2\chi^2_{1\,df}เทียบเท่ากับX2X2X^2ด้วยX∼N(0,1)X∼N(0,1)X\sim N(0,1): สมมติว่าX∼N(0,1)X∼N(0,1)X \sim N(0,1)และY=X2Y=X2Y=X^2และค้นหาความหนาแน่นของYYYโดยใช้วิธีcdfcdfcdf : ) ปัญหาคือเราไม่สามารถรวมความหนาแน่นของการแจกแจงแบบปกติในรูปแบบปิด แต่เราสามารถแสดงได้:p(Y≤y)=p(X2≤y)=p(−y√≤x≤y√)p(Y≤y)=p(X2≤y)=p(−y≤x≤y)p(Y \leq y) = p(X^2 \leq y)= p(-\sqrt{y} \leq x \leq \sqrt{y}) รับอนุพันธ์:FX(y)=FX(y√)−FX(−y√).FX(y)=FX(y)−FX(−y). F_X(y) = F_X(\sqrt{y})- F_X(-\sqrt[]{y}). fX(y)=F′X(y√)12y√+F′X(−y−−−√)12y√.fX(y)=FX′(y)12y+FX′(−y)12y. f_X(y)= F_X'(\sqrt{y})\,\frac{1}{2\sqrt{y}}+ F_X'(\sqrt{-y})\,\frac{1}{2\sqrt{y}}. …

2
ตัวอย่างอิสระ t-test: จริง ๆ แล้วข้อมูลจำเป็นต้องแจกให้กับกลุ่มตัวอย่างขนาดใหญ่หรือไม่
สมมุติว่าฉันต้องการทดสอบว่าตัวอย่างอิสระสองตัวอย่างมีค่าเฉลี่ยต่างกันหรือไม่ ฉันรู้ว่าการกระจายพื้นฐานคือไม่ปกติ ถ้าฉันเข้าใจถูกต้องสถิติทดสอบของฉันคือค่าเฉลี่ยและสำหรับขนาดตัวอย่างที่มีขนาดใหญ่พอค่าเฉลี่ยควรกระจายตามปกติแม้ว่าตัวอย่างจะไม่ได้ การทดสอบความสำคัญเชิงพารามิเตอร์ควรจะใช้ได้ในกรณีนี้ใช่ไหม ฉันได้อ่านข้อมูลที่ขัดแย้งและสับสนเกี่ยวกับเรื่องนี้ดังนั้นฉันขอขอบคุณการยืนยัน (หรือคำอธิบายว่าทำไมฉันถึงผิด) นอกจากนี้ฉันได้อ่านแล้วว่าสำหรับกลุ่มตัวอย่างที่มีขนาดใหญ่ฉันควรใช้ค่าสถิติ z แทนค่าสถิติ แต่ในทางปฏิบัติการแจกแจงแบบ t จะมาบรรจบกับการแจกแจงแบบปกติและสถิติทั้งสองควรเหมือนกันไม่ใช่หรือ? แก้ไข : ด้านล่างนี้เป็นแหล่งข้อมูลที่อธิบายการทดสอบ z พวกเขาทั้งสองระบุว่าประชากรจะต้องกระจายตามปกติ: ที่นี่มันบอกว่า "โดยไม่คำนึงถึงประเภทของการทดสอบ Z- ใช้มันสันนิษฐานว่าประชากรจากตัวอย่างที่วาดเป็นเรื่องปกติ" และที่นี่ข้อกำหนดสำหรับการทดสอบ z ถูกแสดงรายการเป็น "การกระจายสองแบบปกติ แต่เป็นประชากรอิสระσเป็นที่รู้จัก"

5
จะทำการใส่ค่าในจุดข้อมูลจำนวนมากได้อย่างไร?
ฉันมีชุดข้อมูลที่มีขนาดใหญ่มากและมีค่าสุ่มประมาณ 5% หายไป ตัวแปรเหล่านี้มีความสัมพันธ์ซึ่งกันและกัน ตัวอย่างชุดข้อมูล R ต่อไปนี้เป็นเพียงตัวอย่างของเล่นที่มีข้อมูลที่สัมพันธ์กันจำลอง set.seed(123) # matrix of X variable xmat &lt;- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) &lt;- paste ("M", 1:10000, sep ="") rownames(xmat) &lt;- paste("sample", 1:200, sep = "") #M variables are correlated N &lt;- 2000000*0.05 # 5% random missing values inds …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
การทดสอบอัตราส่วนความน่าจะเป็นและการทดสอบ Wald ให้ข้อสรุปที่แตกต่างกันสำหรับ glm ใน R
ฉันทำซ้ำเช่นจากทั่วไปเชิงเส้นและรูปแบบผสม MWE ของฉันอยู่ด้านล่าง: Dilution &lt;- c(1/128, 1/64, 1/32, 1/16, 1/8, 1/4, 1/2, 1, 2, 4) NoofPlates &lt;- rep(x=5, times=10) NoPositive &lt;- c(0, 0, 2, 2, 3, 4, 5, 5, 5, 5) Data &lt;- data.frame(Dilution, NoofPlates, NoPositive) fm1 &lt;- glm(formula=NoPositive/NoofPlates~log(Dilution), family=binomial("logit"), data=Data) summary(object=fm1) เอาท์พุต Call: glm(formula = NoPositive/NoofPlates ~ log(Dilution), family …

6
เราจะทราบความแปรปรวนของประชากรได้อย่างไร?
ในการทดสอบสมมติฐานคำถามทั่วไปคือความแปรปรวนของประชากรคืออะไร? คำถามของฉันคือเราจะทราบความแปรปรวนของประชากรได้อย่างไร ถ้าเรารู้การกระจายตัวทั้งหมดเราก็อาจรู้ค่าเฉลี่ยของประชากรทั้งหมด จากนั้นการทดสอบสมมติฐานคืออะไร?
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.