คำถามติดแท็ก proportion

สัดส่วนคือเศษส่วนของผลรวมบางส่วนที่มีลักษณะเฉพาะเช่น (i) เป็นจำนวนสิ่งหนึ่งประเภทจากจำนวนทั้งหมดหรือ (ii) เป็นส่วนประกอบของตัวแปรต่อเนื่อง

3
ตัวอย่าง: การถดถอย LASSO โดยใช้ glmnet สำหรับผลลัพธ์ไบนารี
ฉันเริ่มตะลุยกับการใช้งานglmnetกับการถดถอยแบบ LASSOซึ่งผลลัพธ์ของความสนใจของฉันนั้นเป็นแบบขั้วคู่ ฉันได้สร้างกรอบข้อมูลจำลองขนาดเล็กด้านล่าง: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

2
ความสัมพันธ์ระหว่างการทดสอบไคสแควร์และการทดสอบในสัดส่วนเท่ากันคืออะไร?
สมมติว่าฉันมีประชากรสามคนที่มีสี่ลักษณะที่ไม่เหมือนกันซึ่งกันและกัน ฉันสุ่มตัวอย่างตัวอย่างจากประชากรแต่ละคนและสร้างแท็บไขว้หรือตารางความถี่สำหรับลักษณะที่ฉันวัด ฉันถูกต้องในการพูดว่า: ถ้าฉันต้องการทดสอบว่ามีความสัมพันธ์ใด ๆ ระหว่างประชากรและลักษณะ (เช่นว่าหนึ่งประชากรมีความถี่สูงกว่าหนึ่งในลักษณะ) ฉันควรใช้การทดสอบไคสแควร์และดูว่าผลที่มีความสำคัญ หากการทดสอบแบบไคสแควร์มีความสำคัญแสดงให้ฉันเห็นว่ามีความสัมพันธ์ระหว่างประชากรและคุณลักษณะบางอย่าง แต่ไม่ใช่ความสัมพันธ์ ยิ่งไปกว่านั้นคุณสมบัติบางอย่างนั้นไม่จำเป็นต้องเกี่ยวข้องกับประชากร ตัวอย่างเช่นหากประชากรที่แตกต่างกันมีการแจกแจงที่แตกต่างกันอย่างมากของคุณสมบัติ A และ B แต่ไม่ใช่ของ C และ D ดังนั้นการทดสอบไคสแควร์อาจยังกลับมามีความหมาย ถ้าผมต้องการที่จะวัดหรือไม่ว่าลักษณะที่เฉพาะเจาะจงได้รับผลกระทบโดยประชากรแล้วฉันสามารถเรียกใช้การทดสอบสำหรับสัดส่วนที่เท่ากัน (ฉันได้เห็นนี้เรียกว่า Z-test หรือเป็นprop.test()ในR) เพียงลักษณะที่ กล่าวอีกนัยหนึ่งเหมาะสมที่จะใช้prop.test()เพื่อกำหนดลักษณะของความสัมพันธ์ระหว่างชุดสองประเภทอย่างแม่นยำมากขึ้นเมื่อการทดสอบไคสแควร์บอกว่ามีความสัมพันธ์ที่สำคัญหรือไม่

4
การทดสอบทวินามสองตัวอย่างในสัดส่วนที่แน่นอนใน R (และค่า p แปลก ๆ )
ฉันพยายามที่จะแก้ปัญหาคำถามต่อไปนี้: ผู้เล่น A ชนะ 17 จาก 25 เกมในขณะที่ผู้เล่น B ชนะ 8 จาก 20 - มีความแตกต่างอย่างมีนัยสำคัญระหว่างอัตราส่วนทั้งสองหรือไม่? สิ่งที่ต้องทำใน R ที่อยู่ในใจคือต่อไปนี้: > prop.test(c(17,8),c(25,20),correct=FALSE) 2-sample test for equality of proportions without continuity correction data: c(17, 8) out of c(25, 20) X-squared = 3.528, df = 1, p-value = 0.06034 alternative hypothesis: two.sided 95 percent …

6
ค่าเฉลี่ยความขัดแย้ง - สิ่งนี้เรียกว่าอะไร?
ฉันมีชุดข้อมูล พูดข้อสังเกตข้อและตัวแปรตัว:3101010333 obs A B C 1 0 0 1 2 0 1 0 3 1 0 1 4 1 1 0 5 1 0 1 6 1 0 0 7 1 1 0 8 0 0 1 9 0 1 1 10 0 1 1 บอกว่าเป็นลูกค้าที่ได้ซื้อ ( ) หรือไม่ …

3
กำหนดขนาดตัวอย่างอย่างปลอดภัยสำหรับการทดสอบ A / B
ฉันเป็นวิศวกรซอฟต์แวร์ที่ต้องการสร้างเครื่องมือทดสอบ A / B ฉันไม่มีพื้นหลังสถิติที่มั่นคง แต่ได้อ่านบ้างเล็กน้อยในช่วงสองสามวันที่ผ่านมา ฉันกำลังทำตามวิธีการที่อธิบายไว้ที่นี่และจะสรุปประเด็นที่เกี่ยวข้องด้านล่าง เครื่องมือนี้จะช่วยให้นักออกแบบและผู้เชี่ยวชาญด้านโดเมนสามารถกำหนดค่าเว็บไซต์เพื่อแยกทราฟฟิกที่ได้รับที่ URL เฉพาะระหว่างสอง URL ขึ้นไป ยกตัวอย่างเช่นการจราจรมาถึงที่http://example.com/hello1อาจจะแยกระหว่างhttp://example.com/hello1และhttp://example.com/hello2 ปริมาณการใช้ข้อมูลจะถูกแบ่งเท่า ๆ กันระหว่าง URL เป้าหมายและประสิทธิภาพของกระบวนการทางการตลาดในแต่ละ URL เป้าหมายจะถูกเปรียบเทียบ ในการทดลองนี้ขนาดของกลุ่มตัวอย่างNจะสอดคล้องกับผู้เข้าชม การทดสอบจะวัด "การแปลง" ซึ่งเป็นคำที่อธิบายเมื่อผู้เข้าชมยอมรับการกระทำเฉพาะในกระบวนการทางการตลาด การแปลงจะแสดงเป็นเปอร์เซ็นต์และต้องการอัตราการแปลงที่สูงขึ้น สิ่งนี้ทำให้การทดสอบเป็นการเปรียบเทียบสัดส่วนอิสระ เครื่องมือนี้จะต้องสามารถใช้งานได้ง่ายเพื่อสร้างการทดสอบที่มีผลลัพธ์ที่ปลอดภัย การเลือกค่าที่เหมาะสมของNเป็นสิ่งสำคัญ Nในบทความที่เชื่อมโยงข้างต้นการวิเคราะห์พลังงานของทั้งสองสัดส่วนอิสระเป็นลูกจ้างที่จะหา วิธีนี้ต้องการให้ใครรู้อัตราการแปลงของการควบคุมล่วงหน้ารวมทั้งระบุเป้าหมายการปรับปรุงการแปลงที่ต้องการ นอกจากนี้ยังระบุระดับนัยสำคัญ 95% และพลังทางสถิติ 80% คำถาม: เป็นวิธีการกำหนดNเสียงนี้หรือไม่ ถ้าอย่างนั้นวิธีที่ปลอดภัยที่สุดในการกำหนดอัตราการแปลงของการควบคุมก่อนที่จะเริ่มการทดสอบคืออะไร? มีวิธีที่ดีในการพิจารณาNว่าไม่ต้องการให้ใครรู้อัตราการแปลงของการควบคุมล่วงหน้าหรือไม่? เป็นวิธีการในบทความเสียงที่เชื่อมโยง ? ถ้าไม่มีวิธีใดที่สามารถเข้าถึงได้และย่อยง่ายที่คุณสามารถเชื่อมโยงฉันได้หรือไม่

4
ค่าที่ถูกต้องสำหรับความแม่นยำและการเรียกคืนในกรณีขอบคืออะไร?
ความแม่นยำหมายถึง: p = true positives / (true positives + false positives) มันถูกต้องหรือไม่ที่ในฐานะtrue positivesและfalse positivesวิธีที่ 0 ความแม่นยำเข้าใกล้ 1? คำถามเดียวกันสำหรับการเรียกคืน: r = true positives / (true positives + false negatives) ขณะนี้ฉันกำลังใช้การทดสอบทางสถิติที่ฉันต้องการคำนวณค่าเหล่านี้และบางครั้งมันก็เกิดขึ้นที่ตัวส่วนเป็น 0 และฉันสงสัยว่าจะคืนค่าใดให้กับกรณีนี้ PS: ขอโทษแท็กที่ไม่เหมาะสมผมอยากจะใช้recall, precisionและlimitแต่ฉันไม่สามารถสร้างแท็กใหม่ ๆ
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

1
ที่ระดับอะไรคือการทดสอบ
ความเป็นมา:ข้ามอย่างปลอดภัย - อยู่ที่นี่เพื่อการอ้างอิงและทำให้คำถามถูกต้อง การเปิดอ่านบทความนี้: "การทดสอบไคสแควร์ที่มีชื่อเสียงของคาร์ลเพียร์สันได้มาจากสถิติอื่นที่เรียกว่าสถิติซีตามการแจกแจงแบบปกติรุ่นที่ง่ายที่สุดของχ2χ2\chi^2สามารถแสดงให้เห็นว่าเป็นคณิตศาสตร์ในทางคณิตศาสตร์เหมือนกับการทดสอบซีที่เทียบเท่า ในทุกสถานการณ์สำหรับทุกเจตนารมณ์และวัตถุประสงค์ "ไคสแควร์" อาจเรียกว่า "ซีสแควร์" ค่าวิกฤตของχ2χ2\chi^2สำหรับระดับอิสระหนึ่งระดับคือจตุรัสของค่าวิกฤตที่สอดคล้องกันของซี " นี้ได้รับการยืนยันหลายครั้งใน CV ( ที่นี่ , ที่นี่ , ที่นี่และอื่น ๆ ) และแน่นอนเราสามารถพิสูจน์ได้ว่าχ21dfχ1df2\chi^2_{1\,df}เทียบเท่ากับX2X2X^2ด้วยX∼N(0,1)X∼N(0,1)X\sim N(0,1): สมมติว่าX∼N(0,1)X∼N(0,1)X \sim N(0,1)และY=X2Y=X2Y=X^2และค้นหาความหนาแน่นของYYYโดยใช้วิธีcdfcdfcdf : ) ปัญหาคือเราไม่สามารถรวมความหนาแน่นของการแจกแจงแบบปกติในรูปแบบปิด แต่เราสามารถแสดงได้:p(Y≤y)=p(X2≤y)=p(−y√≤x≤y√)p(Y≤y)=p(X2≤y)=p(−y≤x≤y)p(Y \leq y) = p(X^2 \leq y)= p(-\sqrt{y} \leq x \leq \sqrt{y}) รับอนุพันธ์:FX(y)=FX(y√)−FX(−y√).FX(y)=FX(y)−FX(−y). F_X(y) = F_X(\sqrt{y})- F_X(-\sqrt[]{y}). fX(y)=F′X(y√)12y√+F′X(−y−−−√)12y√.fX(y)=FX′(y)12y+FX′(−y)12y. f_X(y)= F_X'(\sqrt{y})\,\frac{1}{2\sqrt{y}}+ F_X'(\sqrt{-y})\,\frac{1}{2\sqrt{y}}. …

5
สามารถใช้ไคสแควร์เพื่อเปรียบเทียบสัดส่วนได้หรือไม่?
ฉันได้อ่านว่าการทดสอบไคสแควร์มีประโยชน์เพื่อดูว่าตัวอย่างแตกต่างจากชุดของค่าที่คาดหวังอย่างมีนัยสำคัญหรือไม่ ตัวอย่างเช่นนี่คือตารางผลการสำรวจเกี่ยวกับสีโปรดของผู้คน (n = 15 + 13 + 10 + 17 = 55 ผู้ตอบแบบสอบถามทั้งหมด): red,blue,green,yellow 15,13,10,17 การทดสอบไคสแควร์สามารถบอกฉันได้ว่าตัวอย่างนี้แตกต่างจากสมมุติฐานว่างของความน่าจะเป็นที่เท่ากันของผู้ที่ชื่นชอบแต่ละสีหรือไม่ คำถาม: สามารถทำการทดสอบตามสัดส่วนของผู้ตอบแบบสอบถามทั้งหมดที่ชอบสีที่ต้องการได้หรือไม่? ชอบด้านล่าง: red,blue,green,yellow 0.273,0.236,0.182,0.309 แน่นอนที่ 0.273 + 0.236 + 0.182 + 0.309 = 1 หากการทดสอบไคสแควร์ไม่เหมาะในกรณีนี้การทดสอบแบบใดจะเป็นอย่างไร ขอบคุณ! แก้ไข: ฉันลอง @Roman Luštrikคำตอบด้านล่างและได้ผลลัพธ์ต่อไปนี้เหตุใดฉันจึงไม่ได้รับค่า p และทำไม R บอกว่า "การประมาณ Chi-squared อาจไม่ถูกต้อง"? > chisq.test(c(0,0,0,8,6,2,0,0),p = c(0.406197174,0.088746395,0.025193306,0.42041479,0.03192905,0.018328576,0.009190708,0)) Chi-squared …

1
การตีความสัดส่วนที่รวมหนึ่งเป็นตัวแปรอิสระในการถดถอยเชิงเส้น
ฉันคุ้นเคยกับแนวคิดของตัวแปรเด็ดขาดและการเข้ารหัสตัวแปรดัมมี่ตามลำดับที่ช่วยให้เราสามารถปรับให้เป็นหนึ่งในระดับพื้นฐานเพื่อหลีกเลี่ยงความไม่ลงรอยกัน ฉันยังคุ้นเคยกับวิธีตีความการประมาณค่าพารามิเตอร์จากโมเดลดังกล่าว: การเปลี่ยนแปลงที่คาดการณ์ไว้ในผลลัพธ์สำหรับระดับที่เหมาะสมของเครื่องทำนายหมวดหมู่สัมพันธ์กับหมวดหมู่พื้นฐาน สิ่งที่ฉันไม่แน่ใจเกี่ยวกับวิธีการตีความชุดของตัวแปรอิสระที่มีสัดส่วนที่ว่าผลรวมให้เป็นหนึ่ง เรามี collinearity อีกครั้งถ้าเราพอดีทุกสัดส่วนในโมเดลดังนั้นสมมุติว่าเราจะต้องปล่อยให้หมวดหมู่หนึ่งเป็นพื้นฐาน ฉันยังคิดว่าฉันจะดูประเภท III SS สำหรับการทดสอบโดยรวมของความสำคัญของตัวแปรนี้ อย่างไรก็ตามเราจะตีความพารามิเตอร์ประมาณการสำหรับระดับที่เหมาะสมในแบบจำลองเทียบกับที่ถือว่าเป็นพื้นฐานได้อย่างไร ตัวอย่าง : ที่ระดับรหัสไปรษณีย์ตัวแปรอิสระคือสัดส่วนของหินแปรหินอัคนีและหินตะกอน อย่างที่คุณอาจทราบว่าหินทั้งสามชนิดนี้สำคัญและหินทั้งหมดจัดอยู่ในประเภทใดประเภทหนึ่ง ดังนั้นสัดส่วนในผลรวมทั้งสามต่อ 1 ผลที่ได้คือระดับเรดอนเฉลี่ยในรหัสไปรษณีย์ที่เกี่ยวข้อง ถ้าฉันจะพอดีพูดสัดส่วนแปรสภาพและการเผาไหม้เป็นแบบทำนายในแบบจำลองปล่อยให้ตะกอนเป็นพื้นฐานประเภทโดยรวม III SS F - การทดสอบของทั้งสองระดับติดตั้งจะมีความหมายว่าประเภทหินโดยรวมเป็นสิ่งสำคัญ ตัวทำนายผล (ระดับเรดอนโดยเฉลี่ย) จากนั้นฉันสามารถดูค่าp-valueแต่ละตัว(ตามการแจกแจงt ) เพื่อพิจารณาว่าหินชนิดใดชนิดหนึ่งหรือทั้งสองนั้นแตกต่างจากฐานอย่างมีนัยสำคัญ อย่างไรก็ตามเมื่อมันมาถึงการประมาณค่าพารามิเตอร์สมองของฉันต้องการที่จะตีความพวกเขาอย่างหมดจดเป็นการเปลี่ยนแปลงที่คาดการณ์ไว้ในผลระหว่างกลุ่ม (ประเภทหิน) และฉันไม่เข้าใจวิธีการรวมความจริงที่ว่าพวกเขาพอดีเป็นสัดส่วน . หากการประมาณค่าสำหรับการแปรเปลี่ยนเป็นเช่น 0.43 การตีความนั้นไม่ใช่เพียงแค่ระดับเรดอนเฉลี่ยที่คาดการณ์เพิ่มขึ้น 0.43 หน่วยเมื่อหินนั้นแปรสภาพกับตะกอน อย่างไรก็ตามการตีความยังไม่เพียง แต่สำหรับการเพิ่มขึ้นของหน่วยบางประเภท (พูด 0.1) ในสัดส่วนของประเภทหินแปรเนื่องจากมันไม่ได้สะท้อนความจริงที่ว่ามันยังสัมพันธ์กับพื้นฐาน ( ตะกอน ) และนอกจากนี้การเปลี่ยนแปลงนั้น สัดส่วนของการเปลี่ยนแปลงโดยเนื้อแท้การเปลี่ยนแปลงสัดส่วนของพอดีระดับหินอื่น ๆ …

1
อะไรคือความแตกต่างระหว่าง "สัดส่วนที่นับ" และ "สัดส่วนต่อเนื่อง"
ในความคิดเห็นเกี่ยวกับคำถามอื่นการชี้แจงถูกถามว่าหัวข้อภายใต้การอภิปรายคือ "การนับสัดส่วน" หรือ "สัดส่วนต่อเนื่อง" และการติดตามระบุว่าความแตกต่างเป็นข้อมูลที่สำคัญ (ในหัวข้อของการถดถอยโลจิสติก / ความแตกต่างระหว่างทั้งสองคืออะไรและความแตกต่างที่สำคัญ? สิ่งสำคัญที่ควรคำนึงถึงเมื่อทำงานกับ "สัดส่วนที่นับได้" กับเมื่อทำงานกับ "สัดส่วนที่ต่อเนื่อง" คืออะไร

2
ใช้ lm สำหรับการทดสอบสัดส่วนตัวอย่าง 2 ตัวอย่าง
ฉันใช้แบบจำลองเชิงเส้นเพื่อทำการทดสอบสัดส่วนตัวอย่าง 2 ระยะเวลาหนึ่ง แต่ได้ตระหนักว่าอาจไม่ถูกต้องสมบูรณ์ ปรากฏว่าการใช้ตัวแบบเชิงเส้นแบบทั่วไปกับลิงค์แบบทวินาม + ตระกูลนั้นให้ผลการทดสอบสัดส่วนตัวอย่าง 2 ตัวอย่าง อย่างไรก็ตามการใช้โมเดลเชิงเส้น (หรือ glm กับตระกูล Gaussian) จะให้ผลลัพธ์ที่แตกต่างออกไปเล็กน้อย ฉันหาเหตุผลเข้าข้างตนเองว่านี่อาจเป็นเพราะ R แก้ไข glm สำหรับตระกูลทวินามและตระกูลเกาส์ แต่อาจมีสาเหตุอื่นได้หรือไม่ ## prop.test gives pooled 2-sample proportion result ## glm w/ binomial family gives unpooled 2-sample proportion result ## lm and glm w/ gaussian family give unknown result library(dplyr) library(broom) …

1
วิธีที่เหมาะสมที่สุดในการแปลงสัดส่วนเมื่อเป็นตัวแปรอิสระคืออะไร
ฉันคิดว่าฉันเข้าใจปัญหานี้ แต่ตอนนี้ฉันไม่แน่ใจและฉันต้องการตรวจสอบกับผู้อื่นก่อนที่ฉันจะดำเนินการต่อ ฉันมีสองตัวแปรXและY. Yเป็นอัตราส่วนและไม่ได้ล้อมรอบด้วย 0 และ 1 และโดยทั่วไปแล้วจะกระจาย Xเป็นสัดส่วนและมันถูกล้อมรอบด้วย 0 และ 1 (มันวิ่งจาก 0.0 ถึง 0.6) เมื่อฉันเรียกใช้การถดถอยเชิงเส้นของY ~ Xและฉันพบว่าXและYมีความสัมพันธ์เชิงเส้นอย่างมีนัยสำคัญ จนถึงตอนนี้ดีมาก แต่แล้วผมตรวจสอบต่อไปและผมก็เริ่มคิดว่าบางทีXและY'ความสัมพันธ์อาจจะโค้งมากกว่าเชิงเส้น ให้ฉันดูเหมือนความสัมพันธ์ของXและYอาจจะใกล้ชิดกับY ~ log(X), Y ~ sqrt(X)หรือY ~ X + X^2, หรือสิ่งที่ต้องการ ฉันมีเหตุผลเชิงประจักษ์ที่จะถือว่าความสัมพันธ์นั้นอาจเป็นเส้นโค้ง แต่ไม่ใช่เหตุผลที่จะถือว่าความสัมพันธ์ที่ไม่ใช่เชิงเส้นใด ๆ อาจดีกว่าความสัมพันธ์อื่น ฉันมีคำถามที่เกี่ยวข้องสองสามข้อจากที่นี่ ก่อนอื่นXตัวแปรของฉันรับค่าสี่ค่า: 0, 0.2, 0.4 และ 0.6 เมื่อฉันล็อก - หรือสแควร์รูท - แปลงข้อมูลเหล่านี้ระยะห่างระหว่างค่าเหล่านี้จะผิดเพี้ยนเพื่อให้ค่า 0 อยู่ห่างจากค่าอื่นทั้งหมดมาก …

5
จะทำการใส่ค่าในจุดข้อมูลจำนวนมากได้อย่างไร?
ฉันมีชุดข้อมูลที่มีขนาดใหญ่มากและมีค่าสุ่มประมาณ 5% หายไป ตัวแปรเหล่านี้มีความสัมพันธ์ซึ่งกันและกัน ตัวอย่างชุดข้อมูล R ต่อไปนี้เป็นเพียงตัวอย่างของเล่นที่มีข้อมูลที่สัมพันธ์กันจำลอง set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
Clopper-Pearson สำหรับนักคณิตศาสตร์ที่ไม่ใช่
ฉันสงสัยว่าถ้าใครสามารถอธิบายให้ฉันรู้ได้ว่าเกินขนาดของ Clopper-Pearson CI เท่าที่ฉันรู้ทุก CI รวมถึงความแปรปรวนในนั้น อย่างไรก็ตามสำหรับสัดส่วนแม้ว่าสัดส่วนของฉันคือ 0 หรือ 1 (0% หรือ 100%) สามารถคำนวณ Clopper-Pearson CI ได้ ฉันลองดูสูตรและฉันเข้าใจว่ามันมีบางอย่างที่มีเปอร์เซนต์ของการแจกแจงแบบทวินามและฉันเข้าใจว่าการหา CI เกี่ยวข้องกับการทำซ้ำ แต่ฉันสงสัยว่าใครสามารถอธิบายตรรกะและเหตุผลใน "คำง่าย ๆ " หรือด้วยคณิตศาสตร์ขั้นต่ำ ?

2
-test ครับ
ฉันเพิ่งอ่านในนิตยสารวิทยาศาสตร์ที่ได้รับความนิยม (PM) จากเยอรมัน, 02/2013, หน้า 38) เกี่ยวกับการทดลองที่น่าสนใจ (ไม่มีแหล่งที่มา, น่าเสียดาย) มันดึงดูดความสนใจของฉันเพราะฉันสงสัยในความสำคัญของผลลัพธ์ แต่ข้อมูลที่ให้นั้นเพียงพอสำหรับการทำซ้ำการทดสอบทางสถิติ นักวิจัยสงสัยว่าการได้รับความเย็นในสภาพอากาศหนาวเย็นช่วยเพิ่มโอกาสที่จะเป็นหวัดได้หรือไม่ ดังนั้นพวกเขาสุ่มแบ่งนักเรียน 180 คนออกเป็นสองกลุ่ม กลุ่มหนึ่งต้องแช่เท้าในน้ำเย็นเป็นเวลา 20 นาที อีกคนเก็บรองเท้าไว้ ฉันคิดว่าการจัดการที่ตลก แต่ในทางกลับกันฉันไม่ใช่หมอและหมออาจจะคิดว่าตลก ประเด็นด้านจริยธรรมกัน อย่างไรก็ตามหลังจาก 5 วันนักเรียน 13 คนในกลุ่มการรักษามีอาการหวัด แต่เพียง 5 คนในกลุ่มที่สวมรองเท้า อัตราส่วนอัตราต่อรองของการทดลองนี้คือ 2.87 ด้วยขนาดตัวอย่างที่ค่อนข้างเล็กฉันเริ่มสงสัยว่าความแตกต่างนี้อาจมีนัยสำคัญหรือไม่ ดังนั้นฉันจึงทำการทดสอบสองครั้ง การทดสอบอย่างง่ายครั้งแรกของความเท่าเทียมกันของสัดส่วนโดยใช้การประมาณปกติ การทดสอบนี้มีz=1.988z=1.988z=1.988กับp=0.0468p=0.0468p=0.0468 0.0468 ฉันเดาว่านี่คือสิ่งที่นักวิจัยทดสอบ นี่เป็นสิ่งสำคัญอย่างแท้จริง อย่างไรก็ตามการทดสอบ z นี้ใช้ได้เฉพาะในกลุ่มตัวอย่างขนาดใหญ่เท่านั้นหากฉันไม่ผิดเนื่องจากการประมาณปกติ นอกจากนี้อัตราความชุกค่อนข้างน้อยและฉันสงสัยว่าสิ่งนี้อาจไม่ส่งผลกระทบต่ออัตราความครอบคลุมของช่วงความเชื่อมั่นของผลกระทบ ดังนั้นความพยายามครั้งที่สองของฉันคือการทดสอบความเป็นอิสระของไคสแควร์ทั้งการจำลองด้วย Monte-Carlo และ Pearson Chi-square มาตรฐาน ที่นี่ผมพบว่าค่า …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.