คำถามติดแท็ก sample-size

แท็กนี้คลุมเครือมาก ใช้เมื่อคำถามเกี่ยวกับขนาดตัวอย่างและไม่มีดังต่อไปนี้มีความเหมาะสมมากกว่า: [ตัวอย่างเล็ก], [ข้อมูลขนาดใหญ่], [การวิเคราะห์พลังงาน], [พลังงาน], [underdetermined] หรือ [ไม่สมดุลคลาส]

4
ตัวอย่างควรมีขนาดเท่าใดสำหรับเทคนิคการประมาณค่าและพารามิเตอร์ที่กำหนด?
มีกฎง่ายๆหรือแม้กระทั่งวิธีการใด ๆ ที่จะบอกว่าตัวอย่างขนาดใหญ่ควรจะประเมินโมเดลที่มีจำนวนพารามิเตอร์ที่กำหนดหรือไม่? ตัวอย่างเช่นถ้าฉันต้องการประมาณการถดถอยสี่เหลี่ยมน้อยที่สุดด้วยพารามิเตอร์ 5 ตัวตัวอย่างควรมีขนาดใหญ่แค่ไหน? ไม่ว่าคุณจะใช้เทคนิคการประเมินแบบใด (เช่นความน่าจะเป็นสูงสุด, กำลังสองน้อยที่สุด, GMM) หรือการทดสอบที่คุณจะทำการทดสอบ ควรพิจารณาความแปรปรวนตัวอย่างในการตัดสินใจหรือไม่?

1
เหตุใด K ตัวเลือกจำนวนมากจึงลดคะแนนการตรวจสอบความถูกต้องไขว้ของฉัน
การเล่นกับBoston Housing DatasetและRandomForestRegressor(w / พารามิเตอร์เริ่มต้น) ใน scikit-Learn ฉันสังเกตเห็นบางสิ่งที่แปลก: ค่าเฉลี่ยการตรวจสอบความถูกต้องลดลงเมื่อฉันเพิ่มจำนวน folds เกิน 10 กลยุทธ์การตรวจสอบข้ามของฉันมีดังนี้: cv_met = ShuffleSplit(n_splits=k, test_size=1/k) scores = cross_val_score(est, X, y, cv=cv_met) ... ที่num_cvsหลากหลาย ฉันตั้งค่าtest_sizeเป็น1/num_cvsกระจกจำลองพฤติกรรมการแยกขนาดของรถไฟ / ทดสอบของ k-fold CV โดยทั่วไปฉันต้องการบางสิ่งบางอย่างเช่น k-fold CV แต่ฉันต้องการการสุ่มด้วย (เช่น ShuffleSplit) การทดลองนี้ซ้ำหลายครั้งแล้วคะแนนเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานถูกวางแผนแล้ว (โปรดทราบว่าขนาดของkถูกระบุโดยพื้นที่ของวงกลมโดยค่าเบี่ยงเบนมาตรฐานอยู่บนแกน Y) การเพิ่มขึ้นอย่างต่อเนื่องk(จาก 2 เป็น 44) จะให้คะแนนเพิ่มขึ้นเล็กน้อยตามด้วยการลดลงอย่างต่อเนื่องเมื่อkเพิ่มขึ้นอีก (เกิน ~ 10 เท่า)! ถ้ามีอะไรฉันคาดหวังว่าข้อมูลการฝึกอบรมเพิ่มเติมจะนำไปสู่คะแนนเพิ่มขึ้นเล็กน้อย! ปรับปรุง …

1
การบูตสแตรปเหมาะสมกับข้อมูลต่อเนื่องนี้หรือไม่
ฉันเป็นมือใหม่ที่สมบูรณ์ :) ฉันกำลังศึกษาขนาดตัวอย่าง 10,000 คนจากประชากรประมาณ 745,000 คน แต่ละตัวอย่างแสดงถึง "ความคล้ายคลึงกันของเปอร์เซ็นต์" กลุ่มตัวอย่างส่วนใหญ่อยู่ที่ประมาณ 97% -98% แต่มีไม่กี่คนที่อยู่ระหว่าง 60% ถึง 90% นั่นคือการกระจายตัวค่อนข้างเบ้ ประมาณ 0.6% ของผลลัพธ์เป็น 0% แต่สิ่งเหล่านี้จะได้รับการแยกจากตัวอย่าง ค่าเฉลี่ยของตัวอย่าง 10,000 ตัวอย่างทั้งหมดคือ 97.7% และใน Excel StdDev คือ 3.20 ฉันเข้าใจว่า StdDev ไม่สามารถใช้งานได้ที่นี่เพราะผลลัพธ์ไม่ได้กระจายตามปกติ (และเนื่องจาก +3.20 จะทำให้คุณสูงกว่า 100%!) คำถามของฉันคือ: การบูตสแตรป (แนวคิดใหม่สำหรับฉัน) เหมาะสมหรือไม่ ฉันกำลังทำการบูตอย่างถูกต้องหรือไม่ :) ขนาดตัวอย่างที่เพียงพอคืออะไร สิ่งที่ฉันทำคือการสุ่มตัวอย่างใหม่ (แทนที่) ผลลัพธ์ 10,000 รายการของฉันและคำนวณค่าเฉลี่ยใหม่ …

4
การศึกษามีความหมายมากเกินไปหมายความว่าอย่างไร
การศึกษามีความหมายมากเกินไปหมายความว่าอย่างไร ความประทับใจของฉันคือมันหมายความว่าขนาดตัวอย่างของคุณมีขนาดใหญ่มากจนคุณมีอำนาจในการตรวจจับขนาดเอฟเฟกต์จิ๋ว ขนาดของเอฟเฟกต์เหล่านี้อาจมีขนาดเล็กจนพวกมันมีแนวโน้มที่จะเป็นผลมาจากความเอนเอียงเล็กน้อยในกระบวนการสุ่มตัวอย่างมากกว่าการเชื่อมต่อเชิงสาเหตุ (ไม่จำเป็นโดยตรง) ระหว่างตัวแปร นี่เป็นสัญชาตญาณที่ถูกต้องหรือไม่? ถ้าเป็นเช่นนั้นฉันไม่เห็นว่าเรื่องใหญ่คืออะไรตราบใดที่ผลลัพธ์ถูกตีความในแสงนั้นและคุณตรวจสอบด้วยตนเองและดูว่าขนาดของเอฟเฟกต์โดยประมาณนั้นใหญ่พอที่จะ "มีความหมาย" หรือไม่ ฉันพลาดอะไรไปรึเปล่า? มีข้อเสนอแนะที่ดีกว่าว่าจะทำอย่างไรในสถานการณ์นี้?

1
ขนาดตัวอย่างที่ต้องการเพื่อพิจารณาว่าชุดโฆษณาใดที่มีอัตราการคลิกผ่านสูงสุด
ฉันเป็นนักออกแบบซอฟต์แวร์โดยการแลกเปลี่ยนและฉันกำลังทำงานในโครงการสำหรับลูกค้าและฉันต้องการตรวจสอบให้แน่ใจว่าการวิเคราะห์ของฉันมีสถิติที่ดี พิจารณาสิ่งต่อไปนี้: เรามีโฆษณาn รายการ (n <10) และเราต้องการทราบว่าโฆษณาใดมีประสิทธิภาพดีที่สุด เซิร์ฟเวอร์โฆษณาของเราจะแสดงโฆษณาเหล่านี้แบบสุ่ม ความสำเร็จคือถ้าผู้ใช้คลิกที่โฆษณา - เซิร์ฟเวอร์ของเราคอยติดตามสิ่งนั้น ให้ไว้: ช่วงความเชื่อมั่น: 95% คำถาม: ขนาดตัวอย่างโดยประมาณคืออะไร? (เราต้องแสดงโฆษณาทั้งหมดกี่รายการ) ทำไม (จำได้ว่าฉันเป็นคนบ้า ๆ บอ ๆ ) ขอบคุณ

4
การคำนวณขนาดตัวอย่างสำหรับการถดถอยโลจิสติกแบบหลายตัวแปร
หนึ่งจะคำนวณขนาดตัวอย่างที่จำเป็นสำหรับการศึกษาที่กลุ่มของเรื่องจะมีตัวแปรอย่างต่อเนื่องเดียวที่วัดได้ในเวลาของการผ่าตัดแล้วสองปีต่อมาพวกเขาจะถูกจัดประเภทเป็นผลการทำงานหรือผลลัพธ์ที่บกพร่อง เราต้องการดูว่าการวัดนั้นสามารถทำนายผลลัพธ์ที่ไม่ดีได้หรือไม่ ในบางจุดเราอาจต้องการจุดตัดในตัวแปรต่อเนื่องด้านบนซึ่งเราจะพยายามแทรกแซงเพื่อลดความน่าจะเป็นของผลลัพธ์ที่บกพร่อง ความคิดใด ๆ การนำ R ไปใช้ใด ๆ

1
R / mgcv: เพราะเหตุใดผลิตภัณฑ์ te () และ ti () เทนเซอร์จึงให้พื้นผิวที่แตกต่างกัน
mgcvแพคเกจสำหรับการRมีสองฟังก์ชั่นสำหรับการปฏิสัมพันธ์กระชับเมตริกซ์ผลิตภัณฑ์: และte() ti()ฉันเข้าใจการแบ่งขั้นพื้นฐานของการใช้แรงงานระหว่างคนทั้งสอง (ปรับให้เหมาะสมกับการทำงานแบบไม่เป็นเชิงเส้นเปรียบเทียบกับการย่อยสลายการโต้ตอบนี้เป็นผลกระทบหลักและการโต้ตอบ) สิ่งที่ฉันไม่เข้าใจคือสาเหตุte(x1, x2)และti(x1) + ti(x2) + ti(x1, x2)อาจให้ผลลัพธ์ที่แตกต่าง (เล็กน้อย) MWE (ดัดแปลงมาจาก?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

1
SurveyMonkey เพิกเฉยต่อข้อเท็จจริงที่ว่าคุณได้รับตัวอย่างที่ไม่ใช่แบบสุ่มหรือไม่?
SurveyMonkey มีขั้นตอนและแผนภูมิสำหรับคุณในการหาขนาดตัวอย่างที่คุณต้องการสำหรับระยะขอบข้อผิดพลาดหรือช่วงความเชื่อมั่นที่กำหนดตามขนาดประชากรของคุณ ขนาดตัวอย่าง SurveyMonkey แผนภูมินี้ไม่สนใจความจริงที่ว่าคุณจะไม่ได้รับตัวอย่างแบบสุ่มเนื่องจากคุณจะได้รับเฉพาะผู้ที่สนใจตอบแบบสอบถามเท่านั้น ฉันได้รับคำเตือนเมื่อฉันพิมพ์สิ่งนี้ว่าคำถามดูเหมือนเป็นอัตวิสัยดังนั้นฉันอาจไม่ได้ถามอย่างถูกต้อง มันไม่ได้เกี่ยวกับ SurveyMonkey แต่เป็นคำถามทั่วไป - คุณสามารถคำนวณช่วงความมั่นใจจากข้อมูลการตอบกลับโดยสมัครใจโดยใช้เทคนิคขั้นสูงที่ฉันไม่รู้หรือไม่? ในการสำรวจความคิดเห็นหรือการสำรวจระดับชาติเห็นได้ชัดว่าพวกเขาจะต้องจัดการกับปัญหานี้ การศึกษาของฉันไม่ได้ครอบคลุมเทคนิคการสุ่มตัวอย่างแบบสำรวจในเชิงลึก แต่ฉันคิดว่ามันเกี่ยวข้องกับการรวบรวมข้อมูลประชากรและการใช้เพื่อทราบว่าตัวแทนตัวอย่างของคุณมีวิธีอย่างไร แต่นอกเหนือจากนั้นสำหรับการสำรวจออนไลน์อย่างง่ายพวกเขาเพียงแค่สมมติว่าคนที่ใส่ใจที่จะตอบสนองนั้นเป็นกลุ่มตัวอย่างแบบสุ่มของประชากรหรือไม่

2
การชั่งน้ำหนักเป็นไปตามความแม่นยำ (เช่นการแปรผกผัน) เป็นส่วนสำคัญของการวิเคราะห์อภิมาน
การชั่งน้ำหนักตามความแม่นยำเป็นศูนย์กลางของการวิเคราะห์เมตาหรือไม่ Borenstein และคณะ (2009) เขียนว่าสำหรับการวิเคราะห์อภิมานเป็นไปได้ทั้งหมดที่จำเป็นคือ: การศึกษารายงานการประเมินจุดที่สามารถแสดงเป็นตัวเลขเดียว ความแปรปรวนสามารถคำนวณได้สำหรับการประเมินจุดนั้น ไม่ชัดเจนสำหรับฉันทันทีว่าทำไม (2) จำเป็นอย่างยิ่ง แต่ที่จริงแล้ววิธีการวิเคราะห์เมตาดาต้าที่ได้รับการยอมรับอย่างกว้างขวางทั้งหมดนั้นขึ้นอยู่กับแผนการชั่งน้ำหนักที่มีความแม่นยำ (เช่นความแปรปรวนผกผัน) ซึ่งต้องการการประมาณความแปรปรวนสำหรับขนาดผลการศึกษาของแต่ละคน โปรดทราบว่าในขณะที่วิธีการของ Hedges (Hedges & Olkin, 1985; Hedges & Vevea, 1998) และวิธีของ Hunter and Schmidt (Hunter & Schmidt, 2004) โดยทั่วไปใช้การถ่วงน้ำหนักขนาดตัวอย่างวิธีการเหล่านี้ใช้เฉพาะกับความแตกต่างของค่าเฉลี่ย ค่าเบี่ยงเบนมาตรฐานที่อื่น มันทำให้รู้สึกว่าน้ำหนักแปรผกผันกับความแปรปรวนในการศึกษาแต่ละครั้งจะลดความแปรปรวนในการประมาณขนาดผลกระทบโดยรวมดังนั้นรูปแบบการให้น้ำหนักนี้เป็นคุณสมบัติที่จำเป็นของวิธีการทั้งหมดหรือไม่? เป็นไปได้หรือไม่ที่จะทำการตรวจสอบอย่างเป็นระบบโดยไม่ต้องเข้าถึงความแปรปรวนของขนาดเอฟเฟกต์แต่ละขนาดและยังคงเรียกผลลัพธ์ว่าเป็นการวิเคราะห์อภิมาน ขนาดตัวอย่างดูเหมือนจะมีศักยภาพในฐานะพร็อกซีเพื่อความแม่นยำเมื่อความแปรปรวนไม่พร้อมใช้งาน ยกตัวอย่างเช่นเราสามารถใช้น้ำหนักตัวอย่างขนาดหนึ่งในการศึกษาที่กำหนดขนาดเอฟเฟกต์เป็นความแตกต่างของค่าเฉลี่ยดิบหรือไม่ สิ่งนั้นจะส่งผลต่อความสอดคล้องและประสิทธิภาพของขนาดผลเฉลี่ยที่ได้อย่างไร

2
จะเลือกการฝึกอบรมการตรวจสอบข้ามและขนาดชุดการทดสอบสำหรับข้อมูลตัวอย่างขนาดเล็กได้อย่างไร
สมมติว่าฉันมีตัวอย่างขนาดเล็กเช่น N = 100 และสองชั้น ฉันจะเลือกการฝึกอบรมการตรวจสอบข้ามและขนาดชุดการทดสอบสำหรับการเรียนรู้ของเครื่องได้อย่างไร ฉันจะเลือกอย่างสังหรณ์ใจ ขนาดชุดฝึกอบรมเท่ากับ 50 ขนาดชุดการตรวจสอบความถูกต้องแบบไขว้และ ขนาดทดสอบ 25 แต่อาจทำให้รู้สึกมากหรือน้อย ฉันจะตัดสินใจค่าเหล่านี้ได้อย่างไร ฉันขอลองตัวเลือกที่แตกต่างกัน (แม้ว่าฉันเดาว่ามันจะไม่เป็นที่นิยม ... เพิ่มความเป็นไปได้ในการเรียนรู้มากกว่า)? ถ้าฉันมีมากกว่าสองคลาส

2
มันสมเหตุสมผลหรือไม่ที่จะคำนวณช่วงความมั่นใจและเพื่อทดสอบสมมติฐานเมื่อมีข้อมูลจากประชากรทั้งหมด
มันสมเหตุสมผลหรือไม่ที่จะคำนวณช่วงความมั่นใจและเพื่อทดสอบสมมติฐานเมื่อมีข้อมูลจากประชากรทั้งหมด ในความคิดของฉันคำตอบคือไม่เนื่องจากเราสามารถคำนวณค่าที่แท้จริงของพารามิเตอร์ได้อย่างถูกต้อง แต่แล้วสัดส่วนสูงสุดของข้อมูลจากประชากรดั้งเดิมที่อนุญาตให้เราใช้เทคนิคดังกล่าวคืออะไร?

3
การวิเคราะห์พลังงานสำหรับข้อมูลทวินามเมื่อสมมติฐานว่างคือ
ฉันต้องการทำการวิเคราะห์พลังงานสำหรับตัวอย่างเดียวจากข้อมูลทวินามด้วย , กับโดยที่คือสัดส่วนของความสำเร็จในประชากร ถ้าฉันสามารถใช้การประมาณแบบปกติกับทวินามหรือทดสอบ แต่ด้วยทั้งคู่จะล้มเหลว ฉันชอบที่จะรู้ว่าหากมีวิธีการวิเคราะห์นี้ ฉันขอขอบคุณข้อเสนอแนะความคิดเห็นหรือการอ้างอิงใด ๆ ขอบคุณมาก!H 1 : p = 0.001 p 0 &lt; p &lt; 1 χ 2 p = 0H0:p=0H0:p=0H_0: p = 0H1:p=0.001H1:p=0.001H_1: p = 0.001ppp0&lt;p&lt;10&lt;p&lt;10 < p <1χ2χ2\chi^2p=0p=0p =0

1
ทำไม Anova () และ drop1 () จึงให้คำตอบที่แตกต่างกันสำหรับ GLMM
ฉันมีแบบฟอร์ม GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) เมื่อฉันใช้drop1(model, test="Chi")ฉันได้รับผลลัพธ์ที่แตกต่างกว่าถ้าผมใช้จากแพคเกจรถหรือAnova(model, type="III") summary(model)สองหลังนี้ให้คำตอบเดียวกัน จากการใช้ข้อมูลที่ประดิษฐ์ขึ้นมาฉันพบว่าทั้งสองวิธีปกติไม่แตกต่างกัน พวกเขาให้คำตอบเดียวกันสำหรับแบบจำลองเชิงเส้นที่มีความสมดุลแบบจำลองเชิงเส้นที่ไม่สมดุล (ซึ่งไม่เท่ากันในกลุ่มต่าง ๆ ) และสำหรับแบบจำลองเชิงเส้นที่สมดุลแบบทั่วไป ดังนั้นจึงปรากฏว่าเฉพาะในกรณีที่มีการรวมปัจจัยแบบสุ่มเข้าด้วยกัน ทำไมจึงมีความคลาดเคลื่อนระหว่างสองวิธีนี้? เมื่อใช้ GLMM ควรAnova()หรือdrop1()จะใช้งานอย่างไร ความแตกต่างระหว่างสองสิ่งนี้ค่อนข้างเล็กน้อยอย่างน้อยสำหรับข้อมูลของฉัน มันมีความสำคัญต่อการใช้งานหรือไม่?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
พล็อตช่องทางเลือกโดยไม่ใช้ข้อผิดพลาดมาตรฐาน (SE)
ก่อนส่ง meta-analysis ของฉันฉันต้องการทำพล็อตช่องทางเพื่อทดสอบความหลากหลายและอคติการตีพิมพ์ ฉันมีขนาดเอฟเฟกต์พูลและขนาดเอฟเฟกต์จากการศึกษาแต่ละครั้งที่รับค่าจาก -1 ถึง +1 ฉันมีขนาดตัวอย่าง n1, n2 สำหรับผู้ป่วยและการควบคุมจากการศึกษาแต่ละครั้ง เนื่องจากฉันไม่สามารถคำนวณข้อผิดพลาดมาตรฐาน (SE) ได้ฉันจึงไม่สามารถทำการถดถอยของ Egger ได้ ฉันไม่สามารถใช้ SE หรือความแม่นยำ = 1 / SE บนแกนตั้ง คำถาม ฉันยังสามารถสร้างช่องทางที่มีขนาดเอฟเฟกต์บนซอนแนวนอนและขนาดตัวอย่างทั้งหมด n (n = n1 + n2) บนแกนตั้งได้หรือไม่ พล็อตช่องทางดังกล่าวควรตีความอย่างไร เอกสารที่เผยแพร่บางฉบับแสดงพล็อตช่องทางดังกล่าวพร้อมขนาดตัวอย่างทั้งหมดบนแกนตั้ง (Pubmed PMIDs: 10990474, 10456970) และวิกิพีเดียช่องทาง wiki เห็นด้วยกับสิ่งนี้ แต่ที่สำคัญที่สุดคือกระดาษของ Mathhias Egger ใน BMJ 1999 (PubMed PMID: …

2
ขนาดตัวอย่างขั้นต่ำต่อคลัสเตอร์ในโมเดลเอฟเฟกต์แบบสุ่ม
มีเหตุผลสำหรับจำนวนของการสังเกตต่อกลุ่มในรูปแบบผลกระทบแบบสุ่ม? ฉันมีขนาดตัวอย่าง 1,500 กับ 700 คลัสเตอร์จำลองเป็นเอฟเฟกต์สุ่มที่แลกเปลี่ยนได้ ฉันมีตัวเลือกในการรวมกลุ่มเพื่อสร้างกลุ่มน้อยลง แต่มีขนาดใหญ่ขึ้น ฉันสงสัยว่าฉันจะเลือกขนาดตัวอย่างขั้นต่ำต่อคลัสเตอร์ได้อย่างไรเพื่อให้ได้ผลลัพธ์ที่มีความหมายในการทำนายเอฟเฟกต์แบบสุ่มสำหรับแต่ละคลัสเตอร์ มีกระดาษที่ดีที่อธิบายสิ่งนี้หรือไม่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.