คำถามติดแท็ก sample

กลุ่มตัวอย่างคือกลุ่มย่อยของประชากร โดยทั่วไปสถิติเกี่ยวข้องกับการใช้ตัวอย่างเพื่อทำการอนุมานเกี่ยวกับพารามิเตอร์ที่ควบคุมประชากรที่มีขนาดใหญ่ขึ้น (อาจไม่มีที่สิ้นสุด)

4
วิธีการสุ่มตัวอย่างจำนวน 10 ตัวอย่างจากรายการขนาดใหญ่โดยไม่มีการเปลี่ยนโดยรวม
ฉันมีชุดข้อมูลจำนวนมาก (จุดข้อมูล 20,000 จุด) ซึ่งฉันต้องการใช้ตัวอย่างข้อมูล 10 จุดซ้ำหลายครั้ง อย่างไรก็ตามเมื่อฉันเลือกจุดข้อมูลทั้ง 10 แล้วฉันต้องการให้พวกเขาไม่ได้รับเลือกอีกครั้ง ฉันลองใช้sampleฟังก์ชั่นนี้ แต่ดูเหมือนว่าจะไม่มีตัวเลือกตัวอย่างโดยไม่ต้องเปลี่ยนฟังก์ชั่นการโทรหลายครั้ง มีวิธีง่าย ๆ ในการทำเช่นนี้?
12 r  sample 

1
การประมาณค่าความแปรปรวนของประชากรถ้ารู้ค่าเฉลี่ยประชากร
ฉันรู้ว่าเราใช้เพื่อประเมินความแปรปรวนของประชากร ฉันจำได้ว่าวิดีโอจาก Khan Academy ที่สัญชาตญาณที่ได้รับคือค่าเฉลี่ยที่เราคาดไว้อาจจะเล็กน้อยจากค่าจริงดังนั้นระยะทางจะยิ่งใหญ่กว่าจริง ๆ ดังนั้นเราหารด้วยน้อยกว่า (แทน ) เพื่อให้ได้ค่าที่มากขึ้นส่งผลให้การประเมินดีขึ้น และผมจำได้อ่านที่ไหนสักแห่งที่ฉันไม่จำเป็นต้องแก้ไขนี้ถ้าฉันมีที่เกิดขึ้นจริงของประชากรเฉลี่ยแทน{x} ดังนั้นฉันจะประมาณ แต่ฉันไม่สามารถหามันได้อีก มันจริงหรอ? ใครช่วยชี้ให้ฉันได้บ้าง1n−1∑i(xi−x¯)21n−1∑i(xi−x¯)2\frac1{n-1}\sum\limits_i(x_i - \bar{x})^2xi−x¯xi−x¯x_i - \bar{x}n−1n−1n-1nnnμμ\mux¯x¯\bar{x}1n∑i(xi−μ)21n∑i(xi−μ)2\frac1{n}\sum\limits_i(x_i - \mu)^2
11 variance  sample 

5
ถ้าไม่ใช่ปัวซองแล้วการกระจายตัวนี้คืออะไร?
ฉันมีชุดข้อมูลที่มีจำนวนการกระทำที่ดำเนินการโดยบุคคลในระยะเวลา 7 วัน การกระทำที่เฉพาะเจาะจงไม่ควรเกี่ยวข้องกับคำถามนี้ นี่คือสถิติเชิงพรรณนาสำหรับชุดข้อมูล: RangeMeanVarianceNumber of observations0−77218.22791696Range0−772Mean18.2Variance2791Number of observations696 \begin{array}{|c|c|} \hline \text{Range} & 0 - 772 \\ \hline \text{Mean} & 18.2 \\ \hline \text{Variance} & 2791 \\ \hline \text{Number of observations} & 696 \\ \hline \end{array} นี่คือฮิสโตแกรมของข้อมูล: เมื่อพิจารณาจากแหล่งข้อมูลฉันคิดว่ามันจะพอดีกับการแจกแจงปัวซอง อย่างไรก็ตามความแปรปรวนเฉลี่ยและฮิสโตแกรมนั้นมีน้ำหนักทางด้านซ้ายอย่างมาก นอกจากนี้ฉันgoodfitทำการทดสอบใน R และได้รับ: > gf <- goodfit(actions,type="poisson", method = "MinChisq") …

1
SurveyMonkey เพิกเฉยต่อข้อเท็จจริงที่ว่าคุณได้รับตัวอย่างที่ไม่ใช่แบบสุ่มหรือไม่?
SurveyMonkey มีขั้นตอนและแผนภูมิสำหรับคุณในการหาขนาดตัวอย่างที่คุณต้องการสำหรับระยะขอบข้อผิดพลาดหรือช่วงความเชื่อมั่นที่กำหนดตามขนาดประชากรของคุณ ขนาดตัวอย่าง SurveyMonkey แผนภูมินี้ไม่สนใจความจริงที่ว่าคุณจะไม่ได้รับตัวอย่างแบบสุ่มเนื่องจากคุณจะได้รับเฉพาะผู้ที่สนใจตอบแบบสอบถามเท่านั้น ฉันได้รับคำเตือนเมื่อฉันพิมพ์สิ่งนี้ว่าคำถามดูเหมือนเป็นอัตวิสัยดังนั้นฉันอาจไม่ได้ถามอย่างถูกต้อง มันไม่ได้เกี่ยวกับ SurveyMonkey แต่เป็นคำถามทั่วไป - คุณสามารถคำนวณช่วงความมั่นใจจากข้อมูลการตอบกลับโดยสมัครใจโดยใช้เทคนิคขั้นสูงที่ฉันไม่รู้หรือไม่? ในการสำรวจความคิดเห็นหรือการสำรวจระดับชาติเห็นได้ชัดว่าพวกเขาจะต้องจัดการกับปัญหานี้ การศึกษาของฉันไม่ได้ครอบคลุมเทคนิคการสุ่มตัวอย่างแบบสำรวจในเชิงลึก แต่ฉันคิดว่ามันเกี่ยวข้องกับการรวบรวมข้อมูลประชากรและการใช้เพื่อทราบว่าตัวแทนตัวอย่างของคุณมีวิธีอย่างไร แต่นอกเหนือจากนั้นสำหรับการสำรวจออนไลน์อย่างง่ายพวกเขาเพียงแค่สมมติว่าคนที่ใส่ใจที่จะตอบสนองนั้นเป็นกลุ่มตัวอย่างแบบสุ่มของประชากรหรือไม่

1
ทำไมสัดส่วนตัวอย่างถึงไม่มีการกระจายแบบทวินาม
ในการตั้งค่าทวินามตัวแปรสุ่ม X ที่ให้จำนวนความสำเร็จนั้นมีการแจกแจงแบบทวินาม สัดส่วนตัวอย่างสามารถคำนวณได้เป็นโดยที่คือขนาดตัวอย่างของคุณ ตำราของฉันระบุว่าXnXn\frac{X}{n}nnn สัดส่วนนี้ไม่ได้มีการกระจายทวินาม แต่ตั้งแต่เป็นเพียงรุ่นปรับขนาดของการกระจาย binomially ตัวแปรสุ่มไม่ควรก็ยังมีการกระจายทวินาม?XnXn\frac{X}{n}XXX

2
การประมาณขนาดของการตัดกันของหลาย ๆ ชุดโดยใช้ตัวอย่างหนึ่งชุด
ฉันกำลังทำงานกับอัลกอริทึมที่ต้องการคำนวณขนาดของชุดที่สร้างโดยจุดตัดของชุดอย่างน้อย 2 ชุด โดยเฉพาะอย่างยิ่ง: Z= |A0∩ … ∩An|z=|A0∩…∩An| z = \left |A_0 \cap \ldots \cap A_n \right | ชุดที่ถูก intersected สร้างขึ้นโดยแบบสอบถาม SQL และในความพยายามที่จะทำให้สิ่งต่าง ๆ รวดเร็วฉันได้รับการนับของแต่ละแบบสอบถามก่อนเวลาแล้วนำชุดที่มีจำนวนต่ำสุด ( ) และใช้ ID เหล่านั้นเป็นขอบเขตบน ข้อความค้นหาขนาดใหญ่ที่เหลือดังนั้นการแยกจึงมีประสิทธิภาพ:A0A0A_0 Z= | (A0∩A1) ∩ … ∩ (A0∩An) |z=|(A0∩A1)∩…∩(A0∩An)| z = \left |\left ( A_0 \cap A_1 \right ) \cap …
10 error  sample 

1
R ตัวแปรเชิงเส้นถดถอยหมวดหมู่ "ซ่อน" ค่า
นี่เป็นเพียงตัวอย่างที่ฉันเจอหลายครั้งดังนั้นฉันจึงไม่มีข้อมูลตัวอย่าง ใช้แบบจำลองการถดถอยเชิงเส้นใน R: a.lm = lm(Y ~ x1 + x2) x1เป็นตัวแปรต่อเนื่อง x2เป็นหมวดหมู่และมีสามค่าเช่น "ต่ำ", "ปานกลาง" และ "สูง" อย่างไรก็ตามเอาต์พุตที่กำหนดโดย R จะเป็นดังนี้: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 ฉันเข้าใจว่า R แนะนำการเข้ารหัสแบบหลอกบางอย่างเกี่ยวกับปัจจัยดังกล่าว ( …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

1
วิธีกำหนด“ ตัวอย่าง” คืออะไร?
หากฉันให้คุณสามตัวเลขที่เป็นอิสระและเหมือนกันจากการแจกแจงแบบปกติมาตรฐานจากนั้นฉันจะให้คุณสามตัวอย่างหรือหนึ่งตัวอย่าง? หากคำตอบคือตัวอย่างหนึ่งก็มีชื่อสั้น ๆ สำหรับสิ่งที่ฉันให้คุณสามข้อ?

2
คำนวณ ROC curve สำหรับข้อมูล
ดังนั้นฉันมีการทดลอง 16 ครั้งที่ฉันพยายามพิสูจน์ตัวตนบุคคลจากลักษณะทางชีวภาพโดยใช้ Hamming Distance เกณฑ์ของฉันถูกตั้งไว้ที่ 3.5 ข้อมูลของฉันอยู่ด้านล่างและเฉพาะการทดลองใช้ 1 เท่านั้นคือ True Positive: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 จุดสับสนของฉันคือฉันไม่แน่ใจจริงๆเกี่ยวกับวิธีสร้าง ROC curve …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

4
การคำนวณอัตราส่วนของข้อมูลตัวอย่างที่ใช้สำหรับการปรับแบบจำลอง / การฝึกอบรมและการตรวจสอบความถูกต้อง
ระบุขนาดตัวอย่าง "N" ที่ฉันวางแผนจะใช้ในการคาดการณ์ข้อมูล มีวิธีใดบ้างในการแบ่งข้อมูลเพื่อให้ฉันใช้บางวิธีเพื่อสร้างแบบจำลองและข้อมูลส่วนที่เหลือเพื่อตรวจสอบความถูกต้องของแบบจำลอง ฉันรู้ว่าไม่มีคำตอบขาวดำสำหรับเรื่องนี้ แต่มันน่าสนใจที่จะรู้ "กฎง่ายๆ" หรืออัตราส่วนที่ใช้ ฉันรู้จักมหาวิทยาลัยอีกครั้งหนึ่งในอาจารย์ของเราเคยพูดแบบจำลอง 60% และตรวจสอบความถูกต้อง 40%
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.