คำถามติดแท็ก sample

กลุ่มตัวอย่างคือกลุ่มย่อยของประชากร โดยทั่วไปสถิติเกี่ยวข้องกับการใช้ตัวอย่างเพื่อทำการอนุมานเกี่ยวกับพารามิเตอร์ที่ควบคุมประชากรที่มีขนาดใหญ่ขึ้น (อาจไม่มีที่สิ้นสุด)

25
ค้นหาตัวอย่างข้อมูลที่มีอยู่อย่างอิสระ
ฉันกำลังทำงานกับวิธีการใหม่สำหรับการวิเคราะห์และการแยกชุดข้อมูลเพื่อระบุและแยกกลุ่มย่อยของประชากรโดยไม่ทราบล่วงหน้าถึงลักษณะของกลุ่มย่อยใด ๆ ในขณะที่วิธีการทำงานได้ดีพอกับตัวอย่างข้อมูลเทียม (เช่นชุดข้อมูลที่สร้างขึ้นโดยเฉพาะเพื่อจุดประสงค์ในการระบุและแยกกลุ่มย่อยของประชากร) ฉันต้องการลองทดสอบด้วยข้อมูลจริง สิ่งที่ฉันกำลังมองหาคือแหล่งข้อมูลที่พร้อมใช้งานได้ฟรี (เช่นไม่เป็นความลับไม่ใช่กรรมสิทธิ์) หนึ่งที่มีการแจกแจง bimodal หรือ multimodal หรือชัดเจนประกอบด้วยหลายส่วนย่อยที่ไม่สามารถดึงออกจากกันได้อย่างง่ายดายผ่านวิธีการแบบดั้งเดิม ฉันจะไปหาข้อมูลดังกล่าวที่ไหน?

5
ความแตกต่างระหว่างประชากรกับกลุ่มตัวอย่างคืออะไร?
ความแตกต่างระหว่างประชากรกับกลุ่มตัวอย่างคืออะไร? มีตัวแปรและสถิติทั่วไปใดบ้างที่ใช้สำหรับแต่ละตัวและเกี่ยวข้องกันอย่างไร

3
R: การสุ่มฟอเรสต์การโยน NaN / Inf ในข้อผิดพลาด“ การเรียกฟังก์ชันต่างประเทศ” แม้จะไม่มีชุดข้อมูลของ NaN [ปิด]
ฉันใช้คาเร็ตเพื่อรันฟอเรสต์แบบสุ่มที่ผ่านการตรวจสอบความถูกต้องข้ามชุดข้อมูล ตัวแปร Y เป็นปัจจัย ไม่มีชุดข้อมูลของ NaN, Inf's หรือ NA ในชุดข้อมูลของฉัน อย่างไรก็ตามเมื่อใช้ป่าสุ่มฉันได้รับ Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs …

3
ถ้าตัวอย่างแบบสุ่มของคุณไม่ได้เป็นตัวแทนอย่างชัดเจนล่ะ
เกิดอะไรขึ้นถ้าคุณใช้ตัวอย่างที่สุ่มและคุณสามารถเห็นมันได้อย่างชัดเจนไม่ได้เป็นตัวแทนเช่นเดียวกับในคำถามที่ผ่านมา ตัวอย่างเช่นถ้าการกระจายตัวของประชากรควรมีความสมมาตรประมาณ 0 และตัวอย่างที่คุณวาดแบบสุ่มนั้นมีการสังเกตเชิงบวกและลบที่ไม่สมดุลและความไม่สมดุลนั้นมีนัยสำคัญทางสถิตินั่นจะทำให้คุณอยู่ที่ไหน คุณสามารถสร้างประโยคที่สมเหตุสมผลเกี่ยวกับประชากรจากกลุ่มตัวอย่างที่มีอคติได้อย่างไร การกระทำที่เหมาะสมในสถานการณ์เช่นนี้คืออะไร? การวิจัยของเรามีความสำคัญเมื่อเราสังเกตเห็นความไม่สมดุลนี้หรือไม่?

1
การคำนวณซ้ำของเอฟเฟกต์จากโมเดล lmer
ฉันเพิ่งอ่านบทความนี้ซึ่งอธิบายถึงวิธีการคำนวณความสามารถในการทำซ้ำ (ความน่าเชื่อถือหรือความสัมพันธ์ภายในอินทราเน็ต) ของการวัดผ่านการสร้างแบบจำลองเอฟเฟกต์ผสม รหัส R จะเป็น: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

1
องศาอิสระเป็นหมายเลขที่ไม่ใช่จำนวนเต็มหรือไม่
เมื่อฉันใช้ GAM มันให้ DF ที่เหลือกับฉันคือ (บรรทัดสุดท้ายในรหัส) นั่นหมายความว่าอย่างไร? นอกเหนือไปจากตัวอย่างของ GAM โดยทั่วไปแล้วจำนวนองศาความเป็นอิสระจะเป็นจำนวนที่ไม่ใช่จำนวนเต็มหรือไม่26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

9
ฉันจะทราบได้อย่างไรว่าการกระจายแบบใดที่แสดงข้อมูลนี้เกี่ยวกับเวลาตอบสนองการ ping
ฉันสุ่มตัวอย่างกระบวนการโลกแห่งความเป็นจริง, เวลา ping เครือข่าย "round-trip-time" วัดเป็นมิลลิวินาที ผลลัพธ์ถูกพล็อตในฮิสโตแกรม: Ping ครั้งมีค่าต่ำสุด แต่หางบนยาว ฉันต้องการทราบว่าการกระจายเชิงสถิติคืออะไรและจะประเมินค่าพารามิเตอร์ได้อย่างไร แม้ว่าการกระจายไม่ใช่การกระจายทั่วไปฉันยังสามารถแสดงสิ่งที่ฉันพยายามที่จะบรรลุ การแจกแจงปกติใช้ฟังก์ชัน: ด้วยพารามิเตอร์ทั้งสอง μ (หมายถึง) σ 2 (ความแปรปรวน) การประมาณค่าพารามิเตอร์ สูตรสำหรับการประมาณค่าพารามิเตอร์ทั้งสองคือ: ใช้สูตรเหล่านี้กับข้อมูลที่ฉันมีใน Excel ฉันจะได้รับ: μ = 10.9558 (หมายถึง) σ 2 = 67.4578 (ความแปรปรวน) ด้วยพารามิเตอร์เหล่านี้ฉันสามารถพล็อตการกระจาย " ปกติ " ด้านบนข้อมูลตัวอย่างของฉัน: เห็นได้ชัดว่าไม่ใช่การแจกแจงแบบปกติ การแจกแจงแบบปกติมีหางบนและล่างไม่ จำกัด และมีความสมมาตร การกระจายนี้ไม่สมมาตร ฉันจะใช้หลักการอะไร ฉันจะใช้ผังงานใดเพื่อกำหนดการกระจายแบบนี้ว่าเป็นอย่างไร ระบุว่าการแจกแจงไม่มีหางลบและหางยาวเป็นบวก: การกระจายแบบใดที่ตรงกับ? มีการอ้างอิงที่ตรงกับการแจกแจงของการสังเกตที่คุณทำหรือไม่? และการตัดการไล่ล่าสูตรสำหรับการแจกแจงนี้คืออะไรและสูตรการประมาณค่าพารามิเตอร์คืออะไร? ฉันต้องการรับการกระจายเพื่อให้ได้ค่า …

2
ความแตกต่างระหว่างความแปรปรวนตัวอย่างและความแปรปรวนการสุ่มตัวอย่างคืออะไร
ความแตกต่างระหว่างความแปรปรวนตัวอย่างและความแปรปรวนการสุ่มตัวอย่างคืออะไร พวกเขาดูเหมือนกัน ไม่ใช่เหรอ

3
Bootstrap: ปัญหาการ overfitting
สมมติว่าหนึ่งดำเนินการ bootstrap ที่ไม่ใช่พารามิเตอร์โดยการวาดตัวอย่างของขนาดnแต่ละจากต้นฉบับnBBBnnnnnnสังเกตพร้อมการแทนที่ ฉันเชื่อว่ากระบวนการนี้เทียบเท่ากับการประมาณฟังก์ชันการแจกแจงสะสมโดย cdf เชิงประจักษ์: http://en.wikipedia.org/wiki/Empirical_distribution_function จากนั้นรับตัวอย่าง bootstrap โดยจำลองการสังเกตจาก cdf BโดยประมาณnnnBBBในแถว ถ้าฉันพูดถูกสิ่งนี้จะต้องจัดการกับปัญหาเรื่องการล้นเพราะเอกสารเชิงประจักษ์มีพารามิเตอร์เกี่ยวกับ N แน่นอนว่ามันไม่แปรเปลี่ยนไปเป็นประชากร cdf แต่แล้วกลุ่มตัวอย่าง จำกัด ? เช่นถ้าฉันบอกคุณว่าฉันมีการสังเกต 100 ครั้งและฉันจะประมาณ cdf เป็นด้วยสองพารามิเตอร์คุณจะไม่ตื่นตระหนก อย่างไรก็ตามหากจำนวนพารามิเตอร์สูงถึง 100 ดูเหมือนจะไม่สมเหตุสมผลเลยN(μ,σ2)N(μ,σ2)N(\mu, \sigma^2) ในทำนองเดียวกันเมื่อมีพนักงานหลายมาตรฐานการถดถอยเชิงเส้นการกระจายของระยะข้อผิดพลาดเป็นที่คาดกันว่าเป็น ) หากมีใครตัดสินใจที่จะเปลี่ยนเป็นการบูตสต็อกส่วนที่เหลือเขาต้องรู้ว่าตอนนี้มีประมาณnN(0,σ2)N(0,σ2)N(0, \sigma^2)nnnพารามิเตอร์ใช้เพื่อจัดการกับการแจกแจงข้อผิดพลาด คุณช่วยบอกทางฉันถึงแหล่งข้อมูลบางแห่งที่จัดการปัญหานี้อย่างชัดเจนหรือบอกสาเหตุที่ไม่ใช่ปัญหาถ้าคุณคิดว่าฉันทำผิด

3
ใช้ความยาวเฉลี่ยและน้ำหนักเฉลี่ยในการคำนวณค่าดัชนีมวลกายหรือไม่
มันถูกต้องหรือไม่ที่จะใช้ความยาวเฉลี่ย ( ) และน้ำหนักเฉลี่ย ( )) จากประชากรที่กำหนดเพื่อคำนวณค่าดัชนี ( ) สำหรับประชากรนั้น?ชั่วโมงhhWwwบีเอ็มผม= wชั่วโมง2BMI=wh2BMI = \frac{w}{h^2}

4
ทรัพย์สินเชิงปริมาณของประชากรเป็น“ พารามิเตอร์” หรือไม่?
ฉันค่อนข้างคุ้นเคยกับความแตกต่างระหว่างสถิติของคำและพารามิเตอร์ ฉันเห็นสถิติเป็นค่าที่ได้จากการใช้ฟังก์ชั่นกับข้อมูลตัวอย่าง อย่างไรก็ตามตัวอย่างส่วนใหญ่ของพารามิเตอร์เกี่ยวข้องกับการกำหนดการกระจายพารามิเตอร์ ตัวอย่างทั่วไปคือค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานเพื่อกำหนดพารามิเตอร์การแจกแจงปกติหรือสัมประสิทธิ์และความแปรปรวนข้อผิดพลาดในการกำหนดพารามิเตอร์เป็นการถดถอยเชิงเส้น อย่างไรก็ตามมีค่าอื่น ๆ อีกมากมายของการกระจายตัวของประชากรที่น้อยกว่าต้นแบบ (เช่น, ต่ำสุด, สูงสุด, r-Square ในการถดถอยหลายครั้ง, .25 quantile, ค่ามัธยฐาน, จำนวนของตัวทำนายที่มีค่าสัมประสิทธิ์ไม่ใช่ศูนย์, ความเบ้, จำนวน ของความสัมพันธ์ในเมทริกซ์สหสัมพันธ์มากกว่า. 3 เป็นต้น) ดังนั้นคำถามของฉันคือ: ทรัพย์สินเชิงปริมาณของประชากรควรมีป้ายกำกับว่า "พารามิเตอร์" หรือไม่? ถ้าใช่แล้วทำไม หากไม่มีคุณลักษณะใดที่ไม่ควรระบุพารามิเตอร์ พวกเขาควรติดป้ายอะไร และทำไม? อธิบายรายละเอียดเกี่ยวกับความสับสน บทความ Wikipedia เกี่ยวกับตัวประมาณค่า: "ตัวประมาณค่า" หรือ "การประมาณค่าจุด" คือสถิติ (นั่นคือฟังก์ชันของข้อมูล) ที่ใช้เพื่ออนุมานค่าของพารามิเตอร์ที่ไม่รู้จักในแบบจำลองทางสถิติ แต่ฉันสามารถกำหนดค่าที่ไม่รู้จักเป็น. 25 quantile และฉันสามารถพัฒนาตัวประมาณค่าสำหรับค่าที่ไม่รู้จักนั้น คือคุณสมบัติเชิงปริมาณของประชากรทั้งหมดไม่ใช่พารามิเตอร์ในลักษณะเดียวกับที่บอกว่าค่าเฉลี่ยและ sd เป็นพารามิเตอร์ของการแจกแจงแบบปกติทว่ามันถูกต้องตามกฎหมายที่จะพยายามประเมินคุณสมบัติเชิงปริมาณของประชากร

1
กลุ่มตัวอย่างเชิงมโนทัศน์ / ทฤษฎี - ทำไมต้องสนใจ?
ฉันหวังว่าคำถามนี้จะไม่ถูกทำเครื่องหมายว่า "กว้างเกินไป" และหวังว่าการอภิปรายจะเริ่มต้นขึ้นซึ่งจะเป็นประโยชน์ต่อทุกคน ในสถิติเราใช้เวลามากมายในการเรียนรู้ทฤษฎีตัวอย่างขนาดใหญ่ เราสนใจอย่างยิ่งในการประเมินคุณสมบัติของซีมโทติคของผู้ประมาณของเรารวมถึงว่าพวกมันไม่เอนเอียง, มีประสิทธิภาพ, การกระจายของซีมโทติคและอื่น ๆ asymptotic คำจะเชื่อมโยงอย่างมากกับสมมติฐานที่ว่า\n→∞n→∞n \rightarrow \infty ในความเป็นจริง แต่เรามักจะจัดการกับการ จำกัดnคำถามของฉันคือ:nnn 1) เราหมายถึงอะไรโดยกลุ่มตัวอย่างขนาดใหญ่? เราจะแยกความแตกต่างระหว่างตัวอย่างขนาดเล็กและขนาดใหญ่ได้อย่างไร 2) เมื่อเราพูดว่าเราหมายถึงว่าควรไปที่หรือไม่?n→∞n→∞n \rightarrow \inftynnn∞∞\infty ตัวอย่างสำหรับการแจกแจงทวินามต้องการประมาณ n = 30 เพื่อรวมเข้ากับการแจกแจงแบบปกติภายใต้ CLT เราควรมีหรือในกรณีนี้โดยเราหมายถึง 30 หรือมากกว่า!X¯X¯\bar{X}n→∞n→∞n \rightarrow \infty∞∞\infty 3) สมมติว่าเรามีตัวอย่างที่ จำกัด และสมมติว่าเรารู้ทุกอย่างเกี่ยวกับพฤติกรรมเชิงเส้นกำกับของตัวประมาณของเรา แล้วอะไรล่ะ สมมติว่าตัวประมาณของเราเป็นแบบไม่เชิงเส้นกำกับจากนั้นเรามีการประมาณแบบไม่เอนเอียงสำหรับพารามิเตอร์ที่เราสนใจในตัวอย่าง จำกัด ของเราหรือหมายความว่าถ้าเรามีแล้วเราก็จะไม่เอนเอียง?n→∞n→∞n \rightarrow \infty อย่างที่คุณเห็นจากคำถามข้างต้นฉันพยายามทำความเข้าใจปรัชญาเบื้องหลัง "Asymptotics ตัวอย่างขนาดใหญ่" และเรียนรู้ว่าทำไมเราถึงสนใจ ฉันต้องได้รับสัญชาติญาณสำหรับทฤษฎีบทที่ฉันเรียนรู้

1
LARS เทียบกับโคตรของโคตร
ข้อดีและข้อเสียของการใช้ LARS [1] เมื่อเทียบกับการใช้โคตรของพิกัดสำหรับการถดถอยเชิงเส้นแบบ L1 ที่เหมาะสมคืออะไร ฉันสนใจในเรื่องของประสิทธิภาพเป็นหลัก (ปัญหาของฉันมักจะNอยู่ในหลักแสนและp<20) อย่างไรก็ตามข้อมูลเชิงลึกอื่น ๆ ก็จะได้รับการชื่นชมเช่นกัน แก้ไข: เนื่องจากฉันได้โพสต์คำถาม, chl ได้ชี้ให้เห็นกระดาษ [2] โดย Friedman และคณะที่พิกัดโคตรถูกแสดงว่าเร็วกว่าวิธีอื่นมาก หากเป็นกรณีนี้ฉันควรเป็นผู้ประกอบการเพียงแค่ลืมเกี่ยวกับ LARS ในความโปรดปรานของการสืบเชื้อสายมาประสานงาน? [1] Efron, Bradley; Hastie เทรเวอร์; Johnstone, Iain และ Tibshirani, Robert (2004) "การถดถอยมุมน้อยที่สุด" พงศาวดารของสถิติ 32 (2): pp 407–499 [2] Jerome H. Friedman, Trevor Hastie, Rob Tibshirani, "เส้นทางการทำให้เป็นมาตรฐานสำหรับตัวแบบเชิงเส้นทั่วไปผ่านพิกัดโคตร", วารสารซอฟท์แวร์สถิติ, อัตรา …

2
ความแตกต่างระหว่างตัวแปรสุ่มและตัวอย่างสุ่มคืออะไร?
การแสดงออกสองอย่างนี้ทำให้ฉันสับสนมากเมื่อฉันเรียนรู้สถิติ ดูเหมือนว่าพวกเขาจะแตกต่างกันโดยสิ้นเชิง ตัวอย่างสุ่มคือการสุ่มเก็บตัวอย่างจากประชากรในขณะที่ตัวแปรสุ่มเป็นเหมือนฟังก์ชั่นที่แมปชุดของผลลัพธ์ที่เป็นไปได้ทั้งหมดของการทดสอบเป็นจำนวนจริง อย่างไรก็ตามพูดว่าถ้าฉันวาดตัวอย่าง , ,และ , โดยที่และไม่เป็นที่รู้จักคือ , ,ตัวอย่างสุ่มหรือตัวแปรสุ่ม?X1X1X_1X2X2X_2X3X3X_3Xi∼N(μ,σ2)Xi∼N(μ,σ2)X_i \sim N(\mu,\sigma^2)μμ\muσσ\sigmaX1X1X_1X2X2X_2X3X3X_3

2
การแข่งขัน Kaggle เพิ่งชนะโดยบังเอิญหรือไม่?
การแข่งขัน Kaggle กำหนดอันดับสุดท้ายตามชุดการทดสอบที่จัดขึ้น ชุดการทดสอบที่จัดขึ้นค้างไว้เป็นตัวอย่าง; มันอาจไม่ได้เป็นตัวแทนของประชากรที่ถูกจำลอง เนื่องจากการส่งแต่ละครั้งเป็นเหมือนสมมติฐานอัลกอริทึมที่ชนะการแข่งขันอาจมีเพียงแค่โอกาสโดยรวมเท่านั้นที่จบลงด้วยการจับคู่ชุดทดสอบที่ดีกว่าชุดทดสอบอื่น ๆ กล่าวอีกนัยหนึ่งหากเลือกชุดทดสอบที่แตกต่างกันและการแข่งขันซ้ำการจัดอันดับจะยังคงเหมือนเดิมหรือไม่ สำหรับ บริษัท ที่ให้การสนับสนุนสิ่งนี้ไม่สำคัญเลย (อาจส่ง 20 อันดับแรกจะปรับปรุงพื้นฐานของพวกเขา) ถึงแม้ว่าแดกดันพวกเขาอาจจบลงด้วยการใช้รูปแบบอันดับแรกที่เลวร้ายยิ่งกว่าห้าอันดับแรก แต่สำหรับผู้เข้าร่วมการแข่งขันดูเหมือนว่า Kaggle เป็นเกมแห่งโอกาสในท้ายที่สุดโชคไม่จำเป็นต้องสะดุดในการแก้ปัญหาที่ถูกต้องมันจำเป็นต้องสะดุดกับชุดทดสอบที่ตรงกับชุดทดสอบ! เป็นไปได้หรือไม่ที่จะเปลี่ยนการแข่งขันเพื่อให้ทีมชั้นนำทั้งหมดที่ไม่สามารถชนะได้อย่างมีนัยสำคัญ? หรือในกลุ่มนี้แบบจำลองที่มีราคาต่ำสุดหรือราคาถูกที่สุดสามารถชนะได้หรือไม่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.