คำถามติดแท็ก descriptive-statistics

สถิติเชิงพรรณนาสรุปคุณสมบัติของกลุ่มตัวอย่างเช่นค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานค่ามัธยฐานและค่าควอไทล์สูงสุดและต่ำสุด ด้วยตัวแปรหลายตัวอาจรวมความสัมพันธ์และแท็บไขว้ สามารถรวมการแสดงภาพ - boxplots, ฮิสโทแกรม, scatterplots และอื่น ๆ

5
การทำให้เป็นมาตรฐานและความแตกต่างคืออะไร
ที่ทำงานเราคุยกันเรื่องนี้ในขณะที่หัวหน้าของฉันไม่เคยได้ยินเกี่ยวกับการทำให้เป็นมาตรฐาน ในพีชคณิตเชิงเส้นดูเหมือนว่าการทำให้เป็นมาตรฐานจะหมายถึงการหารเวกเตอร์ด้วยความยาว และในสถิติมาตรฐานดูเหมือนว่าจะหมายถึงการลบค่าเฉลี่ยแล้วหารด้วย SD แต่พวกเขาดูเหมือนจะเปลี่ยนได้กับความเป็นไปได้อื่น ๆ เช่นกัน เมื่อสร้างคะแนนสากลบางประเภทซึ่งประกอบด้วยตัวชี้วัดที่แตกต่างกันแบบซึ่งมีวิธีการต่างกันและ SD ที่แตกต่างกันคุณจะทำให้ปกติเป็นมาตรฐานหรืออย่างอื่นหรือไม่ คนคนหนึ่งบอกฉันว่ามันเป็นแค่เรื่องของการวัดแต่ละครั้งและหารด้วย SD ของพวกเขาทีละคน จากนั้นรวมทั้งสอง และนั่นจะส่งผลคะแนนสากลที่สามารถใช้ตัดสินทั้งสองเมทริกได้222 ตัวอย่างเช่นสมมติว่าคุณมีจำนวนคนที่ขึ้นรถไฟใต้ดินไปทำงาน (ในนิวยอร์ค) และจำนวนคนที่ขับรถไปทำงาน (ในนิวยอร์ค) รถยนต์⟶ yTrain⟶xTrain⟶x\text{Train} \longrightarrow x Car⟶yCar⟶y\text{Car} \longrightarrow y หากคุณต้องการสร้างคะแนนสากลเพื่อรายงานความผันผวนของการจราจรอย่างรวดเร็วคุณไม่สามารถเพิ่มและค่าเฉลี่ย( y )เพราะจะมีผู้คนจำนวนมากที่ขี่รถไฟ มีคน 8 ล้านคนอาศัยอยู่ในนิวยอร์ครวมถึงนักท่องเที่ยว นั่นคือผู้คนนับล้านที่ขึ้นรถไฟทุกวันข้อร้อยคนในรถยนต์ ดังนั้นพวกเขาจะต้องถูกแปลงให้มีขนาดใกล้เคียงกันเพื่อที่จะเปรียบเทียบmean(x)mean(x)\text{mean}(x)mean(y)mean(y)\text{mean}(y) ถ้าmean(x)=8,000,000mean(x)=8,000,000\text{mean}(x) = 8,000,000 และmean(y)=800,000mean(y)=800,000\text{mean}(y) = 800,000 คุณจะทำให้ & yเป็นปกติแล้วรวม? คุณจะทำให้x & y เป็นมาตรฐานแล้วรวม? หรือคุณจะแบ่งแต่ละส่วนด้วย SD ของพวกเขาแล้วรวม? …


3
ตัวอย่าง: การถดถอย LASSO โดยใช้ glmnet สำหรับผลลัพธ์ไบนารี
ฉันเริ่มตะลุยกับการใช้งานglmnetกับการถดถอยแบบ LASSOซึ่งผลลัพธ์ของความสนใจของฉันนั้นเป็นแบบขั้วคู่ ฉันได้สร้างกรอบข้อมูลจำลองขนาดเล็กด้านล่าง: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

4
ส่วนเบี่ยงเบนมาตรฐานเป็นอย่างไร
ฉันมีค่าเฉลี่ยรายเดือนสำหรับค่าและส่วนเบี่ยงเบนมาตรฐานที่สอดคล้องกับค่าเฉลี่ยนั้น ตอนนี้ฉันคำนวณค่าเฉลี่ยรายปีเป็นผลรวมของค่าเฉลี่ยรายเดือนฉันจะแสดงค่าเบี่ยงเบนมาตรฐานสำหรับค่าเฉลี่ยรวมได้อย่างไร ตัวอย่างเช่นการพิจารณาผลลัพธ์จากฟาร์มกังหันลม: Month MWh StdDev January 927 333 February 1234 250 March 1032 301 April 876 204 May 865 165 June 750 263 July 780 280 August 690 98 September 730 76 October 821 240 November 803 178 December 850 250 เราสามารถพูดได้ว่าในปีเฉลี่ยฟาร์มกังหันลมผลิต 10,358 MWh แต่ค่าเบี่ยงเบนมาตรฐานที่สอดคล้องกับรูปนี้คืออะไร?

8
สถิติพื้นฐานที่ดีที่จะใช้สำหรับข้อมูลอันดับคืออะไร
ฉันมีข้อมูลลำดับที่ได้จากคำถามสำรวจ ในกรณีของฉันพวกเขาคือการตอบสนองสไตล์ Likert (ไม่เห็นด้วยอย่างยิ่ง - ไม่เห็นด้วย - เป็นกลาง - เห็นด้วย - เห็นด้วยอย่างยิ่ง) ในข้อมูลของฉันพวกเขาถูกเข้ารหัสเป็น 1-5 ฉันไม่คิดว่าจะมีความหมายมากที่นี่ดังนั้นสถิติสรุปแบบพื้นฐานใดที่ถือว่ามีประโยชน์


8
ผู้สืบทอดยุคใหม่ในการวิเคราะห์ข้อมูลเชิงสำรวจโดย Tukey?
ฉันอ่านหนังสือของ Tukey "Exploratory Data Analysis" หนังสือเล่มนี้เขียนขึ้นเมื่อปี พ.ศ. 2520 โดยเน้นวิธีการใช้กระดาษ / ดินสอ มีผู้สืบทอดที่ 'ทันสมัย' มากขึ้นซึ่งพิจารณาว่าตอนนี้เราสามารถพล็อตชุดข้อมูลขนาดใหญ่ได้หรือไม่?

5
ความสัมพันธ์ระหว่างตัวแปรต่อเนื่องและหมวดหมู่ (ระบุ)
ฉันต้องการหาความสัมพันธ์ระหว่างตัวแปรแบบต่อเนื่อง (ตัวแปรตาม) และหมวดหมู่ (ชื่อ: เพศตัวแปรอิสระ) ข้อมูลต่อเนื่องจะไม่กระจายตามปกติ ก่อนหน้านี้ผมได้คำนวณโดยใช้สเปียร์แมนρอย่างไรก็ตามฉันได้รับแจ้งว่าไม่ถูกต้องρρ\rho ในขณะที่ค้นหาบนอินเทอร์เน็ตฉันพบว่ากล่องควบคุมสามารถให้แนวคิดเกี่ยวกับจำนวนที่เกี่ยวข้อง แต่ผมกำลังมองหาค่าเชิงปริมาณเช่นค่าสัมประสิทธิ์เพียร์สันหรือสเปียร์แมนρคุณช่วยฉันเกี่ยวกับวิธีการทำสิ่งนี้ได้ไหม หรือแจ้งวิธีการใดที่เหมาะสมρρ\rho Point Biserial Coefficient เป็นตัวเลือกที่ถูกต้องหรือไม่?

3
ความสัมพันธ์เชิงประจักษ์ระหว่างค่าเฉลี่ยมัธยฐานและโหมด
สำหรับการกระจายแบบ unimodal ที่มีความเบ้ปานกลางเรามีความสัมพันธ์เชิงประจักษ์ระหว่างค่าเฉลี่ยมัธยฐานและโหมด: ความสัมพันธ์นี้เป็นอย่างไร มา?(ค่าเฉลี่ย - โหมด) ∼ 3(ค่าเฉลี่ย - ค่ามัธยฐาน)(Mean - Mode)∼3(Mean - Median) \text{(Mean - Mode)}\sim 3\,\text{(Mean - Median)} คาร์ลเพียร์สันได้พล็อตความสัมพันธ์เหล่านี้หลายพันรายการก่อนก่อให้เกิดข้อสรุปนี้หรือมีเหตุผลที่สมเหตุสมผลในความสัมพันธ์นี้หรือไม่?

8
ฟังก์ชันภาพรวมข้อมูลกราฟิก (สรุป) ใน R
ฉันแน่ใจว่าฉันเจอฟังก์ชั่นแบบนี้ในแพ็คเกจ R มาก่อน แต่หลังจาก Googling ที่กว้างขวางฉันดูเหมือนจะไม่สามารถหาได้ทุกที่ ฟังก์ชั่นที่ฉันคิดว่าจะสร้างบทสรุปกราฟิกสำหรับตัวแปรที่กำหนดให้กับมันสร้างผลลัพธ์ด้วยกราฟ (ฮิสโตแกรมและอาจเป็นกล่องและพล็อตมัสสุ) และข้อความบางส่วนที่ให้รายละเอียดเช่นค่าเฉลี่ย SD เป็นต้น ฉันค่อนข้างมั่นใจว่าฟังก์ชั่นนี้ไม่รวมอยู่ใน base R แต่ฉันไม่สามารถหาแพ็คเกจที่ฉันใช้ ไม่มีใครรู้ถึงฟังก์ชั่นเช่นนี้และถ้าเป็นเช่นนั้นมันเป็นแพคเกจอะไร?

6
ทำไมตัวหารของตัวประมาณความแปรปรวนร่วมไม่ควรเป็น n-2 แทนที่จะเป็น n-1
ตัวหารของตัวประมาณค่าความแปรปรวน (ไม่เอนเอียง) คือเนื่องจากมีการสังเกตและมีการประมาณเพียงหนึ่งพารามิเตอร์เท่านั้นn−1n−1n-1nnn V(X)=∑ni=1(Xi−X¯¯¯¯)2n−1V(X)=∑i=1n(Xi−X¯)2n−1 \mathbb{V}\left(X\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)^{2}}{n-1} ในทำนองเดียวกันฉันสงสัยว่าทำไมตัวหารความแปรปรวนร่วมไม่ควรเป็นเมื่อมีการประมาณสองพารามิเตอร์?n−2n−2n-2 Cov(X,Y)=∑ni=1(Xi−X¯¯¯¯)(Yi−Y¯¯¯¯)n−1Cov(X,Y)=∑i=1n(Xi−X¯)(Yi−Y¯)n−1 \mathbb{Cov}\left(X, Y\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)\left(Y_{i}-\overline{Y}\right)}{n-1}

3
เหตุใดจึงมีความแตกต่างระหว่างการคำนวณช่วงความเชื่อมั่นแบบโลจิสติก 95% ด้วยตนเองและการใช้ฟังก์ชัน confint () ใน R
เรียนคุณทุกคน - ฉันสังเกตเห็นบางสิ่งแปลก ๆ ที่ไม่สามารถอธิบายได้ไหม โดยสรุป: แนวทางแบบแมนนวลเพื่อคำนวณช่วงความมั่นใจในโมเดลการถดถอยโลจิสติกและฟังก์ชัน R confint()ให้ผลลัพธ์ที่แตกต่างกัน ฉันเคยผ่านการถดถอยโลจิสติกประยุกต์ของ Hosmer & Lemeshow แล้ว (ฉบับที่ 2) ในบทที่ 3 มีตัวอย่างของการคำนวณอัตราส่วนอัตราต่อรองและช่วงความมั่นใจ 95% ด้วย R ฉันสามารถสร้างโมเดลได้อย่างง่ายดาย: Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

7
จะตีความค่าสัมประสิทธิ์การแปรปรวนได้อย่างไร?
ฉันพยายามที่จะเข้าใจสัมประสิทธิ์การแปรผัน เมื่อฉันพยายามนำไปใช้กับตัวอย่างสองข้อมูลต่อไปนี้ฉันไม่สามารถเข้าใจวิธีตีความผลลัพธ์ สมมติว่าตัวอย่างที่ 1 คือ0,5,7,12,11,170,5,7,12,11,17{0, 5, 7, 12, 11, 17} และตัวอย่างที่ 2 คือ10,15,17,22,21,2710,15,17,22,21,27{10 ,15 ,17 ,22 ,21 ,27} 27 นี่ตัวอย่าง 2 ===ตัวอย่าง 1 + 10+ 10+\ 10ตามที่คุณเห็น ทั้งสองมีค่าเบี่ยงเบนมาตรฐานเดียวกันσ2=σ1=5.95539σ2=σ1=5.95539\sigma_{2} = \sigma_{1}= 5.95539แต่μ2=18.67μ2=18.67\mu_{2}=18.67และμ1=8.66667μ1=8.66667\mu_{1}=8.66667 8.66667 ทีนี้สัมประสิทธิ์การแปรผันจะแตกต่างกัน สำหรับตัวอย่างที่ 2 จะน้อยกว่าตัวอย่างที่ 1 แต่ฉันจะตีความผลลัพธ์นั้นได้อย่างไร ในแง่ของความแปรปรวนทั้งสองเหมือนกัน เฉพาะวิธีการของพวกเขาจะแตกต่างกัน ดังนั้นการใช้สัมประสิทธิ์การแปรผันตรงนี้คืออะไร? เป็นเพียงการทำให้เข้าใจผิดฉันหรือบางทีฉันไม่สามารถตีความผลลัพธ์σ/μσ/μ{\sigma}/{\mu}

5
วิธีจัดการกับข้อมูลแบบลำดับชั้น / ซ้อนในการเรียนรู้ของเครื่อง
ฉันจะอธิบายปัญหาด้วยตัวอย่าง สมมติว่าคุณต้องการที่จะทำนายรายได้ของแต่ละบุคคลที่มีคุณลักษณะบางอย่าง: {อายุ, เพศ, ประเทศ, ภูมิภาค, เมือง} คุณมีชุดข้อมูลการฝึกอบรมเช่นนั้น train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

2
การเปลี่ยนแปลงเหมือนกับความแปรปรวนหรือไม่
นี่เป็นคำถามแรกของฉันในการตรวจสอบความถูกต้องของ Cross ที่นี่ดังนั้นโปรดช่วยฉันแม้ว่ามันจะดูเล็กน้อย :-) ก่อนอื่นคำถามอาจเป็นผลลัพธ์ของความแตกต่างทางภาษาหรือบางทีฉันมีข้อบกพร่องทางสถิติที่แท้จริง อย่างไรก็ตามนี่คือ: ในสถิติประชากรการแปรปรวนและความแปรปรวนเป็นคำเดียวกันหรือไม่ ถ้าไม่ความแตกต่างระหว่างสองคืออะไร ฉันรู้ว่าความแปรปรวนเป็นกำลังสองของค่าเบี่ยงเบนมาตรฐาน ฉันรู้ด้วยเช่นกันว่ามันเป็นการวัดว่าข้อมูลกระจัดกระจายแค่ไหนและฉันรู้วิธีการคำนวณ อย่างไรก็ตามฉันได้ติดตามหลักสูตร Coursera.org ที่เรียกว่า "การคิดแบบจำลอง" และผู้บรรยายอธิบายความแปรปรวนอย่างชัดเจน นั่นทำให้ฉันสับสนเล็กน้อย เพื่อความเป็นธรรมเขามักจะพูดคุยเกี่ยวกับการเปลี่ยนแปลงของอินสแตนซ์บางอย่างในประชากร ใครช่วยอธิบายให้ฉันได้ไหมถ้าคนเหล่านั้นใช้แทนกันได้หรือบางทีฉันอาจจะพลาดอะไรบางอย่างไป?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.