คำถามติดแท็ก mean

ค่าที่คาดหวังของตัวแปรสุ่ม หรือวัดตำแหน่งสำหรับตัวอย่าง

5
ถ้าไม่ใช่ปัวซองแล้วการกระจายตัวนี้คืออะไร?
ฉันมีชุดข้อมูลที่มีจำนวนการกระทำที่ดำเนินการโดยบุคคลในระยะเวลา 7 วัน การกระทำที่เฉพาะเจาะจงไม่ควรเกี่ยวข้องกับคำถามนี้ นี่คือสถิติเชิงพรรณนาสำหรับชุดข้อมูล: RangeMeanVarianceNumber of observations0−77218.22791696Range0−772Mean18.2Variance2791Number of observations696 \begin{array}{|c|c|} \hline \text{Range} & 0 - 772 \\ \hline \text{Mean} & 18.2 \\ \hline \text{Variance} & 2791 \\ \hline \text{Number of observations} & 696 \\ \hline \end{array} นี่คือฮิสโตแกรมของข้อมูล: เมื่อพิจารณาจากแหล่งข้อมูลฉันคิดว่ามันจะพอดีกับการแจกแจงปัวซอง อย่างไรก็ตามความแปรปรวนเฉลี่ยและฮิสโตแกรมนั้นมีน้ำหนักทางด้านซ้ายอย่างมาก นอกจากนี้ฉันgoodfitทำการทดสอบใน R และได้รับ: > gf <- goodfit(actions,type="poisson", method = "MinChisq") …

3
หมายถึง SD หรือ Median MAD เพื่อสรุปตัวแปรที่เอียงสูงหรือไม่
ฉันกำลังทำงานกับข้อมูลที่เบ้อย่างสูงดังนั้นฉันจึงใช้ค่ามัธยฐานแทนค่าเฉลี่ยเพื่อสรุปแนวโน้มกลาง ฉันต้องการที่จะมีตัวชี้วัดของการกระจายตัวในขณะที่ฉันมักจะเห็นคนรายงานค่าเฉลี่ยเบี่ยงเบนมาตรฐาน±±\pmหรือแบ่งควอไทล์±±\pmเพื่อสรุปแนวโน้มเข้าสู่ส่วนกลางมันก็โอเคที่จะรายงานค่ามัธยฐานแบ่งกระจายสัมบูรณ์ (MAD)±±\pm ? มีปัญหาที่อาจเกิดขึ้นกับวิธีนี้หรือไม่? ฉันจะพบว่าวิธีนี้มีขนาดกะทัดรัดและใช้งานง่ายกว่าการรายงานควอไทล์ที่ต่ำและสูงโดยเฉพาะในตารางขนาดใหญ่ที่เต็มไปด้วยตัวเลข

1
R / mgcv: เพราะเหตุใดผลิตภัณฑ์ te () และ ti () เทนเซอร์จึงให้พื้นผิวที่แตกต่างกัน
mgcvแพคเกจสำหรับการRมีสองฟังก์ชั่นสำหรับการปฏิสัมพันธ์กระชับเมตริกซ์ผลิตภัณฑ์: และte() ti()ฉันเข้าใจการแบ่งขั้นพื้นฐานของการใช้แรงงานระหว่างคนทั้งสอง (ปรับให้เหมาะสมกับการทำงานแบบไม่เป็นเชิงเส้นเปรียบเทียบกับการย่อยสลายการโต้ตอบนี้เป็นผลกระทบหลักและการโต้ตอบ) สิ่งที่ฉันไม่เข้าใจคือสาเหตุte(x1, x2)และti(x1) + ti(x2) + ti(x1, x2)อาจให้ผลลัพธ์ที่แตกต่าง (เล็กน้อย) MWE (ดัดแปลงมาจาก?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

3
ค่าเฉลี่ยของการแจกแจงเลขชี้กำลังผกผัน
ให้ตัวแปรสุ่มค่าเฉลี่ยและความแปรปรวนของG = 1 คืออะไรY= Ex p ( λ )Y=Exp(λ)Y = Exp(\lambda)ไหมG = 1YG=1YG=\dfrac{1}{Y} ฉันดูการแจกแจงผกผันแกมม่า แต่ค่าเฉลี่ยและความแปรปรวนถูกกำหนดเฉพาะสำหรับและα > 2ตามลำดับ ...α > 1α>1\alpha>1α > 2α>2\alpha>2


2
ความแตกต่างในความหมายกับความแตกต่างเฉลี่ย
เมื่อศึกษาวิธีการสองตัวอย่างที่เป็นอิสระเราจะบอกว่าเรากำลังดูที่ "ความแตกต่างของสองวิธี" นี่หมายความว่าเราใช้ค่าเฉลี่ยจากประชากร 1 ( ) และลบออกจากค่าเฉลี่ยจากประชากร 2 ( ) ดังนั้น "ความแตกต่างของสองวิธี" ของเราคือ ( - )y¯1y¯1\bar y_1y¯2y¯2\bar y_2y¯1y¯1\bar y_1y¯2y¯2\bar y_2 เมื่อศึกษาตัวอย่างที่จับคู่หมายถึงเราจะบอกเรากำลังมองหาที่ "หมายถึงความแตกต่าง"d สิ่งนี้คำนวณจากการใช้ความแตกต่างระหว่างแต่ละคู่แล้วทำการหาค่าเฉลี่ยของความแตกต่างเหล่านั้นทั้งหมดd¯d¯\bar d คำถามของฉันคือ: เราได้รับเหมือนกัน ( - ) เมื่อเทียบกับถ้าเราคำนวณพวกเขาจากคอลัมน์ข้อมูลสองคอลัมน์และครั้งแรกที่พิจารณามันเป็นสองตัวอย่างอิสระและครั้งที่สองถือว่าเป็นคู่ ข้อมูล? ฉันได้เล่นกับข้อมูลสองคอลัมน์และดูเหมือนว่าค่าเหมือนกัน! ในกรณีนั้นสามารถพูดได้หรือไม่ว่ามีการใช้ชื่อที่ต่างกันด้วยเหตุผลที่ไม่ใช่เชิงปริมาณ?y¯1y¯1\bar y_1y¯2y¯2\bar y_2d¯d¯\bar d

3
เมื่อใดที่ฉันไม่สามารถแทนที่ตัวแปรสุ่มด้วยค่าเฉลี่ยได้
ความเรียบง่ายบ่อยครั้งในการสร้างแบบจำลองและการจำลองคือการแทนที่ตัวแปรสุ่มด้วยค่าเฉลี่ย เมื่อการทำให้เข้าใจง่ายนี้จะนำไปสู่ข้อสรุปที่ผิด?

5
การอธิบายค่าเฉลี่ยมัธยฐานโหมดตามข้อกำหนดของคนธรรมดา
คุณจะอธิบายแนวคิดเกี่ยวกับค่าเฉลี่ยค่ามัธยฐานและโหมดของรายการตัวเลขอย่างไรและทำไมพวกเขาถึงมีความสำคัญต่อใครบางคนที่มีทักษะการคิดคำนวณขั้นพื้นฐานเท่านั้น อย่าพูดถึงความเบ้, CLT, แนวโน้มกลาง, คุณสมบัติทางสถิติ, ฯลฯ ฉันอธิบายให้คนที่หมายถึงเป็นเพียงวิธีที่รวดเร็วและสกปรกในการ "สรุป" รายการตัวเลข แต่เมื่อมองย้อนกลับไป ความคิดหรือตัวอย่างโลกแห่งความจริง?

1
ค่าที่คาดหวังของตัวแปรสุ่ม iid
ฉันมาข้ามมานี้ซึ่งผมไม่เข้าใจ: ถ้าX1, X2, . . . , XnX1,X2,...,XnX_1, X_2, ..., X_nเป็นตัวอย่างแบบสุ่มขนาด n นำมาจากประชากรของค่าเฉลี่ยμμ\muและความแปรปรวนσ2σ2\sigma^2จากนั้น X¯= ( X1+ X2+ . . . + Xn) / nX¯=(X1+X2+...+Xn)/n\bar{X} = (X_1 + X_2 + ... + X_n)/n E( X¯) = E( X1+ X2+ . . . + Xn) / n = ( 1 / n …

1
ค่ามัธยฐานเป็นคุณสมบัติ "ตัวชี้วัด" หรือ "โทโพโลยี" หรือไม่?
ฉันขอโทษสำหรับการละเมิดคำศัพท์เล็กน้อย ฉันหวังว่ามันจะชัดเจนว่าฉันหมายถึงด้านล่าง พิจารณาตัวแปรสุ่มXทั้งค่าเฉลี่ยและค่ามัธยฐานสามารถลักษณะเกณฑ์ optimality: ค่าเฉลี่ยเป็นตัวเลขที่μที่ช่วยลดE ( ( X - μ ) 2 )และค่ามัธยฐานว่าจำนวนซึ่งช่วยลดE ( | X - μ | ) ในมุมมองนี้ความแตกต่างระหว่างค่าเฉลี่ยและค่ามัธยฐานคือทางเลือกของ "ตัวชี้วัด" สำหรับการประเมินการเบี่ยงเบนสี่เหลี่ยมหรือค่าสัมบูรณ์XXXμμ\muE ((X- μ )2)E((X−μ)2)\mathrm E((X - \mu)^2)E ( | X- μ | )E(|X−μ|)\mathrm E(|X - \mu|) บนมืออื่น ๆ , ค่าเฉลี่ยเป็นตัวเลขที่ที่ (สมมติต่อเนื่องแน่นอน) คือคำนิยามนี้ขึ้นอยู่กับความสามารถในการสั่งซื้อค่าของXและเป็นอิสระจากเท่าใดพวกเขาแตกต่าง เป็นผลมาจากสิ่งนี้คือว่าสำหรับทุกฟังก์ชั่นที่เพิ่มขึ้นอย่างเข้มงวดf(x),medฉันan(f(X))=f(medฉันan(X)), หมายถึงมันเป็น "ทอพอโลยี" ใน ความรู้สึกของความไม่แปรเปลี่ยนภายใต้การเปลี่ยนแปลงหน้าr (X)≤ …
10 mean  median 

1
แสดงว่าถ้า
ปัจจุบันติดอยู่ที่นี่ฉันรู้ว่าฉันควรใช้ค่าเบี่ยงเบนเฉลี่ยของการแจกแจงทวินาม แต่ฉันไม่สามารถหา

1
ทำไม Anova () และ drop1 () จึงให้คำตอบที่แตกต่างกันสำหรับ GLMM
ฉันมีแบบฟอร์ม GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) เมื่อฉันใช้drop1(model, test="Chi")ฉันได้รับผลลัพธ์ที่แตกต่างกว่าถ้าผมใช้จากแพคเกจรถหรือAnova(model, type="III") summary(model)สองหลังนี้ให้คำตอบเดียวกัน จากการใช้ข้อมูลที่ประดิษฐ์ขึ้นมาฉันพบว่าทั้งสองวิธีปกติไม่แตกต่างกัน พวกเขาให้คำตอบเดียวกันสำหรับแบบจำลองเชิงเส้นที่มีความสมดุลแบบจำลองเชิงเส้นที่ไม่สมดุล (ซึ่งไม่เท่ากันในกลุ่มต่าง ๆ ) และสำหรับแบบจำลองเชิงเส้นที่สมดุลแบบทั่วไป ดังนั้นจึงปรากฏว่าเฉพาะในกรณีที่มีการรวมปัจจัยแบบสุ่มเข้าด้วยกัน ทำไมจึงมีความคลาดเคลื่อนระหว่างสองวิธีนี้? เมื่อใช้ GLMM ควรAnova()หรือdrop1()จะใช้งานอย่างไร ความแตกต่างระหว่างสองสิ่งนี้ค่อนข้างเล็กน้อยอย่างน้อยสำหรับข้อมูลของฉัน มันมีความสำคัญต่อการใช้งานหรือไม่?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
ตัวประมาณค่าบวกที่ไม่เอนเอียงสำหรับกำลังสองของค่าเฉลี่ย
สมมติว่าเราสามารถเข้าถึงตัวอย่าง iid จากการแจกแจงด้วยค่าเฉลี่ยและความแปรปรวนจริง (ไม่ทราบ) μ ,σ2μ,σ2\mu, \sigma^2และเราต้องการประมาณ μ2μ2\mu^2. เราจะสร้างตัวประมาณค่าที่เป็นกลางและเป็นบวกของปริมาณนี้ได้อย่างไร? การยกกำลังสองของค่าเฉลี่ยตัวอย่าง μ~2μ~2\tilde{\mu}^2มีอคติและจะประเมินค่าสูงไปตามปริมาณ ถ้าμμ\mu ใกล้กับ 0 และ σ2σ2\sigma^2 มีขนาดใหญ่ นี่อาจเป็นคำถามที่ไม่สำคัญ แต่ความสามารถของ Google ทำให้ฉันผิดหวังเมื่อestimator of mean-squaredกลับมาเท่านั้นmean-squarred-error estimators ถ้ามันทำให้เรื่องง่ายขึ้นการแจกแจงแบบพื้นฐานนั้นสามารถสันนิษฐานว่าเป็นแบบเกาส์เซียน สารละลาย: มันเป็นไปได้ที่จะสร้างการประมาณที่เป็นกลาง μ2μ2\mu^2; ดูคำตอบของ knrumsey ไม่สามารถสร้างการประมาณที่เป็นกลางและเป็นบวกได้เสมอ μ2μ2\mu^2เนื่องจากข้อกำหนดเหล่านี้ขัดแย้งกันเมื่อค่าเฉลี่ยที่แท้จริงคือ 0; เห็นคำตอบของวิงก์

3
กำลังคำนวณการแจกแจงจากค่าต่ำสุดค่าเฉลี่ยและค่าสูงสุด
สมมติว่าฉันมีชุดข้อมูลขั้นต่ำค่าเฉลี่ยและสูงสุดของชุดข้อมูลพูด 10, 20 และ 25 มีวิธีการ: สร้างการกระจายจากข้อมูลเหล่านี้และ รู้ว่าร้อยละของประชากรที่น่าจะอยู่เหนือหรือต่ำกว่าค่าเฉลี่ย แก้ไข: ตามคำแนะนำของ Glen สมมติว่าเรามีขนาดตัวอย่าง 200

1
การใช้ค่ามัธยฐานสำหรับการคำนวณผลต่าง
ฉันมีตัวแปรสุ่ม 1 มิติซึ่งเบ้มาก เพื่อเป็นการทำให้การกระจายนี้เป็นแบบปกติฉันต้องการใช้ค่ามัธยฐานแทนค่าเฉลี่ย คำถามของฉันคือ: ฉันสามารถคำนวณความแปรปรวนของการแจกแจงโดยใช้ค่ามัธยฐานในสูตรแทนค่าเฉลี่ยได้หรือไม่? เช่นฉันสามารถแทนที่ V a r (X) = ∑ [ (Xผม- m e a n ( X))2] / nVaR(X)=Σ[(Xผม-ม.อีan(X))2]/n \mathrm{Var}(X) = \sum[(X_i - \mathrm{mean}(X))^2]/n กับ V a r (X) = ∑ [ (Xผม- m e d i a n ( X))2] / nVaR(X)=Σ[(Xผม-ม.อีdผมan(X))2]/n \mathrm{Var}(X) = \sum[(X_i …
10 variance  mean  median 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.