คำถามติดแท็ก mean

ค่าที่คาดหวังของตัวแปรสุ่ม หรือวัดตำแหน่งสำหรับตัวอย่าง

4
ข้อดีของการ Winsorizing กับการตัดแต่งข้อมูลคืออะไร
ข้อมูลการล้างข้อมูลหมายถึงการแทนที่ค่าสูงสุดของชุดข้อมูลด้วยค่าเปอร์เซ็นไทล์ที่แน่นอนจากปลายแต่ละด้านในขณะที่การตัดหรือตัดทอนนั้นเกี่ยวข้องกับการลบค่าสุดขีดเหล่านั้นออก ฉันมักจะเห็นวิธีการทั้งสองที่กล่าวถึงเป็นตัวเลือกที่ทำงานได้เพื่อลดผลกระทบของค่าผิดปกติเมื่อคำนวณสถิติเช่นค่าเฉลี่ยหรือส่วนเบี่ยงเบนมาตรฐาน แต่ฉันไม่เห็นว่าทำไมจึงมีวิธีหนึ่งที่เลือกได้ มีข้อดีหรือข้อเสียที่เกี่ยวข้องกับการใช้ Winsorizing หรือ Trimming หรือไม่? มีสถานการณ์บางอย่างที่จะใช้วิธีใดวิธีหนึ่งดีกว่า มีการใช้บ่อยครั้งในทางปฏิบัติหรือใช้แทนกันโดยทั่วไปหรือไม่?

5
อะไรคือความแตกต่างระหว่าง "ค่าเฉลี่ย" และ "เฉลี่ย"
Wikipediaอธิบาย: สำหรับชุดข้อมูลค่าเฉลี่ยคือผลรวมของค่าหารด้วยจำนวนของค่า คำจำกัดความนี้สอดคล้องกับสิ่งที่ฉันเรียกว่า "เฉลี่ย" (อย่างน้อยนั่นคือสิ่งที่ฉันจำได้ว่าเรียนรู้) วิกิพีเดียยังมีคำพูดอีกครั้ง: มีมาตรการทางสถิติอื่น ๆ ที่ใช้ตัวอย่างที่บางคนสับสนกับค่าเฉลี่ย ได้แก่ 'มัธยฐาน' และ 'โหมด' ตอนนี้มันสับสน "ค่าเฉลี่ย" และ "เฉลี่ย" แตกต่างจากกันหรือไม่? ถ้าเป็นเช่นนั้นได้อย่างไร

8
แทนที่ค่าผิดปกติด้วยค่าเฉลี่ย
คำถามนี้ถามโดยเพื่อนของฉันที่ไม่เข้าใจอินเทอร์เน็ต ฉันไม่มีภูมิหลังด้านสถิติและฉันได้ทำการค้นหาข้อมูลในอินเทอร์เน็ตจากคำถามนี้ คำถามคือเป็นไปได้ไหมที่จะแทนที่ค่าผิดปกติด้วยค่าเฉลี่ย? ถ้าเป็นไปได้มีหนังสืออ้างอิง / วารสารเพื่อสำรองข้อความนี้หรือไม่?

4
หมายความว่าโหมด = แปลว่าการกระจายแบบสมมาตรหรือไม่?
ฉันรู้ว่าคำถามนี้ถูกถามด้วย case Mean = มัธยฐาน แต่ฉันไม่พบสิ่งใดที่เกี่ยวข้องกับโหมด Mean = หากโหมดเท่ากับค่าเฉลี่ยฉันสามารถสรุปได้ว่านี่คือการแจกแจงแบบสมมาตรหรือไม่? ฉันจะถูกบังคับให้รู้ค่ามัธยฐานด้วยวิธีนี้หรือไม่?

2
มีช่วงความเชื่อมั่นที่ไม่ใช่พารามิเตอร์ที่เชื่อถือได้สำหรับค่าเฉลี่ยของการแจกแจงแบบเบ้หรือไม่?
การแจกแจงแบบเบ้อย่างมากเช่นบันทึกปกติไม่ส่งผลให้ช่วงความมั่นใจในการบูตที่ถูกต้องแม่นยำ นี่คือตัวอย่างที่แสดงว่าบริเวณหางด้านซ้ายและขวาอยู่ห่างจากอุดมคติในอุดมคติ 0.025 ไม่ว่าคุณจะลองใช้วิธีบูตสแตรปแบบใดใน R: require(boot) n <- 25 B <- 1000 nsim <- 1000 set.seed(1) which <- c('basic', 'perc', 'norm', 'bca', 'stud') mul <- 0; sdl <- 1.65 # on log scale dist <- c('normal', 'lognormal')[2] switch(dist, normal = {g <- function(x) x; mu <- mul}, lognormal = {g …

5
วิธีจัดการกับข้อมูลแบบลำดับชั้น / ซ้อนในการเรียนรู้ของเครื่อง
ฉันจะอธิบายปัญหาด้วยตัวอย่าง สมมติว่าคุณต้องการที่จะทำนายรายได้ของแต่ละบุคคลที่มีคุณลักษณะบางอย่าง: {อายุ, เพศ, ประเทศ, ภูมิภาค, เมือง} คุณมีชุดข้อมูลการฝึกอบรมเช่นนั้น train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

10
การถดถอยของการเข้าใจผิดของนักการพนันหมายถึง
ในมือข้างหนึ่งผมมีความถดถอยไปหมายและในทางกลับกันผมมีความเชื่อที่ผิด gambler's ความผิดพลาดของนักพนันนั้นถูกนิยามโดยมิลเลอร์และซันจูร์โจ (2019) ว่า“ ความเชื่อที่ผิดที่ว่าลำดับแบบสุ่มมีแนวโน้มที่จะกลับรายการอย่างเป็นระบบนั่นคือแนวโน้มของผลลัพธ์ที่คล้ายกันนั้นมีแนวโน้มที่จะจบลงมากกว่า ครั้งในแถวจะคิดว่ามีแนวโน้มที่จะตกก้อยในการทดลองครั้งต่อไป ฉันมีผลงานที่ดีในเกมที่แล้วและจากการถดถอยถึงค่าเฉลี่ยฉันอาจจะมีประสิทธิภาพที่แย่ลงในเกมถัดไป แต่จากการเข้าใจผิดของนักการพนัน: พิจารณาความน่าจะเป็นที่สองต่อไปนี้โดยสมมติว่าเป็นเหรียญที่ยุติธรรม ความน่าจะเป็น 20 หัวจากนั้น 1 หาง = 0.520×0.5=0.5210.520×0.5=0.5210.5^{20} × 0.5 = 0.5^{21} ความน่าจะเป็น 20 หัวจากนั้น 1 หัว = 0.520×0.5=0.5210.520×0.5=0.5210.5^{20} × 0.5 = 0.5^{21} จากนั้น ... ลองพิจารณาตัวอย่างง่ายๆ: ชั้นเรียนของนักเรียนทำการทดสอบจริง / เท็จ 100 เรื่องในหัวข้อ สมมติว่านักเรียนทุกคนสุ่มเลือกคำถามทุกข้อ จากนั้นคะแนนของนักเรียนแต่ละคนจะได้รับการตระหนักถึงหนึ่งในชุดของตัวแปรสุ่มแบบอิสระและแบบกระจายซึ่งมีค่าเฉลี่ยที่คาดหวังไว้ที่ 50 โดยธรรมชาติแล้วนักเรียนบางคนจะได้คะแนนสูงกว่า 50 และอย่างมีนัยสำคัญต่ำกว่า 50 โดยบังเอิญ หากใช้เพียงคะแนนสูงสุด 10% …

1
องศาอิสระเป็นหมายเลขที่ไม่ใช่จำนวนเต็มหรือไม่
เมื่อฉันใช้ GAM มันให้ DF ที่เหลือกับฉันคือ (บรรทัดสุดท้ายในรหัส) นั่นหมายความว่าอย่างไร? นอกเหนือไปจากตัวอย่างของ GAM โดยทั่วไปแล้วจำนวนองศาความเป็นอิสระจะเป็นจำนวนที่ไม่ใช่จำนวนเต็มหรือไม่26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

3
การหาเซนทรอยด์นั้นแตกต่างจากการหาค่าเฉลี่ยอย่างไร
เมื่อดำเนินการจัดกลุ่มแบบลำดับชั้นเราสามารถใช้หลายเมตริกเพื่อวัดระยะทางระหว่างกลุ่ม สองตัวชี้วัดดังกล่าวบ่งบอกถึงการคำนวณ centroids และวิธีการของจุดข้อมูลในกลุ่ม ความแตกต่างระหว่างค่าเฉลี่ยและเซนทรอยด์คืออะไร? นี่ไม่ใช่จุดเดียวกันในคลัสเตอร์ใช่ไหม
26 clustering  mean 

3
วิธีการคำนวณช่วงความมั่นใจของอัตราส่วนของสองวิธีปกติ
ฉันต้องการได้รับขีด จำกัด สำหรับช่วงความเชื่อมั่นสำหรับอัตราส่วนของสองวิธี สมมติว่าและ เป็นอิสระอัตราส่วนเฉลี่ย\ ฉันพยายามแก้ปัญหา: แต่สมการนั้นไม่สามารถแก้ไขได้ในหลายกรณี (ไม่มีราก) ฉันกำลังทำอะไรผิดหรือเปล่า? มีแนวทางที่ดีกว่านี้ไหม? ขอบคุณX 1 ∼ N ( θ 1 , σ 2 ) X 2 ∼ N ( θ 2 , σ 2 ) Γ = θ 1 / θ 2 Pr ( - z ( α / 2 ) ) ≤ …

3
สิ่งที่สามารถสรุปเกี่ยวกับข้อมูลเมื่อค่าเฉลี่ยเลขคณิตใกล้กับค่าเฉลี่ยทางเรขาคณิต
มีอะไรที่สำคัญเกี่ยวกับค่าเฉลี่ยทางเรขาคณิตและเลขคณิตหมายความว่าอยู่ใกล้กันมากพูด ~ 0.1%? การคาดเดาอะไรที่สามารถทำได้เกี่ยวกับชุดข้อมูลดังกล่าว? ฉันทำงานวิเคราะห์ชุดข้อมูลและสังเกตว่าค่าใกล้เคียงอย่างยิ่ง ไม่แน่นอน แต่ปิด นอกจากนี้การตรวจสติอย่างรวดเร็วของความไม่เท่าเทียมของค่าเฉลี่ยเรขาคณิตและการตรวจสอบการเก็บข้อมูลพบว่าไม่มีอะไรที่น่าประหลาดใจเกี่ยวกับความสมบูรณ์ของชุดข้อมูลของฉันในแง่ของวิธีที่ฉันคิดค่า

4
จะทราบได้อย่างไรว่าการกระจายข้อมูลของฉันสมมาตร
ฉันรู้ว่าถ้าค่ามัธยฐานและค่าเฉลี่ยเท่ากันโดยประมาณนี่หมายความว่ามีการกระจายแบบสมมาตร แต่ในกรณีนี้ฉันไม่แน่ใจ ค่าเฉลี่ยและค่ามัธยฐานค่อนข้างใกล้เคียง (เพียง 0.487m / ความแตกต่างของถุงน้ำดี) ซึ่งจะทำให้ฉันบอกว่ามีการกระจายแบบสมมาตร แต่เมื่อมองที่กล่องสี่เหลี่ยมดูเหมือนว่ามันจะเป็นเชิงบวกเล็กน้อย (ค่ามัธยฐานนั้นใกล้เคียงกับไตรมาสที่ 1 โดยค่า) (ฉันใช้ Minitab หากคุณมีคำแนะนำเฉพาะสำหรับซอฟต์แวร์ชิ้นนี้)

4
ทำไมค่าเฉลี่ยมีแนวโน้มที่จะมีความเสถียรในตัวอย่างที่แตกต่างจากค่ามัธยฐาน?
ส่วน 1.7.2 ของการค้นพบสถิติการใช้ Rโดย Andy Fields และอื่น ๆ ในขณะที่แสดงรายการคุณธรรมของค่าเฉลี่ย vs มัธยฐาน: ... ค่าเฉลี่ยมีแนวโน้มที่จะคงที่ในกลุ่มตัวอย่างที่แตกต่างกัน สิ่งนี้หลังจากอธิบายถึงคุณงามความดีของคนมัธยฐานเช่น ... ค่ามัธยฐานค่อนข้างไม่ได้รับผลกระทบจากคะแนนสูงสุดที่ปลายด้านหนึ่งของการกระจาย ... เนื่องจากค่ามัธยฐานค่อนข้างไม่ได้รับผลกระทบจากคะแนนสูงสุดฉันจึงคิดว่ามันจะมีเสถียรภาพมากขึ้นในกลุ่มตัวอย่าง ดังนั้นฉันจึงงงงวยโดยการยืนยันของผู้เขียน เพื่อยืนยันว่าฉันใช้การจำลอง - ฉันสร้างตัวเลขสุ่ม 1M และสุ่มตัวอย่าง 100 ตัวเลข 1,000 ครั้งและคำนวณค่าเฉลี่ยและค่ามัธยฐานของแต่ละตัวอย่างแล้วคำนวณ SD ของค่าเฉลี่ยตัวอย่างและค่ามัธยฐาน nums = rnorm(n = 10**6, mean = 0, sd = 1) hist(nums) length(nums) means=vector(mode = "numeric") medians=vector(mode = "numeric") for …
22 mean  median 

5
อะไรทำให้ค่าเฉลี่ยของการแจกแจงบางอย่างไม่ได้กำหนดไว้?
PDF จำนวนมากมีตั้งแต่ลบไปจนถึงอินฟินิตี้เป็นบวก แต่มีวิธีการบางอย่างที่กำหนดและบางไฟล์ไม่ใช่ ลักษณะทั่วไปอะไรทำให้มีการคำนวณบ้าง

4
ฉันจะคำนวณช่วงความมั่นใจสำหรับการแจกแจงแบบไม่ปกติได้อย่างไร
ฉันมีตัวอย่าง 383 รายการที่มีอคติอย่างหนักสำหรับค่าทั่วไปบางอย่างฉันจะคำนวณ 95% CI สำหรับค่าเฉลี่ยได้อย่างไร CI ที่ฉันคำนวณดูเหมือนจะหายไปซึ่งฉันถือว่าเป็นเพราะข้อมูลของฉันดูไม่เหมือนเส้นโค้งเมื่อฉันสร้างฮิสโตแกรม ดังนั้นฉันคิดว่าฉันต้องใช้บางอย่างเช่น bootstrapping ซึ่งฉันไม่ค่อยเข้าใจ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.