คำถามติดแท็ก mean

ค่าที่คาดหวังของตัวแปรสุ่ม หรือวัดตำแหน่งสำหรับตัวอย่าง

5
ต้องการใช้และเมื่อใด
ดังนั้นเราจึงมีค่าเฉลี่ยเลขคณิต (AM), ค่าเฉลี่ยทางเรขาคณิต (GM) และค่าเฉลี่ยฮาร์มอนิก (HM) สูตรทางคณิตศาสตร์ของพวกเขาเป็นที่รู้จักกันดีพร้อมกับตัวอย่างแบบแผนที่เกี่ยวข้องของพวกเขา (เช่นค่าเฉลี่ยฮาร์มอนิกและการประยุกต์ใช้กับปัญหาที่เกี่ยวข้องกับ 'ความเร็ว') อย่างไรก็ตามคำถามที่ทำให้ฉันรู้สึกทึ่งอยู่เสมอคือ "ฉันจะตัดสินใจได้อย่างไรว่าค่าเฉลี่ยใดเหมาะสมที่สุดที่จะใช้ในบริบทที่กำหนด" อย่างน้อยจะต้องมีกฎง่ายๆที่จะช่วยให้เข้าใจการบังคับใช้และยังมีคำตอบที่พบบ่อยที่สุดที่ฉันเจอคือ: "มันขึ้นอยู่กับ" (แต่ขึ้นอยู่กับอะไร) นี่อาจดูเหมือนจะเป็นคำถามที่ค่อนข้างเล็กน้อย แต่ตำราระดับมัธยมก็ล้มเหลวในการอธิบายสิ่งนี้ - พวกมันให้คำจำกัดความทางคณิตศาสตร์เท่านั้น! ฉันชอบคำอธิบายภาษาอังกฤษมากกว่าการทดสอบทางคณิตศาสตร์อย่างใดอย่างหนึ่ง - การทดสอบอย่างง่ายจะเป็น "แม่ / ลูกของคุณจะเข้าใจหรือไม่?"
197 mean 

10
ทำไมการแจกแจงโคชีจึงไม่มีความหมาย?
จากฟังก์ชันความหนาแน่นของการกระจายเราสามารถระบุค่าเฉลี่ย (= 0) สำหรับการแจกแจงโคชีเช่นเดียวกับกราฟด้านล่างที่แสดง แต่ทำไมเราถึงบอกว่าการกระจาย Cauchy นั้นไม่มีความหมายเลย?

4
ความแตกต่างระหว่างข้อผิดพลาดมาตรฐานและค่าเบี่ยงเบนมาตรฐาน
ฉันพยายามเข้าใจถึงความแตกต่างระหว่างข้อผิดพลาดมาตรฐานและส่วนเบี่ยงเบนมาตรฐาน มันแตกต่างกันอย่างไรและทำไมคุณต้องวัดความผิดพลาดมาตรฐาน?

8
ถ้าหมายถึงอ่อนไหวทำไมใช้มันตั้งแต่แรก?
มันเป็นความจริงที่รู้จักกันว่าค่ามัธยฐานสามารถทนต่อค่าผิดปกติ ถ้าเป็นเช่นนั้นเราจะใช้ค่าเริ่มต้นเมื่อใดและทำไม สิ่งหนึ่งที่ฉันสามารถนึกได้ก็คือเข้าใจว่ามีค่าผิดปกติเช่นถ้าค่ามัธยฐานอยู่ห่างจากค่าเฉลี่ยจากนั้นการแจกแจงจะเบ้และอาจต้องมีการตรวจสอบข้อมูลเพื่อตัดสินใจว่าจะทำอย่างไรกับค่าผิดปกติ มีการใช้อื่น ๆ ?

3
ตัวอย่าง: การถดถอย LASSO โดยใช้ glmnet สำหรับผลลัพธ์ไบนารี
ฉันเริ่มตะลุยกับการใช้งานglmnetกับการถดถอยแบบ LASSOซึ่งผลลัพธ์ของความสนใจของฉันนั้นเป็นแบบขั้วคู่ ฉันได้สร้างกรอบข้อมูลจำลองขนาดเล็กด้านล่าง: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

8
สร้างตัวแปรสุ่มที่มีความสัมพันธ์ที่กำหนดไว้กับตัวแปรที่มีอยู่
สำหรับการศึกษาการจำลองฉันต้องสร้างตัวแปรสุ่มที่แสดง prefined (ประชากร) ความสัมพันธ์กับตัวแปรที่มีอยู่YYYY ฉันดูในRแพ็คเกจcopulaและCDVineสามารถสร้างการแจกแจงหลายตัวแปรแบบสุ่มด้วยโครงสร้างการพึ่งพาที่กำหนด อย่างไรก็ตามเป็นไปไม่ได้ที่จะแก้ไขหนึ่งในตัวแปรที่เป็นผลลัพธ์ของตัวแปรที่มีอยู่ ความคิดและลิงก์ไปยังฟังก์ชั่นที่มีอยู่นั้นได้รับการชื่นชม! สรุป: คำตอบที่ถูกต้องสองคำขึ้นมาพร้อมกับโซลูชันที่แตกต่าง: R สคริปต์โดย Caracal ซึ่งจะคำนวณตัวแปรสุ่มกับที่แน่นอน (ตัวอย่าง) ความสัมพันธ์กับตัวแปรที่กำหนดไว้ล่วงหน้า R ฟังก์ชั่นฉันพบตัวเองซึ่งจะคำนวณตัวแปรสุ่มที่มีการกำหนดประชากรความสัมพันธ์กับตัวแปรที่กำหนดไว้ล่วงหน้า [@ttnphns 'นอกจากนี้: ฉันใช้เสรีภาพในการขยายชื่อคำถามจากกรณีตัวแปรคงที่เดียวเป็นจำนวนคงที่ของตัวแปรคงที่; เช่นวิธีการสร้างตัวแปรที่มีคอร์เรชั่นที่กำหนดไว้ล่วงหน้าพร้อมกับตัวแปรคงที่บางตัวที่มีอยู่]

3
หมายถึงข้อผิดพลาดสัมบูรณ์หรือรูทหมายความว่าข้อผิดพลาดกำลังสอง?
เหตุใดจึงต้องใช้ Root Mean Squared Error (RMSE) แทนที่จะเป็น Mean Absolute Error (MAE)? สวัสดี ฉันได้ตรวจสอบข้อผิดพลาดที่สร้างขึ้นในการคำนวณ - ในขั้นต้นฉันคำนวณข้อผิดพลาดเป็นข้อผิดพลาดรูตค่าเฉลี่ย Normalized Root เมื่อมองดูใกล้ ๆ ฉันจะเห็นผลกระทบของการยกกำลังข้อผิดพลาดนั้นให้น้ำหนักมากกว่าข้อผิดพลาดที่ใหญ่กว่าตัวที่เล็กกว่า นี่ค่อนข้างชัดเจนในการหวนกลับ ดังนั้นคำถามของฉัน - ในกรณีที่รูทค่าเฉลี่ยของข้อผิดพลาดกำลังสองเป็นข้อผิดพลาดที่เหมาะสมกว่าการวัดค่าความผิดพลาดแบบสัมบูรณ์ หลังดูเหมาะสมกว่าสำหรับฉันหรือฉันขาดอะไรไป? เพื่อแสดงสิ่งนี้ฉันได้แนบตัวอย่างด้านล่าง: พล็อตกระจายกระจายแสดงตัวแปรสองตัวที่มีความสัมพันธ์ที่ดี ฮิสโทแกรมสองแผนภูมิทางด้านขวาข้อผิดพลาดระหว่าง Y (สังเกต) และ Y (ทำนาย) โดยใช้ RMSE ปกติ (บนสุด) และแม่ (ล่าง) ไม่มีค่าผิดปกติที่สำคัญในข้อมูลนี้และ MAE ให้ข้อผิดพลาดต่ำกว่า RMSE มีเหตุผลอื่นใดนอกเหนือจากแม่ที่เป็นที่นิยมกว่าสำหรับการใช้ข้อผิดพลาดหนึ่งวัดเหนืออื่น ๆ ?
58 least-squares  mean  rms  mae 

2
เราควรตีความการเปรียบเทียบค่าเฉลี่ยของขนาดตัวอย่างที่แตกต่างกันอย่างไร
นำกรณีของการจัดอันดับหนังสือบนเว็บไซต์ หนังสือที่จัดอยู่ในอันดับโดย 10,000 คนที่มีค่าเฉลี่ยคะแนน 4.25 และความแปรปรวน 0.5 ในทำนองเดียวกันหนังสือ B คือประเมินโดย 100 คนและมีการประเมินจาก 4.5 กับσ = 0.25σ= 0.5σ=0.5\sigma = 0.5σ= 0.25σ=0.25\sigma = 0.25 ตอนนี้เนื่องจากขนาดตัวอย่างขนาดใหญ่ของ Book A 'ค่าเฉลี่ยเสถียร' เป็น 4.25 ตอนนี้สำหรับ 100 คนอาจเป็นได้ว่าถ้ามีคนอ่านหนังสือ B มากขึ้นค่าเฉลี่ยอาจลดลงเหลือ 4 หรือ 4.25 เราควรตีความการเปรียบเทียบค่าเฉลี่ยจากตัวอย่างที่แตกต่างกันอย่างไรและข้อสรุปที่ดีที่สุดที่เราสามารถทำได้ / ควรวาดคืออะไร? ตัวอย่างเช่น - เราสามารถพูดได้หรือไม่ว่าหนังสือ B ดีกว่าหนังสือ A.

6
"คะแนนเฉลี่ย" ของ Amazon ทำให้เข้าใจผิดหรือไม่?
ถ้าฉันเข้าใจถูกต้องการจัดอันดับหนังสือในระดับ 1-5 เป็นคะแนน Likert นั่นคือ 3 สำหรับฉันอาจไม่จำเป็นต้องเป็น 3 สำหรับคนอื่น มันเป็นมาตราส่วนตามลำดับ IMO หนึ่งไม่ควรเฉลี่ยเกล็ดปกติ แต่สามารถใช้โหมดมัธยฐานและเปอร์เซนต์ ดังนั้น 'ไม่เป็นไร' ที่จะปรับเปลี่ยนกฎเนื่องจากประชากรส่วนใหญ่เข้าใจว่ามีความหมายมากกว่าสถิติข้างต้น แม้ว่าชุมชนการวิจัยจะดุอย่างยิ่งที่จะใช้ค่าเฉลี่ยของข้อมูลตามระดับ Likert แต่เป็นเรื่องดีที่จะทำเช่นนี้กับผู้คนจำนวนมาก การเฉลี่ยในกรณีนี้ทำให้เข้าใจผิดเริ่มต้นด้วยหรือไม่ ดูเหมือนว่าไม่น่าเป็นไปได้ที่ บริษัท อย่าง Amazon จะคลำหาสถิติพื้นฐาน แต่ถ้าไม่เช่นนั้นฉันจะพลาดอะไรไปบ้าง เราสามารถอ้างได้หรือไม่ว่าขนาดของลำดับนั้นเป็นการประมาณที่สะดวกสำหรับลำดับที่จะแสดงว่ามีค่าเฉลี่ย? ในบริเวณใด

3
การแปลความหมายของตัวทำนายการแปลงสภาพบันทึกและ / หรือการตอบสนอง
ฉันสงสัยว่ามันจะสร้างความแตกต่างในการตีความไม่ว่าจะเป็นเพียงขึ้นอยู่กับทั้งขึ้นอยู่กับและเป็นอิสระหรือตัวแปรอิสระเท่านั้นที่ถูกเปลี่ยนเข้าสู่ระบบ พิจารณากรณีของ log(DV) = Intercept + B1*IV + Error ฉันสามารถตีความ IV เป็นเปอร์เซ็นต์เพิ่มขึ้น แต่จะเปลี่ยนแปลงได้อย่างไรเมื่อฉันมี log(DV) = Intercept + B1*log(IV) + Error หรือเมื่อฉันมี DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

5
เราจะพูดอะไรเกี่ยวกับค่าเฉลี่ยประชากรจากขนาดตัวอย่าง 1
ฉันสงสัยในสิ่งที่เราสามารถพูดได้ถ้ามีอะไรเกี่ยวกับค่าเฉลี่ยประชากรเมื่อทั้งหมดที่ฉันมีคือการวัดหนึ่ง (ขนาดตัวอย่าง 1) เห็นได้ชัดว่าเราชอบที่จะมีการวัดมากขึ้น แต่เราไม่สามารถรับได้y 1μμ\muy1y1y_1 มันดูเหมือนว่าฉันว่าตั้งแต่ค่าเฉลี่ยตัวอย่างเป็นนิด ๆ เท่ากับแล้วEอย่างไรก็ตามด้วยขนาดตัวอย่าง 1 ความแปรปรวนตัวอย่างไม่ได้ถูกกำหนดและทำให้เรามั่นใจในการใช้เนื่องจากตัวประมาณยังไม่ได้กำหนดเช่นกันถูกต้องหรือไม่ มีวิธีใดที่จะ จำกัด การประมาณการของเราหรือไม่? Y1E[ ˉ Y ]=E[Y1]=μ ˉ Y μμy¯y¯\bar{y}y1y1y_1E[y¯]=E[y1]=μE[y¯]=E[y1]=μE[\bar{y}]=E[y_1]=\muy¯y¯\bar{y}μμ\muμμ\mu

13
เหตุใดอายุมัธยฐานจึงเป็นสถิติที่ดีกว่าอายุเฉลี่ย
ถ้าคุณดูWolfram Alpha หรือหน้า Wikipedia นี้รายชื่อประเทศเรียงตามอายุมัธยฐาน เห็นได้ชัดว่าค่าเฉลี่ยอยู่ในสถิติของการเลือกเมื่อมันมาถึงวัย ฉันไม่สามารถอธิบายให้ตัวเองได้ว่าทำไมค่าเฉลี่ยเลขคณิตจึงเป็นสถิติที่แย่กว่านั้น ทำไมถึงเป็นเช่นนั้น? โพสต์ครั้งแรกที่นี่เพราะฉันไม่รู้ว่ามีเว็บไซต์นี้อยู่
41 mean  median 

4
การแจกแจงจะมีค่าเฉลี่ยและความแปรปรวนไม่สิ้นสุดได้อย่างไร
มันจะได้รับการชื่นชมถ้าตัวอย่างต่อไปนี้จะได้รับ: การแจกแจงที่มีค่าเฉลี่ยไม่สิ้นสุดและความแปรปรวนแบบไม่สิ้นสุด การแจกแจงที่มีค่าเฉลี่ยไม่สิ้นสุดและความแปรปรวนแน่นอน การกระจายที่มีค่าเฉลี่ย จำกัด และความแปรปรวนอนันต์ การแจกแจงที่มีค่าเฉลี่ยและความแปรปรวนแน่นอน มันมาจากฉันเห็นคำศัพท์ที่ไม่คุ้นเคยเหล่านี้ (ค่าเฉลี่ยอนันต์, ความแปรปรวนอนันต์) ที่ใช้ในบทความที่ฉันอ่านอ่านและอ่านหัวข้อบนฟอรัม / เว็บไซต์ Wilmottและไม่พบคำอธิบายที่ชัดเจนเพียงพอ ฉันยังไม่พบคำอธิบายใด ๆ ในหนังสือเรียนของฉันเอง

3
ทำไมการทดสอบสมมติฐานขั้นพื้นฐานมุ่งเน้นไปที่ค่าเฉลี่ยและไม่ได้อยู่บนค่ามัธยฐาน?
ในหลักสูตรสถิติขั้นพื้นฐานระดับล่างนักเรียนจะได้รับการสอนการทดสอบสมมติฐานสำหรับค่าเฉลี่ยของประชากร เหตุใดจึงให้ความสำคัญกับค่าเฉลี่ยและไม่ใช่ค่ามัธยฐาน? ฉันเดาว่ามันง่ายกว่าที่จะทดสอบค่าเฉลี่ยเนื่องจากทฤษฎีบทขีด จำกัด กลาง แต่ฉันชอบอ่านคำอธิบายที่มีการศึกษา

2
มีตัวอย่างความไม่เท่าเทียมแบบ Chebyshev ด้านเดียวหรือไม่?
ฉันสนใจในอสมการ Chebyshev รุ่นเดียวของ Cantelliต่อไปนี้: P(X−E(X)≥t)≤Var(X)Var(X)+t2.P(X−E(X)≥t)≤Var(X)Var(X)+t2. \mathbb P(X - \mathbb E (X) \geq t) \leq \frac{\mathrm{Var}(X)}{\mathrm{Var}(X) + t^2} \,. โดยทั่วไปถ้าคุณทราบค่าเฉลี่ยและความแปรปรวนของประชากรคุณสามารถคำนวณขอบเขตบนความน่าจะเป็นในการสังเกตค่าที่แน่นอน (นั่นคือความเข้าใจของฉันอย่างน้อย) อย่างไรก็ตามฉันต้องการใช้ค่าเฉลี่ยตัวอย่างและความแปรปรวนตัวอย่างแทนค่าเฉลี่ยและความแปรปรวนประชากรจริง ฉันเดาว่าเนื่องจากสิ่งนี้จะทำให้เกิดความไม่แน่นอนมากขึ้นขอบเขตบนจะเพิ่มขึ้น มีความไม่เท่าเทียมกันคล้ายกับข้างบน แต่นั่นใช้ค่าเฉลี่ยตัวอย่างและความแปรปรวนหรือไม่ แก้ไข : อะนาล็อก "ตัวอย่าง" ของความไม่เท่าเทียมกันของ Chebyshev (ไม่ใช่ด้านเดียว) ได้ถูกแก้ไขแล้ว หน้าวิกิพีเดียมีรายละเอียดบางอย่าง อย่างไรก็ตามฉันไม่แน่ใจว่ามันจะแปลไปยังกรณีด้านเดียวที่ฉันมีข้างต้นได้อย่างไร

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.