คำถามติดแท็ก variance

ความเบี่ยงเบนกำลังสองของตัวแปรสุ่มที่คาดหวังจากค่าเฉลี่ย หรือค่าเบี่ยงเบนยกกำลังสองเฉลี่ยของข้อมูลเกี่ยวกับค่าเฉลี่ย

3
ทฤษฎีขีด จำกัด กลางและการแจกแจงพาเรโต
ใครบางคนสามารถให้คำอธิบายง่ายๆ (บุคคลทั่วไป) เกี่ยวกับความสัมพันธ์ระหว่างการแจกแจงแบบพาเรโตกับทฤษฎีการ จำกัด ศูนย์กลาง (เช่นนำมาประยุกต์ใช้ได้หรือไม่ทำไม / เพราะเหตุใด) ฉันพยายามที่จะเข้าใจคำสั่งต่อไปนี้: "ทฤษฎีบทขีด จำกัด กลางนั้นใช้ไม่ได้กับการแจกแจงทุกครั้งนี่เป็นเพราะความจริงที่น่าสะพรึงกลัว - ค่าเฉลี่ยตัวอย่างจะถูกจัดกลุ่มรอบค่าเฉลี่ยของการแจกแจงต้นแบบถ้ามีอยู่ แต่การแจกแจงจะไม่มีความหมายได้อย่างไร นั่นไม่ได้หมายความว่าการแจกแจงแบบพาเรโตถ้าคุณพยายามคำนวณโดยใช้วิธีการปกติมันจะเปลี่ยนไปเป็นอนันต์ "

1
การใช้ค่ามัธยฐานสำหรับการคำนวณผลต่าง
ฉันมีตัวแปรสุ่ม 1 มิติซึ่งเบ้มาก เพื่อเป็นการทำให้การกระจายนี้เป็นแบบปกติฉันต้องการใช้ค่ามัธยฐานแทนค่าเฉลี่ย คำถามของฉันคือ: ฉันสามารถคำนวณความแปรปรวนของการแจกแจงโดยใช้ค่ามัธยฐานในสูตรแทนค่าเฉลี่ยได้หรือไม่? เช่นฉันสามารถแทนที่ V a r (X) = ∑ [ (Xผม- m e a n ( X))2] / nVaR(X)=Σ[(Xผม-ม.อีan(X))2]/n \mathrm{Var}(X) = \sum[(X_i - \mathrm{mean}(X))^2]/n กับ V a r (X) = ∑ [ (Xผม- m e d i a n ( X))2] / nVaR(X)=Σ[(Xผม-ม.อีdผมan(X))2]/n \mathrm{Var}(X) = \sum[(X_i …
10 variance  mean  median 

4
รูปแบบประวัติเหตุการณ์แบบไม่ต่อเนื่อง (การอยู่รอด) ใน R
ฉันกำลังพยายามปรับโมเดลที่ไม่ต่อเนื่องใน R แต่ฉันไม่แน่ใจว่าจะทำอย่างไร ฉันได้อ่านแล้วว่าคุณสามารถจัดระเบียบตัวแปรตามในแถวต่างกันหนึ่งตัวสำหรับแต่ละการสังเกตเวลาและการใช้glmฟังก์ชั่นที่มีลิงค์ logit หรือ cloglog ในแง่นี้ฉันมีสามคอลัมน์: ID, Event(1 หรือ 0 ในแต่ละช่วงเวลา) และTime Elapsed(ตั้งแต่จุดเริ่มต้นของการสังเกต) รวมทั้ง covariates อื่น ๆ ฉันจะเขียนรหัสเพื่อให้พอดีกับรุ่นได้อย่างไร ตัวแปรตามคืออะไร ฉันเดาว่าฉันสามารถใช้Eventเป็นตัวแปรตามและรวมTime Elapsedอยู่ใน covariates แต่สิ่งที่เกิดขึ้นกับID? ฉันต้องการมันไหม ขอบคุณ
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

1
จุดแปรปรวนคืออะไร?
ในขณะที่อ่านองค์ประกอบของการเรียนรู้ทางสถิติฉันพบคำว่า "ความแปรปรวนแบบชี้จุด" หลายครั้ง แม้ว่าฉันจะมีความคิดที่คลุมเครือเกี่ยวกับความหมายของสิ่งที่อาจเป็นไปได้ แต่ฉันก็รู้สึกซาบซึ้งที่ได้รู้ มันถูกกำหนดอย่างไร? มันได้มาอย่างไร
10 variance 

4
ความแปรปรวนของตัวต้านทานแบบขนาน
สมมติว่าคุณมีชุดตัวต้านทาน R ซึ่งทั้งหมดจะถูกกระจายด้วยค่าเฉลี่ยμและความแปรปรวนσ พิจารณาส่วนของวงจรที่มีเลย์เอาต์ต่อไปนี้: (r) || (r + r) || (R + R + R) ความต้านทานเท่ากันของแต่ละส่วนคือ r, 2r และ 3r ความแปรปรวนของแต่ละส่วนก็จะσ2σ2σ^2 , 2σ22σ22σ^2 , 3σ23σ23σ^2 2 ความแตกต่างในความต้านทานของวงจรทั้งหมดคืออะไร? หลังจากการสุ่มตัวอย่างหลายล้านจุดที่เราพบว่าความแปรปรวนอยู่ที่ประมาณ.10286σ2.10286σ2.10286\sigma^2 2 เราจะมาถึงข้อสรุปนี้ได้อย่างไร แก้ไข: ค่าความต้านทานจะถือว่าได้รับการกระจายตามปกติกับบางต้านทาน R ค่าเฉลี่ยและความแปรปรวนσ2σ2σ^2 2

1
R ตัวแปรเชิงเส้นถดถอยหมวดหมู่ "ซ่อน" ค่า
นี่เป็นเพียงตัวอย่างที่ฉันเจอหลายครั้งดังนั้นฉันจึงไม่มีข้อมูลตัวอย่าง ใช้แบบจำลองการถดถอยเชิงเส้นใน R: a.lm = lm(Y ~ x1 + x2) x1เป็นตัวแปรต่อเนื่อง x2เป็นหมวดหมู่และมีสามค่าเช่น "ต่ำ", "ปานกลาง" และ "สูง" อย่างไรก็ตามเอาต์พุตที่กำหนดโดย R จะเป็นดังนี้: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 ฉันเข้าใจว่า R แนะนำการเข้ารหัสแบบหลอกบางอย่างเกี่ยวกับปัจจัยดังกล่าว ( …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

1
ปัญหาหรือเกมใดที่เป็นวิธีแก้ไขปัญหาความแปรปรวนและส่วนเบี่ยงเบนมาตรฐานที่ดีที่สุด
สำหรับตัวแปรสุ่มที่กำหนด (หรือประชากรหรือกระบวนการสุ่ม) ความคาดหวังทางคณิตศาสตร์คือคำตอบสำหรับคำถามการคาดการณ์จุดใดที่ช่วยลดการสูญเสียกำลังสองที่คาดการณ์ไว้ได้? . นอกจากนี้มันเป็นทางออกที่ดีที่สุดสำหรับเกมเดาการตระหนักถึงตัวแปรสุ่มต่อไป (หรือการจับฉลากใหม่จากประชากร) และฉันจะลงโทษคุณด้วยระยะห่างกำลังสองระหว่างค่าและการเดาของคุณหากคุณมีความไม่ตรงเชิงเส้นในแง่ ของการลงโทษ ค่ามัธยฐานคือคำตอบของคำถามที่เกี่ยวข้องภายใต้การสูญเสียที่แน่นอนและโหมดคือคำตอบภายใต้การสูญเสีย "ทั้งหมดหรือไม่มีอะไร" คำถาม:ความแปรปรวนและส่วนเบี่ยงเบนมาตรฐานตอบคำถามที่คล้ายกันหรือไม่ พวกเขาคืออะไร แรงจูงใจสำหรับคำถามนี้เกิดขึ้นจากการสอนมาตรการพื้นฐานของแนวโน้มกลางและการแพร่กระจาย ในขณะที่มาตรการของแนวโน้มกลางสามารถถูกกระตุ้นด้วยปัญหาการตัดสินใจเชิงทฤษฎีข้างต้นฉันสงสัยว่าจะกระตุ้นให้เกิดมาตรการแพร่กระจายได้อย่างไร

2
การย่อยสลายความแปรปรวนแบบอคติ: คำที่คาดการณ์ข้อผิดพลาดกำลังสองน้อยกว่าข้อผิดพลาดลดลง
Hastie และคณะ "องค์ประกอบของการเรียนรู้ทางสถิติ" (2009) พิจารณากระบวนการสร้างข้อมูล กับและvarepsilon}Y= f( X) + εY=f(X)+ε Y = f(X) + \varepsilon E (ε)=0E(ε)=0\mathbb{E}(\varepsilon)=0Var ( ε ) =σ2εVar(ε)=σε2\text{Var}(\varepsilon)=\sigma^2_{\varepsilon} พวกเขานำเสนอการสลายตัวอคติ - แปรปรวนต่อไปนี้ของข้อผิดพลาดคาดการณ์กำลังสองที่จุด (หน้า 223 สูตร 7.9): ในของฉัน งานของตัวเองฉันไม่ได้ระบุแต่รับการคาดการณ์แบบสุ่มแทน (ถ้าเกี่ยวข้อง) คำถาม:ฉันกำลังมองหาคำว่า หรือแม่นยำยิ่งขึ้น x0x0x_0ข้อผิดพลาด(x0)= E ( [ y-ฉ^(x0)]2|X=x0)= ...=σ2ε+อคติ2(ฉ^(x0) ) + Var (ฉ^(x0) )= ข้อผิดพลาดลดลง +อคติ2+ แปรปรวนErr(x0)=E([y−f^(x0)]2|X=x0)=…=σε2+Bias2(f^(x0))+Var(f^(x0))=Irreducible error+Bias2+Variance.\begin{aligned} \text{Err}(x_0) &= …

3
หมุนส่วนประกอบ PCA เพื่อปรับความแปรปรวนในแต่ละองค์ประกอบให้เท่ากัน
ฉันกำลังพยายามลดมิติข้อมูลและเสียงรบกวนของชุดข้อมูลด้วยการแสดง PCA บนชุดข้อมูลและทิ้งพีซีสองสามเครื่องล่าสุด หลังจากนั้นฉันต้องการใช้อัลกอริทึมการเรียนรู้ของเครื่องบางอย่างบนพีซีที่เหลืออยู่ดังนั้นฉันจึงต้องการทำให้ข้อมูลเป็นมาตรฐานด้วยการทำให้ความแตกต่างของพีซีให้เท่ากัน วิธีง่ายๆวิธีหนึ่งก็คือทำให้ค่าความแปรปรวนเป็นค่าหน่วย อย่างไรก็ตามพีซีเครื่องแรกมีความแปรปรวนจากชุดข้อมูลดั้งเดิมมากกว่าชุดข้อมูลต่อไปนี้และฉันยังต้องการให้ "น้ำหนัก" มากขึ้น ดังนั้นฉันสงสัยว่า: มีวิธีง่าย ๆ ในการแยกความแปรปรวนและแบ่งปันกับพีซีที่มีความแปรปรวนน้อยกว่าหรือไม่ อีกวิธีหนึ่งคือการแมปพีซีกลับไปยังพื้นที่คุณลักษณะดั้งเดิม แต่ในกรณีนั้นมิติข้อมูลจะเพิ่มขึ้นเป็นค่าดั้งเดิม ฉันเดาว่าจะดีกว่าที่จะเก็บคอลัมน์ผลลัพธ์ไว้เป็นมุมฉาก แต่ก็ไม่จำเป็นในตอนนี้


2
ความแปรปรวนของค่าเฉลี่ยตัวอย่างของตัวอย่างบู๊ตสแตรป
ให้เป็นข้อสังเกตที่ชัดเจน (ไม่มีความสัมพันธ์) ให้แสดงตัวอย่าง bootstrap (ตัวอย่างจาก CDF เชิงประจักษ์) และให้{*} ค้นหาและ{*})X1,...,XnX1,...,XnX_{1},...,X_{n}X∗1,...,X∗nX1∗,...,Xn∗X_{1}^{*},...,X_{n}^{*}X¯* * * *n=1nΣni = 1X* * * *ผมX¯n∗=1n∑i=1nXi∗\bar{X}_{n}^{*}=\frac{1}{n}\sum_{i=1}^{n}X_{i}^{*}E(X¯* * * *n)E(X¯n∗)E(\bar{X}_{n}^{*})V a r (X¯* * * *n)Var(X¯n∗)\mathrm{Var}(\bar{X}_{n}^{*}) สิ่งที่ฉันมีอยู่คือคือแต่ละอันมีความน่าจะเป็นดังนั้น and ซึ่งให้ X* * * *ผมXi∗X_{i}^{*}X1, . . . ,XnX1,...,XnX_{1},...,X_{n}1n1n\frac{1}{n}E(X* * * *ผม) =1nE(X1) + . . . +1nE(Xn) =n μn= μE(Xi∗)=1nE(X1)+...+1nE(Xn)=nμn=μ E(X_{i}^{*})=\frac{1}{n}E(X_{1})+...+\frac{1}{n}E(X_{n})=\frac{n\mu}{n}=\mu …

2
การค้นหาความแปรปรวนของตัวประมาณค่าสำหรับโอกาสสูงสุดสำหรับการแจกแจงปัวซง
ถ้า K1, … ,KnK1,…,KnK_1, \dots, K_n คือการกระจาย iid Poisson พร้อมพารามิเตอร์ ββ\beta ฉันได้ทำงานแล้วว่าการประเมินความเป็นไปได้สูงสุด β^(k1, … ,kn) =1nΣi = 1nkผมβ^(k1,…,kn)=1n∑i=1nki\hat\beta (k_1, \dots, k_n) = \frac{1}{n} \sum_{i=1}^n k_i สำหรับข้อมูล k1, … ,knk1,…,knk_1, \dots, k_n. ดังนั้นเราสามารถกำหนดตัวประมาณที่สอดคล้องกันได้ T=1nΣi = 1nKผม.T=1n∑i=1nKi.T = \frac{1}{n} \sum_{i=1}^n K_i . คำถามของฉันคือคุณจะคำนวณความแปรปรวนของเครื่องมือประมาณนี้อย่างไร โดยเฉพาะอย่างยิ่งเช่นกัน KผมKiK_i ติดตามการแจกแจงปัวซองด้วยพารามิเตอร์ ββ\beta ฉันรู้ว่าจากคุณสมบัติของปัวซองว่าการกระจายตัว Σni = 1Kผม∑i=1nKi\sum_{i=1}^n K_i …

2
Mann-Whitney สมมติฐานว่างภายใต้ความแปรปรวนไม่เท่ากัน
ฉันแค่อยากรู้เกี่ยวกับสมมติฐานว่างของการทดสอบ Mann-Whitney U ฉันมักจะเห็นว่ามันระบุว่าสมมติฐานว่างคือว่าประชากรสองคนมีการแจกแจงเท่ากัน แต่ฉันกำลังคิดว่า - ถ้าฉันมีประชากรปกติสองคนที่มีค่าเฉลี่ยเท่ากัน แต่มีความแปรปรวนไม่เท่ากันการทดสอบ Mann-Whitney คงไม่สามารถตรวจจับความแตกต่างนี้ได้ ฉันได้เห็นด้วยเช่นกันว่าด้วยสมมติฐานว่างของการทดสอบแมนน์ - วิทนีย์คือหรือความน่าจะเป็นที่จะสังเกตจากประชากรหนึ่ง ( X ) เกินกว่าการสังเกตจากประชากรที่สอง ( Y ) การยกเว้นความสัมพันธ์) เท่ากับ 0.5 สิ่งนี้ดูเหมือนจะสมเหตุสมผลมากกว่า แต่ก็ไม่เทียบเท่ากับสมมติฐานว่างแรกที่ฉันกล่าวไว้Pr(X>Y)=0.5Pr(X>Y)=0.5\Pr(X>Y)=0.5XXXYYY ฉันหวังว่าจะได้รับความช่วยเหลือเล็กน้อยจากการแก้ปัญหานี้ ขอบคุณ!

4
Box Cox Transforms สำหรับการถดถอย
ฉันกำลังพยายามปรับตัวแบบเชิงเส้นในข้อมูลบางส่วนด้วยตัวทำนายเพียงตัวเดียว (พูด (x, y)) ข้อมูลเป็นเช่นนั้นสำหรับค่าเล็ก ๆ ของ x ค่า y ให้พอดีกับเส้นตรงอย่างไรก็ตามเมื่อค่า x เพิ่มขึ้นค่า y จะกลายเป็นความผันผวนมากขึ้น นี่คือตัวอย่างของข้อมูลดังกล่าว (รหัส R) y = c(3.2,3.4,3.5,3.8,4.2,5.5,4.5,6.8,7.4,5.9) x = seq(1,10,1) ฉันอยากรู้ว่ามีการแปลงพลังงานหรือไม่ (อาจเป็น Box cox?) ที่ช่วยให้ฉันได้รับข้อมูลที่ดีกว่าสำหรับการทำแบบพอดีเชิงเส้นดังที่แสดงด้านล่าง fit = lm(y ~ x)

2
พารามิเตอร์การบูตแบบกึ่งพารามิเตอร์และแบบไม่มีพารามิเตอร์สำหรับรุ่นผสม
ตัดต่อไปนี้จะนำมาจากบทความนี้ ฉันเป็นมือใหม่ในการบู๊ตสแตรปและพยายามที่จะใช้การบู๊ตสแปปปิ้งแบบกึ่งพารามิเตอร์แบบกึ่งพารามิเตอร์และแบบไม่มีพารามิเตอร์สำหรับแบบจำลองเชิงเส้นผสมกับR bootแพ็คเกจ รหัส R นี่คือRรหัสของฉัน: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.