คำถามติดแท็ก variance

ความเบี่ยงเบนกำลังสองของตัวแปรสุ่มที่คาดหวังจากค่าเฉลี่ย หรือค่าเบี่ยงเบนยกกำลังสองเฉลี่ยของข้อมูลเกี่ยวกับค่าเฉลี่ย

4
การตีความความแปรปรวนของเอฟเฟกต์แบบสุ่มในเครื่องแปล
ฉันกำลังทบทวนบทความเกี่ยวกับการผสมเกสรซึ่งมีการแจกแจงข้อมูลแบบทวินาม (ผลไม้สุกหรือไม่มี) ดังนั้นฉันจึงใช้เอglmerฟเฟกต์แบบสุ่มหนึ่งอัน (พืชเดี่ยว) และผลคงที่หนึ่งอัน (การรักษา) ผู้ตรวจทานต้องการทราบว่าพืชมีผลต่อชุดผลไม้หรือไม่ แต่ฉันมีปัญหาในการตีความglmerผลลัพธ์ ฉันได้อ่านจากเว็บไซต์และดูเหมือนว่าอาจมีปัญหากับการเปรียบเทียบglmและglmerรุ่นโดยตรงดังนั้นฉันจึงไม่ทำเช่นนั้น ฉันคิดว่าวิธีที่ตรงไปตรงมาที่สุดในการตอบคำถามคือเพื่อเปรียบเทียบความแปรปรวนของเอฟเฟกต์แบบสุ่ม (1.449 ด้านล่าง) กับความแปรปรวนทั้งหมดหรือความแปรปรวนที่อธิบายโดยการรักษา แต่ฉันจะคำนวณผลต่างอื่น ๆ เหล่านี้ได้อย่างไร ดูเหมือนว่าจะไม่รวมอยู่ในผลลัพธ์ด้านล่าง ฉันอ่านบางอย่างเกี่ยวกับความแปรปรวนตกค้างที่ไม่รวมอยู่ในทวินามglmer- ฉันจะตีความความสำคัญสัมพัทธ์ของเอฟเฟกต์แบบสุ่มได้อย่างไร > summary(exclusionM_stem) Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) [glmerMod] Family: binomial ( logit ) Formula: cbind(Fruit_1, Fruit_0) ~ Treatment + (1 | PlantID) AIC BIC logLik deviance …

1
ตัวกำหนดข้อมูลฟิชเชอร์
(ฉันโพสต์คำถามที่คล้ายกันในmath.se ) ในเรขาคณิตข้อมูล, ดีเทอร์มิแนนต์ของเมทริกซ์ข้อมูลฟิชเชอร์เป็นรูปแบบปริมาตรตามธรรมชาติบนท่อร่วมทางสถิติดังนั้นจึงมีการตีความทางเรขาคณิตที่ดี ความจริงที่ว่ามันปรากฏในคำจำกัดความของเจฟฟรีย์ก่อนหน้านั้นเชื่อมโยงกับความไม่แปรเปลี่ยนของมันภายใต้การซ่อมแซมซ้ำซึ่งเป็นสมบัติทางเรขาคณิต แต่อะไรคือปัจจัยในสถิติ ? มันวัดสิ่งที่มีความหมายหรือไม่? (ตัวอย่างเช่นฉันจะบอกว่าถ้ามันเป็นศูนย์แล้วพารามิเตอร์ไม่ได้เป็นอิสระสิ่งนี้จะไปอีกหรือไม่) นอกจากนี้มีรูปแบบปิดใด ๆ ในการคำนวณอย่างน้อยในบางกรณี "ง่าย"

3
ทางเลือกสำหรับการแปรปรวนแบบทางเดียว ANOVA
ฉันต้องการเปรียบเทียบค่าเฉลี่ยในสามกลุ่มที่มีขนาดเท่ากัน (ขนาดตัวอย่างที่เท่ากันคือเล็ก 21) วิธีการของแต่ละกลุ่มมีการกระจายตามปกติ แต่ความแปรปรวนของพวกเขาไม่เท่ากัน (ผ่านการทดสอบของ Levene) การเปลี่ยนแปลงเป็นเส้นทางที่ดีที่สุดในสถานการณ์นี้หรือไม่? ฉันควรพิจารณาสิ่งอื่นก่อนไหม?

1
ความแปรปรวนของโคเฮนสถิติ
Cohen'sเป็นหนึ่งในวิธีการทั่วไปที่เราวัดขนาดของเอฟเฟกต์ ( ดู Wikipedia ) มันวัดระยะห่างระหว่างสองวิธีในแง่ของค่าเบี่ยงเบนมาตรฐานที่รวมเข้าด้วยกัน เราจะได้สูตรทางคณิตศาสตร์ของการประมาณค่าความแปรปรวนของ Cohen'sอย่างไร dddddd ธันวาคม 2015 แก้ไข:ที่เกี่ยวข้องกับคำถามนี้เป็นความคิดของการคำนวณช่วงความเชื่อมั่นทั่วdบทความนี้กล่าวว่าddd σ2d=n+n×+d22n+σd2=n+n×+d22n+\sigma_{d}^2 = \dfrac{n_{+}}{n_{\times}} + \dfrac{d^2}{2n_{+}} โดยที่คือผลรวมของขนาดตัวอย่างสองขนาดและเป็นผลิตภัณฑ์ของขนาดตัวอย่างสองขนาด n ×n+n+n_{+}n×n×n_{\times} สูตรนี้มีวิธีมาอย่างไร

5
จะทำการใส่ค่าในจุดข้อมูลจำนวนมากได้อย่างไร?
ฉันมีชุดข้อมูลที่มีขนาดใหญ่มากและมีค่าสุ่มประมาณ 5% หายไป ตัวแปรเหล่านี้มีความสัมพันธ์ซึ่งกันและกัน ตัวอย่างชุดข้อมูล R ต่อไปนี้เป็นเพียงตัวอย่างของเล่นที่มีข้อมูลที่สัมพันธ์กันจำลอง set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

3
ลดความแปรปรวนจาก boxplot
ฉันสงสัยว่าจะอนุมานความแปรปรวนของตัวแปรได้อย่างไรโดยใช้ boxplot อย่างน้อยเป็นไปได้หรือไม่ที่จะอนุมานว่าตัวแปรสองตัวมีความแปรปรวนแบบเดียวกันกับการสังเกต boxplot หรือไม่?
12 variance  boxplot 

3
เหตุผลที่เข้าใจได้ง่ายว่าเหตุใดข้อมูลฟิชเชอร์ของ Binomial จึงแปรผกผันกับ
มันสับสน / พัดใจของฉันที่มีความแปรปรวนทวินามสัดส่วนกับP) เท่าข้อมูลฟิชเชอร์เป็นสัดส่วนกับ(1-P)} อะไรคือสาเหตุของสิ่งนี้? ทำไมข้อมูลฟิชเชอร์ที่ลดลง ? นั่นคือเหตุผลว่าทำไมการอนุมานที่ยากที่สุดที่ ?1p(1−p)p(1−p)p(1-p) p=0.5p=0.51p(1−p)1p(1−p)\frac{1}{p(1-p)}p=0.5p=0.5p=0.5p=0.5p=0.5p=0.5 บริบท: ฉันกำลังทำงานกับเครื่องคิดเลขขนาดตัวอย่างและสูตรสำหรับขนาดตัวอย่างที่ต้องการเป็นปัจจัยที่เพิ่มขึ้นของซึ่งเป็นผลมาจากการประมาณค่าความแปรปรวนในการหาค่าp ( 1 - p )NNNp(1−p)p(1−p)p(1-p)

2
ฉันจะรวมค่า p bootstrapped กับชุดข้อมูลที่มีการคูณทวีคูณได้อย่างไร
ฉันกังวลกับปัญหาที่ฉันต้องการบู๊ต p-value สำหรับการประมาณของจากข้อมูล imputed (MI) ที่คูณกัน แต่มันก็ไม่ชัดเจนสำหรับฉันที่จะรวมค่า p-ข้ามชุด MIθθ\theta สำหรับชุดข้อมูล MI วิธีการมาตรฐานในการเข้าถึงความแปรปรวนโดยประมาณทั้งหมดใช้กฎของรูบิน ดูที่นี่สำหรับการตรวจสอบการรวมชุดข้อมูล MI รากที่สองของความแปรปรวนทั้งหมดทำหน้าที่เป็นประมาณการข้อผิดพลาดมาตรฐานของ\อย่างไรก็ตามสำหรับบางตัวประมาณค่าความแปรปรวนทั้งหมดยังไม่ทราบว่าเป็นรูปแบบปิดหรือการกระจายตัวตัวอย่างไม่ปกติ สถิติอาจไม่ได้รับการแจกแจงแบบทีไม่ใช่แบบไม่แสดงอาการθ / s E ( θ )θθ\thetaθ / s e ( θ )θ/se(θ){\theta}/{se(\theta)} ดังนั้นในกรณีข้อมูลที่สมบูรณ์ตัวเลือกหนึ่งทางเลือกคือการบูตสถิติเพื่อค้นหาความแปรปรวนค่า p และช่วงความมั่นใจแม้ว่าการกระจาย samling ไม่ปกติและไม่ทราบรูปแบบปิด ในกรณี MI มีสองตัวเลือก: รวมกลุ่มความแปรปรวนที่เริ่มต้นผ่านชุดข้อมูล MI พูลค่า p-value หรือขอบเขตความมั่นใจในชุดข้อมูล MI ตัวเลือกแรกจะใช้กฎของรูบินอีกครั้ง อย่างไรก็ตามฉันเชื่อว่านี่เป็นปัญหาหากมีการแจกแจงตัวอย่างที่ไม่ปกติ ในสถานการณ์นี้ (หรือโดยทั่วไปในทุกสถานการณ์) ค่า p bootstrapped สามารถนำมาใช้โดยตรง …


1
ความแตกต่างระหว่าง PROC Mixed และ lme / lmer ใน R - degree of freedom
หมายเหตุ: คำถามนี้เป็นคำถามใหม่เนื่องจากต้องลบคำถามก่อนหน้านี้ด้วยเหตุผลทางกฎหมาย ในขณะที่เปรียบเทียบ PROC MIXED จาก SAS กับฟังก์ชันlmeจากnlmeแพ็คเกจใน R ฉันพบความแตกต่างที่ค่อนข้างสับสน โดยเฉพาะอย่างยิ่งองศาอิสระในการทดสอบที่แตกต่างกันระหว่างPROC MIXEDและlmeและฉันสงสัยว่าทำไม เริ่มจากชุดข้อมูลต่อไปนี้ (รหัส R ระบุด้านล่าง): ind: ปัจจัยบ่งชี้บุคคลที่จะทำการวัด fac: อวัยวะที่ใช้ทำการวัด trt: ปัจจัยบ่งชี้การรักษา y: ตัวแปรตอบสนองต่อเนื่องบางอย่าง ความคิดคือการสร้างแบบจำลองง่ายๆดังต่อไปนี้: y ~ trt + (ind): indเป็นปัจจัยสุ่ม y ~ trt + (fac(ind)): facซ้อนกันindเป็นปัจจัยสุ่ม โปรดทราบว่ารุ่นสุดท้ายที่ควรทำให้เกิดเอกเป็นมีเพียง 1 ค่าของyสำหรับการรวมกันของทุกและindfac แบบจำลองแรก ใน SAS ฉันสร้างโมเดลต่อไปนี้: PROC MIXED data=Data; CLASS ind fac …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

2
แบบจำลองพารามิเตอร์ของความแปรปรวนของข้อมูลการนับ
ฉันกำลังมองหาแบบจำลองข้อมูลบางอย่าง แต่ฉันไม่แน่ใจว่าแบบจำลองชนิดใดที่ฉันสามารถใช้ได้ ฉันมีข้อมูลนับและฉันต้องการรูปแบบที่จะให้การประมาณค่าพารามิเตอร์ของทั้งค่าเฉลี่ยและความแปรปรวนของข้อมูล นั่นคือฉันมีปัจจัยการทำนายที่หลากหลายและฉันต้องการตรวจสอบว่ามีปัจจัยใดที่ส่งผลต่อความแปรปรวน (ไม่ใช่แค่ค่าเฉลี่ยของกลุ่ม) ฉันรู้ว่าการถดถอยของปัวซองจะไม่ทำงานเพราะความแปรปรวนเท่ากับค่าเฉลี่ย สมมติฐานนี้ไม่ถูกต้องในกรณีของฉันดังนั้นฉันรู้ว่ามีการกระจายเกินจริง อย่างไรก็ตามโมเดลทวินามลบเชิงลบจะสร้างพารามิเตอร์ overdispersion เดียวเท่านั้นไม่ใช่แบบจำลองฟังก์ชันของตัวทำนายในโมเดล รูปแบบใดที่สามารถทำได้ นอกจากนี้การอ้างอิงถึงหนังสือหรือกระดาษที่กล่าวถึงรูปแบบและ / หรือแพคเกจ R ซึ่งใช้รูปแบบจะได้รับการชื่นชม

2
สัญชาตญาณทางคณิตศาสตร์ของสมการอคติ
ฉันเพิ่งถามคำถามที่ค้นหาการตีความทางคณิตศาสตร์ / ปรีชาอยู่เบื้องหลังสมการพื้นฐานที่เกี่ยวข้องกับค่าเฉลี่ยตัวอย่างและความแปรปรวน:เรขาคณิตหรืออย่างอื่นE[X2]=Var(X)+(E[X])2E[X2]=Var(X)+(E[X])2 E[X^2] = Var(X) +(E[X])^2 แต่ตอนนี้ฉันอยากรู้เกี่ยวกับสมการการแลกเปลี่ยนความเอนเอียงที่มีอคติคล้ายกันมาก MSE(θ^)=E[(θ^−θ)2]==E[(θ^−E[θ^])2]+(E[θ^]−θ)2Var(θ^)+Bias(θ^,θ)2MSE(θ^)=E[(θ^−θ)2]=E[(θ^−E[θ^])2]+(E[θ^]−θ)2=Var(θ^)+Bias(θ^,θ)2 \begin{eqnarray} \text{MSE}(\hat{\theta}) = E [(\hat{\theta}-\theta)^2 ] &=& E[(\hat{\theta} - E[\hat\theta])^2] + (E[\hat\theta] - \theta)^2\\ &=& \text{Var}(\hat\theta) + \text{Bias}(\hat\theta,\theta)^2 \\ \end{eqnarray} (สูตรจากWikipedia ) สำหรับฉันมันมีความคล้ายคลึงกันเพียงผิวเผินกับสมการแลกเปลี่ยนอคติแปรปรวนสำหรับการถดถอย: สามเทอมกับกำลังสองและอีกสองบวกกัน พีทาโกรัสมองมาก มีความสัมพันธ์แบบเวกเตอร์ที่คล้ายกันรวมถึง orthogonality สำหรับรายการเหล่านี้ทั้งหมดหรือไม่? หรือมีการตีความทางคณิตศาสตร์อื่น ๆ ที่เกี่ยวข้องที่ใช้? ฉันกำลังมองหาความคล้ายคลึงทางคณิตศาสตร์กับวัตถุทางคณิตศาสตร์อื่น ๆ ที่อาจทำให้กระจ่าง ฉันไม่ได้กำลังมองหาการเปรียบเทียบความถูกต้องแม่นยำซึ่งครอบคลุมอยู่ที่นี่ แต่ถ้ามีการเปรียบเทียบที่ไม่ใช่ด้านเทคนิคที่ผู้คนสามารถให้ได้ระหว่างการแลกเปลี่ยนความเอนเอียงกับอคติและความสัมพันธ์ความแปรปรวนพื้นฐานที่มากขึ้นก็จะดีเช่นกัน
12 variance  bias 

2
อะไรคือความแตกต่างระหว่าง
ผมอ่านเกี่ยวกับเมตริกถดถอยในหลาม scikit การเรียนรู้ด้วยตนเองและแม้ว่าหนึ่งของพวกเขาแต่ละคนมีสูตรของตัวเองฉันไม่สามารถบอกสังหรณ์ใจว่าอะไรคือความแตกต่างระหว่างและคะแนนความแปรปรวนและดังนั้นเมื่อจะใช้อย่างใดอย่างหนึ่งหรืออื่นในการประเมิน โมเดลของฉันR2R2R^2

3
ความแปรปรวนร่วม - เมทริกซ์ความแปรปรวนร่วมของข้อผิดพลาดในการถดถอยเชิงเส้น
เมทริกซ์ข้อผิดพลาด var / cov คำนวณโดยใช้ชุดการวิเคราะห์ทางสถิติในทางปฏิบัติอย่างไร แนวคิดนี้ชัดเจนสำหรับฉันในทางทฤษฎี แต่ไม่ใช่ในทางปฏิบัติ ฉันหมายถึงถ้าฉันมีเวกเตอร์ของตัวแปรสุ่มฉันเข้าใจว่าความแปรปรวน / ความแปรปรวนร่วมเมทริกซ์Σจะได้รับผลิตภัณฑ์ภายนอกของความเบี่ยงเบนจาก --- เวกเตอร์เฉลี่ย: Σ = E [ ( X - E ( X ) ) ( X - E ( X ) ) ⊤ ]X =( X1, X2, … , Xn)⊤X=(X1,X2,…,Xn)⊤\textbf{X}=(X_{1}, X_{2}, \ldots, X_{n})^\topΣΣ\SigmaΣ = E [ ( X - E …

1
จะค้นหาความแปรปรวนระหว่างจุดหลายมิติได้อย่างไร
สมมติว่าฉันมีเมทริกซ์ X ซึ่งเป็น n คูณ p นั่นคือมันมีการสังเกต n โดยการสังเกตแต่ละครั้งในพื้นที่มิติ p ฉันจะค้นหาความแปรปรวนของการสังเกตการณ์ n เหล่านี้ได้อย่างไร ในกรณีที่ p = 1 ฉันแค่ต้องใช้สูตรผลต่างปกติ สิ่งที่เกี่ยวกับกรณีที่ p> 1
12 variance 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.