คำถามติดแท็ก variance

ความเบี่ยงเบนกำลังสองของตัวแปรสุ่มที่คาดหวังจากค่าเฉลี่ย หรือค่าเบี่ยงเบนยกกำลังสองเฉลี่ยของข้อมูลเกี่ยวกับค่าเฉลี่ย

10
คุณจะอธิบายความแปรปรวนร่วมกับคนที่เข้าใจเฉพาะค่าเฉลี่ยได้อย่างไร
... สมมติว่าฉันสามารถเพิ่มพูนความรู้เกี่ยวกับความแปรปรวนในรูปแบบที่เข้าใจง่าย (การทำความเข้าใจ "ความแปรปรวน" อย่างสังหรณ์ใจ ) หรือโดยการพูดว่า: มันเป็นระยะทางเฉลี่ยของค่าข้อมูลจาก 'เฉลี่ย' - และเนื่องจากความแปรปรวนอยู่ในตาราง หน่วยเราใช้สแควร์รูทเพื่อให้หน่วยเดียวกันและที่เรียกว่าส่วนเบี่ยงเบนมาตรฐาน สมมติว่าเรื่องนี้ชัดเจนมากและหวังว่าจะเข้าใจโดย 'ผู้รับ' ทีนี้ความแปรปรวนร่วมคืออะไรและจะอธิบายได้อย่างไรในภาษาอังกฤษง่าย ๆ โดยไม่ใช้คำศัพท์ / สูตรทางคณิตศาสตร์ใด ๆ (เช่นคำอธิบายที่เข้าใจง่าย;) โปรดทราบ: ฉันรู้สูตรและคณิตศาสตร์ที่อยู่เบื้องหลังแนวคิด ฉันต้องการที่จะ 'อธิบาย' สิ่งเดียวกันในรูปแบบที่เข้าใจง่ายโดยไม่รวมคณิตศาสตร์ เช่น 'ความแปรปรวนร่วม' หมายถึงอะไร

6
ความแตกต่างระหว่างความแปรปรวนกับค่าเบี่ยงเบนมาตรฐานคืออะไร
ฉันสงสัยว่าความแตกต่างระหว่างความแปรปรวนกับส่วนเบี่ยงเบนมาตรฐานคืออะไร หากคุณคำนวณค่าทั้งสองเป็นที่ชัดเจนว่าคุณได้ค่าเบี่ยงเบนมาตรฐานจากความแปรปรวน แต่นั่นหมายความว่าในแง่ของการกระจายที่คุณสังเกต นอกจากนี้ทำไมคุณต้องมีค่าเบี่ยงเบนมาตรฐานจริง ๆ

7
ความเอนเอียงและความแปรปรวนในการตรวจสอบแบบ cross-one-out เทียบกับการตรวจสอบความถูกต้องข้าม K-fold
วิธีการตรวจสอบข้ามที่แตกต่างกันอย่างไรเปรียบเทียบในแง่ของความแปรปรวนของโมเดลและอคติ คำถามของฉันได้รับแรงบันดาลใจบางส่วนจากหัวข้อนี้: จำนวนการพับที่เหมาะสมที่สุดในการตรวจสอบความถูกต้องข้าม -fold: CV แบบปล่อยครั้งเดียวเป็นตัวเลือกที่ดีที่สุดเสมอหรือไม่ KKKเค. คำตอบนั้นแสดงให้เห็นว่าแบบจำลองที่เรียนรู้ด้วยการตรวจสอบข้ามแบบลาหนึ่ง - ออกนั้นมีความแปรปรวนสูงกว่าแบบเรียนรู้ด้วยการตรวจสอบความถูกต้องแบบเท่าปกติKKK อย่างไรก็ตามสัญชาตญาณของฉันบอกฉันว่าใน CV แบบปล่อยครั้งเดียวควรเห็นความแปรปรวนค่อนข้างต่ำระหว่างแบบจำลองกว่าใน -fold CV เนื่องจากเราเปลี่ยนจุดข้อมูลเพียงจุดเดียวในส่วนการพับและดังนั้นชุดการฝึกอบรมKKK หรือไปในอีกทางหนึ่งถ้าต่ำใน -fold CV ชุดการฝึกอบรมจะแตกต่างกันมากในโฟลด์และโมเดลที่ได้จะมีความแตกต่างกันมากขึ้น (ดังนั้นความแปรปรวนที่สูงขึ้น)เคKKKKKK หากอาร์กิวเมนต์ข้างต้นถูกต้องทำไมรูปแบบการเรียนรู้ที่มีประวัติย่อแบบลาออกมีความแปรปรวนสูงกว่า

10
การทำความเข้าใจ“ ความแปรปรวน” อย่างสังหรณ์ใจ
อะไรคือวิธีที่สะอาดและง่ายที่สุดในการอธิบายแนวคิดเรื่องความแปรปรวนของใครบางคน? มันหมายถึงอะไรอย่างสังหรณ์ใจ? ถ้ามีใครอธิบายเรื่องนี้ให้ลูกฟัง มันเป็นแนวคิดที่ฉันมีปัญหาในการสื่อสาร - โดยเฉพาะอย่างยิ่งเมื่อเกี่ยวข้องกับความแปรปรวนกับความเสี่ยง ฉันเข้าใจในเชิงคณิตศาสตร์และสามารถอธิบายได้เช่นกัน แต่เมื่ออธิบายปรากฏการณ์ในโลกแห่งความเป็นจริงคุณจะทำให้คนหนึ่งเข้าใจถึงความแปรปรวนและการบังคับใช้ใน 'โลกแห่งความจริง' ได้อย่างไร สมมติว่าเรากำลังจำลองการลงทุนในหุ้นโดยใช้ตัวเลขสุ่ม (กลิ้งแม่พิมพ์หรือใช้แผ่นงาน Excel ไม่สำคัญ) เราได้รับผลตอบแทนจากการลงทุนโดยเชื่อมโยงแต่ละตัวแปรสุ่มกับ 'การเปลี่ยนแปลงบางอย่าง' ในผลตอบแทน เช่น.: การกลิ้ง 1 หมายถึงการเปลี่ยนแปลง 0.8 ต่อ$ 1 ในการลงทุน 5 การเปลี่ยนแปลง 1.1 ต่อ$ 1 และอื่น ๆ ตอนนี้หากการจำลองนี้ดำเนินการประมาณ 50 ครั้ง (หรือ 20 หรือ 100) เราจะได้รับค่าบางอย่างและมูลค่าสุดท้ายของการลงทุน ดังนั้น 'ความแปรปรวน' จริง ๆ แล้วบอกอะไรเราถ้าเราจะคำนวณจากชุดข้อมูลด้านบน สิ่งใดที่ "เห็น" - หากความแปรปรวนปรากฎเป็น 1.7654 …

3
ตัวอย่าง: การถดถอย LASSO โดยใช้ glmnet สำหรับผลลัพธ์ไบนารี
ฉันเริ่มตะลุยกับการใช้งานglmnetกับการถดถอยแบบ LASSOซึ่งผลลัพธ์ของความสนใจของฉันนั้นเป็นแบบขั้วคู่ ฉันได้สร้างกรอบข้อมูลจำลองขนาดเล็กด้านล่าง: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

8
สร้างตัวแปรสุ่มที่มีความสัมพันธ์ที่กำหนดไว้กับตัวแปรที่มีอยู่
สำหรับการศึกษาการจำลองฉันต้องสร้างตัวแปรสุ่มที่แสดง prefined (ประชากร) ความสัมพันธ์กับตัวแปรที่มีอยู่YYYY ฉันดูในRแพ็คเกจcopulaและCDVineสามารถสร้างการแจกแจงหลายตัวแปรแบบสุ่มด้วยโครงสร้างการพึ่งพาที่กำหนด อย่างไรก็ตามเป็นไปไม่ได้ที่จะแก้ไขหนึ่งในตัวแปรที่เป็นผลลัพธ์ของตัวแปรที่มีอยู่ ความคิดและลิงก์ไปยังฟังก์ชั่นที่มีอยู่นั้นได้รับการชื่นชม! สรุป: คำตอบที่ถูกต้องสองคำขึ้นมาพร้อมกับโซลูชันที่แตกต่าง: R สคริปต์โดย Caracal ซึ่งจะคำนวณตัวแปรสุ่มกับที่แน่นอน (ตัวอย่าง) ความสัมพันธ์กับตัวแปรที่กำหนดไว้ล่วงหน้า R ฟังก์ชั่นฉันพบตัวเองซึ่งจะคำนวณตัวแปรสุ่มที่มีการกำหนดประชากรความสัมพันธ์กับตัวแปรที่กำหนดไว้ล่วงหน้า [@ttnphns 'นอกจากนี้: ฉันใช้เสรีภาพในการขยายชื่อคำถามจากกรณีตัวแปรคงที่เดียวเป็นจำนวนคงที่ของตัวแปรคงที่; เช่นวิธีการสร้างตัวแปรที่มีคอร์เรชั่นที่กำหนดไว้ล่วงหน้าพร้อมกับตัวแปรคงที่บางตัวที่มีอยู่]

5
นักสถิติตกลงกันว่าจะใช้ (n-1) เป็นตัวประมาณค่าที่เป็นกลางสำหรับความแปรปรวนของประชากรโดยไม่มีการจำลองอย่างไร
สูตรสำหรับการคำนวณความแปรปรวนมีในตัวส่วน:(n−1)(n−1)(n-1) s2=∑Ni=1(xi−x¯)2n−1s2=∑i=1N(xi−x¯)2n−1s^2 = \frac{\sum_{i=1}^N (x_i - \bar{x})^2}{n-1} ฉันสงสัยอยู่เสมอว่าทำไม อย่างไรก็ตามการอ่านและดูวิดีโอดีๆสองสามเรื่องเกี่ยวกับ "ทำไม" ดูเหมือนว่าเป็นตัวประมาณค่าความแปรปรวนของประชากรที่ไม่เอนเอียง ในขณะที่ประเมินต่ำเกินไปและประเมินค่าความแปรปรวนของประชากรมากเกินไป(n−1)(n−1)(n-1)nnn(n−2)(n−2)(n-2) สิ่งที่ฉันอยากรู้ก็คือว่าในยุคที่ไม่มีคอมพิวเตอร์ตัวเลือกนี้เกิดขึ้นได้อย่างไร มีหลักฐานทางคณิตศาสตร์จริง ๆ ที่พิสูจน์สิ่งนี้หรือว่าเป็นเชิงประจักษ์และนักสถิติได้ทำการคำนวณจำนวนมากด้วยมือเพื่อมากับ "คำอธิบายที่ดีที่สุด" ในเวลานั้น? นักสถิติใช้สูตรนี้อย่างไรในต้นศตวรรษที่ 19 ด้วยความช่วยเหลือของคอมพิวเตอร์ ด้วยตนเองหรือมีมากเกินกว่าที่เห็นได้หรือไม่


5
ความแตกต่างระหว่าง N และ N-1 ในการคำนวณความแปรปรวนของประชากรคืออะไร?
ฉันไม่เข้าใจว่าทำไมถึงมีNและN-1ขณะคำนวณความแปรปรวนของประชากร เวลาที่เราใช้Nและเมื่อไหร่ที่เราจะใช้N-1? คลิกที่นี่สำหรับรุ่นที่ใหญ่กว่า มันบอกว่าเมื่อประชากรมีขนาดใหญ่มากไม่มีความแตกต่างระหว่าง N และ N-1 แต่ไม่ได้บอกว่าทำไมถึงมี N-1 ตั้งแต่แรก แก้ไข: โปรดอย่าสับสนnและn-1ใช้ในการประมาณ แก้ไข 2: ฉันไม่ได้พูดถึงการประมาณประชากร

7
เมื่อทำการทดสอบแบบทีทำไมคนเราต้องการสมมติ (หรือทดสอบ) ความแปรปรวนที่เท่ากันแทนที่จะใช้การประมาณเวลช์ของ df เสมอ
ดูเหมือนว่าเมื่อข้อสันนิษฐานของความเป็นเนื้อเดียวกันของความแปรปรวนพบว่าผลลัพธ์จาก Welch ที่ปรับ t-test และ t-test มาตรฐานจะใกล้เคียงกัน ทำไมไม่ใช้ Welch ที่ปรับแล้วเสมอ

3
การแปลความหมายของตัวทำนายการแปลงสภาพบันทึกและ / หรือการตอบสนอง
ฉันสงสัยว่ามันจะสร้างความแตกต่างในการตีความไม่ว่าจะเป็นเพียงขึ้นอยู่กับทั้งขึ้นอยู่กับและเป็นอิสระหรือตัวแปรอิสระเท่านั้นที่ถูกเปลี่ยนเข้าสู่ระบบ พิจารณากรณีของ log(DV) = Intercept + B1*IV + Error ฉันสามารถตีความ IV เป็นเปอร์เซ็นต์เพิ่มขึ้น แต่จะเปลี่ยนแปลงได้อย่างไรเมื่อฉันมี log(DV) = Intercept + B1*log(IV) + Error หรือเมื่อฉันมี DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

6
คำอธิบายที่เข้าใจง่ายของการแลกเปลี่ยนความแปรปรวนอคติ
ฉันกำลังมองหาคำอธิบายที่เข้าใจง่ายของการแลกเปลี่ยนความเอนเอียงอคติทั้งโดยทั่วไปและโดยเฉพาะในบริบทของการถดถอยเชิงเส้น

1
ความแปรปรวนของผลผลิตของตัวแปรสุ่มหลายตัว
เรารู้คำตอบสำหรับตัวแปรอิสระสองตัว: Var(XY)=E(X2Y2)−(E(XY))2=Var(X)Var(Y)+Var(X)(E(Y))2+Var(Y)(E(X))2Var(XY)=E(X2Y2)−(E(XY))2=Var(X)Var(Y)+Var(X)(E(Y))2+Var(Y)(E(X))2 {\rm Var}(XY) = E(X^2Y^2) − (E(XY))^2={\rm Var}(X){\rm Var}(Y)+{\rm Var}(X)(E(Y))^2+{\rm Var}(Y)(E(X))^2 อย่างไรก็ตามหากเราใช้ผลิตภัณฑ์มากกว่าสองตัวแปรคำตอบจะเป็นอะไรในแง่ของความแปรปรวนและค่าที่คาดหวังของตัวแปรแต่ละตัวVar(X1X2⋯Xn)Var(X1X2⋯Xn){\rm Var}(X_1X_2 \cdots X_n)

1
การคำนวณความแปรปรวน Kappa ของ Cohen (และข้อผิดพลาดมาตรฐาน)
สถิติKappa ( κκ\kappa ) ได้รับการแนะนำในปี 1960 โดย Cohen [1] เพื่อวัดข้อตกลงระหว่างผู้ประเมินสองคน อย่างไรก็ตามความแปรปรวนของมันเป็นสาเหตุของความขัดแย้งมาระยะหนึ่งแล้ว คำถามของฉันเกี่ยวกับการคำนวณผลต่างที่ดีที่สุดที่จะใช้กับกลุ่มตัวอย่างขนาดใหญ่ ฉันมีแนวโน้มที่จะเชื่อว่าคนที่ผ่านการทดสอบและตรวจสอบโดย Fleiss [2] จะเป็นตัวเลือกที่ถูกต้อง แต่สิ่งนี้ดูเหมือนจะไม่ใช่คนเดียวที่ได้รับการตีพิมพ์ซึ่งดูเหมือนว่าจะถูกต้อง ตอนนี้ฉันมีสองวิธีที่เป็นรูปธรรมในการคำนวณความแปรปรวนตัวอย่างขนาดใหญ่ของซีมโทติค: วิธีการแก้ไขที่เผยแพร่โดย Fleiss, Cohen and Everitt [2]; วิธีการเดลต้าที่สามารถพบได้ในหนังสือโดย Colgaton, 2009 [4] (หน้า 106) เพื่อแสดงให้เห็นถึงความสับสนบางอย่างนี่คือคำพูดของ Fleiss, Cohen และ Everitt [2] โดยเน้นที่เหมือง: ความพยายามของมนุษย์หลายคนถูกสาปด้วยความล้มเหลวซ้ำแล้วซ้ำอีกก่อนที่จะประสบความสำเร็จขั้นสุดท้าย มาตราส่วนของ Mount Everest เป็นตัวอย่างหนึ่ง การค้นพบของ Northwest Passage เป็นครั้งที่สอง ความเป็นมาของข้อผิดพลาดมาตรฐานที่ถูกต้องสำหรับคัปปาเป็นหนึ่งในสาม ดังนั้นนี่คือบทสรุปเล็ก ๆ ของสิ่งที่เกิดขึ้น: …

5
ความแตกต่างระหว่างประชากรกับกลุ่มตัวอย่างคืออะไร?
ความแตกต่างระหว่างประชากรกับกลุ่มตัวอย่างคืออะไร? มีตัวแปรและสถิติทั่วไปใดบ้างที่ใช้สำหรับแต่ละตัวและเกี่ยวข้องกันอย่างไร

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.