คำถามติดแท็ก standard-deviation

ค่าเบี่ยงเบนมาตรฐานคือรากที่สองของความแปรปรวนของตัวแปรสุ่มตัวประมาณของมันหรือการวัดที่คล้ายกันของการแพร่กระจายของชุดข้อมูล

3
กำลังคำนวณการแจกแจงจากค่าต่ำสุดค่าเฉลี่ยและค่าสูงสุด
สมมติว่าฉันมีชุดข้อมูลขั้นต่ำค่าเฉลี่ยและสูงสุดของชุดข้อมูลพูด 10, 20 และ 25 มีวิธีการ: สร้างการกระจายจากข้อมูลเหล่านี้และ รู้ว่าร้อยละของประชากรที่น่าจะอยู่เหนือหรือต่ำกว่าค่าเฉลี่ย แก้ไข: ตามคำแนะนำของ Glen สมมติว่าเรามีขนาดตัวอย่าง 200

4
วิธีการคำนวณค่าเบี่ยงเบนมาตรฐานแบบ 2 มิติด้วยค่าเฉลี่ย 0 ล้อมรอบด้วยขีด จำกัด
ปัญหาของฉันเป็นดังนี้: ฉันวาง 40 ลูกในคราวเดียวจากจุดหนึ่งไม่กี่เมตรเหนือพื้น ลูกบอลกลิ้งและมาพัก เมื่อใช้สายตาคอมพิวเตอร์ฉันคำนวณจุดศูนย์กลางมวลในระนาบ XY ฉันสนใจเฉพาะระยะทางจากจุดศูนย์กลางของมวลไปยังลูกบอลแต่ละลูกซึ่งคำนวณโดยใช้รูปทรงเรขาคณิตที่เรียบง่าย ตอนนี้ฉันอยากรู้ค่าเบี่ยงเบนมาตรฐานด้านเดียวจากศูนย์กลาง ดังนั้นฉันจะสามารถรู้ได้ว่ามีลูกบอลจำนวนหนึ่งอยู่ในรัศมี std หนึ่งลูกมากกว่าภายในรัศมี 2 * std เป็นต้น ฉันจะคำนวณค่าเบี่ยงเบนมาตรฐานด้านเดียวได้อย่างไร วิธีการปกติจะระบุว่าครึ่งหนึ่งของลูกบอลอยู่ใน "ด้านลบ" ของค่าเฉลี่ย 0 แน่นอนว่าไม่มีเหตุผลในการทดลองนี้ ฉันต้องตรวจสอบให้แน่ใจว่าลูกบอลเป็นไปตามการกระจายมาตรฐานหรือไม่ ขอบคุณสำหรับความช่วยเหลือ

2
หมายถึงค่าเบี่ยงเบนสัมบูรณ์ที่น้อยกว่าค่าเบี่ยงเบนมาตรฐานสำหรับ
ฉันต้องการเปรียบเทียบค่าเบี่ยงเบนสัมบูรณ์เฉลี่ยกับส่วนเบี่ยงเบนมาตรฐานในกรณีทั่วไปกับคำจำกัดความนี้: MA D =1n - 1Σ1n|xผม- μ | ,SD =Σn1(xผม- μ)2n - 1-----------√MAD=1n−1∑1n|xi−μ|,SD=∑1n(xi−μ)2n−1MAD = \frac{1}{n-1}\sum_1^n|x_i - \mu|, \qquad SD = \sqrt{\frac{\sum_1^n(x_i-\mu)^2}{n-1}} ที่ไหน μ =1nΣn1xผมμ=1n∑1nxi\mu =\frac{1}{n}\sum_1^n x_i. มันเป็นความจริงหรือเปล่า MA D ≤ SDMAD≤SDMAD \le SD สำหรับทุกคน {xผม}n1{xi}1n\{x_i\}^n_1? มันผิดสำหรับ n = 2n=2n=2, เพราะ x + y≥x2+Y2------√x+y≥x2+y2x+y \ge \sqrt{x^2+y^2}สำหรับทุกคน x , y≥ 0x,y≥0x, y …

1
ปัญหาหรือเกมใดที่เป็นวิธีแก้ไขปัญหาความแปรปรวนและส่วนเบี่ยงเบนมาตรฐานที่ดีที่สุด
สำหรับตัวแปรสุ่มที่กำหนด (หรือประชากรหรือกระบวนการสุ่ม) ความคาดหวังทางคณิตศาสตร์คือคำตอบสำหรับคำถามการคาดการณ์จุดใดที่ช่วยลดการสูญเสียกำลังสองที่คาดการณ์ไว้ได้? . นอกจากนี้มันเป็นทางออกที่ดีที่สุดสำหรับเกมเดาการตระหนักถึงตัวแปรสุ่มต่อไป (หรือการจับฉลากใหม่จากประชากร) และฉันจะลงโทษคุณด้วยระยะห่างกำลังสองระหว่างค่าและการเดาของคุณหากคุณมีความไม่ตรงเชิงเส้นในแง่ ของการลงโทษ ค่ามัธยฐานคือคำตอบของคำถามที่เกี่ยวข้องภายใต้การสูญเสียที่แน่นอนและโหมดคือคำตอบภายใต้การสูญเสีย "ทั้งหมดหรือไม่มีอะไร" คำถาม:ความแปรปรวนและส่วนเบี่ยงเบนมาตรฐานตอบคำถามที่คล้ายกันหรือไม่ พวกเขาคืออะไร แรงจูงใจสำหรับคำถามนี้เกิดขึ้นจากการสอนมาตรการพื้นฐานของแนวโน้มกลางและการแพร่กระจาย ในขณะที่มาตรการของแนวโน้มกลางสามารถถูกกระตุ้นด้วยปัญหาการตัดสินใจเชิงทฤษฎีข้างต้นฉันสงสัยว่าจะกระตุ้นให้เกิดมาตรการแพร่กระจายได้อย่างไร

2
เมื่อใช้ SVM ทำไมฉันต้องขยายขนาดคุณสมบัติ
ตามเอกสารของStandardScalerวัตถุใน scikit-learn: เช่นองค์ประกอบหลายอย่างที่ใช้ในฟังก์ชันวัตถุประสงค์ของอัลกอริทึมการเรียนรู้ (เช่นเคอร์เนล RBF ของ Support Vector Machines หรือ L1 และ L1 normalizers โมเดลเชิงเส้น) สมมติว่าคุณลักษณะทั้งหมดอยู่กึ่งกลางรอบ 0 และมีความแปรปรวนในลำดับเดียวกัน หากคุณลักษณะมีความแปรปรวนที่เป็นลำดับความสำคัญมากกว่าที่อื่น ๆ มันอาจครอบงำฟังก์ชันวัตถุประสงค์และทำให้ตัวประมาณไม่สามารถเรียนรู้จากคุณลักษณะอื่นได้อย่างถูกต้องตามที่คาดไว้ ฉันควรปรับขนาดคุณสมบัติของฉันก่อนจัดประเภท มีวิธีง่าย ๆ ที่จะแสดงว่าทำไมฉันควรทำเช่นนี้? การอ้างอิงบทความทางวิทยาศาสตร์จะดียิ่งขึ้น ฉันได้พบหนึ่งแต่อาจมีอื่น ๆ อีกมากมาย

2
SD มีขนาดใหญ่กว่าขนาดเฉลี่ย, ไม่ใช่แบบลบ
ฉันได้รับบทความรายงานการศึกษาที่คล้ายกับห้องแล็บที่ฉันต้องการเรียกใช้ แต่ฉันสังเกตเห็นว่าสำหรับตัวแปรที่น่าสนใจระยะเวลาเอกสารความปลอดภัยมีขนาดใหญ่กว่าค่าเฉลี่ย ... เนื่องจากนี่คือระยะเวลาที่วัดได้ในหน่วยนาทีมันจะไม่มีทางลบและสิ่งนี้ดูแปลกสำหรับฉัน เรื่องนี้เกิดขึ้นใน 2 รายงานการศึกษาด้านล่างเป็นหนึ่ง ยิ่งไปกว่านั้นนี่คือการออกแบบผสม ควบคุมการรักษา (ระหว่างกลุ่ม) และเวลา 1, เวลา 2, เวลา 3 (วัดซ้ำ) นี่คือค่าเฉลี่ย (SDs), N> 200 Time1 Time2 Time3 Control 15.1 (14.6) 14.4 (14.8) 13.3 (15.7) Treatment 14.8 (13.2) 10.0 (12.2) 8.2 (9.9) ... พวกเขาใช้ ANOVA และรายงาน p <.001 ฉันถูกขอให้ใช้สิ่งนี้เป็นพื้นฐานสำหรับการวิเคราะห์พลังงานเพื่อกำหนดขนาดตัวอย่างสำหรับการศึกษาของเรา ฉันค่อนข้างแน่ใจว่าสิ่งนี้บ่งชี้ว่าข้อมูลไม่ปกติหรือมีค่าผิดปกติและฉันรู้สึกไม่สะดวกใจที่จะกำหนดขนาดตัวอย่างตามสิ่งนี้ ฉันเพิ่งจะออกจากฐาน?

4
เหตุใดจึงใช้สแควร์รูทสำหรับการนับตัวอย่าง“ N” ในสูตรค่าเบี่ยงเบนมาตรฐาน
ฉันพยายามเข้าใจแนวคิดพื้นฐานของการเบี่ยงเบนมาตรฐาน จากสูตร σ=Σi = 1n(xผม- μ)2ยังไม่มีข้อความ----------⎷σ=∑i=1n(xi−μ)2N\sigma= \sqrt{ \dfrac{ \sum\limits_{i=1}^n (x_i-\mu)^2} N } ฉันไม่เข้าใจว่าทำไมเราควรลดจำนวนประชากร "N" ลงครึ่งหนึ่งนั่นคือสาเหตุที่เราต้องการที่จะ ยังไม่มีข้อความ--√N\sqrt{N} เมื่อเราไม่ได้ทำ ยังไม่มีข้อความ2N2{N^2}? นั่นไม่บิดเบือนประชากรที่เรากำลังพิจารณาใช่หรือไม่ ไม่ควรเป็นสูตร σ=Σi = 1n(xผม- μ)2---------√ยังไม่มีข้อความσ=∑i=1n(xi−μ)2N\sigma= \dfrac{ \sqrt{ \sum\limits_{i=1}^n (x_i-\mu)^2} } {N}

1
จะเปรียบเทียบเหตุการณ์ที่สังเกตได้กับเหตุการณ์ที่คาดหวังได้อย่างไร
สมมติว่าฉันมีตัวอย่างหนึ่งความถี่ของเหตุการณ์ที่เป็นไปได้ 4 เหตุการณ์: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 และฉันมีโอกาสที่จะเกิดเหตุการณ์ที่คาดหวัง: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 ด้วยผลรวมของความถี่ที่สังเกตได้จากเหตุการณ์ทั้งสี่ของฉัน (18) ฉันสามารถคำนวณความถี่ที่คาดหวังของเหตุการณ์ได้ใช่ไหม expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

1
จะตัดสินผู้ชนะอย่างยุติธรรมในงานวิทยาศาสตร์ระดับภูมิภาคได้อย่างไร?
ฉันต้องการความช่วยเหลือในการหาวิธีที่ถูกต้องในการคำนวณผู้ชนะในงานวิทยาศาสตร์ของเรา ฉันไม่ต้องการให้ฉันไม่รู้ถึงสถิติและคณิตศาสตร์เพื่อให้เด็กมีโอกาสชนะ (ทุนการศึกษาจำนวนมาก & ผลประโยชน์ความก้าวหน้าในการเดิมพัน) ขอบคุณล่วงหน้าสำหรับความช่วยเหลือของ. พื้นหลังเล็กน้อยของวิธีการตั้งค่าสิ่งต่าง ๆ : โดยทั่วไปงานของเรามีโครงการนักศึกษาประมาณ 600 โครงการ โครงการเหล่านี้เสร็จสมบูรณ์และนำเสนอโดยนักเรียนเป็นรายบุคคลหรือเป็นทีมของนักเรียน ทีมสามารถประกอบด้วยเด็ก 2 หรือ 3 คน นักเรียนแบ่งออกเป็นสองแผนก: ระดับประถมศึกษา (ระดับ 6-8) และระดับมัธยมศึกษา (เกรด 9-12) แต่ละแผนกมีประเภทที่แตกต่างกัน: 9 หมวดหมู่สำหรับโครงการระดับประถมศึกษาและ 17 หมวดหมู่สำหรับโครงการแผนกรอง รางวัลจะมอบให้สำหรับที่หนึ่งที่สองและสามสำหรับแต่ละหมวดหมู่ในแต่ละหมวด รางวัลชมเชยที่มอบรางวัลนั้นมอบให้สำหรับตำแหน่งนอกเหนือจากที่สาม สำหรับแต่ละโครงการเรามอบหมายผู้ตัดสินระหว่าง 4 ถึง 6 คน เราทำสิ่งที่ได้รับมอบหมายตามคุณสมบัติของผู้ตัดสินความพึงพอใจในหมวดหมู่และประสบการณ์การตัดสินที่ผ่านมาของพวกเขา (มีประสบการณ์มากขึ้นถูกมอบหมายให้ทำงานในแผนกอาวุโส) วิธีการตัดสินคะแนนโครงการ: สำหรับแต่ละโครงการมี 5 เกณฑ์ที่กำหนดคะแนน แต่ละเกณฑ์สามารถมอบให้ระหว่าง 1 ถึง 20 คะแนน เกณฑ์ทั่วไปคือ: วัตถุประสงค์ …

2
การแจกแจงความเบี่ยงเบนมาตรฐาน
คำถามนี้ตอบคำถามการแจกแจงแบบปกติ แต่ฉันสงสัยว่าสิ่งที่รู้เกี่ยวกับการแจกแจงค่าเบี่ยงเบนมาตรฐานของตัวอย่างขนาดn ที่ดึงมาจากการแจกแจงโดยพลการ โดยเฉพาะค่าเบี่ยงเบนมาตรฐานของค่าเบี่ยงเบนมาตรฐานคืออะไร? สำหรับการกระจายปกติ, SD ของ SD เป็น{2n}} นี่เป็นความจริงโดยประมาณสำหรับการแจกแจงโดยพลการในฐานะ ?σ2 n√σ2n\sigma \over{\sqrt{2n}}n → ∞n→∞n \rightarrow \infty

2
คำนวณ ROC curve สำหรับข้อมูล
ดังนั้นฉันมีการทดลอง 16 ครั้งที่ฉันพยายามพิสูจน์ตัวตนบุคคลจากลักษณะทางชีวภาพโดยใช้ Hamming Distance เกณฑ์ของฉันถูกตั้งไว้ที่ 3.5 ข้อมูลของฉันอยู่ด้านล่างและเฉพาะการทดลองใช้ 1 เท่านั้นคือ True Positive: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 จุดสับสนของฉันคือฉันไม่แน่ใจจริงๆเกี่ยวกับวิธีสร้าง ROC curve …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.