คำถามติดแท็ก standard-deviation

ค่าเบี่ยงเบนมาตรฐานคือรากที่สองของความแปรปรวนของตัวแปรสุ่มตัวประมาณของมันหรือการวัดที่คล้ายกันของการแพร่กระจายของชุดข้อมูล

22
ทำไมต้องแตกต่างยกกำลังสองแทนที่จะรับค่าสัมบูรณ์ในส่วนเบี่ยงเบนมาตรฐาน?
ในคำจำกัดความของส่วนเบี่ยงเบนมาตรฐานทำไมเราต้องยกกำลังสองความแตกต่างจากค่าเฉลี่ยเพื่อให้ได้ค่าเฉลี่ย (E) และนำสแควร์รูทกลับมาที่จุดสิ้นสุด? เราไม่เพียงแค่เอาค่าสัมบูรณ์ของความแตกต่างมาแทนและรับค่าที่คาดหวัง (ค่าเฉลี่ย) ของสิ่งเหล่านั้นและนั่นจะไม่แสดงการแปรผันของข้อมูลหรือไม่ จำนวนจะแตกต่างจากวิธีสแควร์ (วิธีค่าสัมบูรณ์จะน้อยกว่า) แต่ก็ยังควรแสดงการแพร่กระจายของข้อมูล ไม่มีใครรู้ว่าทำไมเราถึงใช้วิธีการจตุรัสนี้เป็นมาตรฐาน? ความหมายของค่าเบี่ยงเบนมาตรฐาน: σ=E[(X−μ)2]−−−−−−−−−−−√.σ=E[(X−μ)2].\sigma = \sqrt{E\left[\left(X - \mu\right)^2\right]}. เราไม่สามารถใช้ค่าสัมบูรณ์แทนได้และยังเป็นการวัดที่ดีหรือไม่? σ=E[|X−μ|]σ=E[|X−μ|]\sigma = E\left[|X - \mu|\right]

6
ความแตกต่างระหว่างความแปรปรวนกับค่าเบี่ยงเบนมาตรฐานคืออะไร
ฉันสงสัยว่าความแตกต่างระหว่างความแปรปรวนกับส่วนเบี่ยงเบนมาตรฐานคืออะไร หากคุณคำนวณค่าทั้งสองเป็นที่ชัดเจนว่าคุณได้ค่าเบี่ยงเบนมาตรฐานจากความแปรปรวน แต่นั่นหมายความว่าในแง่ของการกระจายที่คุณสังเกต นอกจากนี้ทำไมคุณต้องมีค่าเบี่ยงเบนมาตรฐานจริง ๆ

4
ความแตกต่างระหว่างข้อผิดพลาดมาตรฐานและค่าเบี่ยงเบนมาตรฐาน
ฉันพยายามเข้าใจถึงความแตกต่างระหว่างข้อผิดพลาดมาตรฐานและส่วนเบี่ยงเบนมาตรฐาน มันแตกต่างกันอย่างไรและทำไมคุณต้องวัดความผิดพลาดมาตรฐาน?

10
การทำความเข้าใจ“ ความแปรปรวน” อย่างสังหรณ์ใจ
อะไรคือวิธีที่สะอาดและง่ายที่สุดในการอธิบายแนวคิดเรื่องความแปรปรวนของใครบางคน? มันหมายถึงอะไรอย่างสังหรณ์ใจ? ถ้ามีใครอธิบายเรื่องนี้ให้ลูกฟัง มันเป็นแนวคิดที่ฉันมีปัญหาในการสื่อสาร - โดยเฉพาะอย่างยิ่งเมื่อเกี่ยวข้องกับความแปรปรวนกับความเสี่ยง ฉันเข้าใจในเชิงคณิตศาสตร์และสามารถอธิบายได้เช่นกัน แต่เมื่ออธิบายปรากฏการณ์ในโลกแห่งความเป็นจริงคุณจะทำให้คนหนึ่งเข้าใจถึงความแปรปรวนและการบังคับใช้ใน 'โลกแห่งความจริง' ได้อย่างไร สมมติว่าเรากำลังจำลองการลงทุนในหุ้นโดยใช้ตัวเลขสุ่ม (กลิ้งแม่พิมพ์หรือใช้แผ่นงาน Excel ไม่สำคัญ) เราได้รับผลตอบแทนจากการลงทุนโดยเชื่อมโยงแต่ละตัวแปรสุ่มกับ 'การเปลี่ยนแปลงบางอย่าง' ในผลตอบแทน เช่น.: การกลิ้ง 1 หมายถึงการเปลี่ยนแปลง 0.8 ต่อ$ 1 ในการลงทุน 5 การเปลี่ยนแปลง 1.1 ต่อ$ 1 และอื่น ๆ ตอนนี้หากการจำลองนี้ดำเนินการประมาณ 50 ครั้ง (หรือ 20 หรือ 100) เราจะได้รับค่าบางอย่างและมูลค่าสุดท้ายของการลงทุน ดังนั้น 'ความแปรปรวน' จริง ๆ แล้วบอกอะไรเราถ้าเราจะคำนวณจากชุดข้อมูลด้านบน สิ่งใดที่ "เห็น" - หากความแปรปรวนปรากฎเป็น 1.7654 …

4
ส่วนเบี่ยงเบนมาตรฐานเป็นอย่างไร
ฉันมีค่าเฉลี่ยรายเดือนสำหรับค่าและส่วนเบี่ยงเบนมาตรฐานที่สอดคล้องกับค่าเฉลี่ยนั้น ตอนนี้ฉันคำนวณค่าเฉลี่ยรายปีเป็นผลรวมของค่าเฉลี่ยรายเดือนฉันจะแสดงค่าเบี่ยงเบนมาตรฐานสำหรับค่าเฉลี่ยรวมได้อย่างไร ตัวอย่างเช่นการพิจารณาผลลัพธ์จากฟาร์มกังหันลม: Month MWh StdDev January 927 333 February 1234 250 March 1032 301 April 876 204 May 865 165 June 750 263 July 780 280 August 690 98 September 730 76 October 821 240 November 803 178 December 850 250 เราสามารถพูดได้ว่าในปีเฉลี่ยฟาร์มกังหันลมผลิต 10,358 MWh แต่ค่าเบี่ยงเบนมาตรฐานที่สอดคล้องกับรูปนี้คืออะไร?

3
เป็นส่วนเบี่ยงเบนมาตรฐานตัวอย่างทำไมประมาณการลำเอียงของ
จากบทความของ Wikipedia เกี่ยวกับการประมาณค่าเบี่ยงเบนมาตรฐานตัวอย่าง SD s = 1n - 1Σi = 1n( xผม- x¯¯¯)2---------------√s=1n−1∑i=1n(xi−x¯)2s = \sqrt{\frac{1}{n-1} \sum_{i=1}^n (x_i - \overline{x})^2} เป็นตัวประมาณอคติของ SD ของประชากร มันระบุว่า )E( s2--√) ≠ E( s2)-----√E(s2)≠E(s2)E(\sqrt{s^2}) \neq \sqrt{E(s^2)} NB ตัวแปรสุ่มมีความเป็นอิสระและแต่ละxผม∼ N( μ , σ2)xi∼N(μ,σ2)x_{i} \sim N(\mu,\sigma^{2}) คำถามของฉันคือสองเท่า: หลักฐานของความเอนเอียงคืออะไร? เราคำนวณความคาดหวังของค่าเบี่ยงเบนมาตรฐานตัวอย่างได้อย่างไร ความรู้ด้านคณิตศาสตร์ / สถิติของฉันอยู่ในระดับปานกลางเท่านั้น


3
การแปลความหมายของตัวทำนายการแปลงสภาพบันทึกและ / หรือการตอบสนอง
ฉันสงสัยว่ามันจะสร้างความแตกต่างในการตีความไม่ว่าจะเป็นเพียงขึ้นอยู่กับทั้งขึ้นอยู่กับและเป็นอิสระหรือตัวแปรอิสระเท่านั้นที่ถูกเปลี่ยนเข้าสู่ระบบ พิจารณากรณีของ log(DV) = Intercept + B1*IV + Error ฉันสามารถตีความ IV เป็นเปอร์เซ็นต์เพิ่มขึ้น แต่จะเปลี่ยนแปลงได้อย่างไรเมื่อฉันมี log(DV) = Intercept + B1*log(IV) + Error หรือเมื่อฉันมี DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

3
ค่าเบี่ยงเบนมาตรฐานบอกอะไรเราในการแจกแจงแบบไม่ปกติ
ในการแจกแจงแบบปกติกฎ 68-95-99.7ให้ค่าความเบี่ยงเบนมาตรฐานมีความหมายมากมาย แต่ค่าเบี่ยงเบนมาตรฐานจะมีความหมายอย่างไรในการแจกแจงแบบไม่ปกติ (Multimodal หรือเบ้) ค่าข้อมูลทั้งหมดจะยังคงอยู่ภายใน 3 ส่วนเบี่ยงเบนมาตรฐานหรือไม่ เรามีกฎเช่น 68-95-99.7 สำหรับการแจกแจงแบบไม่ปกติหรือไม่?

5
ความแตกต่างระหว่างประชากรกับกลุ่มตัวอย่างคืออะไร?
ความแตกต่างระหว่างประชากรกับกลุ่มตัวอย่างคืออะไร? มีตัวแปรและสถิติทั่วไปใดบ้างที่ใช้สำหรับแต่ละตัวและเกี่ยวข้องกันอย่างไร

11
ค่าเบี่ยงเบนสัมบูรณ์เฉลี่ยกับส่วนเบี่ยงเบนมาตรฐาน
ในหนังสือข้อความ"คณิตศาสตร์ที่ครอบคลุมแบบใหม่สำหรับระดับ O"โดยเกรียร์ (1983) ฉันเห็นการเบี่ยงเบนเฉลี่ยที่คำนวณดังนี้: สรุปความแตกต่างที่แน่นอนระหว่างค่าเดียวกับค่าเฉลี่ย จากนั้นรับค่าเฉลี่ย ตลอดบทที่ระยะเบี่ยงเบนเฉลี่ยจะใช้ แต่ฉันเพิ่งเห็นการอ้างอิงหลายอย่างที่ใช้ค่าเบี่ยงเบนมาตรฐานของคำศัพท์และนี่คือสิ่งที่พวกเขาทำ: คำนวณกำลังสองของความแตกต่างระหว่างค่าเดียวกับค่าเฉลี่ย จากนั้นรับค่าเฉลี่ยและในที่สุดก็เป็นรากของคำตอบ ฉันลองทั้งสองวิธีในชุดข้อมูลทั่วไปและคำตอบต่างกัน ฉันไม่ใช่นักสถิติ ฉันสับสนในขณะที่พยายามสอนการเบี่ยงเบนให้กับลูก ๆ ของฉัน ดังนั้นในระยะสั้นค่าเบี่ยงเบนมาตรฐานของคำศัพท์และค่าเบี่ยงเบนเฉลี่ยเท่ากันหรือเป็นตำราตำราเก่าของฉันหรือไม่

6
แบบจำลอง Bayesian ที่แข็งแกร่งสำหรับการประมาณขนาดของการแจกแจงแบบปกติเป็นอย่างไร
มีจำนวนของที่มีอยู่ประมาณที่แข็งแกร่งของขนาด เป็นตัวอย่างที่น่าสังเกตคือการเบี่ยงเบนสัมบูรณ์เฉลี่ยที่เกี่ยวข้องกับค่าเบี่ยงเบนมาตรฐานเป็นσ=MAD⋅1.4826σ=MAD⋅1.4826\sigma = \mathrm{MAD}\cdot1.4826 1.4826 ในกรอบการทำงานแบบเบย์มีหลายวิธีที่จะประเมินตำแหน่งของการกระจายตัวแบบปกติอย่างคร่าวๆ (เช่นการปนเปื้อนที่ผิดปกติโดยค่าผิดปกติ) ตัวอย่างเช่นใคร ๆ สามารถสันนิษฐานได้ว่าข้อมูลนั้นถูกแจกจ่าย ณ การแจกแจงหรือการแจก Laplace ตอนนี้คำถามของฉัน: แบบจำลองแบบเบย์สำหรับการวัดขนาดของการแจกแจงแบบปกติอย่างคร่าวๆในลักษณะที่แข็งแกร่งจะแข็งแกร่งในแง่เดียวกับ MAD หรือตัวประมาณที่คล้ายกัน เช่นเดียวกับกรณีของ MAD มันจะเป็นระเบียบถ้าโมเดล Bayesian สามารถเข้าใกล้ SD ของการแจกแจงแบบปกติในกรณีที่การกระจายของข้อมูลกระจายตามปกติ แก้ไข 1: ตัวอย่างทั่วไปของแบบจำลองที่มีความทนทานต่อการปนเปื้อน / ค่าผิดปกติเมื่อสมมติว่าข้อมูลyiYผมy_iเป็นเรื่องปกติประมาณใช้ในการแจกแจงเช่น: yi∼t(m,s,ν)Yผม~เสื้อ(ม.,s,ν)y_i \sim \mathrm{t}(m, s,\nu) โดยที่mม.mคือค่าเฉลี่ยsssคือขนาดและνν\nuคือระดับความอิสระ สำหรับนักบวชที่เหมาะสมบนm,sม.,sm, sและνν\nu , mม.mจะเป็นการประมาณค่าเฉลี่ยของyiYผมy_iที่จะทนทานต่อค่าผิดปกติ อย่างไรก็ตามsssจะไม่เป็นประมาณการที่สอดคล้องกันของ SD ของyiyiy_iเป็นsssขึ้นอยู่กับννν\nuตัวอย่างเช่นถ้าνν\nuจะได้รับการแก้ไขเป็น 4.0 และโมเดลด้านบนจะถูกติดตั้งกับตัวอย่างจำนวนมากจากการแจกแจงจากนั้น sจะอยู่ที่ประมาณ 0.82 สิ่งที่ฉันกำลังมองหาคือโมเดลที่แข็งแกร่งเช่นโมเดล t แต่สำหรับ SD แทนที่จะเป็น …

3
เป็นไปได้ไหมที่จะหาค่าเบี่ยงเบนมาตรฐานแบบรวม?
สมมติว่าฉันมี 2 ชุด: ชุด A : จำนวนรายการ , ,n = 10n=10n= 10μ = 2.4μ=2.4\mu = 2.4σ= 0.8σ=0.8\sigma = 0.8 ชุด B : จำนวนรายการ , ,n = 5n=5n= 5μ = 2μ=2\mu = 2σ= 1.2σ=1.2\sigma = 1.2 ฉันสามารถหาค่าเฉลี่ยรวม ( ) ได้อย่างง่ายดาย แต่ฉันควรจะหาค่าเบี่ยงเบนมาตรฐานแบบรวมได้อย่างไรμμ\mu

4
ข้อดีของการ Winsorizing กับการตัดแต่งข้อมูลคืออะไร
ข้อมูลการล้างข้อมูลหมายถึงการแทนที่ค่าสูงสุดของชุดข้อมูลด้วยค่าเปอร์เซ็นไทล์ที่แน่นอนจากปลายแต่ละด้านในขณะที่การตัดหรือตัดทอนนั้นเกี่ยวข้องกับการลบค่าสุดขีดเหล่านั้นออก ฉันมักจะเห็นวิธีการทั้งสองที่กล่าวถึงเป็นตัวเลือกที่ทำงานได้เพื่อลดผลกระทบของค่าผิดปกติเมื่อคำนวณสถิติเช่นค่าเฉลี่ยหรือส่วนเบี่ยงเบนมาตรฐาน แต่ฉันไม่เห็นว่าทำไมจึงมีวิธีหนึ่งที่เลือกได้ มีข้อดีหรือข้อเสียที่เกี่ยวข้องกับการใช้ Winsorizing หรือ Trimming หรือไม่? มีสถานการณ์บางอย่างที่จะใช้วิธีใดวิธีหนึ่งดีกว่า มีการใช้บ่อยครั้งในทางปฏิบัติหรือใช้แทนกันโดยทั่วไปหรือไม่?


โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.