ส่วนเบี่ยงเบนมาตรฐานเป็นอย่างไร


68

ฉันมีค่าเฉลี่ยรายเดือนสำหรับค่าและส่วนเบี่ยงเบนมาตรฐานที่สอดคล้องกับค่าเฉลี่ยนั้น ตอนนี้ฉันคำนวณค่าเฉลี่ยรายปีเป็นผลรวมของค่าเฉลี่ยรายเดือนฉันจะแสดงค่าเบี่ยงเบนมาตรฐานสำหรับค่าเฉลี่ยรวมได้อย่างไร

ตัวอย่างเช่นการพิจารณาผลลัพธ์จากฟาร์มกังหันลม:

Month        MWh     StdDev
January      927     333 
February     1234    250
March        1032    301
April        876     204
May          865     165
June         750     263
July         780     280
August       690     98
September    730     76
October      821     240
November     803     178
December     850     250

เราสามารถพูดได้ว่าในปีเฉลี่ยฟาร์มกังหันลมผลิต 10,358 MWh แต่ค่าเบี่ยงเบนมาตรฐานที่สอดคล้องกับรูปนี้คืออะไร?


3
การสนทนาต่อจากคำตอบที่ถูกลบไปแล้วในตอนนี้ตั้งข้อสังเกตถึงความกำกวมที่เป็นไปได้ในคำถามนี้: คุณค้นหา SD ของค่าเฉลี่ยรายเดือนหรือคุณต้องการกู้คืน SD ของค่าดั้งเดิมทั้งหมดที่ค่าเฉลี่ยเหล่านั้นถูกสร้างขึ้น การตอบนั้นยังชี้ให้เห็นอย่างถูกต้องว่าหากคุณต้องการสิ่งหลังคุณจะต้องมีจำนวนค่าที่เกี่ยวข้องในแต่ละค่าเฉลี่ยรายเดือน
whuber

1
ความคิดเห็นต่อคำตอบที่ถูกลบไปแล้วชี้ให้เห็นว่าเป็นเรื่องแปลกที่จะคำนวณค่าเฉลี่ยโดยรวม : แน่นอนคุณหมายความว่าคุณเฉลี่ยค่าเฉลี่ยรายเดือน แต่ถ้าสิ่งที่คุณต้องการคือการประมาณค่าเฉลี่ยของข้อมูลต้นฉบับทั้งหมดขั้นตอนดังกล่าวมักจะไม่ดี: จำเป็นต้องมีค่าเฉลี่ยถ่วงน้ำหนัก และแน่นอนว่าเป็นไปไม่ได้ที่จะให้คำตอบที่ดีสำหรับคำถามของคุณเกี่ยวกับ "SD สำหรับค่าเฉลี่ยสรุป" จนกว่าจะชัดเจนว่า "ค่าเฉลี่ยสรุป" คืออะไรและมีจุดประสงค์อะไรในการเป็นตัวแทน โปรดอธิบายให้ชัดเจนสำหรับเรา
whuber

@whuber ฉันได้เพิ่มตัวอย่างเพื่อชี้แจง ศาสตร์ผมเชื่อว่าผลรวมของค่าเฉลี่ยเท่ากับค่าเฉลี่ยรายเดือน
คูณ

2
ใช่ klonq นั่นเป็นคำขอที่สมเหตุสมผลมาก อย่างไรก็ตามคำตอบเหล่านี้ถูกลบโดยเจ้าของไม่ใช่ชุมชน เพื่อรักษาคุณค่าของพวกเขาฉันได้พยายามที่นี่เพื่อถ่ายทอดความคิดหลัก ๆ ที่เกิดขึ้นในการตอบกลับและความคิดเห็นของพวกเขาที่นี่ BTW การแก้ไขล่าสุดของคุณมีประโยชน์มาก: ผู้คนต้องการดูข้อมูลตัวอย่าง
whuber

1
ยินดีต้อนรับสู่เว็บไซต์ @Hayden นี่ไม่ใช่คำตอบสำหรับคำถามของ OP โปรดใช้ฟิลด์ "คำตอบของคุณ" เพื่อให้คำตอบเท่านั้น หากคุณมีคำถามติดตามคลิก[ASK QUESTION]ที่ด้านบนและถามคำถามจากนั้นเราจะช่วยคุณได้อย่างถูกต้อง เนื่องจากคุณใหม่ที่นี่คุณอาจต้องการเข้าชมทัวร์ของเราซึ่งมีข้อมูลสำหรับผู้ใช้ใหม่
gung - Reinstate Monica

คำตอบ:


66

คำตอบสั้น ๆ : คุณเฉลี่ยความแปรปรวน ; แล้วคุณสามารถใช้รากที่สองที่จะได้รับค่าเฉลี่ยส่วนเบี่ยงเบนมาตรฐาน


ตัวอย่าง

Month          MWh  StdDev  Variance
==========   =====  ======  ========
January        927    333     110889
February      1234    250      62500
March         1032    301      90601
April          876    204      41616
May            865    165      27225
June           750    263      69169
July           780    280      78400
August         690     98       9604
September      730     76       5776
October        821    240      57600
November       803    178      31684
December       850    250      62500
===========  =====  =======  =======
Total        10358            647564
÷12            863    232      53964

แล้วค่าเบี่ยงเบนมาตรฐานเฉลี่ยก็คือsqrt(53,964) = 232


จากผลรวมของตัวแปรสุ่มแบบกระจายปกติ :

ถ้าและเป็นตัวแปรสุ่มอิสระที่มีการแจกแจงแบบปกติXY

... ผลรวมของตัวแปรสุ่มแบบกระจายสองตัวที่เป็นอิสระเป็นเรื่องปกติโดยมีค่าเฉลี่ยเป็นผลรวมของสองค่าเฉลี่ยและความแปรปรวนเป็นผลรวมของความแปรปรวนสองแบบ

และจากการกระจายผลรวมปกติของ Wolfram Alpha :

น่าแปลกที่การกระจายของผลรวมของการแจกแจงแบบอิสระสองแบบคือและด้วยค่าเฉลี่ยและความแปรปรวนและตามลำดับเป็นการแจกแจงแบบปกติอีกอันหนึ่งXY(μX,σX2)(μY,σY2)

PX+Y(u)=12π(σX2+σY2)e[u(μX+μY)]2/[2(σX2+σY2)]

ซึ่งมีค่าเฉลี่ย

μX+Y=μX+μY

และความแปรปรวน

σX+Y2=σX2+σY2

สำหรับข้อมูลของคุณ:

  • รวม: 10,358 MWh
  • ความแปรปรวน: 647,564
  • ส่วนเบี่ยงเบนมาตรฐาน: 804.71 ( sqrt(647564) )

ป้อนคำอธิบายรูปภาพที่นี่

ดังนั้นเพื่อตอบคำถามของคุณ:

  • ส่วนเบี่ยงเบนมาตรฐานเป็นอย่างไร
  • คุณรวมพวกเขาเป็นกำลังสอง:

    s = sqrt(s1^2 + s2^2 + ... + s12^2)
    

แนวคิดคุณรวมผลต่างแล้วนำสแควร์รูทไปหาค่าเบี่ยงเบนมาตรฐาน


เพราะผมก็อยากรู้อยากเห็นฉันอยากจะรู้ว่าค่าเฉลี่ยรายเดือนเฉลี่ยพลังงานและค่าเบี่ยงเบนมาตรฐาน ด้วยการเหนี่ยวนำเราต้องการ 12 การแจกแจงปกติซึ่ง:

  • รวมกับค่าเฉลี่ยของ 10,358
  • ผลรวมของความแปรปรวนของ 647,564

นั่นจะเป็นการแจกแจงเฉลี่ย 12 ครั้งต่อเดือนของ:

  • ค่าเฉลี่ยของ 10,358/12 = 863.16
  • ความแปรปรวนของ 647,564/12 = 53,963.6
  • ค่าเบี่ยงเบนมาตรฐานของ sqrt(53963.6) = 232.3

ป้อนคำอธิบายรูปภาพที่นี่

เราสามารถตรวจสอบการแจกแจงเฉลี่ยรายเดือนของเราโดยการเพิ่มพวกเขาขึ้น 12 ครั้งเพื่อดูว่าพวกเขาเท่ากับการกระจายรายปี:

  • ค่าเฉลี่ย: 863.16*12 = 10358 = 10,358( ถูกต้อง )
  • ความแปรปรวน: 53963.6*12 = 647564 = 647,564( ถูกต้อง )

หมายเหตุ : ฉันจะปล่อยให้ใครบางคนที่มีความรู้เกี่ยวกับคณิตศาสตร์ลาเท็กซ์ลึกลับที่จะแปลงภาพสูตรของฉันและformula codeเป็นสูตรที่จัดรูปแบบสแต็กการแลกเปลี่ยน

แก้ไข : ฉันย้ายสั้นไปยังจุดที่ตอบขึ้นด้านบน เพราะผมจำเป็นต้องทำเช่นนี้อีกครั้งในวันนี้ แต่ต้องการที่จะตรวจสอบอีกครั้งที่ฉันเฉลี่ยแปรปรวน


3
ดูเหมือนว่าทั้งหมดนี้จะถือว่าเดือนไม่เกี่ยวข้องกัน - คุณได้ทำสมมติฐานดังกล่าวอย่างชัดเจนทุกที่แล้วหรือยัง? นอกจากนี้ทำไมเราต้องนำการกระจายแบบปกติมาด้วย? หากเรากำลังพูดถึงความแปรปรวนเท่านั้นดูเหมือนว่าไม่จำเป็นตัวอย่างเช่นดูคำตอบของฉันที่นี่
มาโคร

1
@Marco เพราะฉันคิดว่ารูปภาพดีขึ้นและทำให้ทุกอย่างเข้าใจง่ายขึ้น
Ian Boyd

2
@Marco นอกจากนี้ฉันเชื่อว่าคำถามนี้เริ่มต้นในเว็บไซต์ stats.stackexchange (หมดอายุแล้ว) ผนังของสูตรนี้สามารถเข้าถึงได้น้อยกว่าที่เรียบง่าย, กราฟิก, การรักษาอย่างเข้มงวดน้อย
เอียนบอยด์

2
ฉันสงสัยว่านี่ถูกต้อง ลองนึกภาพชุดข้อมูลสองชุดโดยแต่ละชุดมีการวัดเพียงชุดเดียว ความแปรปรวนของแต่ละชุดคือ 0 แต่ชุดของการวัดทั้งสองนั้นมีความแปรปรวนมากกว่า 0 ถ้าจุดข้อมูลต่างกัน
Njol

1
@Nol ฉันคิดว่านั่นเป็นสาเหตุที่เราถือว่าตัวแปรทั้งหมดมีการแจกแจงแบบปกติ และเราสามารถทำสิ่งนี้ได้เพราะเราพูดถึงการวัดแบบฟิสิคอล ในตัวอย่างของคุณตัวแปรทั้งสองจะไม่กระจายตามปกติ
tworec

11

นี่เป็นคำถามเก่า แต่คำตอบที่ยอมรับนั้นไม่ถูกต้องหรือสมบูรณ์ ผู้ใช้ต้องการคำนวณส่วนเบี่ยงเบนมาตรฐานสำหรับข้อมูล 12 เดือนซึ่งค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานจะถูกคำนวณไปแล้วในแต่ละเดือน สมมติว่าจำนวนตัวอย่างในแต่ละเดือนเท่ากันดังนั้นจึงเป็นไปได้ที่จะคำนวณค่าเฉลี่ยตัวอย่างและความแปรปรวนของปีจากข้อมูลของแต่ละเดือน เพื่อความง่ายสมมติว่าเรามีชุดข้อมูลสองชุด:

X={x1,....xN}

Y={y1,....,yN}

ที่มีค่าที่เป็นที่รู้จักของกลุ่มตัวอย่างเฉลี่ยและตัวอย่างแปรปรวน , , , \μxμyσx2σy2

ตอนนี้เราต้องการคำนวณค่าประมาณเดียวกันสำหรับ

Z={x1,....,xN,y1,...,yN}\}

พิจารณาว่า ,ถูกคำนวณดังนี้:μxσx2

μx=i=1NxiN

σx2=i=1Nxi2Nμx2

ในการประเมินค่าเฉลี่ยและความแปรปรวนของชุดทั้งหมดเราจำเป็นต้องคำนวณ:

μz=i=1Nxi+i=1Nyi2N=(μx+μy)/2 ซึ่งให้ไว้ในคำตอบที่ยอมรับ สำหรับความแปรปรวนอย่างไรก็ตามเรื่องราวแตกต่าง:

σz2=i=1Nxi2+i=1Nyi22Nμz2

σz2=12(i=1Nxi2Nμx2+i=1Nyi2Nμy2)+12(μx2+μy2)(μx+μy2)2

σz2=12(σx2+σy2)+(μxμy2)2

ดังนั้นหากคุณมีความแปรปรวนของแต่ละชุดย่อยและคุณต้องการความแปรปรวนของชุดทั้งชุดคุณสามารถหาค่าความแปรปรวนของแต่ละชุดย่อยได้หากชุดนั้นมีค่าเฉลี่ยเท่ากัน มิฉะนั้นคุณต้องเพิ่มความแปรปรวนของค่าเฉลี่ยของแต่ละชุดย่อย

สมมติว่าในช่วงครึ่งแรกของปีเราผลิต 1,000 เมกะวัตต์ชั่วโมงต่อวันและในครึ่งวินาทีเราผลิต 2,000 เมกะวัตต์ชั่วโมงต่อวัน ดังนั้นค่าเฉลี่ยและความแปรปรวนของการผลิตพลังงานในครึ่งแรกและวินาทีครึ่งคือ 1,000 และ 2000 สำหรับค่าเฉลี่ยและความแปรปรวนคือ 0 สำหรับทั้งสองครึ่ง ขณะนี้มีสองสิ่งที่แตกต่างที่เราอาจสนใจ:

1- เราต้องการคำนวณความแปรปรวนของการผลิตพลังงานตลอดทั้งปี : โดยเฉลี่ยแล้วความแปรปรวนสองครั้งที่เรามาถึงศูนย์ซึ่งไม่ถูกต้องเนื่องจากพลังงานต่อวันตลอดทั้งปีไม่คงที่ ในกรณีนี้เราต้องเพิ่มความแปรปรวนของค่าเฉลี่ยทั้งหมดจากแต่ละชุดย่อย ในทางคณิตศาสตร์ในกรณีนี้ตัวแปรสุ่มที่น่าสนใจคือการผลิตพลังงานต่อวัน เรามีสถิติตัวอย่างมากกว่าชุดย่อยและเราต้องการคำนวณสถิติตัวอย่างเป็นเวลานาน

2- เราต้องการคำนวณความแปรปรวนของการผลิตพลังงานต่อปี:กล่าวอีกนัยหนึ่งเราสนใจที่จะเปลี่ยนแปลงการผลิตพลังงานจากปีหนึ่งไปอีกปีหนึ่ง ในกรณีนี้ค่าเฉลี่ยความแปรปรวนนำไปสู่คำตอบที่ถูกต้องซึ่งก็คือ 0 เนื่องจากในแต่ละปีเรามีการผลิตเฉลี่ย 1500 MHW อย่างแน่นอน ในทางคณิตศาสตร์ในกรณีนี้ตัวแปรสุ่มที่น่าสนใจคือค่าเฉลี่ยของการผลิตพลังงานต่อวันที่ค่าเฉลี่ยจะทำตลอดทั้งปี


1

ฉันเชื่อว่าสิ่งที่คุณอาจสนใจจริงๆคือข้อผิดพลาดมาตรฐานแทนที่จะเป็นค่าเบี่ยงเบนมาตรฐาน

ข้อผิดพลาดมาตรฐานของค่าเฉลี่ย (SEM) คือค่าเบี่ยงเบนมาตรฐานของการประมาณค่าเฉลี่ยตัวอย่างของค่าเฉลี่ยประชากรและนั่นจะทำให้คุณเห็นว่าการประมาณการ MWh ต่อปีของคุณดีแค่ไหน

มันง่ายมากที่จะคำนวณ: ถ้าคุณใช้ตัวอย่างเพื่อรับค่าเฉลี่ย MWh รายเดือนและส่วนเบี่ยงเบนมาตรฐานคุณจะคำนวณค่าเบี่ยงเบนมาตรฐานตามที่ @IanBoyd แนะนำและทำให้เป็นมาตรฐานตามขนาดตัวอย่างทั้งหมด นั่นคือn

s=s12+s22++s12212×n

1

ฉันต้องการเน้นความไม่ถูกต้องอีกครั้งในส่วนของคำตอบที่ยอมรับ ถ้อยคำของคำถามนำไปสู่ความสับสน

คำถามนั้นมีค่าเฉลี่ยและค่า StdDev ของแต่ละเดือน แต่ก็ไม่มีความชัดเจนว่าจะใช้ชุดย่อยประเภทใด มันเฉลี่ยกังหันลม 1 แห่งของฟาร์มทั้งหมดหรือเฉลี่ยต่อวันของฟาร์มทั้งหมดหรือไม่ หากเป็นค่าเฉลี่ยรายวันของแต่ละเดือนคุณไม่สามารถเพิ่มค่าเฉลี่ยรายเดือนเพื่อรับค่าเฉลี่ยรายปีเพราะค่าเหล่านี้ไม่มีตัวส่วนเดียวกัน หากเป็นค่าเฉลี่ยของหน่วยคำถามควรระบุ

เราสามารถพูดได้ว่าในแต่ละปีกังหันลมในฟาร์มกังหันลมจะผลิต 10,358 MWh ...

แทน

เราสามารถพูดได้ว่าในปีเฉลี่ยฟาร์มกังหันลมผลิต 10,358 MWh, ...

ยิ่งไปกว่านั้นส่วนเบี่ยงเบนมาตรฐานหรือความแปรปรวนคือการเปรียบเทียบกับค่าเฉลี่ยของชุด ไม่มีข้อมูลใด ๆ เกี่ยวกับค่าเฉลี่ยของทั้งชุด

ตัวอย่างความแปรปรวน

รูปภาพไม่จำเป็นต้องถูกต้องมากนัก แต่มันสื่อถึงความคิดทั่วไป ลองจินตนาการถึงผลลัพธ์ของฟาร์มกังหันลม 1 แห่งตามภาพ อย่างที่คุณเห็นความแปรปรวน "ท้องถิ่น" ไม่มีอะไรเกี่ยวข้องกับความแปรปรวน "โลก" ไม่ว่าคุณจะเพิ่มหรือทวีคูณอย่างไร คุณไม่สามารถทำนายความแปรปรวนของปีโดยใช้ความแปรปรวนของ 2 ครึ่งปี ดังนั้นในคำตอบที่ได้รับการยอมรับในขณะที่การคำนวณผลรวมนั้นถูกต้องการหารด้วย 12 เพื่อให้ได้ตัวเลขรายเดือนนั้นไม่มีความหมาย . ในส่วนสามส่วนส่วนแรกและส่วนสุดท้ายผิดส่วนที่สองนั้นถูกต้อง

อีกครั้งมันเป็นแอปพลิเคชันที่ผิดมากโปรดอย่าทำตามเพราะจะทำให้คุณเดือดร้อน เพียงคำนวณสำหรับสิ่งทั้งหมดโดยใช้ผลรวมรายปี / รายเดือนของแต่ละหน่วยเป็นจุดข้อมูลขึ้นอยู่กับว่าคุณต้องการหมายเลขรายปีหรือรายเดือนนั่นควรเป็นคำตอบที่ถูกต้อง คุณอาจต้องการอะไรแบบนี้ นี่คือตัวเลขที่สร้างแบบสุ่มของฉัน หากคุณมีข้อมูลผลลัพธ์ในเซลล์ O2 ควรเป็นคำตอบของคุณ

ป้อนคำอธิบายรูปภาพที่นี่


ขอบคุณมากสำหรับภาพที่ช่วยให้ฉันเข้าใจมากว่าทำไมคำตอบที่ยอมรับไม่สมบูรณ์และอาจผิดไปด้วยซ้ำ คุณอธิบายได้ดีมากขอบคุณ!
Kay

นี่แสดงให้เห็นถึงอันตรายของการลงคะแนน คนที่ลงคะแนนคือคนที่ไม่ทราบคำตอบ ตรงกันข้ามกับการเข้ารหัสคนที่ลงคะแนนคือคนที่ได้รหัสทำงานยิ่งโหวตมากเท่าไหร่คำตอบก็ยิ่งดีเท่านั้น สำหรับสถิติ / คณิตศาสตร์การโหวตมากขึ้นเท่านั้นหมายความว่าเป็นการดึงดูดมากกว่า
Tam Le
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.