เหตุใดจึงไม่นิยามความแปรปรวนเป็นความแตกต่างระหว่างทุกค่าที่ติดตามซึ่งกันและกัน


19

นี่อาจเป็นคำถามง่าย ๆ สำหรับหลาย ๆ คน แต่ที่นี่คือ:

เหตุใดจึงไม่ได้กำหนดความแปรปรวนเป็นความแตกต่างระหว่างทุกค่าที่ติดตามกันแทนที่จะแตกต่างกับค่าเฉลี่ยของค่า

นี่จะเป็นตัวเลือกที่สมเหตุสมผลกว่าสำหรับฉันฉันคิดว่าฉันกำลังดูแลข้อเสียอยู่บ้าง ขอบคุณ

แก้ไข:

ให้ฉันใช้ถ้อยคำใหม่อย่างชัดเจนที่สุด นี่คือสิ่งที่ฉันหมายถึง:

  1. สมมติว่าคุณมีตัวเลขเรียงตามลำดับ: 1,2,3,4,5
  2. คำนวณและสรุปผลต่าง (ค่าสัมบูรณ์) (อย่างต่อเนื่องระหว่างทุกค่าต่อไปนี้ไม่ใช่คู่) ระหว่างค่า (โดยไม่ใช้ค่าเฉลี่ย)
  3. หารด้วยจำนวนความแตกต่าง
  4. (การติดตามผล: คำตอบจะแตกต่างกันหรือไม่หากตัวเลขยังไม่ได้รับคำสั่ง)

-> อะไรคือข้อเสียของวิธีการนี้เมื่อเทียบกับสูตรมาตรฐานสำหรับความแปรปรวน?


1
คุณอาจสนใจที่จะอ่านเกี่ยวกับออโตคอร์เรชั่น (เช่นstats.stackexchange.com/questions/185521/… )
ทิม

2
@ user2305193 คำตอบของ whuber นั้นถูกต้อง แต่สูตรของเขาใช้ระยะห่างกำลังสองระหว่างการเรียงลำดับข้อมูลและค่าเฉลี่ยของการเรียงลำดับทั้งหมด เคล็ดลับเรียบร้อยอย่างไรก็ตามกระบวนการค้นหาความแปรปรวนที่คุณระบุไว้เป็นสิ่งที่ฉันพยายามนำมาใช้ในคำตอบของฉันและการสาธิตจะไม่ทำงานที่ดี พยายามที่จะล้างความสับสน
Greenparker

1
เพื่อความสนุกสนานค้นหาอัลลันความแปรปรวน
ฮอบส์

ในความคิดอื่นฉันเดาว่าเนื่องจากคุณไม่มีความแตกต่างกำลังสอง (และคุณไม่ต้องใช้สแควร์รูทหลังจากนั้น) แต่ใช้ค่าสัมบูรณ์แน่นอนนี่ควรจะค่อนข้าง 'ทำไมนี่ไม่ใช่วิธีที่เราคำนวณค่าเบี่ยงเบนมาตรฐาน' แทนที่จะเป็น 'ทำไมนี่จึงไม่ใช่วิธีที่เราคำนวณความแปรปรวน' แต่ฉันจะพักผ่อนในเวลานี้
user2305193

คำตอบ:


27

เหตุผลที่ชัดเจนที่สุดคือบ่อยครั้งที่ไม่มีลำดับเวลาในค่าต่างๆ ดังนั้นหากคุณสับสนข้อมูลมันก็ไม่ได้สร้างความแตกต่างในข้อมูลที่ถ่ายทอดโดยข้อมูล หากเราปฏิบัติตามวิธีการของคุณทุกครั้งที่คุณสับสนข้อมูลที่คุณได้รับความแปรปรวนตัวอย่างที่แตกต่างกัน

คำตอบเชิงทฤษฎีมากขึ้นคือความแปรปรวนตัวอย่างประมาณความแปรปรวนที่แท้จริงของตัวแปรสุ่ม ความแปรปรวนที่แท้จริงของตัวแปรสุ่มคือ E [ ( X - E X ) 2 ]X

E[(X-EX)2].

นี่หมายถึงความคาดหวังหรือ "ค่าเฉลี่ย" ดังนั้นนิยามของความแปรปรวนคือระยะห่างกำลังสองเฉลี่ยระหว่างตัวแปรจากค่าเฉลี่ย เมื่อคุณดูคำจำกัดความนี้จะไม่มี "ลำดับเวลา" ที่นี่เนื่องจากไม่มีข้อมูล มันเป็นเพียงคุณสมบัติของตัวแปรสุ่มE

เมื่อคุณเก็บรวบรวมข้อมูลจากการกระจาย IID นี้คุณมีความเข้าใจ n วิธีที่ดีที่สุดในการประเมินความคาดหวังคือการใช้ค่าเฉลี่ยตัวอย่าง กุญแจสำคัญในที่นี้คือเราได้รับข้อมูล iid ดังนั้นจึงไม่มีการสั่งซื้อข้อมูล ตัวอย่างx 1 , x 2 , ... , x nเป็นเช่นเดียวกับตัวอย่างx 2 , x 5 , x 1 , x n .x1,x2,...,xnx1,x2,...,xnx2,x5,x1,xn..

แก้ไข

ความแปรปรวนของตัวอย่างเป็นการวัดการกระจายตัวแบบเฉพาะสำหรับตัวอย่างชนิดที่วัดระยะทางเฉลี่ยจากค่าเฉลี่ย มีการกระจายแบบอื่นเช่นช่วงข้อมูลและช่วง Inter-Quantile

แม้ว่าคุณจะเรียงลำดับตามลำดับจากน้อยไปมาก แต่ก็ไม่ได้เปลี่ยนลักษณะของตัวอย่าง ตัวอย่าง (ข้อมูล) ที่คุณได้รับคือการรับรู้จากตัวแปร การคำนวณความแปรปรวนตัวอย่างนั้นคล้ายกับการเข้าใจว่าการกระจายตัวอยู่ในตัวแปรเท่าใด ตัวอย่างเช่นถ้าคุณสุ่มตัวอย่าง 20 คนและคำนวณความสูงของพวกเขาแล้วนั่นคือ 20 "การรับรู้" จากตัวแปรสุ่มความสูงของคน ตอนนี้ความแปรปรวนตัวอย่างควรจะวัดความแปรปรวนในความสูงของบุคคลทั่วไป หากคุณสั่งซื้อข้อมูล 100 , 110 , 123 , 124 , ,X=

100,110,123,124,...,

ที่ไม่เปลี่ยนแปลงข้อมูลในตัวอย่าง

ให้ดูอีกตัวอย่างหนึ่ง ช่วยบอกว่าคุณมี 100 ข้อสังเกตจากตัวแปรสุ่มสั่งซื้อในลักษณะนี้จากนั้นระยะทางเฉลี่ยต่อมาคือ 1 หน่วยดังนั้นโดยวิธีการของคุณความแปรปรวนจะเป็น 1

1,2,3,4,5,6,7,8,9,10,11,12,13,14,...100.

วิธีการตีความ "ความแปรปรวน" หรือ "การกระจาย" คือการเข้าใจช่วงของค่าที่เป็นไปได้สำหรับข้อมูล ในกรณีนี้คุณจะได้รับช่วง. 99 หน่วยซึ่งแน่นอนไม่ได้เป็นตัวแทนของการเปลี่ยนแปลงที่ดี

หากแทนที่จะใช้ค่าเฉลี่ยคุณเพียงแค่รวมความแตกต่างที่ตามมาความแปรปรวนของคุณจะเท่ากับ 99 แน่นอนว่าไม่ได้แสดงถึงความแปรปรวนในตัวอย่างเพราะ 99 ให้ช่วงของข้อมูลไม่ใช่ความแปรปรวน


1
ด้วยย่อหน้าสุดท้ายที่คุณเอื้อมมาหาฉันฮ่าฮ่าขอบคุณสำหรับคำตอบที่ทำให้งุนงงนี้ฉันหวังว่าฉันจะมีตัวแทนมากพอที่จะอัปโหลดมันได้โปรดผู้คนทำเพื่อฉัน ;-) ได้รับการยอมรับ !!!
user2305193

การติดตามผล: สิ่งที่ฉันหมายถึงจริงๆ (ใช่ขอโทษฉันเพิ่งรู้คำถามที่ถูกต้องหลังจากอ่านคำตอบของคุณ) คือคุณสรุปความแตกต่างและหารด้วยจำนวนตัวอย่าง ในตัวอย่างสุดท้ายของคุณที่จะเป็น 99/100 - คุณสามารถอธิบายรายละเอียดเกี่ยวกับเรื่องนี้ได้ไหม?
user2305193

@ user2305193 ใช่ฉันพูด 1 หน่วยโดยเฉลี่ยซึ่งไม่ถูกต้อง ควรมี 0.99 หน่วย เปลี่ยนแล้ว
Greenparker

สำหรับข้อมูลเพิ่มเติมเกี่ยวกับชุด 1-100: ความแปรปรวนใน 1-100 จะ 841.7 และค่าเบี่ยงเบนมาตรฐาน 29.01 แหล่งที่มา ดังนั้นผลลัพธ์ที่ต่างออกไป
user2305193

31

มันถูกกำหนดไว้อย่างนั้น!

นี่คือพีชคณิต ให้ค่าเป็น ) แสดงว่าโดยFฟังก์ชันการกระจายเชิงประจักษ์ค่าเหล่านี้ (ซึ่งหมายความว่าแต่ละx ฉันก่อมวลน่าจะเป็นของ1 / nที่ค่าx ฉัน ) และปล่อยให้XและYเป็นตัวแปรสุ่มอิสระที่มีการกระจายF โดยอาศัยคุณสมบัติพื้นฐานของความแปรปรวน (กล่าวคือมันเป็นรูปสี่เหลี่ยมกำลังสอง) เช่นเดียวกับความหมายของFและความจริงx=(x1,x2,,xn)Fxi1/nxiXYFFและ Yมีค่าเฉลี่ยเท่ากันXY

Var(x)=Var(X)=12(Var(X)+Var(Y))=12(Var(XY))=12(E((XY)2)E(XY)2)=E(12(XY)2)0=1n2i,j12(xixj)2.

สูตรนี้ไม่ได้ขึ้นอยู่กับวิธีการจัดเรียง : ใช้คู่ที่เป็นไปได้ทั้งหมดของการเปรียบเทียบโดยใช้ความแตกต่างกำลังสองครึ่ง มันสามารถ แต่จะเกี่ยวข้องกับค่าเฉลี่ยในช่วง orderings เป็นไปได้ทั้งหมด (กลุ่มS ( n )ทุกn !พีชคณิตดัชนี1 , 2 , ... , n ) กล่าวคือxS(n)n!1,2,,n

Var(x)=1n2i,j12(xixj)2=1n!σS(n)1ni=1n112(xσ(i)xσ(i+1))2.

การรวมภายในนั้นจะใช้ค่าที่เรียงลำดับใหม่และผลรวมความแตกต่างกำลังสองครึ่ง (ครึ่ง) ระหว่างคู่ที่ต่อเนื่องกันทั้งหมดn - 1 ส่วนโดยnหลักเฉลี่ยเหล่านี้แตกต่าง Squared เนื่อง มันคำนวณสิ่งที่เป็นที่รู้จักในฐานะล่าช้า 1 semivariance บวกด้านนอกไม่นี้สำหรับ orderingsxσ(1),xσ(2),,xσ(n)n1n


มุมมองเชิงพีชคณิตที่เทียบเท่ากันทั้งสองนี้ของสูตรความแปรปรวนมาตรฐานให้ข้อมูลเชิงลึกใหม่เกี่ยวกับความแปรปรวน ความแปรปรวนร่วมคือการวัดผกผันของความแปรปรวนร่วมอนุกรมของลำดับ: ความแปรปรวนร่วมสูง (และตัวเลขมีความสัมพันธ์เชิงบวก) เมื่อความแปรปรวนต่ำและตรงกันข้าม ความแปรปรวนของชุดข้อมูลที่ไม่ได้เรียงลำดับจึงเป็นค่าเฉลี่ยของ semivariance ที่เป็นไปได้ทั้งหมดที่หาได้ภายใต้การจัดลำดับใหม่โดยพลการ


1
@ Mur1lo ตรงกันข้าม: ฉันเชื่อว่ามานี้ถูกต้อง ใช้สูตรกับข้อมูลและดู!
whuber

1
ฉันคิดว่า Mur1lo อาจไม่ได้พูดถึงความถูกต้องของสูตรสำหรับความแปรปรวน แต่เห็นได้ชัดว่าผ่านโดยตรงจากความคาดหวังของตัวแปรสุ่มไปยังฟังก์ชันของปริมาณตัวอย่าง
Glen_b -Reinstate Monica

1
@glen แต่นั่นคือสิ่งที่ฟังก์ชั่นการกระจายเชิงประจักษ์ช่วยให้เราทำ นั่นคือประเด็นทั้งหมดของแนวทางนี้
whuber

3
ใช่นั่นชัดเจนสำหรับฉัน ฉันพยายามชี้ให้เห็นว่าความสับสนดูเหมือนจะอยู่ตรงไหน ขออภัยที่จะคลุมเครือ หวังว่ามันชัดเจนขึ้นแล้วตอนนี้ทำไมมันจึงดูเหมือนว่าเป็นปัญหาเท่านั้น* (นี่คือสาเหตุที่ฉันใช้คำว่า "ชัดเจน" ก่อนหน้านี้เพื่อเน้นว่ามันเป็นเพียงการปรากฏตัวนอกบริบทของขั้นตอนนั้นที่น่าจะเป็นต้นเหตุของความสับสน)
Glen_b

2
@ Mur1o สิ่งเดียวที่ฉันได้ทำในสมการเหล่านี้คือการใช้คำจำกัดความ ไม่มีการส่งผ่านจากความคาดหวังถึง "ปริมาณตัวอย่าง" (โดยเฉพาะอย่างยิ่งไม่มีตัวอย่างของถูกวางหรือใช้) ดังนั้นฉันไม่สามารถระบุได้ว่าปัญหาที่ชัดเจนคืออะไรและไม่แนะนำให้อธิบายทางเลือกอื่น หากคุณสามารถขยายความกังวลของคุณได้ฉันอาจตอบกลับได้ F
whuber

11

เพียงเติมเต็มให้กับคำตอบอื่น ๆ ความแปรปรวนสามารถคำนวณได้เป็นความแตกต่างยกกำลังสองระหว่างคำ:

Var(X)=12n2injn(xixj)2=12n2injn(xix¯xj+x¯)2=12n2injn((xix¯)(xjx¯))2=1nin(xix¯)2

ฉันคิดว่านี่เป็นข้อเสนอที่ใกล้เคียงที่สุดกับ OP โปรดจำไว้ว่าความแปรปรวนเป็นการวัดการกระจายตัวของการสังเกตการณ์ทุกครั้งในเวลาเดียวกันไม่เพียง แต่ระหว่างตัวเลข "เพื่อนบ้าน" ในชุด


UPDATE

X=1,2,3,4,5Var(X)=2

Var(X)=1

Var(X)==(51)2+(52)2+(53)2+(54)2+(55)2+(41)2+(42)2+(43)2+(44)2+(45)2+(31)2+(32)2+(33)2+(34)2+(35)2+(21)2+(22)2+(23)2+(24)2+(25)2+(11)2+(12)2+(13)2+(14)2+(15)2252==16+9+4+1+9+4+1+1+4+1+1+4+1+1+4+9+1+4+9+1650==2

Now I'm seriously confused guys
user2305193

@user2305193 In your question, did you mean every pairwise difference or did you mean the difference between a value and the next in a sequence? Could you please clarify?
Firebug

2
@Mur1lo no one is though, I have no idea what you're referring to.
Firebug

2
@Mur1lo This is a general question, and I answered it generally. Variance is a computable parameter, which can be estimated from samples. This question isn't about estimation though. Also we are talking about discrete sets, not about continuous distributions.
Firebug

1
You showed how to estimate the variance by its U-statistic and its fine. The problem is when you write: Var("upper case"X) = things involving "lower case" x, you are mixing the two different notions of parameter and of estimator.
Mur1lo

6

Others have answered about the usefulness of variance defined as usual. Anyway, we just have two legitimate definitions of different things: the usual definition of variance, and your definition.

Then, the main question is why the first one is called variance and not yours. That is just a matter of convention. Until 1918 you could have invented anything you want and called it "variance", but in 1918 Fisher used that name to what is still called variance, and if you want to define anything else you will need to find another name to name it.

The other question is if the thing you defined might be useful for anything. Others have pointed its problems to be used as a measure of dispersion, but it's up to you to find applications for it. Maybe you find so useful applications that in a century your thing is more famous than variance.


I know every definition is up to the people deciding on it, I really was looking for help in up/downsides for each approaches. Usually there's good reason for people converging to a definition and as I suspected didn't see why straight away.
user2305193

1
Fisher introduced variance as a term in 1918 but the idea is older.
Nick Cox

As far as I know, Fisher was the first one to use the name "variance" for variance. That's why I say that before 1918 you could have use "variance" to name anything else you had invented.
Pere

3

@GreenParker คำตอบนั้นมีความสมบูรณ์มากกว่า แต่ตัวอย่างที่เข้าใจง่ายอาจมีประโยชน์ในการอธิบายข้อเสียของวิธีการของคุณ

ในคำถามของคุณดูเหมือนว่าลำดับของการรับรู้ตัวแปรสุ่มปรากฏขึ้น อย่างไรก็ตามมันเป็นเรื่องง่ายที่จะคิดตัวอย่างที่มันไม่

ลองพิจารณาตัวอย่างของความสูงของบุคคลในประชากร ลำดับที่บุคคลถูกวัดนั้นไม่เกี่ยวข้องกับทั้งความสูงเฉลี่ยในประชากรและความแปรปรวน (การกระจายค่าเหล่านั้นรอบค่าเฉลี่ย) อย่างไร

วิธีการของคุณดูเหมือนจะแปลกไปกับกรณีเช่นนี้


2

แม้ว่าจะมีคำตอบที่ดีมากมายสำหรับคำถามนี้ฉันเชื่อว่าประเด็นสำคัญบางอย่างที่ถูกทิ้งไว้เบื้องหลังและเนื่องจากคำถามนี้เกิดขึ้นกับจุดที่น่าสนใจจริง ๆ ฉันจึงอยากจะให้มุมมองอื่น

Why isn't variance defined as the difference between every value following    
each other instead of the difference to the average of the values?

สิ่งแรกที่ต้องคำนึงถึงคือความแปรปรวนเป็นพารามิเตอร์ชนิดหนึ่งไม่ใช่การคำนวณบางประเภท มีคำจำกัดความทางคณิตศาสตร์ที่เข้มงวดว่าพารามิเตอร์คืออะไร แต่ในตอนนี้เราสามารถคิดได้ว่าเป็นการดำเนินการทางคณิตศาสตร์เกี่ยวกับการแจกแจงของตัวแปรสุ่ม ตัวอย่างเช่นถ้าX เป็นตัวแปรสุ่มที่มีฟังก์ชั่นการกระจาย FX จากนั้นมันหมายถึง μxซึ่งเป็นพารามิเตอร์ก็คือ:

μX=-+xdFX(x)

และความแปรปรวนของ X, σX2, คือ:

σX2=-+(x-μX)2dFX(x)

บทบาทของการประมาณค่าทางสถิติคือการจัดเตรียมชุดการรับรู้ของ rv ซึ่งเป็นการประมาณที่ดีสำหรับพารามิเตอร์ที่น่าสนใจ

What I wanted to show is that there is a big difference in the concepts of a parameters (the variance for this particular question) and the statistic we use to estimate it.

Why isn't the variance calculated this way?

So we want to estimate the variance of a random variable X from a set of independent realizations of it, lets say x={x1,,xn}. The way you propose doing it is by computing the absolute value of successive differences, summing and taking the mean:

ψ(x)=1ni=2n|xixi1|

and the usual statistic is:

S2(x)=1n1i=in(xix¯)2,

where x¯ is the sample mean.

When comparing two estimator of a parameter the usual criterion for the best one is that which has minimal mean square error (MSE), and a important property of MSE is that it can be decomposed in two components:

MSE = estimator bias + estimator variance.

Using this criterion the usual statistic, S2, has some advantages over the one you suggests.

  • First it is a unbiased estimator of the variance but your statistic is not unbiased.

  • One other important thing is that if we are working with the normal distribution then S2 is the best unbiased estimator of σ2 in the sense that it has the smallest variance among all unbiased estimators and thus minimizes the MSE.

When normality is assumed, as is the case in many applications, S2 is the natural choice when you want to estimate the variance.


3
Everything in this answer is well explained, correct, and interesting. However, introducing the "usual statistic" as an estimator confuses the issue, because the question is not about estimation, nor about bias, nor about the distinction between 1/n and 1/(n1). That confusion might be at the root of your comments to several other answers in this thread.
whuber


1

Lots of good answers here, but I'll add a few.

  1. The way it is defined now has proven useful. For example, normal distributions appear all the time in data and a normal distribution is defined by its mean and variance. Edit: as @whuber pointed out in a comment, there are various other ways specify a normal distribution. But none of them, as far as I'm aware, deal with pairs of points in sequence.
  2. Variance as normally defined gives you a measure of how spread out the data is. For example, lets say you have a lot of data points with a mean of zero but when you look at it, you see that the data is mostly either around -1 or around 1. Your variance would be about 1. However, under your measure, you would get a total of zero. Which one is more useful? Well, it depends, but its not clear to me that a measure of zero for its "variance" would make sense.
  3. It lets you do other stuff. Just an example, in my stats class we saw a video about comparing pitchers (in baseball) over time. As I remember it, pitchers appeared to be getting worse since the proportion of pitches that were hit (or were home-runs) was going up. One reason is that batters were getting better. This made it hard to compare pitchers over time. However, they could use the z-score of the pitchers to compare them over time.

Nonetheless, as @Pere said, your metric might prove itself very useful in the future.


1
การแจกแจงแบบปกติสามารถกำหนดได้โดยค่าเฉลี่ยและโมเมนต์กลางที่สี่สำหรับเรื่องนั้น - หรือโดยช่วงเวลาอื่น ๆ อีกหลายคู่ ความแปรปรวนไม่ใช่วิธีพิเศษ
whuber

@whuber interesting. I'll admit I didn't realize that. Nonetheless, unless I'm mistaken, all the moments are "variance like" in that they are based on distances from a certain point as opposed to dealing with pairs of points in sequence. But I'll edit my answers to make note of what you said.
roundsquare

1
Could you explain the sense in which you mean "deal with pairs of points in sequence"? That's not a part of any standard definition of a moment. Note, too, that all the absolute moments around the mean--which includes all even moments around the mean--give a "measure of how spread out the data" are. One could, therefore, construct an analog of the Z-score with them. Thus, none of your three points appears to differentiate the variance from any absolute central moment.
whuber

@whuber yeah. The original question posited a 4 step sequence where you sort the points, take the differences between each point and the next point, and then average these. That's what I referred to as "deal[ing] with pairs of points in sequence". So you are right, none of the three points I gave distinguishes variance from any absolute central moment - they are meant to distinguish variance (and, I suppose, all absolute central moments) from the procedure described in the original question.
roundsquare
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.