อะไรทำให้ค่าเฉลี่ยของการแจกแจงบางอย่างไม่ได้กำหนดไว้?


21

PDF จำนวนมากมีตั้งแต่ลบไปจนถึงอินฟินิตี้เป็นบวก แต่มีวิธีการบางอย่างที่กำหนดและบางไฟล์ไม่ใช่ ลักษณะทั่วไปอะไรทำให้มีการคำนวณบ้าง


14
อินทิกรัลคอนเวอร์เจนต์
Sycorax พูดว่า Reinstate Monica

1
การแจกแจงนี้เป็นนามธรรมทางคณิตศาสตร์ ถ้าอินทิกรัลไม่ลู่เข้าหากันหมายความว่าไม่ได้นิยาม อย่างไรก็ตามสิ่งที่ไม่ได้กล่าวถึงในคำตอบด้านล่างนี้คือ PDF ที่มีค่าลบอนันต์ถึงบวกไม่สามารถจำลองแหล่งข้อมูลจริงได้ ไม่มีกระบวนการทางกายภาพดังกล่าวในการสร้างข้อมูลดังกล่าวในชีวิตจริง ในความคิดของฉันแหล่งข้อมูลจริงทั้งหมดจะถูก จำกัด ขอบเขตและคุณจะสามารถประมาณค่าเฉลี่ยได้
Cagdas Ozgenc

3
@Cagdas คำพูดนั้นดูเหมือนจะไม่ถูกต้อง มีกระบวนการที่มีน้ำหนักมาก ความคาดหวังที่แตกต่างกันของพวกเขาแสดงให้เห็นว่ามีความแปรปรวนอย่างมากในค่าเฉลี่ยระยะยาว สำหรับการประยุกต์ใช้การโน้มน้าวใจของรูปแบบ Cauchy เช่นดูโพสต์ดักลาสจนผ่านที่stats.stackexchange.com/a/36037/919
whuber

2
@CagdasOzgenc: คุณควรอ่าน Black Swan โดย Taleb เพื่อดูว่าเหตุผลนั้นผิดเพียงใด แม้ว่า heuristically อาจไม่มีกระบวนการที่สร้างการกระจายอย่างสมบูรณ์แบบด้วยค่าเฉลี่ยไม่ จำกัด หรือไม่มีที่สิ้นสุด แต่ก็มีตัวอย่างมากมายที่ผู้คนประเมินค่าต่ำสุดว่าหางมีการกระจายตัวของไขมันและดำเนินการคำนวณอย่างไรในขณะที่การกระจายที่แท้จริงมี หมายความว่าแตกต่างอย่างสิ้นเชิงและมักจะเอียงขวา การใช้เหตุผลที่ไม่เหมาะสมเช่นนี้นำไปสู่การประเมินความเสี่ยงหลายช่องทางในด้านการเงินซึ่งความเสี่ยงนั้นถูกประเมินโดยคำสั่งขนาดใหญ่
Alex R.

1
@Cagdas Ozgenc: สำหรับการอภิปรายว่าทำไมการโต้แย้งของคุณไม่ถูกต้องโปรดดูstats.stackexchange.com/questions/94402/…
kjetil b halvorsen

คำตอบ:


23

ค่าเฉลี่ยของการแจกแจงนั้นถูกนิยามในรูปของอินทิกรัล (ผมจะเขียนมันเหมือนว่าสำหรับการแจกแจงแบบต่อเนื่อง - ในฐานะอินทิกรัลรีมันน์พูด - แต่ปัญหานี้ใช้กันโดยทั่วๆไปเราสามารถดำเนินการ สิ่งเหล่านี้ถูกต้องและพร้อมกัน):

E(X)=xf(x)dx

แต่นั่นหมายความว่าอย่างไร มันเป็นชวเลขอย่างมีประสิทธิภาพ

a,blimabxf(x)dx

หรือ

alima0xf(x)dx+blim0bxf(x)dx

(แม้ว่าคุณสามารถทำลายมันได้ทุกที่ไม่ใช่แค่ที่ 0)

ปัญหาเกิดขึ้นเมื่อข้อ จำกัด ของอินทิกรัลเหล่านั้นไม่ จำกัด

ยกตัวอย่างเช่นลองพิจารณาความหนาแน่น Cauchy มาตรฐานซึ่งเป็นสัดส่วนกับ ... ทราบว่า11+x2

blim0bx1+x2dx

ให้ดังนั้น d u = 2 xu=1+x2du=2xdx

=blim1211+b21udu

=blim12ln(u)|11+b2

=blim12ln(1+b2)

ซึ่งไม่ จำกัด ขีด จำกัด ในครึ่งล่างยังไม่แน่นอน ความคาดหวังจึงไม่ได้กำหนด

หรือถ้าเรามีตัวแปรสุ่มของเราเป็นค่าสัมบูรณ์ของ Cauchy มาตรฐานความคาดหวังทั้งหมดของมันจะเป็นสัดส่วนกับขีด จำกัด นั้นที่เราเพิ่งดู (เช่น )blim12ln(1+b2)

ในทางกลับกันความหนาแน่นอื่น ๆ บางอย่างยังคงดำเนินต่อไป "ไม่มีที่สิ้นสุด" แต่อินทิกรัลของพวกมันมีขีด จำกัด


1
คุณสามารถ (แน่นอน) เห็นสิ่งเดียวกันในการแจกแจงความน่าจะเป็นแบบไม่ต่อเนื่องที่คล้ายกัน รับจัดจำหน่ายที่น่าจะเป็นถ้าเกิดขึ้นสำหรับจำนวนเต็มเป็นสัดส่วนกับ2} ผลรวมของความน่าจะเป็นมี จำกัด (ซึ่งก็เช่นกันเนื่องจากมันจำเป็นต้องมีขีด จำกัด 1: ที่จริงแล้วค่าคงที่ของเราต้องเป็นหรืออะไรก็ตาม) แต่เนื่องจากผลรวมของเบี่ยงเบนมันไม่มีค่าเฉลี่ย โดยที่ถ้าเราเลือกความน่าจะเป็นเป็นสัดส่วนกับค่าเฉลี่ยนั้นจะรวมและเราก็โอเคนั่นคือ "เล็กพอ" ที่มาบรรจบกัน n > 0 1nn>0 61n2 16π21n1n31n2
สตีฟเจสซอพ

1
ใช่เป็นค่าคงที่การปรับสเกลสำหรับสิ่งนั้น (เพื่อให้ได้ผลรวมเป็น 1) 6π2
Glen_b -Reinstate Monica

8

คำตอบอื่น ๆ เป็นสิ่งที่ดี แต่อาจไม่โน้มน้าวใจทุกคนโดยเฉพาะอย่างยิ่งคนที่มองการ แจกจ่าย Cauchy (ที่มี ) และบอกว่ามันยังคงชัดเจนว่าค่าเฉลี่ยควรเป็นศูนย์x0=0

เหตุผลที่ใช้งานง่ายคำตอบไม่ถูกต้องจากมุมมองทางคณิตศาสตร์คือสาเหตุที่Riemann สายใยทฤษฎีบท (วิดีโอ)

อย่างมีประสิทธิภาพสิ่งที่คุณทำเมื่อคุณดู Cauchy และบอกว่า "ควรจะเป็นศูนย์" หมายความว่าคุณกำลังแยก "ศูนย์" ที่ศูนย์และจากนั้นอ้างช่วงเวลาของความสมดุลสองขนาด หรือกล่าวอีกนัยหนึ่งว่าคุณกำลังทำผลรวมอนันต์ด้วย "ครึ่ง" ของคำศัพท์เชิงบวก (ช่วงเวลาที่แต่ละจุดไปทางขวา) และ "ครึ่ง" ข้อกำหนดเชิงลบ (ช่วงเวลาที่แต่ละจุดไปทางซ้าย) และอ้างสิทธิ์ ผลรวมเป็นศูนย์ (สำหรับความคิดทางเทคนิค: )0f(x0+r)rdr0f(x0r)rdr=0

ทฤษฎีการจัดเรียง Riemann กล่าวว่าผลรวมอนันต์ประเภทนี้ (หนึ่งที่มีทั้งคำบวกและลบ) จะสอดคล้องกันก็ต่อเมื่อทั้งสองซีรีส์ (เงื่อนไขเชิงบวกเท่านั้นและเงื่อนไขเชิงลบเท่านั้น) จะมาบรรจบกันเมื่อถ่ายอย่างอิสระ หากทั้งสองข้าง (บวกและลบ) มีความแตกต่างของตัวเองแล้วคุณสามารถมากับคำสั่งของผลรวมของข้อตกลงดังกล่าวว่าสรุปการใด ๆจำนวน (วิดีโอด้านบนเริ่มต้นที่ 6:50)

ดังนั้นใช่ถ้าคุณทำการสรุปในลักษณะที่สมดุลจาก 0 out ช่วงเวลาแรกจากการแจกแจง Cauchy จะถูกยกเลิก อย่างไรก็ตามคำจำกัดความของมาตรฐาน (มาตรฐาน) ไม่ได้บังคับใช้คำสั่งของการรวมนี้ คุณควรจะสามารถสรุปช่วงเวลาในลำดับใดก็ได้และมีความถูกต้องเท่ากัน ดังนั้นความหมายของการกระจาย Cauchy จึงไม่ได้ถูกกำหนด - โดยการเลือกอย่างรอบคอบว่าคุณรวมช่วงเวลาอย่างไรคุณสามารถทำให้พวกเขา "สมดุล" (หรือไม่) ในทางใดทางหนึ่ง

ดังนั้นเพื่อให้ค่าเฉลี่ยของการกระจายที่กำหนดไว้ทั้งสองปริพันธ์ช่วงเวลาที่ต้องการให้แต่ละเป็นอิสระมาบรรจบกัน ( จำกัด ) รอบที่เสนอค่าเฉลี่ย (ซึ่งเมื่อคุณทำคณิตศาสตร์เป็นจริงเพียงวิธีที่บอกอีกว่าหนึ่งเล่ม ( ) จะต้องมีการรวมกัน) หากก้อยเป็น "อ้วน" มากพอที่จะทำให้ช่วงเวลาที่ไม่มีที่สิ้นสุดด้านใดด้านหนึ่งแสดงว่าคุณทำเสร็จแล้ว คุณไม่สามารถสร้างความสมดุลกับช่วงเวลาที่ไม่มีที่สิ้นสุดในอีกด้านหนึ่งf(x)xdx


ฉันควรพูดถึงว่าพฤติกรรม "ต่อต้านสัญชาตญาณ" ของสิ่งต่าง ๆ เช่นการแจกจ่าย Cauchy นั้นเกิดจากปัญหาเมื่อคิดถึงเรื่องอนันต์ ใช้การกระจาย Cauchy และตัดหาง - แม้โดยพลการไกลออกไปเช่นที่บวก / ลบหมายเลข xkcd - และ (เมื่อปรับมาตรฐานอีกครั้ง) คุณจะได้รับสิ่งที่ประพฤติดีและมีค่าเฉลี่ยที่กำหนดไว้ ไม่ใช่หางไขมันที่มีปัญหาในตัวของมันเองและเป็นหางที่มีพฤติกรรมเมื่อคุณเข้าใกล้อนันต์


ดี ฉันสงสัยว่ามันเป็นไปได้หรือไม่ที่จะให้ "ลำดับการรวม" ที่น่าตื่นเต้นซึ่งนำไปสู่การพูดสอง
Matthew Drury

@MatthewDrury: p_i และ n_i แสดงถึงจำนวนบวกและลบ ค้นหา p_i และ n_i อย่างต่อเนื่องดังนั้นอินทิกรัลของ [n_i, p_i] คือ 2+ (1 / i) และอินทิกรัลเหนือ [n_ {i + 1}, p_i] คือ 2- (1 / i) เราสามารถทำสิ่งนี้ได้อย่างชัดเจนโดยใช้ R, matlab หรือ mathematica แต่สำหรับเงื่อนไขจำนวน จำกัด เท่านั้น
David Epstein

7

Abrial ทั่วไปและ Glen_b มีคำตอบที่สมบูรณ์แบบ ฉันต้องการเพิ่มการสาธิตขนาดเล็กเพื่อแสดงให้คุณเห็นค่าเฉลี่ยของการกระจาย Cauchy ไม่มีอยู่ / ไม่มาบรรจบกัน

ในการทดสอบต่อไปนี้คุณจะเห็นแม้ว่าคุณจะได้รับตัวอย่างจำนวนมากและทำการคำนวณค่าเฉลี่ยเชิงประจักษ์จากตัวอย่าง แต่ตัวเลขนั้นค่อนข้างแตกต่างจากการทดสอบไปจนถึงการทดสอบ

set.seed(0)
par(mfrow=c(1,2))
experiments=rep(1e5,100)
mean_list_cauchy=sapply(experiments, function(n) mean(rcauchy(n)))
mean_list_normal=sapply(experiments, function(n) mean(rnorm(n)))
plot(mean_list_cauchy,ylim=c(-10,10))
plot(mean_list_normal,ylim=c(-10,10))

ป้อนคำอธิบายรูปภาพที่นี่

คุณสามารถสังเกตได้ว่าเรามีการทดลองครั้งและในแต่ละการทดลองเราสุ่มตัวอย่าง1 × 10 5คะแนนจากการแจกแจงสองครั้งด้วยขนาดตัวอย่างขนาดใหญ่ค่าเฉลี่ยเชิงประจักษ์ในการทดลองที่แตกต่างกันควรใกล้เคียงกับค่าเฉลี่ยจริง ผลลัพธ์แสดงการกระจาย Cauchy ไม่มีค่าเฉลี่ยการรวมตัว แต่การกระจายปกติมี1001×105

แก้ไข:

ตามที่ @ mark999 ที่กล่าวถึงในการแชทเราควรโต้แย้งว่าการแจกแจงสองแบบที่ใช้ในการทดสอบมี "ความแปรปรวน" ที่คล้ายกัน (เหตุผลที่ฉันใช้เครื่องหมายคำพูดคือ นี่คือเหตุผล: PDF ของพวกเขาคล้ายกัน

โปรดสังเกตว่าโดยการดู PDF ของการแจกแจง Cauchy เราจะเดาว่าเป็นแต่จากการทดลองที่เราเห็นมันไม่มีอยู่จริง นั่นคือประเด็นของการสาธิต0

curve(dnorm, -8,8)
curve(dcauchy, -8,8)

ป้อนคำอธิบายรูปภาพที่นี่


4
ฉันไม่คิดว่านี่แสดงให้เห็นว่าการกระจาย Cauchy ไม่มีความหมาย คุณสามารถได้ผลลัพธ์ที่คล้ายกันหากคุณแทนที่การกระจาย Cauchy ด้วยการแจกแจงแบบปกติด้วยความแปรปรวนขนาดใหญ่ที่เหมาะสม
mark999

จุดดี @ mark999 ฉันจะแก้ไขคำตอบเพื่อแก้ไขปัญหานี้
Haitao Du

เป็นไปได้ไหมที่จะหาจาก PDF ของการกระจาย Cauchy ว่ามันไม่มีความหมายเลยโดยดูจากหางอ้วน
ks1322

บางทีคุณอาจมีบางอย่างเช่นนี้ในใจ? stats.stackexchange.com/questions/90531/…
Sycorax พูดว่า Reinstate Monica


2

dθ/2πθAS1length(A)/2πU(π,π)ππεπ+ε (=π+εmod2π)πU(π,π)ε/2π

เนื่องจากการกระจายบนวงกลมนั้นสมมาตรแบบหมุนจึงไม่สามารถมีค่าเฉลี่ยมัธยฐานหรือโหมดบนวงกลมได้ ในทำนองเดียวกันช่วงเวลาที่สูงขึ้นเช่นความแปรปรวนไม่สามารถเข้าใจได้ การกระจายนี้เกิดขึ้นตามธรรมชาติในหลายบริบท ตัวอย่างเช่นโครงการปัจจุบันของฉันเกี่ยวข้องกับภาพกล้องจุลทรรศน์ของเนื้อเยื่อมะเร็ง วัตถุจำนวนมากในภาพไม่สมมาตรและ "ทิศทาง" สามารถกำหนดให้กับแต่ละวัตถุได้ สมมติฐานว่างเปล่าที่ชัดเจนคือทิศทางเหล่านี้มีการกระจายอย่างสม่ำเสมอ

S1p=(0,1)S1xθpxx=tan(θ/2)dθ/2=dx/(1+x2)dθπ(1+x2)

S1{p}ppS1pp=(0,1)0R


2
การกระจาย Cauchy มีค่ามัธยฐานและโหมด
jkabrg

ค่อนข้างถูก ฉันถูกพาไปเล็กน้อย แต่อาร์กิวเมนต์สำหรับการไม่มีค่าเฉลี่ยนั้นถูกต้อง .. ฉันจะแก้ไขคำตอบของฉัน
David Epstein

θU(π,π)X=tan(θ/2)E[θ]=0

@jkabrg: ฉันหวังว่าแก้ไขใหม่นี้ทำให้เข้าใจมากขึ้น
เดวิด Epstein
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.