เหตุใดทฤษฎีการ จำกัด ขั้นกลางจึงผิดพลาดในการจำลองของฉัน


21

สมมติว่าฉันมีหมายเลขต่อไปนี้:

4,3,5,6,5,3,4,2,5,4,3,6,5

ฉันลองตัวอย่างพวกเขาพูดว่า 5 คนแล้วคำนวณผลรวมของ 5 ตัวอย่าง จากนั้นฉันทำซ้ำซ้ำแล้วซ้ำอีกเพื่อให้ได้ผลรวมจำนวนมากและฉันวางแผนค่าผลรวมในฮิสโตแกรมซึ่งจะเป็นแบบเกาส์เนื่องจากทฤษฎีลิมิตกลาง

แต่เมื่อพวกเขาติดตามตัวเลขฉันเพิ่งแทนที่ 4 ด้วยจำนวนที่มาก:

4,3,5,6,5,3,10000000,2,5,4,3,6,5

การสุ่มตัวอย่างจำนวน 5 ตัวอย่างจากสิ่งเหล่านี้จะไม่กลายเป็นเกาส์เซียนในฮิสโตแกรม แต่จะแตกและกลายเป็นเกาส์สองอัน ทำไมถึงเป็นอย่างนั้น?


1
มันจะไม่ทำอย่างนั้นถ้าคุณเพิ่มมันเกิน n = 30 หรือมากกว่านั้น ... เพียงแค่ความสงสัยของฉันและรุ่นที่กระชับขึ้น / กลับคำตอบที่ยอมรับด้านล่าง
oemb1905

@JimSD CLTเป็นasymptoticผล (เช่นเกี่ยวกับการกระจายของหมายถึงตัวอย่างมาตรฐานหรือจำนวนเงินในวงเงินที่เป็นขนาดของกลุ่มตัวอย่างไปที่อินฟินิตี้) ไม่n →การ สิ่งที่คุณกำลังดู (แนวทางสู่ความปกติในตัวอย่าง จำกัด ) ไม่ได้เป็นผลมาจาก CLT อย่างเคร่งครัด แต่เป็นผลลัพธ์ที่เกี่ยวข้อง n=5n
Glen_b -Reinstate Monica

3
@ oemb1905 n = 30 ไม่เพียงพอสำหรับการเรียงลำดับของความเบ้ OP ที่แนะนำ ขึ้นอยู่กับว่าการปนเปื้อนที่มีค่าเช่นแค่ไหนนั้นอาจใช้เวลา n = 60 หรือ n = 100 หรือมากกว่าก่อนที่ปกติจะดูเหมือนการประมาณที่สมเหตุสมผล หากการปนเปื้อนอยู่ที่ประมาณ 7% (ดังในคำถาม) n = 120 ยังค่อนข้างเบ้107
Glen_b


คิดว่าค่าในช่วงเวลาเช่น (1,100,000, 1,900,000) จะไม่สามารถเข้าถึงได้ แต่ถ้าคุณใช้จำนวนเงินที่เหมาะสมมันจะได้ผล!
เดวิด

คำตอบ:


18

ลองนึกถึงสิ่งที่ทฤษฎีขีด จำกัด กลางบอกไว้

ถ้าX1,X2,,Xkเป็นตัวแปรสุ่มแบบอิสระและกระจายตัวกันด้วย (เฉลี่ย) หมายถึงμและส่วนเบี่ยงเบนมาตรฐานσดังนั้นX1+X2++Xkkσkลู่เข้าสู่การแจกแจงเป็นการแจกแจงแบบปกติมาตรฐานN(0,1)(*)

มักใช้ในรูปแบบ "ไม่เป็นทางการ":

ถ้าX1,X2,,Xkเป็นตัวแปรสุ่มแบบอิสระและแบบกระจายที่มีค่าเฉลี่ย (ส่วนแบ่ง) μและส่วนเบี่ยงเบนมาตรฐานσดังนั้นX1+X2++Xk "กระจาย" เป็นการแจกแจงปกติมาตรฐานN(kμ,kσ))

ไม่มีวิธีที่ดีที่จะทำให้รูปแบบของ CLT นั้นมีความแม่นยำทางคณิตศาสตร์เนื่องจากการเปลี่ยนแปลงการกระจาย "จำกัด " แต่มีประโยชน์ในทางปฏิบัติ

เมื่อเรามีรายการตัวเลขคงที่เช่น

4,3,5,6,5,3,10000000,2,5,4,3,6,5

และเรากำลังสุ่มตัวอย่างโดยการสุ่มตัวเลขจากรายการนี้เพื่อใช้ทฤษฎีขีด จำกัด กลางเราต้องแน่ใจว่าแผนการสุ่มตัวอย่างของเราตรงตามเงื่อนไขความเป็นอิสระทั้งสองนี้และการแจกแจงแบบเดียวกัน

  • การกระจายตัวเหมือนกันนั้นไม่มีปัญหา: แต่ละหมายเลขในรายการมีแนวโน้มที่จะถูกเลือกเท่ากัน
  • อิสระนั้นละเอียดกว่าและขึ้นอยู่กับรูปแบบการสุ่มตัวอย่างของเรา หากเราสุ่มตัวอย่างโดยไม่มีการแทนที่เราจะละเมิดความเป็นอิสระ มันก็ต่อเมื่อเราสุ่มตัวอย่างด้วยการแทนที่ว่าจะใช้ทฤษฎีบทขีด จำกัด กลาง

ดังนั้นถ้าเราใช้กับการเปลี่ยนสุ่มตัวอย่างในรูปแบบของคุณเราควรจะสามารถใช้ทฤษฎีขีด จำกัด กลางได้ ในเวลาเดียวกันคุณพูดถูกถ้าตัวอย่างของเรามีขนาด 5 แล้วเราจะเห็นพฤติกรรมที่แตกต่างกันมากขึ้นอยู่กับว่าเลือกจำนวนมากหรือไม่เลือกในตัวอย่างของเรา

แล้วถูคืออะไร? Well, อัตราของการบรรจบกันกับการกระจายปกติมากขึ้นอยู่กับรูปร่างของประชากรที่เราจะสุ่มตัวอย่างจากโดยเฉพาะอย่างยิ่งถ้าประชากรของเราคือเอียงมากเราคาดหวังว่ามันจะใช้เวลานานในการมาบรรจบกันไปตามปกติ นี่เป็นกรณีในตัวอย่างของเราดังนั้นเราไม่ควรคาดหวังว่าตัวอย่างขนาด 5 เพียงพอที่จะแสดงโครงสร้างปกติ

การแจกแจงปกติสามรายการ

ด้านบนฉันทำการทดสอบของคุณซ้ำ (ด้วยการสุ่มตัวอย่างทดแทน) สำหรับตัวอย่างขนาด 5, 100 และ 1,000 คุณจะเห็นว่าโครงสร้างปกติเกิดขึ้นสำหรับตัวอย่างที่มีขนาดใหญ่มาก

(*) หมายเหตุมีเงื่อนไขทางเทคนิคบางอย่างที่จำเป็นที่นี่เช่นค่าเฉลี่ยและความแปรปรวน พวกเขาได้รับการยืนยันอย่างง่ายดายว่าเป็นจริงในตัวอย่างของเราจากตัวอย่างรายการ


ขอบคุณสำหรับคำตอบที่รวดเร็วและสมบูรณ์แบบมาก แนวคิดของ CLT, การเปลี่ยน, ความต้องการตัวอย่างเพิ่มเติมเมื่อการกระจายข้อมูลบิดเบือน ... ตอนนี้ชัดเจนมาก ความตั้งใจเดิมของฉันคือที่คุณกล่าวถึงกรณีเมื่อมีจำนวนมากรวมอยู่โดยไม่มีการแทนที่และจำนวนการสุ่มตัวอย่างได้รับการแก้ไข มันทำงานแตกต่างกันมากและดังนั้นเราต้องพิจารณา "เงื่อนไข" CLT สำหรับกรณีจำนวนมากถูกสุ่มตัวอย่างและกรณีไม่ได้สุ่มตัวอย่าง ฉันสงสัยว่ามีงานวิจัยหรืองานก่อนหน้าสำหรับเรื่องนั้น แต่ขอบคุณ
JimSD

ไม่ทราบว่าถ้าบังคับนี่ แต่ทฤษฎีของ CLT บรรจบควบคุมโดยเบ้en.wikipedia.org/wiki/Berry%E2%80%93Esseen_theorem
seanv507

Xkk

1
|Fn(x)Φ(x)|ρ/σ3

1
@Glen_b Yah ฉันเป็นทางการเล็กน้อย (ซึ่งบางทีฉันไม่ควรจะเป็น) แต่ฉันสามารถแก้ไขมันได้ในบ่ายวันนี้เนื่องจากมันทำให้เกิดความสับสน
Matthew Drury

12

5305

pop <- c(4, 3, 5, 6, 5, 3, 4, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 5
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

ป้อนคำอธิบายรูปภาพที่นี่

30

pop <- c(4, 3, 5, 6, 5, 3, 10000000, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 30
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

ป้อนคำอธิบายรูปภาพที่นี่

100

pop <- c(4, 3, 5, 6, 5, 3, 10000000, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 100
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

ป้อนคำอธิบายรูปภาพที่นี่


3
ไม่ใช่ความแปรปรวนที่เป็นปัญหา วิธีหนึ่งในการควบคุมอย่างเข้มงวดคือการใช้อัตราส่วนของโมเมนต์กลางที่สามต่อค่าเบี่ยงเบนมาตรฐานที่ถูกหารเช่นเดียวกับในทฤษฎีบท Berry-Esseen
คนที่แต่งตัวประหลาด

สมบูรณ์ ที่เพิ่ม Tks
Zen

1
ขอบคุณสำหรับคำตอบที่รวดเร็วเป็นภาพและสมบูรณ์แบบด้วยรหัส ฉันประหลาดใจมากที่มันรวดเร็วแค่ไหน! ฉันไม่ได้ตระหนักถึงจำนวนตัวอย่างที่เหมาะสม ฉันคิดถึงกรณีที่จำนวนการสุ่มตัวอย่างได้รับการแก้ไข
JimSD

@guy ขอบคุณสำหรับสิ่งนั้น ผมไม่ทราบความคิดของ"อัตราส่วนของช่วงเวลากลางที่สามที่จะเบี่ยงเบนมาตรฐาน cubed ใน Berry-Esseen ทฤษฎีบท" ฉันแค่ต้องการที่จะแก้ไขปัญหากรณีที่มีจำนวนมากเช่นค่าผิดปกติรวมอยู่ในการจัดจำหน่าย และการกระจายประเภทนั้นสามารถอ้างอิงได้ตามที่คุณพูดถึงฉันคิดว่า หากคุณรู้ว่างานก่อนหน้าใดที่เกี่ยวข้องกับการแจกจ่ายประเภทนั้นให้ฉันรู้ขอบคุณ
JimSD

2
ρ=E[|Xμ|3]μ3=E[(Xμ)3]

7

ฉันแค่อยากจะอธิบายโดยใช้ฟังก์ชั่นการสะสมที่ซับซ้อนสาเหตุที่ทุกคนยังคงตำหนิสิ่งนี้อย่างเบ้

μ+σZμσZ01Z12t2iγ16t3+o(t3)γ1Zκ3μ+σZγ1=σ3κ3

nZn

n(12(tn)2iγ16(tn)3)+o(t3)=12t2iγ16nt3+o(t3).
tnnγ12γ1


-1

คำตอบสั้น ๆ คือคุณไม่มีตัวอย่างใหญ่พอที่จะทำให้ทฤษฎีบทขีด จำกัด กลางใช้ได้


1
สิ่งนี้ไม่สามารถอธิบายได้อย่างถูกต้องจากการสังเกตว่า CLT ให้การประมาณที่ดีสำหรับชุดแรกของข้อมูลในคำถามซึ่งมีขนาดเล็กเท่ากัน
whuber

@ โฮเบอร์: ฉันคิดว่าคุณกำลังบอกว่าการกระจายตัวแบบปกติให้การประมาณที่ดีพอสมควรสำหรับตัวอย่างห้าตัวจากชุดแรก เนื่องจากมีเพียงจำนวน จำกัด ของค่าสำหรับผลรวม (ค่าที่เป็นไปได้ 13 ค่าโดยไม่มีการแทนที่และค่าที่เป็นไปได้ 21 ค่าที่มีการแทนที่) การประมาณค่าจึงไม่ได้ดีขึ้นมากนักกับกลุ่มตัวอย่างจำนวนห้าจำนวนมากและการประมาณเบื้องต้น รูปแบบเริ่มต้น ...
Henry

@whuber เนื่องจากการกระจายตัวของเซ็ตแรกดูเหมือนจะเอียงไปทางซ้ายฉันคาดว่าผลรวมของห้าจะเบ้ซ้ายในวิธีที่รุนแรงน้อยกว่าที่ฉันคาดหวังผลรวมของห้าจากเซตที่สองจะเบ้ขวา เพื่อลดความเบ้ต่อไปฉันจะคิดว่าคุณจะต้องมีขนาดตัวอย่างมากขึ้น
Henry

1
@Henry ขอบคุณสำหรับความคิดเห็นของคุณ ฉันไม่ได้พูดเกี่ยวกับสถานการณ์เฉพาะเหล่านี้ แต่เกี่ยวกับตรรกะของคำตอบนี้ด้วยความหวังว่าจะสามารถอธิบายเพิ่มเติมได้
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.