คุณถ่ายทอดความงามของทฤษฎีขีด จำกัด กลางไปยังผู้ที่ไม่ใช่สถิติได้อย่างไร?


33

พ่อของฉันเป็นคนที่ชอบคณิตศาสตร์ แต่ไม่ค่อยสนใจสถิติมากนัก มันจะเป็นการดีที่จะพยายามอธิบายบางส่วนของสถิติที่ยอดเยี่ยมและ CLT เป็นตัวเลือกอันดับต้น ๆ คุณจะถ่ายทอดความงามทางคณิตศาสตร์และผลกระทบของทฤษฎีบทขีด จำกัด กลางให้กับผู้ที่ไม่ใช่สถิติได้อย่างไร?


สิ่งหนึ่งที่คิดอย่างรวดเร็วคือการนำกฎ 68-95-99.7 ( en.wikipedia.org/wiki/68-95-99.7_rule ) มาใช้ในการอภิปราย
raegtin

คำตอบ:


16

สิ่งที่ฉันชอบมากที่สุดใน CLT คือกรณีที่ไม่สามารถใช้งานได้ - สิ่งนี้ทำให้ฉันมีความหวังว่าชีวิตน่าสนใจยิ่งขึ้นที่ Gauss curve แสดงให้เห็น ดังนั้นแสดงให้เขาเห็นการกระจาย Cauchy


ความสัมพันธ์ระหว่างการแจกจ่าย Cauchy และ CLT หรือความไม่สมบูรณ์ของ CLT คืออะไร?
robin girard


CLT ต้องการให้ MGF มีอยู่ในละแวกที่ 0 การแจกจ่าย Cauchy ไม่มีคุณสมบัตินั้น ชนะ CLT Cauchy ไม่ได้ตอบสนองความต้องการที่อ่อนแอของ CLT เวอร์ชันที่แรงกว่าซึ่งสิ่งที่จำเป็นต้องมีก็คือค่าเฉลี่ยและความแปรปรวน การกระจาย Cauchy แสดงให้เห็นว่าจำเป็นต้องมีค่าเฉลี่ยเพื่อให้ CLT เก็บ มันไม่ได้ทำให้ CLT ล้มเหลว
Baltimark

@Baltimark คุณเข้าใจผิดโพสต์ของฉัน - มันชัดเจนว่า Cachy ไม่ครอบคลุมโดย CLT เนื่องจากสมมติฐาน CLT มิฉะนั้นจะเป็นไปไม่ได้ที่จะพิสูจน์ CLT ฉันยกตัวอย่างนี้เพราะผู้คนเชื่อว่า CLT ใช้ได้กับการแจกแจงทั้งหมด อาจจะ "ล้มเหลว" ไม่ใช่คำที่สมบูรณ์แบบ แต่ถึงกระนั้นฉันก็ไม่คิดว่ามันเป็นเหตุผลของการลงคะแนนเสียง ตกลงฉันได้เปลี่ยนเป็นไม่สามารถใช้งานได้

ฉันชอบการแก้ไขของคุณ การกระจาย Cauchy นั้นยอดเยี่ยมมาก
Baltimark

14

เพื่อชื่นชม CLT อย่างเต็มที่ก็ควรจะเห็น

ดังนั้นความคิดของเครื่องถั่วและวิดีโอ youtube มากมายสำหรับภาพประกอบ


ฉันคิดว่ามันแสดงการกระจายตัวแบบทวินาม ฉันไม่คิดว่าซีมโทติคของมันจะเชื่อมโยงโดยตรงกับ CLT

2
เครื่องถั่วโดยผู้เขียนของภาพเคลื่อนไหวแพคเกจ ... yihui.name/en/wp-content/uploads/2010/07/…
robin girard

1
@mbq ดูที่en.wikipedia.org/wiki/…
robin girard

@robin ฉันได้เขียนเกี่ยวกับมันแล้วมีปัญหาอะไร?

1
@ShreevatsaR ประเด็นก็คือภาพประกอบที่ดีควรแสดง "แกนกลาง" ของบางสิ่งและ (อย่างน้อย IMO) "แกน" ของ CLT อยู่ในความเป็นจริงมันรวมตัวแปรหลายตัวจากการแจกแจงที่แปลกประหลาดต่าง ๆ ลงไปใน Gaussian ไม่ใช่ว่ามันเป็น แค่ จำกัด การแจกแจงทวินาม

7

บ่อยครั้งเมื่อนักคณิตศาสตร์พูดถึงความน่าจะเป็นพวกเขาเริ่มต้นด้วยการแจกแจงความน่าจะเป็นที่รู้จักแล้วพูดคุยเกี่ยวกับความน่าจะเป็นของเหตุการณ์ คุณค่าที่แท้จริงของทฤษฎีบทขีด จำกัด กลางคือมันช่วยให้เราใช้การแจกแจงแบบปกติเป็นการประมาณค่าในกรณีที่เราไม่รู้จักการแจกแจงที่แท้จริง คุณสามารถถามคำถามเกี่ยวกับสถิติแบบมาตรฐานของพ่อ (แต่เป็นวลีทางคณิตศาสตร์) เกี่ยวกับความน่าจะเป็นที่ค่าเฉลี่ยของตัวอย่างจะสูงกว่าค่าที่กำหนดถ้าข้อมูลมาจากการแจกแจงด้วยค่าเฉลี่ย mu และ sd sigma จากนั้นดูว่า เขาถือว่าการกระจาย (ซึ่งคุณบอกว่าเราไม่รู้) หรือบอกว่าเขาต้องการรู้การกระจาย จากนั้นคุณสามารถแสดงให้เห็นว่าเราสามารถประมาณคำตอบโดยใช้ CLT ในหลายกรณี

สำหรับการเปรียบเทียบคณิตศาสตร์กับสถิติฉันชอบที่จะใช้ทฤษฎีบทค่าเฉลี่ยของการรวม (ซึ่งบอกว่าสำหรับอินทิกรัลจาก a ถึง b มีสี่เหลี่ยมจาก a ถึง b มีพื้นที่เดียวกันและความสูงของสี่เหลี่ยมผืนผ้าเป็นค่าเฉลี่ยของ โค้ง) นักคณิตศาสตร์มองที่ทฤษฎีบทนี้และบอกว่า "เท่ห์ฉันสามารถใช้การรวมเพื่อคำนวณค่าเฉลี่ย" ในขณะที่นักสถิติดูทฤษฎีบทเดียวกันและบอกว่า "เท่ห์ฉันสามารถใช้ค่าเฉลี่ยเพื่อคำนวณอินทิกรัล"

ที่จริงฉันมีการแขวนผนังข้ามเย็บในสำนักงานของฉันของทฤษฎีบทค่าเฉลี่ยและ CLT (พร้อมกับทฤษฎีบท Bayes)


อืมม ฉันคิดว่านักคณิตศาสตร์ส่วนใหญ่ใช้ MVT เพื่อประมาณค่าอินทิกรัลเป็นสี่เหลี่ยม
พระคาร์ดินัล

5

ฉันชอบที่จะแสดงให้เห็นถึงความผันแปรของการสุ่มตัวอย่างและทฤษฎีบทขีด จำกัด กลางผ่านทางการฝึกหัด "ในชั้นเรียน" ทุกคนในชั้นเรียนบอกว่านักเรียน 100 คนเขียนอายุลงบนกระดาษ กระดาษทุกชิ้นมีขนาดเท่ากันและพับแบบเดียวกันหลังจากฉันคำนวณค่าเฉลี่ยแล้ว นี่คือประชากรและฉันคำนวณอายุเฉลี่ย จากนั้นนักเรียนแต่ละคนสุ่มเลือกกระดาษ 10 แผ่นบันทึกอายุและส่งกลับไปที่กระเป๋า (S) เขาคำนวณค่าเฉลี่ยและส่งกระเป๋าไปให้นักเรียนคนถัดไป ในที่สุดเรามีตัวอย่าง 100 คนจากนักเรียน 10 คนแต่ละคนประเมินค่าเฉลี่ยประชากรซึ่งเราสามารถอธิบายผ่านฮิสโตแกรมและสถิติเชิงพรรณนา

จากนั้นเราจะทำการสาธิตซ้ำในครั้งนี้โดยใช้ชุด 100 "ความคิดเห็น" ที่ทำซ้ำคำถามใช่ / ไม่ใช่จากโพลล่าสุดเช่นหากการเลือกตั้ง (อังกฤษทั่วไป) ถูกเรียกในวันพรุ่งนี้คุณจะพิจารณาลงคะแนนให้พรรคชาติอังกฤษหรือไม่ นักเรียนพวกเขาตัวอย่าง 10 ความคิดเห็นเหล่านี้

ในตอนท้ายเราได้แสดงให้เห็นถึงรูปแบบการสุ่มตัวอย่างทฤษฎีขีด จำกัด กลาง ฯลฯ พร้อมทั้งข้อมูลต่อเนื่องและไบนารี


4

การเล่นโดยใช้รหัสต่อไปนี้การเปลี่ยนค่าMและการเลือกการแจกแจงอื่นที่ไม่ใช่เครื่องแบบอาจเป็นภาพประกอบที่สนุก

N <- 10000
M <- 5
meanvals <- replicate(N, expr = {mean(runif(M,min=0, max=1))}) 
hist(meanvals, breaks=50, prob=TRUE) 

2

หากคุณใช้ Stata คุณสามารถใช้คำสั่ง -clt- ที่สร้างกราฟของการกระจายตัวตัวอย่างดู

http://www.ats.ucla.edu/stat/stata/ado/teach/clt.htm


ดูเหมือนว่าจะดีมาก แต่ฉันเพิ่งลองติดตั้งและใช้งานใน Stata 11.1 (เช่นเวอร์ชันล่าสุด) และมันทำให้ฉันมีข้อผิดพลาด r (3000) เมื่อคลิก "เสร็จสิ้น" ในกล่องโต้ตอบแม้ว่าฉันจะพิมพ์ - รุ่น 6: clt-
onestop

2

จากประสบการณ์ของฉัน CLT มีประโยชน์น้อยกว่าที่ปรากฏ ไม่มีใครรู้ว่าอยู่กลางโครงการว่ามีขนาดใหญ่พอที่การประมาณค่าจะเพียงพอกับงานหรือไม่ และสำหรับการทดสอบทางสถิติ CLT ช่วยให้คุณสามารถป้องกันข้อผิดพลาดประเภทที่ 1 ได้ ตัวอย่างเช่น t-test สามารถมีพลังงานต่ำโดยพลการสำหรับ n ขนาดใหญ่เมื่อการแจกแจงข้อมูลเบ้อย่างมาก

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.