พ่อของฉันเป็นคนที่ชอบคณิตศาสตร์ แต่ไม่ค่อยสนใจสถิติมากนัก มันจะเป็นการดีที่จะพยายามอธิบายบางส่วนของสถิติที่ยอดเยี่ยมและ CLT เป็นตัวเลือกอันดับต้น ๆ คุณจะถ่ายทอดความงามทางคณิตศาสตร์และผลกระทบของทฤษฎีบทขีด จำกัด กลางให้กับผู้ที่ไม่ใช่สถิติได้อย่างไร?
พ่อของฉันเป็นคนที่ชอบคณิตศาสตร์ แต่ไม่ค่อยสนใจสถิติมากนัก มันจะเป็นการดีที่จะพยายามอธิบายบางส่วนของสถิติที่ยอดเยี่ยมและ CLT เป็นตัวเลือกอันดับต้น ๆ คุณจะถ่ายทอดความงามทางคณิตศาสตร์และผลกระทบของทฤษฎีบทขีด จำกัด กลางให้กับผู้ที่ไม่ใช่สถิติได้อย่างไร?
คำตอบ:
สิ่งที่ฉันชอบมากที่สุดใน CLT คือกรณีที่ไม่สามารถใช้งานได้ - สิ่งนี้ทำให้ฉันมีความหวังว่าชีวิตน่าสนใจยิ่งขึ้นที่ Gauss curve แสดงให้เห็น ดังนั้นแสดงให้เขาเห็นการกระจาย Cauchy
เพื่อชื่นชม CLT อย่างเต็มที่ก็ควรจะเห็น
ดังนั้นความคิดของเครื่องถั่วและวิดีโอ youtube มากมายสำหรับภาพประกอบ
บ่อยครั้งเมื่อนักคณิตศาสตร์พูดถึงความน่าจะเป็นพวกเขาเริ่มต้นด้วยการแจกแจงความน่าจะเป็นที่รู้จักแล้วพูดคุยเกี่ยวกับความน่าจะเป็นของเหตุการณ์ คุณค่าที่แท้จริงของทฤษฎีบทขีด จำกัด กลางคือมันช่วยให้เราใช้การแจกแจงแบบปกติเป็นการประมาณค่าในกรณีที่เราไม่รู้จักการแจกแจงที่แท้จริง คุณสามารถถามคำถามเกี่ยวกับสถิติแบบมาตรฐานของพ่อ (แต่เป็นวลีทางคณิตศาสตร์) เกี่ยวกับความน่าจะเป็นที่ค่าเฉลี่ยของตัวอย่างจะสูงกว่าค่าที่กำหนดถ้าข้อมูลมาจากการแจกแจงด้วยค่าเฉลี่ย mu และ sd sigma จากนั้นดูว่า เขาถือว่าการกระจาย (ซึ่งคุณบอกว่าเราไม่รู้) หรือบอกว่าเขาต้องการรู้การกระจาย จากนั้นคุณสามารถแสดงให้เห็นว่าเราสามารถประมาณคำตอบโดยใช้ CLT ในหลายกรณี
สำหรับการเปรียบเทียบคณิตศาสตร์กับสถิติฉันชอบที่จะใช้ทฤษฎีบทค่าเฉลี่ยของการรวม (ซึ่งบอกว่าสำหรับอินทิกรัลจาก a ถึง b มีสี่เหลี่ยมจาก a ถึง b มีพื้นที่เดียวกันและความสูงของสี่เหลี่ยมผืนผ้าเป็นค่าเฉลี่ยของ โค้ง) นักคณิตศาสตร์มองที่ทฤษฎีบทนี้และบอกว่า "เท่ห์ฉันสามารถใช้การรวมเพื่อคำนวณค่าเฉลี่ย" ในขณะที่นักสถิติดูทฤษฎีบทเดียวกันและบอกว่า "เท่ห์ฉันสามารถใช้ค่าเฉลี่ยเพื่อคำนวณอินทิกรัล"
ที่จริงฉันมีการแขวนผนังข้ามเย็บในสำนักงานของฉันของทฤษฎีบทค่าเฉลี่ยและ CLT (พร้อมกับทฤษฎีบท Bayes)
ฉันชอบที่จะแสดงให้เห็นถึงความผันแปรของการสุ่มตัวอย่างและทฤษฎีบทขีด จำกัด กลางผ่านทางการฝึกหัด "ในชั้นเรียน" ทุกคนในชั้นเรียนบอกว่านักเรียน 100 คนเขียนอายุลงบนกระดาษ กระดาษทุกชิ้นมีขนาดเท่ากันและพับแบบเดียวกันหลังจากฉันคำนวณค่าเฉลี่ยแล้ว นี่คือประชากรและฉันคำนวณอายุเฉลี่ย จากนั้นนักเรียนแต่ละคนสุ่มเลือกกระดาษ 10 แผ่นบันทึกอายุและส่งกลับไปที่กระเป๋า (S) เขาคำนวณค่าเฉลี่ยและส่งกระเป๋าไปให้นักเรียนคนถัดไป ในที่สุดเรามีตัวอย่าง 100 คนจากนักเรียน 10 คนแต่ละคนประเมินค่าเฉลี่ยประชากรซึ่งเราสามารถอธิบายผ่านฮิสโตแกรมและสถิติเชิงพรรณนา
จากนั้นเราจะทำการสาธิตซ้ำในครั้งนี้โดยใช้ชุด 100 "ความคิดเห็น" ที่ทำซ้ำคำถามใช่ / ไม่ใช่จากโพลล่าสุดเช่นหากการเลือกตั้ง (อังกฤษทั่วไป) ถูกเรียกในวันพรุ่งนี้คุณจะพิจารณาลงคะแนนให้พรรคชาติอังกฤษหรือไม่ นักเรียนพวกเขาตัวอย่าง 10 ความคิดเห็นเหล่านี้
ในตอนท้ายเราได้แสดงให้เห็นถึงรูปแบบการสุ่มตัวอย่างทฤษฎีขีด จำกัด กลาง ฯลฯ พร้อมทั้งข้อมูลต่อเนื่องและไบนารี
การเล่นโดยใช้รหัสต่อไปนี้การเปลี่ยนค่าM
และการเลือกการแจกแจงอื่นที่ไม่ใช่เครื่องแบบอาจเป็นภาพประกอบที่สนุก
N <- 10000
M <- 5
meanvals <- replicate(N, expr = {mean(runif(M,min=0, max=1))})
hist(meanvals, breaks=50, prob=TRUE)
หากคุณใช้ Stata คุณสามารถใช้คำสั่ง -clt- ที่สร้างกราฟของการกระจายตัวตัวอย่างดู
จากประสบการณ์ของฉัน CLT มีประโยชน์น้อยกว่าที่ปรากฏ ไม่มีใครรู้ว่าอยู่กลางโครงการว่ามีขนาดใหญ่พอที่การประมาณค่าจะเพียงพอกับงานหรือไม่ และสำหรับการทดสอบทางสถิติ CLT ช่วยให้คุณสามารถป้องกันข้อผิดพลาดประเภทที่ 1 ได้ ตัวอย่างเช่น t-test สามารถมีพลังงานต่ำโดยพลการสำหรับ n ขนาดใหญ่เมื่อการแจกแจงข้อมูลเบ้อย่างมาก