สาเหตุของการกระจายข้อมูลตามปกติ


19

อะไรคือทฤษฎีบทบางอย่างที่อาจอธิบายได้ (เช่นโดยทั่วไป) ว่าทำไมข้อมูลในโลกแห่งความจริงจึงอาจได้รับการกระจายตามปกติ?

มีอยู่สองอย่างที่ฉันรู้:

  1. ทฤษฎีบทขีด จำกัด กลาง (แน่นอน) ซึ่งบอกเราว่าผลรวมของตัวแปรสุ่มอิสระหลายตัวที่มีค่าเฉลี่ยและความแปรปรวน (แม้ว่าพวกเขาจะไม่กระจายตัวเหมือนกัน) มีแนวโน้มที่จะกระจายตามปกติ

  2. Let X และ Y เป็น RV อย่างต่อเนื่องเป็นอิสระที่มีความหนาแน่นอนุพันธ์ดังกล่าวที่มีความหนาแน่นร่วมกันของพวกเขาเท่านั้นขึ้นอยู่กับ + 2 จากนั้น X และ Y เป็นปกติx2Y2

(cross-post จากmathexchange )

แก้ไข: เพื่อความกระจ่างแจ้งฉันไม่ได้ทำการอ้างสิทธิ์ใด ๆ เกี่ยวกับจำนวนข้อมูลในโลกแห่งความเป็นจริงที่กระจายตามปกติ ฉันแค่ถามเกี่ยวกับทฤษฎีที่สามารถให้ข้อมูลเชิงลึกเกี่ยวกับกระบวนการที่อาจนำไปสู่การกระจายข้อมูลตามปกติ


7
คุณอาจพบว่าวัสดุที่เกี่ยวข้องที่น่าสนใจในหัวข้อของเราที่stats.stackexchange.com/questions/4364 เพื่อหลีกเลี่ยงความสับสนที่อาจเกิดขึ้นในหมู่ผู้อ่านบางคนฉันอยากจะเพิ่ม (และฉันหวังว่านี่เป็นความตั้งใจของคุณ) ที่คำถามของคุณไม่ควรอ่านตามที่แนะนำว่าชุดข้อมูลทั้งหมดหรือแม้แต่ที่เกิดขึ้นจริงส่วนใหญ่ ในบางกรณีเมื่อมีเงื่อนไขบางประการมันอาจเป็นประโยชน์ในการใช้การแจกแจงแบบปกติเป็นกรอบอ้างอิงเพื่อทำความเข้าใจหรือตีความข้อมูล: เงื่อนไขเหล่านั้นอาจเป็นอย่างไร
whuber

ขอบคุณสำหรับลิงค์! และนั่นคือสิ่งที่ถูกต้องขอบคุณสำหรับการชี้แจง ฉันจะแก้ไขเป็นโพสต์ดั้งเดิม
ไม่ระบุชื่อ

@ user43228 " แน่นอนมีการแจกแจงอื่น ๆ อีกมากมายที่เกิดขึ้นในปัญหาโลกแห่งความจริงที่ไม่ได้ดูเป็นเรื่องปกติเลย " askamathematician.com/2010/02/…
Pacerier

คำตอบ:


17

การ จำกัด การแจกแจงจำนวนมากของ RVs ไม่ต่อเนื่อง (ปัวซอง, ทวินาม, ฯลฯ ) เป็นเรื่องปกติ ลองคิดดูสิ ในเกือบทุกกรณีเมื่อมีเกณฑ์ปกติโดยประมาณปกติจะเริ่มขึ้นสำหรับตัวอย่างขนาดใหญ่เท่านั้น

ข้อมูลในโลกแห่งความเป็นจริงส่วนใหญ่จะไม่กระจายตามปกติ กระดาษโดย Micceri (1989) เรียกว่า " ยูนิคอร์นโค้งปกติและสิ่งมีชีวิตอื่น ๆ ที่ไม่น่าจะเป็นไปได้ " สำรวจความสำเร็จขนาดใหญ่ 440 รายการและมาตรการทางจิตวิทยา เขาพบว่ามีความแปรปรวนจำนวนมากในการแจกแจง wrt ช่วงเวลาของพวกเขาและไม่มีหลักฐานมากนักสำหรับความธรรมดา (โดยประมาณ)

ในปี 1977 กระดาษของ Steven Stigler เรียกว่า " Do Robust Estimators ทำงานกับข้อมูลจริง " เขาใช้ชุดข้อมูล 24 ชุดที่รวบรวมจากความพยายามศตวรรษที่ 18 ที่มีชื่อเสียงในการวัดระยะทางจากโลกสู่ดวงอาทิตย์และศตวรรษที่ 19 พยายามวัดความเร็วแสง เขารายงานตัวอย่างความเบ้และความโด่งในตารางที่ 3 ข้อมูลดังกล่าวเป็นแบบหางยาว

ในสถิติเราถือว่าปกติเป็นครั้งคราวเพราะมันทำให้มีโอกาสมากที่สุด (หรือวิธีอื่น ๆ ) สะดวก อย่างไรก็ตามสิ่งที่ทั้งสองเอกสารอ้างถึงข้างต้นแสดงให้เห็นว่าเป็นข้อสันนิษฐานที่มักจะผอมบาง นี่คือเหตุผลที่การศึกษาความแข็งแกร่งมีประโยชน์


2
ส่วนใหญ่ของโพสต์นี้ยอดเยี่ยม แต่ย่อหน้าเบื้องต้นทำให้ฉันรำคาญเพราะอาจตีความผิดได้ง่าย มันดูเหมือนว่าจะพูด - ค่อนข้างชัดเจน - ว่าโดยทั่วไปเป็น "ตัวอย่างที่มีขนาดใหญ่" จะมีลักษณะการกระจายตามปกติ จากคำพูดที่ตามมาของคุณฉันไม่เชื่อว่าคุณตั้งใจจะพูดอย่างนั้นจริงๆ
whuber

ฉันควรมีความชัดเจนมากขึ้น - ฉันไม่แนะนำให้ใช้ข้อมูลโลกแห่งความเป็นจริงส่วนใหญ่ แต่นั่นเป็นจุดที่ดีในการยกระดับ และฉันสมมุติว่าคุณหมายถึงอะไรนั่นคือการกระจายตัวแบบทวินามที่มีขนาดใหญ่ n เป็นเรื่องปกติและการกระจายตัวปัวซองด้วยค่าเฉลี่ยขนาดใหญ่นั้นเป็นเรื่องปกติ การแจกแจงอื่น ๆ มีแนวโน้มไปสู่ภาวะปกติหรือไม่
ไม่ระบุชื่อ

ขอบคุณฉันแก้ไขย่อหน้าแรก ดู Wald และ Wolfowitz (1944) สำหรับทฤษฎีบทเกี่ยวกับรูปแบบเชิงเส้นภายใต้การเรียงสับเปลี่ยน นั่นคือพวกเขาแสดงให้เห็นว่าทั้งสองตัวอย่าง t สถิติภายใต้การเปลี่ยนแปลงเป็นปกติ asymptotically
bsbk

การกระจายตัวตัวอย่างไม่ใช่ "ชุดข้อมูลโลกแห่งความจริง"! บางทีความยากลำบากที่ฉันมีกับความไม่แน่นอนที่เห็นได้ชัดในโพสต์ของคุณอาจเกิดจากความสับสนระหว่างการแจกจ่ายและข้อมูล บางทีมันอาจเกิดจากการขาดความชัดเจนเกี่ยวกับกระบวนการ "จำกัด " ที่คุณมีอยู่ในใจ
whuber

3
คำถามเดิมเกี่ยวกับการอธิบาย "ทั่วไป" ว่าข้อมูลในโลกแห่งความเป็นจริงอาจเกิดขึ้นได้อย่างไร เป็นไปได้ว่าข้อมูลจริงอาจถูกสร้างขึ้นจากกระบวนการทวินามหรือปัวซองซึ่งทั้งสองสามารถประมาณโดยการแจกแจงแบบปกติ op ขอตัวอย่างอื่น ๆ และสิ่งที่อยู่ในใจคือการกระจายการเรียงสับเปลี่ยนซึ่งเป็นเรื่องปกติเชิงเส้นกำกับ (ในกรณีที่ไม่มีความสัมพันธ์) ฉันไม่สามารถนึกวิธีออกจากมือได้ว่าข้อมูลจริงจะถูกสร้างขึ้นจากการแจกจ่ายนั้นดังนั้นบางทีข้อมูลอาจจะยืดออก
bsbk

10

นอกจากนี้ยังมีเหตุผลทางทฤษฎีข้อมูลสำหรับการใช้การแจกแจงแบบปกติ เมื่อพิจารณาค่าเฉลี่ยและความแปรปรวนการแจกแจงแบบปกติจะมีค่าเอนโทรปีสูงสุดในการแจกแจงความน่าจะเป็นมูลค่าจริงทั้งหมด มีแหล่งข้อมูลมากมายพูดคุยเกี่ยวกับคุณสมบัตินี้ สั้น ๆ หนึ่งสามารถพบได้ที่นี่ การอภิปรายทั่วไปมากขึ้นของแรงจูงใจสำหรับการใช้ที่เกี่ยวข้องกับการเสียนกระจายมากที่สุดของการขัดแย้งดังกล่าวเพื่อให้ห่างไกลสามารถพบได้ในนี้บทความจากนิตยสารการประมวลผลสัญญาณ


6
นี่คือถอยหลังตามที่ฉันเข้าใจ มันเกี่ยวกับวิธีการตั้งสมมติฐานเกี่ยวกับภาวะปกติในแง่ที่กำหนดไว้อย่างเคร่งครัดว่าเป็นสมมติฐานที่อ่อนแอ ฉันไม่เห็นความหมายของข้อมูลในโลกแห่งความเป็นจริง คุณอาจโต้เถียงว่าโดยทั่วไปแล้วเส้นโค้งจะเป็นเส้นตรงเนื่องจากเป็นข้อสมมติที่ง่ายที่สุดที่คุณสามารถทำได้เกี่ยวกับความโค้ง ญาณวิทยาไม่ได้ จำกัด ภววิทยา! หากการอ้างอิงที่คุณอ้างไปนั้นเกินกว่านั้นโปรดกำจัดข้อโต้แย้ง
Nick Cox

3

ในวิชาฟิสิกส์มันคือ CLT ซึ่งมักถูกอ้างถึงว่าเป็นสาเหตุของการกระจายข้อผิดพลาดตามปกติในการวัดจำนวนมาก

การแจกแจงข้อผิดพลาดที่พบบ่อยที่สุดสองตัวในฟิสิกส์ทดลองเป็นเรื่องปกติและปัวซอง มักจะพบหลังในการวัดจำนวนเช่นการสลายตัวของกัมมันตภาพรังสี

คุณสมบัติที่น่าสนใจอีกอย่างของการแจกแจงสองตัวนี้คือผลรวมของตัวแปรสุ่มจาก Gaussian และ Poisson เป็นของ Gaussian และ Poisson

มีหนังสือหลายเล่มเกี่ยวกับสถิติในวิทยาศาสตร์การทดลองเช่นนี้ : Gerhard Bohm, Günter Zech, บทนำสถิติและการวิเคราะห์ข้อมูลสำหรับนักฟิสิกส์, ไอ 978-3-935702-41-6


0

CLT มีประโยชน์อย่างยิ่งเมื่อทำการอนุมานเกี่ยวกับสิ่งต่าง ๆ เช่นค่าเฉลี่ยประชากรเพราะเราไปถึงที่นั่นด้วยการคำนวณการรวมกันเชิงเส้นของการวัดแต่ละอย่าง อย่างไรก็ตามเมื่อเราพยายามที่จะทำการอนุมานเกี่ยวกับการสังเกตการณ์เป็นรายบุคคลโดยเฉพาะอย่างยิ่งการสำรวจในอนาคต ( เช่นช่วงการทำนาย) การเบี่ยงเบนจากภาวะปกตินั้นสำคัญกว่ามากหากเราสนใจหางของการแจกแจง ตัวอย่างเช่นหากเรามีการสังเกต 50 ครั้งเรากำลังทำการคาดการณ์ครั้งใหญ่ (และการก้าวกระโดดของความศรัทธา) เมื่อเราพูดบางอย่างเกี่ยวกับความน่าจะเป็นของการสังเกตในอนาคตโดยมีค่าเบี่ยงเบนมาตรฐานอย่างน้อย 3 ค่าจากค่าเฉลี่ย

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.