ตัวอย่างชีวิตจริงของการแจกแจงทั่วไป


28

ฉันเป็นนักเรียนที่จบการศึกษาที่สนใจเรื่องสถิติ ฉันชอบเนื้อหาที่มากเกินไป แต่บางครั้งฉันก็รู้สึกลำบากกับการใช้งานกับชีวิตจริง โดยเฉพาะคำถามของฉันเกี่ยวกับการแจกแจงเชิงสถิติที่ใช้กันทั่วไป (ปกติ - เบต้า - แกมม่า ฯลฯ ) ฉันเดาว่าในบางกรณีฉันได้รับคุณสมบัติเฉพาะที่ทำให้การแจกแจงค่อนข้างดี - ตัวอย่างเช่นคุณสมบัติไร้ความจำของเลขชี้กำลัง แต่สำหรับอีกหลายกรณีฉันไม่ได้มีสัญชาตญาณเกี่ยวกับความสำคัญและพื้นที่การใช้งานของการแจกแจงทั่วไปที่เราเห็นในตำราเรียน

อาจมีแหล่งข้อมูลที่ดีมากมายที่จัดการกับข้อกังวลของฉันฉันจะดีใจถ้าคุณสามารถแบ่งปันสิ่งเหล่านั้น ฉันจะมีแรงจูงใจมากขึ้นในเนื้อหาถ้าฉันสามารถเชื่อมโยงกับตัวอย่างในชีวิตจริง


8
สิบสี่ชนิดของการใช้งานที่ครอบคลุมหลากหลายของการกระจายไว้ภายใต้ "การใช้งาน" บนหน้าความช่วยเหลือสำหรับMathematica ของ EstimatedDistributionฟังก์ชั่น
whuber

คำตอบ:


23

Wikipedia มีหน้าเว็บที่แสดงรายการการแจกแจงความน่าจะเป็นจำนวนมากพร้อมลิงก์ไปยังรายละเอียดเพิ่มเติมเกี่ยวกับการเผยแพร่แต่ละครั้ง คุณสามารถตรวจสอบรายชื่อและทำตามลิงก์เพื่อให้รู้สึกดีขึ้นสำหรับประเภทของแอปพลิเคชันที่มีการใช้การแจกแจงที่แตกต่างกัน

เพียงจำไว้ว่าการแจกแจงเหล่านี้ใช้เพื่อจำลองความเป็นจริงและดังที่ Box กล่าวว่า: "โมเดลทั้งหมดผิดรุ่นบางรุ่นมีประโยชน์"

นี่คือบางส่วนของการแจกแจงทั่วไปและสาเหตุบางประการที่เป็นประโยชน์:

ปกติ: สิ่งนี้มีประโยชน์สำหรับการดูค่าเฉลี่ยและชุดค่าผสมเชิงเส้นอื่น ๆ (เช่นค่าสัมประสิทธิ์การถดถอย) เนื่องจากค่า CLT เกี่ยวข้องกับสิ่งนั้นหากรู้ว่ามีสิ่งใดเกิดขึ้นเนื่องจากผลกระทบที่เพิ่มขึ้นของสาเหตุเล็ก ๆ ที่แตกต่างกันจากนั้นปกติอาจเป็นการกระจายที่สมเหตุสมผล: ตัวอย่างเช่นมาตรการทางชีวภาพหลายอย่างเป็นผลมาจากยีนหลายตัวและปัจจัยสิ่งแวดล้อมหลายอย่าง .

แกมม่า: เอียงขวาและมีประโยชน์สำหรับสิ่งต่าง ๆ ที่มีค่าต่ำสุดเป็นธรรมชาติที่ 0 ใช้กันทั่วไปสำหรับเวลาที่ผ่านไปและตัวแปรทางการเงินบางอย่าง

เอกซ์โพเนนเชียล: กรณีพิเศษของแกมม่า มันไม่มีหน่วยความจำและปรับขนาดได้อย่างง่ายดาย

Chi-squared ( ): กรณีพิเศษของแกมม่า เกิดขึ้นเป็นผลรวมของตัวแปรปกติกำลังสอง (เพื่อใช้สำหรับผลต่าง)χ2

เบต้า: กำหนดระหว่าง 0 ถึง 1 (แต่สามารถเปลี่ยนเป็นค่าระหว่างค่าอื่น ๆ ได้) มีประโยชน์สำหรับสัดส่วนหรือปริมาณอื่น ๆ ที่ต้องอยู่ระหว่าง 0 ถึง 1

ทวินาม: จำนวน "ความสำเร็จ" จากจำนวนการทดลองอิสระที่กำหนดโดยมีความน่าจะเป็นเท่ากันคือ "ความสำเร็จ"

ปัวซอง: สามัญสำหรับการนับ คุณสมบัติที่ดีที่หากจำนวนของเหตุการณ์ในช่วงเวลาหรือพื้นที่ตามปัวซองแล้วจำนวนในเวลาสองครั้งหรือพื้นที่ยังคงตามปัวซอง (โดยมีค่าเฉลี่ยเป็นสองเท่า): การทำงานเพื่อเพิ่ม Poissons หรือสเกลด้วยค่าอื่นที่ไม่ใช่ 2

โปรดทราบว่าหากเหตุการณ์เกิดขึ้นเมื่อเวลาผ่านไปและเวลาระหว่างเหตุการณ์ที่เกิดขึ้นเป็นไปตามเลขชี้กำลังจำนวนที่เกิดขึ้นในช่วงเวลาจะตามด้วยปัวซอง

Binomial เชิงลบ: นับด้วยค่าต่ำสุด 0 (หรือค่าอื่น ๆ ขึ้นอยู่กับเวอร์ชัน) และไม่มีขอบเขตบน แนวคิดมันเป็นจำนวนของ "ความล้มเหลว" ก่อนที่ k "ประสบความสำเร็จ" ทวินามลบก็เป็นส่วนผสมของตัวแปรปัวซองซึ่งหมายความว่ามาจากการแจกแจงแกมม่า

ทางเรขาคณิต: กรณีพิเศษสำหรับลบทวินามซึ่งเป็นจำนวน "ความล้มเหลว" ก่อนที่จะ "ประสบความสำเร็จ" ครั้งแรก หากคุณตัดทอน (ปัดเศษลง) เป็นตัวแปรเอ็กซ์โปเนนเชียลเพื่อให้แยกกันผลลัพธ์จะเป็นรูปทรงเรขาคณิต


3
ขอบคุณมากสำหรับคำตอบของคุณ อย่างไรก็ตามวิกิพีเดียมีคำอธิบายโดยทั่วไปที่ฉันต้องการ โดยทั่วไปคำถามของฉันคือทำไมการกระจายบางอย่างดี เพื่อให้คำตอบที่เป็นไปได้ในกรณีที่มีการแจกแจงแบบปกติอาจจะเกี่ยวข้องกับทฤษฎีบทกลาง จำกัด - ซึ่งบอกว่าถ้าคุณสุ่มตัวอย่างจำนวนการสังเกตที่ไม่มีที่สิ้นสุดคุณสามารถทำได้จริงใน asympotics ดูว่าสถิติเพียงพอของการสังเกตเหล่านั้น . ฉันกำลังค้นหาตัวอย่างเพิ่มเติมเช่นนั้น ..
Roark

ไม่ใช่การกระจายที่แท้จริง แต่สิ่งที่เกี่ยวกับ bimodal? ฉันไม่สามารถนึกถึงตัวอย่างชีวิตจริงที่พบเห็นได้ทั่วไปหลังจากฉันพบว่าความแตกต่างระหว่างเพศในมนุษย์นั้นไม่ใช่แบบ bimodal
แมวเพดาน

เพิ่ม multinomial

3

ทฤษฎีที่เกี่ยวกับเส้นกำกับนั้นนำไปสู่การแจกแจงแบบปกติ, ชนิดของค่าที่มาก, กฎที่เสถียรและปัวซอง เลขชี้กำลังและ Weibull มีแนวโน้มที่จะเกิดขึ้นเป็นเวลาพารามิเตอร์เพื่อการกระจายเหตุการณ์ ในกรณีของ Weibull มันเป็นประเภทค่ามากสำหรับตัวอย่างขั้นต่ำ ที่เกี่ยวข้องกับแบบจำลองพารามิเตอร์สำหรับการสังเกตแบบกระจายทั่วไปไคสแควร์, การแจกแจงแบบ T และ F เกิดขึ้นในการทดสอบสมมติฐานและการประมาณช่วงความมั่นใจไคสแควร์ยังเกิดขึ้นในการวิเคราะห์ตารางฉุกเฉินและความดีของแบบทดสอบพอดี สำหรับการศึกษาพลังของการทดสอบเรามีการแจกแจงแบบไม่รวมศูนย์และ F การแจกแจง hypergeometric เกิดขึ้นในการทดสอบที่แน่นอนของ Fisher สำหรับตารางฉุกเฉิน การแจกแจงทวินามเป็นสิ่งสำคัญเมื่อทำการทดลองเพื่อประมาณสัดส่วน ลบทวินามคือการกระจายที่สำคัญในแบบจำลองการกระจายเกินพิกัดในกระบวนการจุด ที่ควรให้คุณเริ่มต้นที่ดีในการ distrbutions pratical pratical สำหรับตัวแปรสุ่มที่ไม่ใช่เชิงลบใน (0, ∞) การแจกแจงแกมมานั้นมีความยืดหยุ่นสำหรับการให้รูปร่างที่หลากหลายและบันทึกปกติก็ใช้เช่นกัน ใน [0,1] ตระกูลเบต้าให้การกระจายสมมาตรแบบสมมาตรรวมถึงเครื่องแบบและการแจกแจงเบ้ไปทางซ้ายหรือเบ้ทางขวา

ฉันควรพูดถึงว่าถ้าคุณต้องการทราบรายละเอียดทั้งหมดเกี่ยวกับการแจกแจงทางสถิติมีหนังสือซีรีส์คลาสสิกของ Johnson และ Kotz ที่มีการแจกแจงแบบแยกส่วนการแจกแจงแบบ univariate ต่อเนื่องและการแจกแจงหลายตัวแปรแบบต่อเนื่อง สถิติโดย Kendall และ Stuart


ขอบคุณมากสำหรับคำตอบนี่เป็นประโยชน์อย่างยิ่ง ขอบคุณอีกครั้งมันช่วยฉันได้จริงๆ
Roark

2

ซื้อและอ่านอย่างน้อย 6 บทแรก (218 หน้าแรก) ของ William J. Feller "ทฤษฎีความน่าจะเป็นเบื้องต้นและการนำไปใช้งานฉบับที่ 2" http://www.amazon.com/dp/0471257095/ref=rdr_ext_tmb . อย่างน้อยอ่านปัญหาทั้งหมดสำหรับการแก้ไขและลองแก้ไขให้มากที่สุดเท่าที่จะทำได้ คุณไม่จำเป็นต้องอ่านฉบับที่ 1 ซึ่งในความคิดของฉันไม่ได้เป็นรางวัลโดยเฉพาะ

แม้ผู้เขียนจะเสียชีวิตไปแล้ว 45 1/2 ปีก่อน แต่หนังสือเล่มนี้ก็เสร็จสิ้นลง แต่ก็เป็นหนังสือที่ดีที่สุดที่ไม่มี Bar bar สำหรับการพัฒนาสัญชาตญาณความน่าจะเป็นและกระบวนการสุ่มและความเข้าใจและพัฒนาความรู้สึกสำหรับการแจกแจงต่าง ๆ วิธีการที่พวกเขาเกี่ยวข้องกับปรากฏการณ์โลกแห่งความจริงและปรากฏการณ์สุ่มแตกต่างกันซึ่งสามารถและเกิดขึ้นได้ และด้วยรากฐานที่มั่นคงที่คุณจะสร้างจากนั้นคุณจะได้รับการบริการที่ดีในสถิติ

หากคุณสามารถทำมันได้แม้ว่าบทต่อ ๆ มาซึ่งจะค่อนข้างยากกว่านี้คุณจะเป็นเพียงไม่กี่ปีข้างหน้าสำหรับทุกคน พูดง่ายๆก็คือถ้าคุณรู้จัก Feller Vol 2 คุณจะรู้ว่าความน่าจะเป็น (และกระบวนการสโทแคสติก); หมายความว่าอะไรก็ตามที่คุณไม่รู้เช่นการพัฒนาใหม่คุณจะสามารถหยิบและต้นแบบได้อย่างรวดเร็วโดยการสร้างรากฐานที่มั่นคง

เกือบทุกอย่างที่กล่าวถึงในหัวข้อนี้อยู่ใน Feller Vol 2 (ไม่ใช่เนื้อหาทั้งหมดใน Kendall Advanced Theory of Statistics แต่การอ่านหนังสือเล่มนั้นจะเป็นชิ้นส่วนของเค้กหลังจาก Feller Vol 2) และอื่น ๆ อีกมากมายทั้งหมดนี้ ในวิธีที่ควรพัฒนาความคิดและสัญชาตญาณสุ่ม Johnson และ Kotz นั้นดีสำหรับ minutiae ในการแจกแจงความน่าจะเป็นต่าง ๆ Feller Vol 2 มีประโยชน์สำหรับการเรียนรู้วิธีคิดความน่าจะเป็นและการรู้ว่าจะดึงข้อมูลจาก Johnson และ Kotz อย่างไรและจะใช้อย่างไร


2

เพียงเพิ่มคำตอบที่ยอดเยี่ยมอื่น ๆ

nพีλ=nพีอยู่อย่างคงที่กระโดดจากศูนย์และไม่มีที่สิ้นสุด สิ่งนี้บอกเราว่ามีประโยชน์เมื่อใดก็ตามที่เรามีเหตุการณ์ที่ไม่น่าจะเกิดขึ้นเป็นจำนวนมากเป็นรายบุคคล ตัวอย่างที่ดีคือ: อุบัติเหตุเช่นจำนวนรถชนในนิวยอร์กในแต่ละวันเนื่องจากแต่ละครั้งที่รถสองคันผ่าน / พบจะมีโอกาสเกิดอุบัติเหตุได้ต่ำมากและจำนวนของโอกาสดังกล่าวนั้นแน่นอนทางดาราศาสตร์! ตอนนี้คุณสามารถคิดถึงตัวอย่างอื่น ๆ เช่นจำนวนเครื่องบินตกบนโลกในหนึ่งปี ตัวอย่างคลาสสิกที่จำนวนม้าตายในกองทหารม้าปรัสเซียน!

nพี(1-พี)พี1-พีnพีλพีพี


0

งานวิจัยที่ตีพิมพ์เมื่อเร็ว ๆ นี้แสดงให้เห็นว่าการปฏิบัติงานของมนุษย์ไม่ได้กระจายตามปกติตรงกันข้ามกับความคิดทั่วไป ข้อมูลจากสี่สาขาถูกวิเคราะห์: (1) นักวิชาการใน 50 สาขาตามความถี่การเผยแพร่ในวารสารเฉพาะสาขาวิชาที่มีชื่อเสียงที่สุด (2) ผู้ให้ความบันเทิงเช่นนักแสดงนักดนตรีและนักเขียนและจำนวนรางวัลอันทรงเกียรติการเสนอชื่อหรือความแตกต่างที่ได้รับ (3) นักการเมืองใน 10 ประเทศและผลการเลือกตั้ง / การเลือกตั้งใหม่ (4) นักกีฬาของวิทยาลัยและมืออาชีพมองหามาตรการที่เป็นรายบุคคลมากที่สุดเช่นจำนวนของการวิ่งกลับบ้านการออกงานในกีฬาของทีมและการชนะโดยรวมในกีฬาแต่ละประเภท ผู้เขียนเขียนว่า "เราเห็นการกระจายอำนาจกฎหมายอย่างชัดเจนและสม่ำเสมอในแต่ละการศึกษาโดยไม่คำนึงว่าเราวิเคราะห์ข้อมูลในวงแคบหรือกว้างอย่างไร ... "


4
ใครบอกว่าปกติแล้วการแสดงของมนุษย์นั้นถูกแจกจ่าย! หลักการ 80-20 ได้รับการแนะนำโดย Pareto (1906!)
abaumann
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.