ความน่าจะเป็นของเด็กห้าคนในชั้นเรียนเดียวกันที่มีชื่อเดียวกัน

บนกระดานสนทนาที่ตั้งชื่อทารกผู้ปกครองที่คาดหวังจะทำซ้ำความกลัวของเจนนิเฟอร์บางรุ่นตลอดเวลา: "ฉันไม่ต้องการให้ลูกของฉันเป็นหนึ่งใน 5 ในชั้นเรียนของเขาด้วยชื่อของเขา" สิ่งที่ไม่มีชื่อมาใกล้เคียงกับความนิยมแบบนั้นอีกต่อไปและแม้แต่ที่ความสูงของเจนนิเฟอร์คลั่งคุณไม่ได้รับห้าคนในชั้นเรียน ฉันต้องการคำตอบบางอย่างสำหรับผู้ปกครองเหล่านี้ถึงความซ้ำซ้อนของการซ้ำชื่อที่ไม่น่าจะเป็นไปได้

การใช้ข้อมูลชื่อทารกที่ครอบคลุมของ Social Security Administration ( https://www.ssa.gov/oact/babynames/limits.html ) มีใครช่วยบอกวิธีการหาโอกาสของชั้นประถมศึกษาในสหรัฐอเมริกาที่มีห้าคน เด็กที่มีชื่อเดียวกัน? (สำหรับความเรียบง่ายโดย "ชื่อเดียวกัน" ฉันหมายถึงการสะกดคำเดียวกันและโดย "ชั้นเรียน" ฉันหมายถึงเด็กทุกคนที่เกิดในปีเดียวกัน) ฉันไม่ได้ระบุขนาดของชั้นเรียน แต่แน่นอนควรมากกว่า 4 . :-)

probability combinatorics

— JPmiaou
แหล่งที่มา

โพสต์เกี่ยวกับชื่อเด็กเป็นธีมที่เกิดขึ้นประจำในบล็อกของ Andrew Gelman ในโพสต์ใด ๆ ที่ฉันพบในเว็บไซต์ของเขาเขาไม่พูดถึงคำถามเฉพาะของคุณ เขาลิงก์ไปยัง "บล็อกชื่อทารก" ซึ่งคุณอาจมีโชคมากกว่าที่จะได้รับคำตอบ andrewgelman.com/2005/09/07/baby_name_blog

— Mike Hunter

ฉันคิดว่าคุณอาจสตริงบางสิ่งบางอย่างร่วมกันโดยใช้การกระจายพหุนามที่มีความน่าจะเป็นของความสำเร็จของการพูดด้านบนยี่สิบแรกชื่อสกัดจากข้อมูลการสำรวจสำมะโนประชากรเช่นนี้

— Antoni Parellada

SSA ให้ข้อมูลเกี่ยวกับจำนวนเด็กที่เกิดด้วยชื่อหรือไม่ ฉันแค่ค้นหาข้อมูลเกี่ยวกับอันดับที่เห็นได้ชัดว่าทิ้งข้อมูลที่เป็นประโยชน์บางอย่าง

— Sycorax พูดว่า Reinstate Monica

@AntoniParellada ฉันคิดว่าความเป็นจริงของสถานการณ์นั้นลึกซึ้งยิ่งขึ้น: เนื่องจากระบบโรงเรียนของสหรัฐอเมริกาถูกแยกจากรายได้และเชื้อชาติอย่างมากฉันคิดว่าสถิติแห่งชาติจะมีการติดต่อที่ไม่ดีกับห้องเรียนจริง

— Sycorax พูดว่า Reinstate Monica

เมื่อฉันเป็นนักเรียนที่โรงเรียนประถม (เล็ก) เรามีจอห์นสามคนในชั้นเรียนที่เล็กมาก (ฉันคิดว่าเด็กชายและเด็กหญิงรวมกันเป็นเพียงประมาณ 14) หนึ่งปีเรารวมกับปีข้างต้นเพื่อสร้างคลาสเต็มขนาด ... และได้จอห์นที่สี่ ตอนนี้จอห์นก็ค่อนข้างธรรมดา แต่ไม่ใช่ทั้งหมดที่เป็นเรื่องธรรมดา (ในแง่ของปัญหาดั้งเดิมสามจะน่ารำคาญเกือบเป็นห้า) โอกาสของชื่อเฉพาะที่ซ้ำกันหลายครั้งจะต่ำมาก แต่โอกาสที่ชื่อบางชื่อจะปรากฏขึ้นหลายครั้งจะสูงกว่ามาก

— Glen_b -Reinstate Monica

คำตอบ:

ข้อมูลทั้งหมดที่สามารถพบได้ที่นี่ แต่ละค่าในตารางแสดงถึงความน่าจะเป็นที่ให้ตัวอย่าง 25 คนจากสถานที่และปีเกิด 5 คนในนั้นจะแบ่งปันชื่อ

วิธีการ : ฉันใช้Binomial PDFในแต่ละชื่อเพื่อค้นหาความน่าจะเป็นที่ชั้นเรียน 25 คนใดก็ตามจะมี 5 คนที่แชร์ชื่อ:

n = class size
k = 5,6,...,n 
p_i = (# of name[i]'s) / (total # of kids)

P_{n} (5 + k i d s s h a r e n a m e) = \sum_{\forall n a m e s} \sum_{k = 5}^{n} (\binom{n}{k}) p_{i}^{k} (1 - p_{i})^{n - k}

$P_n(5+\ kids\ share\ name) = \sum_{\forall\ names}\sum_{k=5}^n{n \choose k}p_i^k(1-p_i)^{n-k}$

ตัวอย่างเช่นหากมีเด็กทั้งหมด 4,000,000 คนและ 21,393 คนของ Emily ความน่าจะเป็นที่มี 5 Emily ในชั้นเรียนใดก็ตามที่มีนักเรียน 25 คนคือ Binomial (25, 5, 0.0053) = 0.0000002 การสรุปชื่อทั้งหมดไม่ได้ให้คำตอบที่แน่นอนเพราะตามหลักการการรวม / ไม่รวมเราต้องคำนึงถึงความเป็นไปได้ที่จะมีคน 5 กลุ่มที่ใช้ชื่อร่วมกันหลายกลุ่ม อย่างไรก็ตามเนื่องจากความน่าจะเป็นเหล่านี้มีวัตถุประสงค์เพื่อการปฏิบัติทั้งหมดเกือบศูนย์ฉันได้สันนิษฐานว่าพวกเขาจะมีเพียงเล็กน้อยและทำให้(Ä_i) $P(\bigcup A_i) \approx \sum P(A_i)$

ปรับปรุง:ตามที่หลายคนชี้ให้เห็นมีความแตกต่างกันมากในช่วงเวลาและระหว่างรัฐ ดังนั้นฉันจึงรันโปรแกรมเดียวกันตาม STATE BY STATE และเมื่อเวลาผ่านไป นี่คือผลลัพธ์ (ความน่าจะเป็นทั่วทั้งประเทศคือสีแดงแต่ละรัฐเป็นสีดำ):

น่าสนใจเวอร์มอนต์ (รัฐบ้านเกิดของฉัน) เป็นหนึ่งในสถานที่ที่มีแนวโน้มมากที่สุดที่จะเกิดขึ้นในช่วงหลายทศวรรษที่ผ่านมา

— เดวิดซี
แหล่งที่มา

โอกาสใดที่คุณสามารถอธิบายว่าคุณได้รับตัวเลขเหล่านี้ได้อย่างไร คุณไม่จำเป็นต้องทำให้มันแย่ลง - ฉันมีปริญญาตรีในวิชาคณิตศาสตร์และฉันรู้ว่าต้องมองหาที่ไหน - แต่ฉันอยากรู้เหตุผลที่นำไปสู่ความน่าจะเป็นจริง ๆ (แทน ถอนหายใจ)

— JPmiaou

นี้อนุมานว่าชื่อจะได้รับการสุ่มที่มีความน่าจะเป็นเหมือนกันสิ่งที่เป็นเพียงไม่เป็นความจริง นอกจากนี้ประสบการณ์ในชีวิตจริงแสดงให้เห็นว่ามีชั้นเรียนมากขึ้นด้วยเด็กที่มีชื่อเดียวกันแล้ว 1 ใน 200!

— ทิม

ฉันได้รับผลลัพธ์ที่แตกต่างกันเล็กน้อย แต่พวกเขาสนิทกัน แม้ว่ามันจะไม่คุ้มค่าที่จะพูดคุยกัน แต่เนื่องจากความแปรปรวนทางภูมิศาสตร์และทางโลกในผลลัพธ์นั้นมีขนาดใหญ่มาก คำตอบมีการเปลี่ยนแปลงสองคำสั่งของขนาดตั้งแต่ 1910 และแตกต่างกันไปตามลำดับความสำคัญในหมู่รัฐ เนื่องจากเกือบจะไม่มีชั้นเรียนระดับประถมศึกษามาจากทั้งสหรัฐอเมริการูปแบบของการเลือกแบบสุ่มจากรายชื่อประเทศจึงไม่เหมาะสม

— whuber

(1) ดูปีอื่น ๆ ในไฟล์ระดับประเทศที่คุณดาวน์โหลด (2) ดูไฟล์สถานะที่มีอยู่ในเว็บไซต์เดียวกัน

— whuber

ใช่กราฟของความน่าจะเป็นเมื่อเวลาผ่านไปเป็นไปอย่างน่าทึ่ง: มันเริ่มลดลงอย่างมากในปี 1980 แต่ความแปรปรวนของรัฐมีขนาดใหญ่มากอย่างที่เราคาดไว้: ชื่อมีความแตกต่างทางภูมิศาสตร์และพวกเขาจัดกลุ่มตามเชื้อชาติ (+1 สำหรับการตรวจสอบเพิ่มเติมของคุณเกี่ยวกับการเปลี่ยนแปลงสถานะและเวลา BTW.)

— whuber

โปรดดูสคริปต์ Python ต่อไปนี้สำหรับ Python2

คำตอบได้แรงบันดาลใจจากคำตอบของ David C

คำตอบสุดท้ายของฉันคือความน่าจะเป็นที่จะหา Jacobs อย่างน้อยห้าตัวในหนึ่งชั้นโดยที่ Jacob เป็นชื่อที่น่าจะเป็นไปได้มากที่สุดตามข้อมูลจากhttps://www.ssa.gov/oact/babynames/limits.html "National Data "จากปี 2549

ความน่าจะเป็นคำนวณตามการแจกแจงทวินามด้วย Jacob-Probability ซึ่งเป็นความน่าจะเป็นของความสำเร็จ

import pandas as pd
from scipy.stats import binom

data = pd.read_csv(r"yob2006.txt", header=None, names=["Name", "Sex", "Count"])

# count of children in the dataset:
sumCount = data.Count.sum()

# do calculation for every name:
for i, row in data.iterrows():
    # relative counts of each name being interpreted as probabily of occurrence
    data.loc[i, "probability"] = data.loc[i, "Count"]/float(sumCount)

    # Probabilites being five or more children with that name in a class of size n=25,50 or 100
    data.loc[i, "atleast5_class25"] = 1 - binom.cdf(4,25,data.loc[i, "probability"])
    data.loc[i, "atleast5_class50"] = 1 - binom.cdf(4,50,data.loc[i, "probability"])
    data.loc[i, "atleast5_class100"] = 1 - binom.cdf(4,100,data.loc[i, "probability"])

maxP25 = data["atleast5_class25"].max()
maxP50 = data["atleast5_class50"].max()
maxP100 = data["atleast5_class100"].max()

print ("""Max. probability for at least five kids with same name out of 25: {:.2} for name {}"""
   .format(maxP25, data.loc[data.atleast5_class25==maxP25,"Name"].values[0]))
print
print ("""Max. probability for at least five kids with same name out of 50: {:.2} for name {}, of course."""
   .format(maxP50, data.loc[data.atleast5_class50==maxP50,"Name"].values[0]))
print
print ("""Max. probability for at least five kids with same name out of 100: {:.2} for name {}, of course."""
   .format(maxP100, data.loc[data.atleast5_class100==maxP100,"Name"].values[0]))

แม็กซ์ ความน่าจะเป็นสำหรับเด็กอย่างน้อยห้าคนที่มีชื่อเดียวกันจาก 25: 4.7e-07 สำหรับชื่อจาค็อบ

แม็กซ์ ความน่าจะเป็นสำหรับเด็กอย่างน้อยห้าคนที่มีชื่อเดียวกันจาก 50: 1.6e-05 สำหรับชื่อจาค็อบแน่นอน

แม็กซ์ ความน่าจะเป็นสำหรับเด็กอย่างน้อยห้าคนที่มีชื่อเดียวกันจาก 100: 0.00045 สำหรับชื่อจาค็อบแน่นอน

โดยปัจจัย 10 เดียวกับผลลัพธ์ของ David C ขอบคุณ (คำตอบของฉันไม่รวมชื่อทั้งหมดอาจจะกล่าวถึง)

— Feinmann
แหล่งที่มา

คำตอบนี้ไม่ได้ตอบคำถามของโอกาสที่ชื่อบางชื่อปรากฏในห้องเรียนห้าครั้งขึ้นไป

— whuber

@feinmann ฉันเชื่อว่าการรวมผลรวมของชื่อทั้งหมดมีความเหมาะสมเนื่องจากความน่าจะเป็นที่จะมีคนสองคนหรือมากกว่า 5 คนที่มีชื่อเดียวกันในชั้นเดียวเกือบเป็นศูนย์และไม่สำคัญสำหรับการใช้งานจริงทั้งหมด นั่นคือตามหลักการการรวม / การยกเว้นหากเรามองข้ามความเป็นไปได้นี้แล้ว

P (⋃ A_{i}) \approx \sum P (A_{i})

$P(\bigcup A_i) \approx \sum P(A_i)$

— David C

ไม่คุณยังไม่ได้ตอบคำถามเมื่อคุณตั้งคำถาม โอกาสที่ชื่อบางชื่อจะปรากฏห้าครั้งขึ้นไปนั้นยิ่งใหญ่กว่าโอกาสสูงสุดที่ชื่อที่กำหนดไว้จะปรากฏห้าครั้งขึ้นไป

— whuber

@whuber ชี้ให้เห็นว่า "5 Jacobs" เป็นข้อโต้แย้งที่อ่อนแอกว่า "5 ชื่อบางชื่อ" แต่อาจเป็นประโยชน์ในการอภิปรายชื่อทารกต่อไป: "นี่เป็นความน่าจะเป็นของเด็กห้าคนที่มีชื่อโด่งดังที่สุดคุณไม่ใช่ ใช้ชื่อที่ได้รับความนิยมมากที่สุดความน่าจะเป็นของคุณก็จะน้อยลง "

— JPmiaou

มันไม่ได้เป็นอย่างนั้นเพราะความเป็นไปได้ไม่ได้เกิดจากการร่วมกัน: คุณสามารถมี Thomases 5 ตัวหรือมากกว่าและ 5 หรือมากกว่า Richards ( และบางทีอาจจะมากกว่า 5 Henrys) ในชั้นเรียนเดียว ดังนั้นมันจึงเป็นขอบเขตบน @DavidC โต้แย้งในความคิดเห็นที่นี่ว่าเหตุการณ์ดังกล่าวมีความเป็นไปได้น้อยมาก

— Scortchi - Reinstate Monica