คำตอบที่แท้จริงของคำถามวันเกิดคืออะไร?


13

"ชั้นเรียนต้องใหญ่แค่ไหนเพื่อสร้างโอกาสในการหาคนสองคนที่มีวันเกิดเดียวกันอย่างน้อย 50%"

ฉันมีเพื่อน 360 คนบน Facebook และตามที่คาดไว้การกระจายวันเกิดของพวกเขาไม่เหมือนกันเลย ฉันมีหนึ่งวันกับที่มี 9 เพื่อนกับวันเกิดเดียวกัน (9 เดือนหลังจากวันหยุดใหญ่และวันวาเลนไทน์ดูเหมือนจะเป็นวันที่ยิ่งใหญ่ฮ่า ๆ .. ) ดังนั้นเนื่องจากบางวันมีโอกาสมากขึ้นสำหรับวันเกิดฉันจึงสมมติว่าจำนวน 23 คือส่วนบน

มีการประเมินปัญหานี้ดีขึ้นหรือไม่?


3
กลุ่มตัวอย่าง 360 คนไม่ได้สร้างตัวอย่างขนาดใหญ่สำหรับการแจกจ่ายวันเกิดใน 365 วันของปี ... คุณไม่สามารถตรวจสอบความสม่ำเสมอของตัวอย่างเล็ก ๆ เหล่านี้ได้
ซีอาน

คนมีวันเกิดอัตราต่อรองที่บุคคลที่สองไม่ได้แบ่งปันวันเกิดเดียวกันคืออะไร 364/365อัตราต่อรองที่บุคคลที่สามไม่ได้แบ่งปันวันเกิดเป็นอย่างไร (364/365) * (363/365). < 50%ขยายตัวนี้จนกว่าคุณจะได้มีความน่าจะเป็น มันจะหมายถึงราคาที่ไม่มีใคร> 50%มีวันเกิดเดียวกันซึ่งในจะเปิดหมายถึงการที่อัตราต่อรองอย่างน้อยสองที่จะแบ่งปันวันเกิดจะเป็น
zzzzBov

8
เราจะสมมติว่าคุณมีเพื่อนสุ่มหรือไม่?
James

1
1365

คำตอบ:


18

โชคดีที่มีคนโพสต์ข้อมูลวันเกิดของแท้พร้อมกับการถกปัญหาที่เกี่ยวข้องเล็กน้อย (เป็นชุดการแจกจ่าย) เราสามารถใช้นี้และ resampling แสดงให้เห็นว่าคำตอบสำหรับคำถามของคุณเป็นที่เห็นได้ชัด 23 - เช่นเดียวกับคำตอบทางทฤษฎี

> x <- read.table("bdata.txt", header=T)
> birthday <- data.frame(date=as.factor(x$date), count=x$count)
> summary(birthday) 
      date         count     
 101    :  1   Min.   : 325  
 102    :  1   1st Qu.:1266  
 103    :  1   Median :1310  
 104    :  1   Mean   :1314  
 105    :  1   3rd Qu.:1362  
 106    :  1   Max.   :1559  
 (Other):360                 
> results <- rep(0,50)
> reps <-2000 # big number needed as there is some instability otherwise
> for (i in 1:50)
+ {
+ count <- 0
+ for (j in 1:reps)
+ {
+ samp <- sample(birthday$date, i, replace=T, prob=birthday$count)
+ count <- count + 1*(max(table(samp))>1)
+ }
+ results[i] <- count/reps
+ }
> results
 [1] 0.0000 0.0045 0.0095 0.0220 0.0210 0.0395 0.0570 0.0835 0.0890 0.1165
[11] 0.1480 0.1770 0.1955 0.2265 0.2490 0.2735 0.3105 0.3350 0.3910 0.4165
[21] 0.4690 0.4560 0.5210 0.5310 0.5745 0.5975 0.6240 0.6430 0.6950 0.7015
[31] 0.7285 0.7510 0.7690 0.8025 0.8225 0.8280 0.8525 0.8645 0.8685 0.8830
[41] 0.8965 0.9020 0.9240 0.9435 0.9350 0.9465 0.9545 0.9655 0.9600 0.9665

8
อันที่จริงใคร ๆ ก็สามารถแสดงให้เห็นผ่านทางนูน Schurว่าสำหรับการกระจายวันเกิดแบบ nonuniform ความน่าจะเป็นของการแข่งขันเป็นอย่างน้อยที่สุดในกรณีเครื่องแบบ นี่คือแบบฝึกหัด 13.7ของ J. Michael Steele, The Master Cauchy-Schwarz: บทนำสู่ศิลปะของความไม่เท่าเทียมกันทางคณิตศาสตร์ , Cambridge University Press, 2004, pg. 206 .
พระคาร์ดินัล

2
@ ซีอาน: แน่นอน ตอนนี้ถ้าเพียงฉันรู้ว่าคนที่ทำหนังสือบทวิจารณ์สำหรับนิตยสารสถิติคุณภาพสูงที่มีผู้อ่านสูงฉันขอแนะนำให้พวกเขาตรวจสอบเพื่อให้ทัศนวิสัยสูงขึ้นต่อนักสถิติ ... แต่จะหาคนเช่นนี้ได้ที่ไหน ...
พระคาร์ดินัล

3
(สำหรับผู้ที่อาจจะสงสัยเกี่ยวกับความคิดเห็นก่อนหน้าของฉันทันทีมันอ้างอิงความจริงที่ว่า @ ซีอานเป็นผู้วิจารณ์หนังสือที่ได้รับการแต่งตั้งใหม่เพื่อโอกาส )
พระคาร์ดินัล

2
@ table(replicate(10^5, max(tabulate(sample(1:365,360,rep=TRUE)))))ซีอานตรวจสอบนี้และดูสิ่งที่คุณคิด:
whuber

3
มันอาจไม่ชัดเจนยกเว้น R cognoscenti ว่ารหัสในความคิดเห็นก่อนหน้าโดย @ Xi'an และตัวฉันเองจำลองสถานการณ์ของ OP การเปิดตัวแสดงให้เห็นว่าโอกาสที่ผู้คน 9 คนหรือมากกว่านั้นจะแบ่งปันวันเกิดจาก 360 คนที่ถูกสุ่มเลือกจากประชากรที่มีการกระจายอย่างเท่าเทียมกันมีเพียง 40 คนจาก 100,000 คน มูลค่าที่น่าจะเป็นไปได้มากที่สุดสำหรับจำนวนวันเกิดร่วมกันคือ 5
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.