ความน่าจะเป็นของการแยกจากการสุ่มตัวอย่างหลายครั้งของประชากรเดียวกัน


10

นี่คือกรณีตัวอย่าง:

  • ฉันมีประชากร 10,000 รายการ แต่ละรายการมีรหัสเฉพาะ
  • ฉันสุ่มเลือก 100 รายการและบันทึกรหัส
  • ฉันเอาไอเท็ม 100 ชิ้นกลับไปเป็นประชากร
  • ฉันสุ่มเลือก 100 รายการอีกครั้งบันทึกรหัสและแทนที่
  • โดยรวมฉันทำซ้ำการสุ่มตัวอย่างแบบนี้ 5 ครั้ง

ความน่าจะเป็นนั้นคืออะไร X จำนวนรายการปรากฏในตัวอย่างสุ่มทั้ง 5 รายการหรือไม่

ฉันไม่เชี่ยวชาญในสถิติ สิ่งนี้จะถูกต้องสำหรับหรือไม่?X=10

  • สำหรับการสุ่มตัวอย่างแต่ละครั้งจำนวนชุดค่าผสมที่เป็นไปได้ 100 รายการจาก 10,000 คือbinom(10000,100)
  • จากการรวมกันทั้งหมด 100 รายการชุดค่าผสมมี 10 รายการเฉพาะbinom(9990,90)binom(100,10)
  • ความน่าจะเป็นที่มี 10 รายการเฉพาะคือ(ผมnโอม.(9990,90)* * * *ผมnโอม.(100,10))/ผมnโอม.(10000,100)
  • ความน่าจะเป็นที่ได้จากการคำนวณกำลังของ 5 จะเป็นตัวแทนของตัวอย่างอิสระ 5 รายการ

เราก็แค่คำนวณความน่าจะเป็น hypergeometric อิสระ 5 ตัวแล้วคูณมันเข้าด้วยกัน? ฉันรู้สึกเหมือนว่าฉันพลาดขั้นหนึ่ง


3
หากคุณทำซ้ำสิ่งหนึ่งครั้งหมายความว่าคุณทำมันซ้ำสองครั้ง การทำซ้ำบางสิ่งไม่ได้ 5 ครั้งหมายความว่าคุณทำซ้ำ 6 ครั้งใช่หรือไม่
Glen_b -Reinstate Monica

คำตอบ:


3

คำนวณโอกาสที่เกิดซ้ำ

ปล่อย พีs(x) เป็นความน่าจะเป็นที่แน่นอน x ค่านิยม 0xkถูกเลือกในทั้งหมด s1 วาดอิสระของ k รายการ (โดยไม่มีการแทนที่) จากประชากรของ nk>0สมาชิก. (มาถือกัน)n และ k ได้รับการแก้ไขในช่วงระยะเวลาของการวิเคราะห์ดังนั้นจึงไม่จำเป็นต้องพูดถึงอย่างชัดเจน)

ปล่อย พีs(x|Y) เป็นความน่าจะเป็นที่แน่นอน Y ค่าจะถูกเลือกในครั้งแรก s-1 ดึงแล้ว xYของพวกเขาถูกเลือกในการดึงครั้งสุดท้าย จากนั้นเนื่องจากมีส่วนย่อยขององค์ประกอบขององค์ประกอบเหล่านั้นและส่วนย่อยขององค์ประกอบที่เหลือจะถูกเลือกแยกออกจากสมาชิกอื่น ๆของประชากร(Yx)xY(n-Yk-x)k-xn-Y

พีs(x|Y)=(Yx)(n-Yk-x)(nk).

กฎของความน่าจะเป็นทั้งหมดยืนยัน

พีs(x)=ΣY=xkพีs(x|Y)พีs-1(Y).

สำหรับมันมั่นใจว่า : นี่คือการกระจายตัวเริ่มต้นs=1x=k

การคำนวณทั้งหมดที่จำเป็นในการได้รับการกระจายเต็มรูปแบบผ่านซ้ำเป็นs) ไม่เพียงเท่านั้นที่มีความรวดเร็วพอสมควรอัลกอริทึมก็ง่าย ข้อผิดพลาดอย่างหนึ่งที่รอโปรแกรมเมอร์ที่ไม่ระวังคือความน่าจะเป็นเหล่านี้อาจมีขนาดเล็กมากและการคำนวณจุดลอยตัวต่ำกว่าเกณฑ์ การใช้งานต่อไปนี้หลีกเลี่ยงสิ่งนี้โดยการคำนวณค่าของในคอลัมน์ของอาร์เรย์sO(k2s)Rเข้าสู่ระบบ(พีs(x))1,2,...,s

lp <- function(s, n, k) {
  P <- matrix(NA, nrow=k+1, ncol=s, dimnames=list(0:k, 1:s))
  P[, 1] <- c(rep(-Inf, k), 0)
  for (u in 2:s) 
    for (i in 0:k) {
      q <- P[i:k+1, u-1] + lchoose(i:k, i) + lchoose(n-(i:k), k-i) - lchoose(n, k)
      q.0 <- max(q, na.rm=TRUE)
      P[i+1, u] <- q.0 + log(sum(exp(q - q.0)))
    }
  return(P)
}
p <- function(...) zapsmall(exp(lp(...)))

คำตอบของคำถามจะได้รับโดยการให้และ 2 s=5, n=10000=104k=100=102 เอาท์พุทเป็นอาร์เรย์ แต่ส่วนใหญ่ของตัวเลขที่มีขนาดเล็กดังนั้นเราจะเน้นที่มีขนาดเล็กมากxนี่คือสี่แถวแรกที่สอดคล้องกับ :101×5xx=0,1,2,3

p(5, 1e4, 1e2)[1:4, ]

ผลลัพธ์คือ

  1         2         3      4        5
0 0 0.3641945 0.9900484 0.9999 0.999999
1 0 0.3715891 0.0099034 0.0001 0.000001
2 0 0.1857756 0.0000481 0.0000 0.000000
3 0 0.0606681 0.0000002 0.0000 0.000000

ค่าของป้ายแถวในขณะที่ค่านิยมของป้ายคอลัมน์ คอลัมน์ 5 แสดงโอกาสที่องค์ประกอบหนึ่งที่ปรากฏในตัวอย่างทั้งห้านั้นมีขนาดเล็ก (ประมาณหนึ่งในล้าน) และไม่มีโอกาสที่องค์ประกอบสองอย่างหรือมากกว่านั้นปรากฏในตัวอย่างทั้งห้าxs

หากคุณต้องการดูว่าโอกาสเหล่านี้มีขนาดเล็กเพียงใดให้ดูที่ลอการิทึมของพวกเขา ฐาน 10 สะดวกและเราไม่ต้องการตัวเลขมาก:

u <- lp(5, 1e4, 1e2)[, 5]
signif(-u[-1] / log(10), 3)

เอาท์พุทบอกเราว่ามีศูนย์อยู่กี่หลังจุดทศนิยม:

    1     2     3     4     5     6     7     8     9    10  ...   97    98    99   100 
  6.0  12.3  18.8  25.5  32.3  39.2  46.2  53.2  60.4  67.6 ... 917.0 933.0 949.0 967.0 

ตัวเลขในแถวบนสุดที่มีค่าของxตัวอย่างเช่นโอกาสที่จะพบค่าสามค่าที่ปรากฏขึ้นในตัวอย่างทั้งห้านั้นได้จากการคำนวณโดยให้และแน่นอนมีศูนย์ก่อน ตัวเลขนัยสำคัญแรก ในฐานะที่เป็นเช็คค่าสุดท้ายเป็นรุ่นกลม967.26xexp(u[4])0.0000000000000000001434419...18967.0967.26(10000100)-4(ซึ่งนับโอกาสที่ตัวอย่างแรกปรากฏขึ้นอีกครั้งในอีกสี่ตัวอย่าง) เท่ากับ10-967.26.


0

ฉันเพิ่งพบปัญหาที่คล้ายกันและแม้ว่าฉันจะไม่ทราบว่านี่เป็นวิธีแก้ไขที่ถูกต้องหรือไม่เข้าหาเช่นนี้:

คุณมีความสนใจในการเกิด X รายการใน 5 ตัวอย่างá 100 รายการของ 10,000รายการทั้งหมด คุณสามารถคิดถึงโกศด้วยX ลูกบอลสีขาวและ 10,000-X ลูกบอลสีดำ 100 ลูกถูกนำออกมาและ พีชั่วโมง คือความน่าจะเป็นที่คุณมีทั้งหมด Xลูกบอลสีขาวในชุดของคุณ ถ้าคุณทำเช่นนี้5 คูณ (อิสระ) ฉันจะคูณมัน: พี=พีชั่วโมง5.

ฉันยังนึกถึงอีกหนึ่งก้าวและพันรอบการแจกแจงทวินาม: ถ้าคุณมีเหรียญที่ขึ้นมาด้วยความน่าจะเป็น พีชั่วโมง (ความน่าจะเป็นที่คุณมีรายการทั้งหมดในชุดของคุณ) และคุณโยนมัน 5 คูณความน่าจะเป็นที่จะได้ 5 หัว? พี=(55)พีชั่วโมง5(1-พีชั่วโมง)5-5=พีชั่วโมง5.


0

ความน่าจะเป็นนั้นคืออะไร X จำนวนรายการปรากฏในตัวอย่างสุ่มทั้ง 5 รายการหรือไม่

จากสิ่งที่ฮันส์พูดคุณอยากได้สิ่งนั้นเสมอ X รหัสในแต่ละตัวอย่าง 100 และ 100-X ids จากจำนวนที่เหลือ 10,000-X. ความน่าจะเป็นของการทำเช่นนั้นสำหรับตัวอย่างที่กำหนดจะได้รับจากฟังก์ชันX ประสบความสำเร็จในการดึง 100 จากประชากร 10,000 ด้วย X สถานะความสำเร็จที่เป็นไปได้: P=(XX)(10000-X100-X)(10000100). สำหรับ 5 ตัวอย่างคุณจะใช้P5.

อย่างไรก็ตามเราคาดการณ์ว่า X รหัสที่ใช้ร่วมกันและมี (10000X) วิธีในการเลือกเหล่านั้น Xรหัส ดังนั้นคำตอบสุดท้ายของคุณก็คือ(10000X)P5.


คืออะไร "x"เป็นไปไม่ได้ที่จะเข้าใจคำตอบนี้ตรวจสอบให้น้อยกว่านั้นจนกว่าคุณจะเปิดเผย!
whuber

ฉันจำไม่ได้เหมือนเมื่อ 3 ปีที่แล้ว แต่น่าจะเป็น X เดียวกันกับคำถาม?
Hao Ye

ตกลง. แต่สูตรของคุณคืออะไร ตรวจสอบง่ายเช่นกรณีX=0 (สูตรของคุณบอกเราถึงความน่าจะเป็น 1จึงตัดสินความเป็นไปได้อื่น ๆ อย่างสมบูรณ์!) ระบุว่าไม่ถูกต้อง
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.