การกระจายตัวของ cardinality ของการสุ่มตัวอย่างแบบอิสระโดยไม่มีการแทนที่คืออะไร?


10

Sเป็นชุดบางคนที่มีnNองค์ประกอบและ 1 , 2 , . . , เมตรได้รับการแก้ไขจำนวนเต็มบวกน้อยกว่าหรือเท่ากับna1,a2,...,amn

ที่มีองค์ประกอบของSเป็นอย่างเท่าเทียมกันมีแนวโน้มmตัวอย่างL1,L2,...,Lmจะแยกกันและเป็นอิสระมาจากSโดยไม่ต้องเปลี่ยนขนาดของซึ่งเป็น1 , 2 , . . , a , mตามลำดับa1,a2,...,am

cardinality ตัดของกลุ่มตัวอย่าง|L1L2 ... Lm|ได้โดยทั่วไปสนับสนุนเท่ากับ{0,1,...,min{a1,a2,...,am}}แต่กระจายไม่ได้ทำตาม?


ฉันสามารถให้สูตรการคำนวณแบบวนซ้ำ แต่ฉันไม่ทราบวิธีแก้ปัญหาแบบปิด จะพอเพียงนั้นหรือคุณต้องการการแสดงออกที่ชัดเจนของฟังก์ชั่นการจัดจำหน่ายที่ได้รับ1 , ... , เมตรและn ? a1,,amn
Bridgeburners

@Bridgeburners สูตรจะดีอย่างน้อยก็จะให้วิธีการ / วิธีการโจมตีปัญหานี้และที่เกี่ยวข้อง
llrs

คำตอบ:


3

นี่คือวิธีการอีกวิธีหนึ่งที่ไม่เกี่ยวข้องกับการสอบถามซ้ำ มันยังคงใช้ผลรวมและผลิตภัณฑ์ที่มีความยาวขึ้นอยู่กับพารามิเตอร์ ก่อนอื่นฉันจะให้การแสดงออกจากนั้นอธิบาย

เรามี

P(|L1L2Lm|=k)=(nk)i=1n(nai)j=0min(a1,,am)k(1)j(nkj)l=1n(njkaljk).

แก้ไข:ในตอนท้ายของการเขียนทั้งหมดนี้ฉันตระหนักว่าเราสามารถรวมการแสดงออกข้างต้นเล็กน้อยโดยการรวมค่าสัมประสิทธิ์ทวินามเป็นความน่าจะเป็น hypergeometric และสัมประสิทธิ์ trinomial สำหรับสิ่งที่คุ้มค่านิพจน์ที่แก้ไขคือ นี่เป็นตัวแปรสุ่ม hypergeometric โดยที่จับจะถูกพรากไปจากประชากรขนาดมีสถานะสำเร็จHyp(n,j+k,al)alnj+k

j=0min(a1,,am)k(1)j(nj,k,njk)l=1nP(Hyp(n,j+k,al)=j+k).
Hyp(n,j+k,al)alnj+k

รากศัพท์

มาดูสัญกรณ์กันก่อนเพื่อให้ข้อโต้แย้ง combinatorial ง่ายขึ้นในการติดตาม (หวังว่า) ตลอดเราจะพิจารณาและถาวร เราจะใช้เพื่อแสดงชุดคำสั่ง -tuplesโดยที่อันน่าพอใจ1 , ... , C ( ฉัน) ( L 1 , ... , L เมตร ) L ฉันSSa1,,amC(I)m(L1,,Lm)LiS

  • |Li|=ai ; และ
  • L1Lm=Iฉัน

นอกจากนี้เราจะใช้สำหรับคอลเล็กชันเหมือนกันยกเว้นว่าเราต้องการแทนความเท่าเทียมกัน L 1 L mIC(I)L1LmI

การสังเกตที่สำคัญคือค่อนข้างง่ายที่จะนับ นี่เป็นเพราะเงื่อนไขเทียบเท่ากับสำหรับทั้งหมดดังนั้นในแง่นี้จะลบการโต้ตอบระหว่างค่าแตกต่างกัน สำหรับแต่ละจำนวนเป็นไปตามข้อกำหนดคือเนื่องจากเราสามารถสร้างโดยเลือกเซตย่อยของมีขนาดแล้ว unioning กับฉันมันติดตามว่า L 1 L เมตรฉัน L ฉันฉันฉันฉันฉัน L ฉัน( | S | - |ฉัน|C(I)L1LmILiIiiiLiLฉันSฉันเป็นฉัน-| ฉัน| ฉัน| C(I)| =ni=1(|S|-|I|(|S||I|ai|I|)LiSIai|I|I

|C(I)|=i=1n(|S||I|ai|I|).

ตอนนี้ความน่าจะเป็นแบบดั้งเดิมของเราสามารถแสดงผ่านดังนี้: C

P(|L1L2Lm|=k)=I:|I|=k|C(I)|all IS|C(I)|.

เราสามารถทำให้เรียบง่ายสองอันที่นี่ได้ทันที ก่อนอื่นตัวหารจะเหมือนกับ ประการที่สองอาร์กิวเมนต์การเปลี่ยนรูปแสดงว่าขึ้นอยู่กับว่าผ่านความสำคัญเท่านั้น. เนื่องจากมีส่วนย่อยของมี cardinalityดังนั้นจึงเป็นไปตามที่ โดยที่เป็นเซตย่อยที่กำหนดโดยพลการของมีภาวะเชิงการนับ

|C()|=i=1n(|S|ai)=i=1n(nai).
|C(I)|I|I|(nk)Sk
I:|I|=k|C(I)|=(nk)|C(I0)|,
I0Sk .

เมื่อย้อนกลับไปตอนนี้เราได้ลดปัญหาการแสดง

|C(I0)|=j=0min(a1,,am)k(1)j(nkj)l=1n(njkaljk).

ให้เป็นส่วนย่อยที่แตกต่างของที่เกิดขึ้นจากการเพิ่มว่าองค์ประกอบหนึ่งที่จะ{0} จากนั้น (นี่เป็นเพียงการบอกว่าถ้าดังนั้นมีแต่ยังไม่มีองค์ประกอบเพิ่มเติมใด ๆ ) ตอนนี้เราได้เปลี่ยนปัญหาการนับเป็นปัญหาการนับซึ่งเรารู้วิธีจัดการมากขึ้น โดยเฉพาะอย่างยิ่งเรามี J1,,JnkSI0

C(I0)=C(I0)(i=1nkC(Ji)).
L1Lm=I0L1LmI0CC
|C(I0)|=|C(I0)||i=1nkC(Ji)|=l=1n(nkalk)|i=1nkC(Ji)|.

เราสามารถใช้การยกเว้นแบบรวมเพื่อจัดการกับขนาดของการแสดงออกของสหภาพข้างต้น ที่สำคัญก็คือความสัมพันธ์ที่นี่สำหรับที่ว่างเปล่า , นี่เป็นเพราะถ้ามีจำนวนของแล้วมันก็จะมีการรวมกัน เรายังทราบด้วยว่าชุดมีขนาด. ดังนั้น I{1,,nk}

iIC(Ji)=C(iIJi).
L1LmJiiIJi|I0|+|I|=k+|I|
|i=1nkC(Ji)|=I{1,,nk}(1)|I|1|iIC(Ji)|=j=1nkI:|I|=j(1)j1l=1n(njkaljk)=j=1nk(1)j1(nkj)l=1n(njkaljk).
(เราสามารถ จำกัดค่าที่นี่เนื่องจากผลิตภัณฑ์ของสัมประสิทธิ์ทวินามเป็นศูนย์เว้นแต่สำหรับทั้งหมดคือ .)jjalkljmin(a1,,am)k

ในที่สุดโดยการแทนที่การแสดงออกในตอนท้ายลงในสมการสำหรับด้านบนและรวบรวมผลรวมเราได้รับ ตามที่อ้างสิทธิ์|C(I0)|

|C(I0)|=j=0min(a1,,am)k(1)j(nkj)l=1n(njkaljk)

+1 สำหรับความพยายามและวิธีแก้ปัญหาทั้งหมด แต่ฉันจะต้องขัดคณิตศาสตร์ของฉันให้เข้าใจส่วนใหญ่ (และคำตอบอื่น ๆ ) ขอบคุณ
llrs

4

ฉันไม่ทราบวิธีการวิเคราะห์เพื่อแก้ปัญหานี้ แต่นี่เป็นวิธีแบบเรียกซ้ำเพื่อคำนวณผลลัพธ์

สำหรับคุณกำลังเลือกองค์ประกอบจากได้ถูกเลือกมาก่อน ความน่าจะเป็นในการเลือกองค์ประกอบที่ตัดกันด้วยในการจับรางวัลครั้งที่สองของคุณนั้นมาจากการแจกแจง :m=2a2n, a1kmin{a1,a2}L1

P(kn,a1,a2)=(a1k)(na1a2k)(na2).

เราสามารถเรียกผลลัพธ์เราสามารถใช้ตรรกะเดียวกันเพื่อค้นหาที่คือความสำคัญของการตัดกันของสามตัวอย่าง จากนั้นb2.P(b3=kn,b2,a3),b3

P(b3=k)=l=0min(a1,a2)P(b3=kn,b2=l,a3)P(b2=ln,a1,a2).

ค้นหานี้สำหรับแต่ละ\} การคำนวณหลังไม่ยากเชิงตัวเลขเนื่องจากเป็นเพียงผลลัพธ์ของการคำนวณก่อนหน้าและเป็นการเรียก การกระจายตัวแบบk{0,1,2,,min(a1,a2,a3)}P(b2=ln,a1,a2)P(b3=kn,b2=l,a3)

โดยทั่วไปหากต้องการค้นหาคุณสามารถใช้สูตรเรียกซ้ำต่อไปนี้: สำหรับและ ซึ่งกล่าวได้ว่าP(bm)

P(bi=k)=l=0min(a1,a2,,ai1)P(bi=kn,bi1=l,ai)P(bi1=l),
ฉัน{2,3,...,ม.},P(1)=δ11,1=1
P(bi=kn,bi1=l,ai)=(lk)(nlaik)(nai),
i{2,3,,m},
P(b1)=δa1b1,
b1=a1.

นี่คือใน R:

hypergeom <- function(k, n, K, N) choose(K, k) * choose(N-K, n-k) / choose(N, n)

#recursive function for getting P(b_i) given P(b_{i-1})
PNext <- function(n, PPrev, ai, upperBound) {
  l <- seq(0, upperBound, by=1)
  newUpperBound <- min(ai, upperBound)
  kVals <- seq(0, newUpperBound, by=1)
  PConditional <- lapply(kVals, function(k) {
    hypergeom(k, ai, l, n)
  })
  PMarginal <- unlist(lapply(PConditional, function(p) sum(p * PPrev) ))
  PMarginal
}

#loop for solving P(b_m)
P <- function(n, A, m) {
  P1 <- c(rep(0, A[1]), 1)
  if (m==1) {
    return(P1)
  } else {
    upperBound <- A[1]
    P <- P1
    for (i in 2:m) {
      P <- PNext(n, P, A[i], upperBound)
      upperBound <- min(A[i], upperBound)
    }
    return(P)
  }
}

#Example
n <- 10
m <- 5
A <- sample(4:8, m, replace=TRUE)
#[1] 6 8 8 8 5

round(P(n, A, m), 4)
#[1] 0.1106 0.3865 0.3716 0.1191 0.0119 0.0003
#These are the probabilities ordered from 0 to 5, which is the minimum of A

ขอบคุณสำหรับวิธีการแก้ปัญหาของคุณและรหัสของคุณ ฉันรอคำตอบอื่น ๆ (ถ้ามี) ก่อนที่จะตัดสินรางวัล
llrs
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.