การกระจายแบบไม่ต่อเนื่องนี้มีชื่อหรือไม่?


21

การกระจายแบบไม่ต่อเนื่องนี้มีชื่อหรือไม่? สำหรับi1...N

f(i)=1Nj=iN1j

ฉันเจอการกระจายตัวนี้จากรายการต่อไปนี้: ฉันมีรายการของรายการที่ถูกจัดอันดับโดยฟังก์ชั่นยูทิลิตี้ ฉันต้องการสุ่มเลือกหนึ่งในรายการโดยให้ความเอนเอียงไปยังจุดเริ่มต้นของรายการ ดังนั้นก่อนอื่นให้เลือกดัชนีระหว่าง 1 ถึงอย่างสม่ำเสมอ จากนั้นผมก็เลือกรายการระหว่างดัชนี 1 และเจฉันเชื่อว่ากระบวนการนี้ส่งผลให้เกิดการกระจายตัวข้างต้นj N jNjNj


2
นี่ไม่ใช่การกระจาย: มันไม่ได้ทำให้เป็นมาตรฐาน
whuber

@ เมื่อฉันคิดอย่างนั้นในตอนแรก (และแสดงความคิดเห็นก่อนที่ฉันจะรู้ว่าฉันเข้าใจผิดและลบความคิดเห็น) แต่มันกลับกลายเป็นว่าฉันเข้าใจผิดนิยาม มันเป็นฟังก์ชันมวลความน่าจะเป็นแบบปกติ
Glen_b -Reinstate Monica

4
มันเป็นมาตรฐาน 1/1 จะปรากฏในผลรวมแน่นอนหนึ่งครั้ง (จะอยู่ใน f (1)) 1/2 จะปรากฏขึ้นสองครั้งอย่างแน่นอน (จะอยู่ใน f (1) และ f (2)) เป็นต้นดังนั้นผลรวมของผลรวมทั้งหมดเหล่านั้นจะเป็น N และค่าคงที่ normalizing จะแสดงเป็น 1 / N ตรวจสอบ
rcorty

1
ถึงจุดแม้ว่าฉันไม่รู้ว่า distro นี้เรียกว่าอะไร ฉันก็ไม่รู้เหมือนกันว่ากระบวนการที่คุณอธิบายนำไปสู่การ distro นี้ได้อย่างไร หนึ่งในความคิดของฉันก็คือมันฟังดูเหมือนกระบวนการแยกกันไม่ออกซึ่งเป็น googlable มาก
rcorty

@Glen_b ขอบคุณ ผมได้อ่านข้อความนี้ในโทรศัพท์ของฉันซึ่งไม่ได้ทำให้อย่างชัดเจนเพียงพอ f
whuber

คำตอบ:


30

คุณมีรุ่น discretized ของการกระจายเข้าสู่ระบบเชิงลบ, ที่อยู่, การจัดจำหน่ายที่มีการสนับสนุนเป็นและผู้ที่เป็น pdf ( T ) = - บันทึกที[0,1]f(t)=logt

หากต้องการดูสิ่งนี้ฉันจะกำหนดตัวแปรสุ่มของคุณใหม่เพื่อรับค่าในชุดแทนที่จะเป็น{ 0 , 1 , 2 , , N }และเรียก ส่งผลให้เกิดการกระจายT จากนั้นฉันก็อ้างว่า{0,1/N,2/N,,1}{0,1,2,,N}T

Pr(T=tN)1Nlog(tN)

เป็นขณะที่tN,tค่าคงที่ (ประมาณ) tN

ก่อนอื่นการทดลองแบบจำลองเล็กน้อยแสดงให้เห็นถึงการลู่เข้านี้ นี่คือตัวอย่างเล็ก ๆ จากการแจกจ่ายของคุณ:

t_sample <- function(N, size) {
  bounds <- sample(1:N, size=size, replace=TRUE)
  samples <- sapply(bounds, function(t) {sample(1:t, size=1)})
  samples / N
}

นี่คือฮิสโตแกรมของตัวอย่างขนาดใหญ่ที่นำมาจากการแจกแจงของคุณ:

ss <- t_sample(100, 200000)
hist(ss, freq=FALSE, breaks=50)

ป้อนคำอธิบายรูปภาพที่นี่

และนี่คือไฟล์ PDF ลอการิทึมที่วางซ้อน:

linsp <- 1:100 / 100
lines(linsp, -log(linsp))

ป้อนคำอธิบายรูปภาพที่นี่

เพื่อดูว่าทำไมการบรรจบกันนี้เกิดขึ้นให้เริ่มด้วยนิพจน์ของคุณ

Pr(T=tN)=1Nj=tN1j

และคูณและหารด้วยN

Pr(T=tN)=1Nj=tNNj1N

g(x)=1xtN1N

PR(T=เสื้อยังไม่มีข้อความ)1ยังไม่มีข้อความเสื้อยังไม่มีข้อความ11xdx=-1ยังไม่มีข้อความเข้าสู่ระบบ(เสื้อยังไม่มีข้อความ)

ซึ่งเป็นนิพจน์ที่ฉันต้องการจะไปถึง


คุณยินดีอย่างยิ่ง นี่เป็นคำถามที่ยอดเยี่ยมและฉันสนุกมากกับการทำงาน
Matthew Drury

6

เรื่องนี้ดูเหมือนจะเกี่ยวข้องกับการกระจาย Whitworth (ฉันไม่เชื่อว่ามันคือการกระจาย Whitworth เพราะถ้าฉันจำได้ถูกต้องนั่นคือการกระจายของชุดของค่าที่สั่ง แต่ดูเหมือนว่ามันจะเชื่อมต่อกับมันและขึ้นอยู่กับแผนการรวมเดียวกัน)

มีการอภิปรายของ Whitworth (และการอ้างอิงจำนวนมาก) ใน

แอนโธนี Lawrance และโรเบิร์ตมาร์ค (2008)
"กระจายขนาดของ บริษัท ในอุตสาหกรรมที่มีทรัพยากร จำกัด"
เศรษฐศาสตร์ประยุกต์ฉบับ 40 ปัญหา 12 หน้า 1595-1607

(ดูเหมือนว่าจะเป็นรุ่นกระดาษทำงานได้ที่นี่ )

ยังดู

Nancy L Geller, (1979)
บททดสอบที่มีความสำคัญสำหรับการแจกแจงของ Whitworth,
วารสารของ American Society for Information Science , Vol.30 (4), pp.229-231


2
เพื่อให้คำตอบมีอยู่ในตัวเองคุณสามารถให้คำจำกัดความของการกระจาย Whitworth และอาจให้คำอธิบายเกี่ยวกับการเชื่อมต่อที่คุณเห็น
whuber

@whuber ใช่มันควรจะเป็นความคิดเห็นตามที่ยืน ฉันจะแก้ไขรายละเอียดบางอย่าง แต่มันจะจบลงด้วยดีกว่าอีกต่อไป
Glen_b -Reinstate Monica

แค่นิยามบางอย่างก็ใช้ได้
whuber

ขอบคุณที่เข้าใจกัน แต่อย่างไรก็ตามมันจะเป็นผลลัพธ์
Glen_b -Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.