การกระจายปัวซองแตกต่างจากการแจกแจงแบบปกติอย่างไร


29

ฉันสร้างเวกเตอร์ที่มีการแจกแจงปัวซงดังนี้:

x = rpois(1000,10)

ถ้าฉันใช้ฮิสโตแกรมhist(x)การแจกแจงนั้นดูเหมือนการแจกแจงปกติแบบรูประฆังที่คุ้นเคย อย่างไรก็ตามการทดสอบ Kolmogorov-Smirnoff ที่ใช้ks.test(x, 'pnorm',10,3)บอกว่าการกระจายนั้นแตกต่างจากการแจกแจงแบบปกติอย่างมีนัยสำคัญเนื่องจากมีpค่าน้อยมาก

ดังนั้นคำถามของฉันคือ: การแจกแจงปัวซองนั้นแตกต่างจากการแจกแจงแบบปกติอย่างไรเมื่อฮิสโตแกรมมีลักษณะคล้ายกับการแจกแจงแบบปกติ


นอกจากนี้ (เป็นการเพิ่มคำตอบของเดวิด): อ่านนี้ ( stats.stackexchange.com/a/2498/603 ) และตั้งขนาดตัวอย่างของคุณเป็น 100 และดูความแตกต่างที่เกิดขึ้น
603

คำตอบ:


20
  1. การแจกแจงปัวซงนั้นไม่ต่อเนื่องในขณะที่การแจกแจงแบบปกตินั้นต่อเนื่องและตัวแปรสุ่มปัวซองนั้นอยู่เสมอ> = 0 ดังนั้นการทดสอบ Kolgomorov-Smirnov มักจะสามารถบอกความแตกต่างได้

  2. เมื่อค่าเฉลี่ยของการแจกแจงปัวซงมีขนาดใหญ่มันจะคล้ายกับการแจกแจงแบบปกติ อย่างไรก็ตามrpois(1000, 10)อย่ามองว่ามันคล้ายกับการแจกแจงแบบปกติ (มันหยุดสั้นที่ 0 และหางขวายาวเกินไป)

  3. ทำไมคุณกำลังเปรียบเทียบกับks.test(..., 'pnorm', 10, 3)มากกว่าks.test(..., 'pnorm', 10, sqrt(10))? ความแตกต่างระหว่าง 3 และมีขนาดเล็ก แต่จะสร้างความแตกต่างเมื่อเปรียบเทียบการแจกแจง แม้ว่าการแจกแจงเป็นเรื่องปกติอย่างแท้จริงคุณจะต้องจบลงด้วยการแจกแจงค่า p-อนุรักษ์นิยม:10

    set.seed(1)
    
    hist(replicate(10000, ks.test(rnorm(1000, 10, sqrt(10)), 'pnorm', 10, 3)$p.value))
    

ป้อนคำอธิบายรูปภาพที่นี่


3
บ่อยครั้งที่คนจะเห็นสิ่งที่สมมาตรคลุมเครือและคิดว่ามันดู "ปกติ" ฉันสงสัยว่าสิ่งที่ @Ross เห็น
Fraijo

2
โปรดทราบว่าการทดสอบ KS โดยทั่วไปถือว่าการแจกแจงอย่างต่อเนื่องดังนั้นการพึ่งพาค่า p-value ที่รายงานในกรณีนี้อาจสงสัย (เช่นกัน)
พระคาร์ดินัล

1
จริง: การวิ่งhist(replicate(1000, ks.test(rpois(1000, 10), rpois(1000, 10))$p.value))แสดงให้เห็นว่าการทดสอบเปรียบเทียบการแจกแจงปัวซงสองตัวที่เหมือนกันจะอนุรักษ์เกินไป
David Robinson


17

นี่เป็นวิธีที่เข้าใจง่ายกว่ามาก:

คุณสามารถดูการแจกแจงแบบทวินามว่าเป็น "แม่" ของการแจกแจงส่วนใหญ่ การแจกแจงแบบปกติเป็นเพียงการประมาณของการแจกแจงแบบทวินามเมื่อ n มีขนาดใหญ่พอ ในความเป็นจริง Abraham de Moivre ค้นพบการแจกแจงแบบปกติเป็นหลักในขณะที่พยายามประมาณการแจกแจงแบบทวินามเพราะมันออกไปจากมืออย่างรวดเร็วในการคำนวณการแจกแจงแบบทวินามเมื่อเติบโตขึ้นโดยเฉพาะเมื่อคุณไม่มีคอมพิวเตอร์ ( อ้างอิง )

การกระจายปัวซองเป็นเพียงการประมาณค่าอีกอย่างหนึ่งของการแจกแจงแบบทวินาม แต่มันก็ยังดีกว่าการแจกแจงแบบปกติเมื่อ n มีขนาดใหญ่และ p มีขนาดเล็กหรือแม่นยำมากขึ้นเมื่อค่าเฉลี่ยใกล้เคียงกับความแปรปรวน (จำไว้ว่าสำหรับการแจกแจงแบบทวินาม np (1-p)) ( ข้อมูลอ้างอิง ) เหตุใดสถานการณ์นี้จึงสำคัญมาก เห็นได้ชัดว่ามันปรากฏขึ้นมากมายในโลกแห่งความเป็นจริงและนั่นเป็นสาเหตุที่เรามีการประมาณ "พิเศษ" ตัวอย่างด้านล่างแสดงให้เห็นถึงสถานการณ์ที่การประมาณ Poisson นั้นยอดเยี่ยมมาก

ตัวอย่าง

เรามีดาต้าเซ็นเตอร์ 100,000 เครื่อง ความน่าจะเป็นของคอมพิวเตอร์เครื่องใดก็ตามที่ล้มเหลวในวันนี้คือ 0.001 ดังนั้นโดยเฉลี่ย np = 100 คอมพิวเตอร์จึงล้มเหลวในดาต้าเซ็นเตอร์ ความน่าจะเป็นที่คอมพิวเตอร์ 50 เครื่องจะล้มเหลวในวันนี้คืออะไร?

Binomial: 1.208E-8
Poisson: 1.223E-8
Normal: 1.469E-7

ในความเป็นจริงคุณภาพการประมาณค่าสำหรับการแจกแจงแบบปกติจะลดลงเมื่อเราไปถึงปลายหางของการกระจายตัว แต่ปัวซองยังคงอยู่ในสภาพที่ดีมาก ในตัวอย่างข้างต้นลองพิจารณาว่าความน่าจะเป็นที่คอมพิวเตอร์ 5 เครื่องจะล้มเหลวในวันนี้เป็นอย่างไร

Binomial: 2.96E-36 
Poisson: 3.1E-36
Normal: 9.6E-22

หวังว่านี่จะช่วยให้คุณเข้าใจได้ง่ายขึ้นเกี่ยวกับการแจกแจงทั้งสามนี้


ช่างเป็นคำตอบที่ยอดเยี่ยมมาก! ขอบคุณมาก. :)
Bora M. Alper

11

λnpnpn=λ/n

หนึ่งการพัฒนาค่อนข้างยาวสามารถพบได้ในบล็อกนี้

XnBinomial(n,λ/n) k

P(Xn=k)=n!k!(nk)!(λn)k(1λn)nk=n!nk(nk)!1λkk!(1λ/n)neλ(1λ/n)k1.

nk

P(Xn=k)eλλkk!,
n(1λ/n)neλ

npdN(np,np(1p))nppn=λ/n0λn


(+1) ยินดีต้อนรับสู่เว็บไซต์ ฉันได้ทำการแก้ไขบางอย่าง โปรดตรวจสอบว่าฉันไม่ได้แนะนำข้อผิดพลาดใด ๆ ในกระบวนการ ฉันไม่แน่ใจในสิ่งที่จะทำให้วลีสุดท้ายในประโยคสุดท้าย การชี้แจงเพิ่มเติมบางอย่างอาจมีประโยชน์
พระคาร์ดินัล

1
npnλpλ

1
nλpn1/2

ขอบคุณ ฉันเห็นสิ่งที่คุณพยายามจะพูดตอนนี้ ฉันมักจะเห็นด้วยกับข้อแม้ที่ต้องใช้ความระมัดระวังบางอย่างกับความสัมพันธ์ระหว่างพารามิเตอร์ซึ่งได้รับการพิจารณาถาวรและแตกต่างกับคนอื่น ๆ :)
พระคาร์ดินัล

λ
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.