การสร้างแบบจำลองการกระจายปัวซองด้วยการกระจายเกินพิกัด


15

ฉันมีชุดข้อมูลที่ฉันคาดว่าจะติดตามการกระจายของปัวซอง แต่มันมีการกระจายตัวเกินประมาณ 3 เท่า ในปัจจุบันฉันกำลังสร้างแบบจำลองการกระจายเกินปกตินี้โดยใช้โค้ดต่อไปนี้ในอาร์

## assuming a median value of 1500
med = 1500
rawdist = rpois(1000000,med)
oDdist = rawDist + ((rawDist-med)*3)

สายตาสิ่งนี้ดูเหมือนจะสอดคล้องกับข้อมูลเชิงประจักษ์ของฉันได้เป็นอย่างดี ถ้าฉันมีความสุขกับแบบที่มีเหตุผลใด ๆ ที่ฉันควรจะทำบางสิ่งบางอย่างที่ซับซ้อนมากขึ้นเช่นการใช้การแจกแจงแบบทวินามลบตามที่อธิบายไว้ที่นี่ ? (ถ้าเป็นเช่นนั้นพอยน์เตอร์หรือลิงก์ในการทำเช่นนั้นจะได้รับการชื่นชมมาก)

โอ้และฉันรู้ว่าสิ่งนี้สร้างการกระจายแบบขรุขระเล็กน้อย (เนื่องจากการคูณด้วยสาม) แต่นั่นไม่ควรสำคัญสำหรับแอปพลิเคชันของฉัน


อัปเดต: เพื่อประโยชน์ของผู้อื่นที่ค้นหาและพบคำถามนี้ต่อไปนี้เป็นฟังก์ชั่น R ที่ใช้ง่ายในการสร้างแบบจำลองปัวซองที่ใช้โอเวอร์เซ็ตโดยใช้การแจกแจงแบบทวินามลบ ตั้งค่า d เป็นอัตราส่วนค่าเฉลี่ย / ความแปรปรวนที่ต้องการ:

rpois.od<-function (n, lambda,d=1) {
  if (d==1)
    rpois(n, lambda)
  else
     rnbinom(n, size=(lambda/(d-1)), mu=lambda)
}

(ผ่านรายการส่งเมล R: https://stat.ethz.ch/pipermail/r-help/2002-June/022425.html )

คำตอบ:


11

สำหรับปัวซองที่ใช้ overdispersed ให้ใช้ค่าลบทวินามซึ่งช่วยให้คุณกำหนดพารามิเตอร์ความแปรปรวนเป็นฟังก์ชันของค่าเฉลี่ยได้อย่างแม่นยำ rnbinom () ฯลฯ ใน R


1
ทำไมต้องเป็นทวินามลบและไม่ใช่โมเดลผสมที่มีเอฟเฟกต์แบบสุ่มในระดับสังเกต? นี่ไม่ใช่คำถามเชิงโวหาร นี่คือ "ฉันไม่เข้าใจที่ฉันควรชอบ" คำถาม. นอกจากนี้จะเกิดอะไรขึ้นถ้าฉันมีสถานการณ์การวัดซ้ำหลายครั้ง เมื่อข้อมูลของฉันต่อเนื่องฉันจะใช้โมเดลเชิงเส้นผสมแบบทั่วไป การแจกแจงแกมมานั้นทำงานได้ดีกับข้อมูลทางชีววิทยาอย่างต่อเนื่องและตัวแบบผสมนั้นจัดการองค์ประกอบการวัดซ้ำ แต่เราจะทำอย่างไรถ้ามีข้อมูลการนับจำนวนซ้ำกันมากเกินไป?
ไบรอัน

เหตุผลหนึ่งที่ว่าทำไมแบบจำลองทวินามลบเชิงลบที่ได้รับความนิยมจากข้อมูลปัวซองแบบกระจายตัวมากเกินไปคือ b / c แบบจำลองความแปรปรวนเป็นฟังก์ชันของค่าเฉลี่ย ดูสูตรอย่างรวดเร็วที่หน้า 487 ที่นี่: worldscientific.com/doi/pdf/10.1142/9789813235533_0044 และหน้าวิกิพีเดียสำหรับคำอธิบายเกี่ยวกับการแก้ไข
Samir Rachid Zaim

4

ถ้าค่าเฉลี่ยของคุณสำหรับปัวซองคือ 1500 แสดงว่าคุณอยู่ใกล้กับการแจกแจงแบบปกติมาก คุณอาจลองใช้มันเป็นแบบประมาณแล้วทำแบบจำลองค่าเฉลี่ยและความแปรปรวนแยกกัน


นั่นเป็นเพียงตัวอย่าง - มันอาจมีค่ามัธยฐานที่เล็กกว่ามากตามลำดับ 200 (ขึ้นอยู่กับว่าฉันแบ่งพาร์ติชันข้อมูลอย่างไร) นั่นจะดักคอการใช้การแจกแจงแบบปกติใช่ไหม
chrisamiller

1
การประมาณค่าปกติของการแจกแจงแบบปัวซงค่อนข้างแข็งแกร่งความแตกต่างระหว่าง CDFs ถูกล้อมรอบด้วยบางอย่างเช่น 0.75 / sqrt (แลมบ์ดา) ถ้าฉันจำได้อย่างถูกต้อง ฉันจะไม่กังวลเกินไปเกี่ยวกับการใช้แลมบ์ดา = 200 แต่ถ้าคุณไม่ชอบความเสี่ยงมากกว่านี้ลองใช้ทวินามลบ
ริช
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.