ฉันมีข้อมูลที่มีจุดสูงสุดสองเท่าที่ฉันพยายามทำแบบจำลองและมีการทับซ้อนกันระหว่างจุดสูงสุดที่ฉันไม่สามารถปฏิบัติกับพวกเขาได้อย่างอิสระ ฮิสโตแกรมของข้อมูลอาจมีลักษณะดังนี้:
ฉันได้สร้างแบบจำลองสองแบบสำหรับสิ่งนี้: แบบหนึ่งใช้การแจกแจงแบบปัวซงสองแบบส่วนอีกแบบใช้การแจกแจงแบบทวินามลบสองตัว วิธีที่เหมาะสมในการบอกว่าแบบจำลองใดที่เหมาะสมกับข้อมูลมากขึ้น
ความคิดเริ่มต้นของฉันคือฉันสามารถใช้การทดสอบ Kolmogorov-Smirnov เพื่อเปรียบเทียบแต่ละแบบจำลองกับข้อมูลจากนั้นทำการทดสอบอัตราส่วนความน่าจะเป็นเพื่อดูว่าแบบทดสอบมีความเหมาะสมดีกว่าหรือไม่ มันสมเหตุสมผลหรือไม่ ถ้าเป็นเช่นนั้นฉันไม่แน่ใจว่าจะทำการทดสอบอัตราส่วนความน่าจะเป็นอย่างไร ไคสแควร์เหมาะสมหรือไม่และฉันมีอิสระในระดับใด?
หากช่วยได้รหัส R บางตัว (ง่ายมาก) สำหรับรุ่นอาจมีลักษณะดังนี้:
## inital data points
a <- read.table("data")
#create model data
model.pois = c(rpois(1000000,200),rpois(500000,250))
model.nb = c(rnbinom(1000000,200,0.5),rnbinom(500000,275,0.5)
#Kolmogorov-Smirnov test
#use ks.boot, since it's count data that may contain duplicate values
kpois = ks.boot(model.pois,a)
knb = ks.boot(model.nb,a)
#here's where I'd do some sort of likelihood ratio test
# . . .
แก้ไข: นี่คือภาพที่อาจอธิบายข้อมูลและการกระจายตัวที่ฉันเหมาะสมยิ่งขึ้น เป็นที่ชัดเจนโดยสิ้นเชิงจากการสร้างภาพว่ารุ่นที่สอง (การใช้ทวินามลบเชิงลบเพื่ออธิบายการใช้งานเกินขนาด) นั้นเหมาะสมกว่า ฉันต้องการแสดงปริมาณเชิงปริมาณนี้
(สีแดง - ข้อมูล, สีเขียว - รุ่น)