กลยุทธ์ที่เหมาะสมในการตัดสินใจเลือกรุ่นใดที่จะใช้กับข้อมูลนับ ฉันมีข้อมูลนับที่ฉันต้องการสร้างแบบจำลองเป็นแบบหลายระดับและแนะนำให้ฉัน (บนเว็บไซต์นี้) ว่าวิธีที่ดีที่สุดในการทำเช่นนี้คือผ่านบั๊กหรือ MCMCglmm อย่างไรก็ตามฉันยังคงพยายามที่จะเรียนรู้เกี่ยวกับสถิติแบบเบย์และฉันคิดว่าฉันควรพยายามใส่ข้อมูลของฉันให้เป็นแบบจำลองเชิงเส้นแบบทั่วไปและไม่สนใจโครงสร้างซ้อนของข้อมูล
ข้อมูลประมาณ 70% เป็น 0 และอัตราส่วนของความแปรปรวนต่อค่าเฉลี่ยคือ 33 ดังนั้นข้อมูลจึงกระจายตัวค่อนข้างมาก
หลังจากลองใช้ตัวเลือกที่แตกต่างกันจำนวนมาก (รวมทั้งปัวซอง, รูปแบบลบ, แบบกึ่งและกึ่งศูนย์) ฉันเห็นความสอดคล้องกันน้อยมากในผลลัพธ์ (การเปลี่ยนแปลงจากทุกอย่างมีความหมาย
ฉันจะตัดสินใจเกี่ยวกับรูปแบบประเภทใดให้เลือกโดยพิจารณาจากอัตราเงินเฟ้อ 0 และการกระจายตัวมากเกินไป ตัวอย่างเช่นฉันจะอนุมานได้ว่า quasi-poisson นั้นเหมาะสมกว่าเชิงลบแบบทวินาม (หรือในทางกลับกัน) และฉันจะรู้ได้อย่างไรว่าการใช้อย่างใดอย่างหนึ่งได้จัดการอย่างเพียงพอ (หรือไม่) ด้วยค่าศูนย์ส่วนเกิน? ในทำนองเดียวกันฉันจะประเมินได้อย่างไรว่าไม่มีการกระจายตัวมากเกินไปหากใช้ตัวแบบที่ไม่มีการขยายเกินศูนย์? หรือฉันควรจะตัดสินใจอย่างไรระหว่างปัวซงที่มีค่าเป็นศูนย์ที่สูงขึ้นและทวินามลบที่สูงเกินจริง