กลยุทธ์สำหรับการตัดสินใจรูปแบบที่เหมาะสมสำหรับการนับข้อมูล


16

กลยุทธ์ที่เหมาะสมในการตัดสินใจเลือกรุ่นใดที่จะใช้กับข้อมูลนับ ฉันมีข้อมูลนับที่ฉันต้องการสร้างแบบจำลองเป็นแบบหลายระดับและแนะนำให้ฉัน (บนเว็บไซต์นี้) ว่าวิธีที่ดีที่สุดในการทำเช่นนี้คือผ่านบั๊กหรือ MCMCglmm อย่างไรก็ตามฉันยังคงพยายามที่จะเรียนรู้เกี่ยวกับสถิติแบบเบย์และฉันคิดว่าฉันควรพยายามใส่ข้อมูลของฉันให้เป็นแบบจำลองเชิงเส้นแบบทั่วไปและไม่สนใจโครงสร้างซ้อนของข้อมูล

ข้อมูลประมาณ 70% เป็น 0 และอัตราส่วนของความแปรปรวนต่อค่าเฉลี่ยคือ 33 ดังนั้นข้อมูลจึงกระจายตัวค่อนข้างมาก

หลังจากลองใช้ตัวเลือกที่แตกต่างกันจำนวนมาก (รวมทั้งปัวซอง, รูปแบบลบ, แบบกึ่งและกึ่งศูนย์) ฉันเห็นความสอดคล้องกันน้อยมากในผลลัพธ์ (การเปลี่ยนแปลงจากทุกอย่างมีความหมาย

ฉันจะตัดสินใจเกี่ยวกับรูปแบบประเภทใดให้เลือกโดยพิจารณาจากอัตราเงินเฟ้อ 0 และการกระจายตัวมากเกินไป ตัวอย่างเช่นฉันจะอนุมานได้ว่า quasi-poisson นั้นเหมาะสมกว่าเชิงลบแบบทวินาม (หรือในทางกลับกัน) และฉันจะรู้ได้อย่างไรว่าการใช้อย่างใดอย่างหนึ่งได้จัดการอย่างเพียงพอ (หรือไม่) ด้วยค่าศูนย์ส่วนเกิน? ในทำนองเดียวกันฉันจะประเมินได้อย่างไรว่าไม่มีการกระจายตัวมากเกินไปหากใช้ตัวแบบที่ไม่มีการขยายเกินศูนย์? หรือฉันควรจะตัดสินใจอย่างไรระหว่างปัวซงที่มีค่าเป็นศูนย์ที่สูงขึ้นและทวินามลบที่สูงเกินจริง

คำตอบ:


9

คุณสามารถเปรียบเทียบแบบจำลองการนับได้เสมอโดยดูที่การคาดการณ์ของพวกเขา (ดีกว่าในชุดที่ระงับไว้) J. Scott Long กล่าวถึงภาพกราฟิกนี้ (การวางแผนค่าที่คาดการณ์กับค่าจริง) หนังสือเรียนของเขาที่นี่อธิบายรายละเอียด แต่คุณสามารถดู6.4 ในเอกสารนี้

คุณสามารถเปรียบเทียบแบบจำลองโดยใช้ AIC หรือ BIC และยังมีการทดสอบที่เรียกว่าการทดสอบ Voung ที่ฉันไม่คุ้นเคยเป็นอย่างมาก แต่สามารถเปรียบเทียบศูนย์ที่สูงเกินจริงไปยังแบบจำลองที่ไม่ซ้อนกันได้ นี่คือกระดาษ Sas ที่อธิบายสั้น ๆ ในหน้า10เพื่อให้คุณเริ่มต้นได้ นอกจากนี้ยังมีการฝังในการโพสต์ R


ขอบคุณสำหรับคำแนะนำ. ฉันจะพยายามตรวจสอบการคาดการณ์ก่อนตัดสินใจเลือกรุ่น
Michael Michaelides

5

สองสามสิ่งที่จะเพิ่มเข้าไปในสิ่งที่ B_Miner พูด:

1) คุณเขียนว่าแบบจำลองแตกต่างจาก "ทุกอย่างที่สำคัญ" ถึง "ไม่มีอะไรสำคัญ" แต่นี่ไม่ใช่วิธีที่ดีในการเปรียบเทียบแบบจำลอง ดูที่ค่าที่คาดการณ์ไว้ (ตามที่แนะนำ B_miner) และขนาดเอฟเฟกต์

2) ถ้า 70% ของข้อมูลเป็น 0 ฉันไม่สามารถจินตนาการได้ว่าแบบจำลองที่ไม่มีอัตราเงินเฟ้อ 0 เหมาะสม

3) แม้ว่าคุณไม่ต้องการไปที่ Bayesian คุณสามารถใช้ GLMM ใน SAS (PROC GLIMMIX หรือ NLMIXED) และใน R (แพ็คเกจต่างๆ) การละเลยธรรมชาติที่ซ้อนกันอาจทำให้ทุกอย่างยุ่ง

4) โดยทั่วไปการตัดสินใจเลือกรูปแบบที่ดีที่สุดคือศิลปะไม่ใช่วิทยาศาสตร์ มีสถิติให้ใช้ แต่เป็นแนวทางในการตัดสิน เพียงแค่ดูสิ่งที่คุณเขียนฉันจะบอกว่ารูปแบบ ZINB นั้นดูถูกต้อง


ความตั้งใจคือในที่สุดฉันจะพยายามทำแบบจำลองนี้โดยใช้ Bayesian แต่ฉันพยายามที่จะเข้าใจว่าฉันสามารถตัดสินใจได้อย่างไรก่อนที่จะปรับแบบจำลองให้เหมาะสม หากมีความเป็นไปได้ที่จะเพิกเฉยต่อลักษณะที่ซ้อนกันของข้อมูลสิ่งเหล่านั้นฉันจะลองใช้ GLMM ก่อน แพ็คเกจเดียวสำหรับ R ที่ฉันรู้ว่าสามารถทำ ZINB ได้หลายระดับคือ glmmADMB คุณจะแนะนำแพ็คเกจอื่น ๆ ไหม?
George Michaelides

4

ความเข้าใจของฉันคือควรใช้การแจกแจงที่ไม่มีการขยายเกินศูนย์เมื่อมีเหตุผลสำหรับบางรายการที่จะสร้างจำนวนศูนย์เป็นศูนย์เทียบกับจำนวนอื่น ๆ กล่าวอีกนัยหนึ่งควรใช้การแจกแจงแบบ zero-inflated หากศูนย์มีการผลิตโดยกระบวนการแยกต่างหากจากกระบวนการที่สร้างการนับอีกครั้ง หากคุณไม่มีเหตุผลสำหรับสิ่งนี้เนื่องจากการกระจายตัวเกินขนาดในตัวอย่างของคุณฉันขอแนะนำให้ใช้การแจกแจงแบบทวินามลบเพราะมันแสดงถึงความอุดมสมบูรณ์ของเลขศูนย์ได้อย่างถูกต้อง หนังสือของ Scott Long เป็นหนังสืออ้างอิงที่ดีมาก


ขอบคุณสำหรับคำตอบ. แน่นอนฉันเริ่มคิดว่ารายการต่าง ๆ สามารถสร้าง 0s กับจำนวนอื่น ๆ ได้หรือไม่และฉันคิดว่าจริง ๆ แล้วมีตัวแปรสองสามตัวที่จะอธิบาย 0s กับจำนวนอื่น ๆ ดังนั้นอย่างน้อยฉันควรลอง ZINB ก่อนเพื่อดูว่าตัวแปรเหล่านี้ทำงานได้ตามที่ฉันคาดหวังหรือไม่
George Michaelides

3

เห็นด้วยอย่างยิ่งกับสิ่งที่ Matt พูดก่อนอื่นคุณต้องคำนึงถึงพื้นหลังของข้อมูล ... มันไม่สมเหตุสมผลเลยที่จะพอดีกับโมเดล ZI เมื่อไม่มีสิ่งกระตุ้นการสร้างศูนย์ในประชากร! ข้อได้เปรียบของแบบจำลอง NB คือพวกเขาสามารถแสดงความแตกต่างที่ไม่มีใครสังเกตในตัวแปรสุ่มแบบกระจายแกมมา เทคนิค: สาเหตุหลักของการใช้งานเกินขนาดคือ unobs Heterogenity และ Zero เงินเฟ้อ ฉันไม่เชื่อว่าแบบของคุณไม่ดี Btw เพื่อให้ได้ความพอดีคุณควรเปรียบเทียบ Deviance กับองศาอิสระของโมเดลของคุณ หาก Deviance D สูงกว่า n- (p + 1) (นี่คือ df) มากกว่าที่คุณควรค้นหาแบบจำลองที่ดีกว่า แม้ว่าส่วนใหญ่จะไม่มีรุ่นที่ดีไปกว่า ZINB เพื่อกำจัดการเกินขนาด

ถ้าคุณต้องการเพื่อให้พอดีกับ R ZINB รับแพคเกจและพยายามที่จะใช้คำสั่งpscl zeroinfl(<model>, dist=negative)สำหรับข้อมูลเพิ่มเติมดู?zeroinflหลังจากโหลดแพ็คเกจที่ต้องการ!

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.