แบบจำลองพารามิเตอร์ของความแปรปรวนของข้อมูลการนับ


12

ฉันกำลังมองหาแบบจำลองข้อมูลบางอย่าง แต่ฉันไม่แน่ใจว่าแบบจำลองชนิดใดที่ฉันสามารถใช้ได้ ฉันมีข้อมูลนับและฉันต้องการรูปแบบที่จะให้การประมาณค่าพารามิเตอร์ของทั้งค่าเฉลี่ยและความแปรปรวนของข้อมูล นั่นคือฉันมีปัจจัยการทำนายที่หลากหลายและฉันต้องการตรวจสอบว่ามีปัจจัยใดที่ส่งผลต่อความแปรปรวน (ไม่ใช่แค่ค่าเฉลี่ยของกลุ่ม)

ฉันรู้ว่าการถดถอยของปัวซองจะไม่ทำงานเพราะความแปรปรวนเท่ากับค่าเฉลี่ย สมมติฐานนี้ไม่ถูกต้องในกรณีของฉันดังนั้นฉันรู้ว่ามีการกระจายเกินจริง อย่างไรก็ตามโมเดลทวินามลบเชิงลบจะสร้างพารามิเตอร์ overdispersion เดียวเท่านั้นไม่ใช่แบบจำลองฟังก์ชันของตัวทำนายในโมเดล รูปแบบใดที่สามารถทำได้

นอกจากนี้การอ้างอิงถึงหนังสือหรือกระดาษที่กล่าวถึงรูปแบบและ / หรือแพคเกจ R ซึ่งใช้รูปแบบจะได้รับการชื่นชม


1
คุณจะรู้ได้อย่างไรว่ามีการใช้เกินขนาดโดยไม่มีการถดถอยปัวซองครั้งแรก ท้ายที่สุดแล้วการเปรียบเทียบความแปรปรวนของค่าraw (การตอบสนอง) กับค่าเฉลี่ยนั้นไม่เกี่ยวข้อง: สิ่งที่สำคัญคือความดีของแบบจำลอง Poisson (นี่คือการเปรียบเทียบการกระจายตัวของเศษซากในแบบจำลองเชิงเส้นเปรียบเทียบกับการประเมิน การกระจายของตัวแปรตอบสนอง) อีกวิธีหนึ่งในการทำเช่นนี้คือการเชื่อมโยงระหว่างตัวแปรอิสระและการตอบสนองสามารถสร้างการปรากฏตัวของการกระจายเกินเหตุแม้ในรูปแบบปัวซองที่แม่นยำอย่างสวยงาม
whuber

2
@whuber นั่นคือจุดยุติธรรม สำหรับผู้ทำนายหมวดหมู่เพียงคนเดียวที่ดูความแปรปรวนและค่าเฉลี่ยของกลุ่มย่อยจะเพียงพอที่จะตรวจสอบการกระจายตัวเกินขนาด แต่สำหรับการถดถอยปัวซองหลายตัวแปรก็ไม่ได้ เพื่อประโยชน์ในการโต้แย้งสมมติว่าทั้งปัวซองและการถดถอยแบบทวินามเชิงลบได้ถูกทำขึ้นแล้วและทวินามลบนั้นแสดงว่าเหมาะสมกว่าด้วยการเปรียบเทียบแบบจำลองของโนวา ที่ควรบ่งบอกถึงการโอเวอร์โหลด เมื่อพิจารณาแล้วความแปรปรวน / การกระจายเกินเหตุสามารถจำลองแบบพารามิเตอร์มากกว่าค่าคงที่ได้อย่างไร
Brian Diggs

1
ฉันคิดว่ามีบทหนึ่งในMcCullagh และ Nelder โมเดลเชิงเส้นทั่วไปรุ่นที่ 2ที่ครอบคลุมสิ่งนี้ (แต่สำเนาของฉันที่ทำงาน) ... จะไม่มีความเป็นไปได้จริง แต่คุณสามารถใช้โอกาสเสมือนจริงและอื่น ๆ อาจเป็นชื่อของบท คุณใช้การกระจายน้ำหนักซ้ำอย่างน้อยกำลังสองน้อยที่สุดแม้ว่าจะไม่มีรูปแบบความน่าจะเป็นที่สอดคล้องกัน
Karl

บทที่ 10 ของ McCullagh และ Nelder กล่าวถึงการสร้างแบบจำลองร่วมของค่าเฉลี่ยและการกระจายคือการกำหนดพารามิเตอร์ทั้งค่าเฉลี่ยและความแปรปรวน ความเป็นไปได้ที่ขยายตัวเป็นเครื่องมือหลัก แต่ในบางสถานการณ์อาจมีข้อกังวลเกี่ยวกับวิธีการนั้น
guest

คำตอบ:


9

คุณสามารถสร้างแบบจำลองพารามิเตอร์การกระจายแบบลบทวินามตัวเองเป็นฟังก์ชั่นของตัวแปรและพารามิเตอร์โดยใช้แพ็คเกจ gamlss ในอาร์ฉันให้ข้อความที่ตัดตอนมาจากบทนำ:

ทำไมฉันต้องใช้ GAMLSS

หากตัวแปรการตอบสนองของคุณเป็นข้อมูลที่นับ (ไม่ต่อเนื่อง) มีโอกาสมากที่การกระจาย Poisson จะไม่พอดี GAMLSS มอบการกระจายแบบไม่ต่อเนื่องหลายแบบ (รวมถึงทวินามลบ) ที่คุณสามารถลองใช้ได้ พารามิเตอร์การกระจายยังสามารถสร้างแบบจำลองเป็นฟังก์ชันของตัวแปรอธิบาย

เว็บไซต์ www.gamlss.org มีเอกสารและลิงค์ไปยังเอกสารหลายฉบับเกี่ยวกับวิธีการที่ใช้ในแพ็คเกจ


คำตอบทั้งสองมีประโยชน์และให้การอ้างอิงที่ดี ฉันกำลังตัดสินรางวัลสำหรับอันนี้เพราะ (a) นำหน้าอีกสี่นาทีและ (b) ทางออกของเกม gamlss นั้นใหม่สำหรับฉัน (ฉันคุ้นเคยกับ nbreg) แต่ไม่ชอบ @timbp ที่ให้การตอบกลับที่ดี ฉันหวังว่าคุณจะมีส่วนร่วมในเว็บไซต์ของเราต่อไป
whuber

2
@ โฮเบอร์ฉันก็ขาดคำตอบว่า "คำตอบ" เพราะทั้งคู่มีประโยชน์มาก ฉันไปกับอันนี้เพราะมันรวมการอ้างอิงแพ็คเกจ R ซึ่งฉันสามารถใช้ได้ การอ้างอิงหนังสือในคำตอบอื่น ๆ เป็นการอ่านที่ดีและไม่ควรลดราคา ขอบคุณสำหรับการเสนอเงินรางวัลซึ่งกระตุ้นทั้งสองคำตอบที่ดี
Brian Diggs

9

Stata จัดเตรียมคำสั่ง -gnbreg- ซึ่งให้คุณจำลองโมเดลพารามิเตอร์การกระจาย คุณสามารถดูวิธีใช้ Stata สำหรับคำสั่งได้ที่http://www.stata.com/help.cgi?nbreg

Stata เรียกสิ่งนี้ว่าแบบจำลองทวินามลบเชิงลบ โจเซฟฮิลเบกล่าวถึงในหนังสือของเขาเรื่อง "Negative Binomial Regression", หัวข้อ 10.4, ในขณะที่ "NB-H: Heterogeneous negative binomial regression"

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.