ปัวซองหรือปัวซองกึ่งในการถดถอยด้วยการนับข้อมูลและการกระจายเกินพิกัด?


16

ฉันมีข้อมูลนับจำนวน (การวิเคราะห์อุปสงค์ / ข้อเสนอพร้อมจำนวนการนับลูกค้าขึ้นอยู่กับปัจจัยหลายอย่าง) ฉันลองการถดถอยเชิงเส้นโดยมีข้อผิดพลาดปกติ แต่ QQ-plot ของฉันไม่ค่อยดี ฉันพยายามบันทึกการเปลี่ยนแปลงของคำตอบ: อีกครั้งแผนการดี QQ

ดังนั้นตอนนี้ฉันกำลังลองถดถอยด้วยข้อผิดพลาดปัวซอง ด้วยโมเดลที่มีตัวแปรสำคัญทั้งหมดฉันจะได้รับ:

Null deviance: 12593.2  on 53  degrees of freedom
Residual deviance:  1161.3  on 37  degrees of freedom
AIC: 1573.7

Number of Fisher Scoring iterations: 5

การเบี่ยงเบนส่วนที่เหลือมีขนาดใหญ่กว่าองศาอิสระที่เหลืออยู่ฉันมีการกระจายเกินกำหนด

ฉันจะรู้ได้อย่างไรว่าฉันต้องใช้ quasipoisson? เป้าหมายของ quasipoisson ในกรณีนี้คืออะไร? ฉันอ่านคำแนะนำนี้ใน "The R Book" โดย Crawley แต่ฉันไม่เห็นประเด็นหรือการปรับปรุงขนาดใหญ่ในกรณีของฉัน

คำตอบ:


18

เมื่อพยายามที่จะกำหนดสมการ glm แบบใดที่คุณต้องการประมาณคุณควรคิดถึงความสัมพันธ์ที่เป็นไปได้ระหว่างค่าที่คาดหวังของตัวแปรเป้าหมายของคุณด้วยตัวแปรด้านขวามือ (rhs) และความแปรปรวนของตัวแปรเป้าหมายที่กำหนดตัวแปร rhs พล็อตที่เหลือเทียบกับค่าติดตั้งจากรุ่นปกติของคุณสามารถช่วยได้ ด้วยการถดถอยปัวซองความสัมพันธ์ที่สันนิษฐานคือความแปรปรวนเท่ากับค่าที่คาดไว้ ค่อนข้าง จำกัด ฉันคิดว่าคุณจะเห็นด้วย ด้วยการถดถอยเชิงเส้น "มาตรฐาน" ข้อสันนิษฐานคือความแปรปรวนคงที่โดยไม่คำนึงถึงค่าที่คาดหวัง สำหรับการถดถอยกึ่งปัวซองความแปรปรวนจะถือว่าเป็นฟังก์ชันเชิงเส้นของค่าเฉลี่ย สำหรับการถดถอยทวินามลบ, ฟังก์ชันกำลังสอง

อย่างไรก็ตามคุณไม่ได้ถูก จำกัด ความสัมพันธ์เหล่านี้ ข้อมูลจำเพาะของ "ตระกูล" (นอกเหนือจาก "กึ่ง") กำหนดความสัมพันธ์แปรปรวนหมายถึง ฉันไม่มี The R Book แต่ฉันคิดว่ามันมีตารางที่แสดงฟังก์ชั่นครอบครัวและความสัมพันธ์ความแปรปรวนเฉลี่ยที่สอดคล้องกัน สำหรับตระกูล "กึ่ง" คุณสามารถระบุความสัมพันธ์แปรปรวนหลายค่าได้และคุณสามารถเขียนของคุณเองได้ ดูเอกสาร R อาจเป็นไปได้ว่าคุณสามารถหาแบบที่ดีกว่าโดยการระบุค่าที่ไม่ใช่ค่าเริ่มต้นสำหรับฟังก์ชันค่าความแปรปรวนในแบบจำลอง "กึ่ง"

คุณควรใส่ใจกับช่วงของตัวแปรเป้าหมาย; ในกรณีของคุณมันเป็นข้อมูลการตรวจนับที่ไม่จำเป็น หากคุณมีค่าต่ำมาก - 0, 1, 2 - การแจกแจงแบบต่อเนื่องอาจไม่เหมาะ แต่ถ้าคุณไม่มีก็ไม่มีค่ามากนักในการใช้การแจกแจงแบบไม่ต่อเนื่อง มันยากที่คุณจะพิจารณาการกระจาย Poisson และ Normal ในฐานะคู่แข่ง


ใช่คุณพูดถูก. ที่นี่ฉันมีข้อมูลที่นับ แต่มีค่ามาก ฉันควรใช้การกระจายอย่างต่อเนื่อง
Antonin

8

คุณถูกต้องข้อมูลเหล่านี้อาจมีการกระจายตัวมากเกินไป Quasipoisson เป็นวิธีการรักษา: มันประมาณค่าพารามิเตอร์ของสเกลด้วย (ซึ่งได้รับการแก้ไขสำหรับโมเดลปัวซองเนื่องจากความแปรปรวนเป็นค่าเฉลี่ย) และจะให้พอดี อย่างไรก็ตามไม่มีความเป็นไปได้สูงสุดที่คุณจะทำอีกต่อไปและไม่สามารถใช้แบบทดสอบและดัชนีบางอย่างได้ การสนทนาที่ดีสามารถพบได้ใน Venables และริบลีย์, โมเดิร์นสถิติประยุกต์กับ S (มาตรา 7.5)

ทางเลือกคือการใช้รูปแบบทวินามลบเช่นฟังก์ชั่นในแพคเกจ glm.nb()MASS


1
แต่ฉัน "ถูกบังคับ" ให้ใช้ quasipoisson ในกรณีนี้หรือไม่? ฉันถามเพราะโมเดลที่ไม่ใช่ quasipoisson ของฉันดีกว่า (แค่ปัวซองพื้นฐาน) ในแง่ที่ว่ามีตัวแปรมากขึ้น
Antonin

2
มันไม่สมเหตุสมผลเลยเหรอ? ถ้าฉันใช้ตัวแบบการถดถอยโดยที่ฉันสันนิษฐานว่าซิกมานั้นคือ .00001 แทนที่จะใช้การประมาณจากข้อมูล (2.3 สมมุติว่า) แล้วแน่นอนว่าสิ่งต่าง ๆ จะมีความสำคัญมากกว่า
Dason

1
อันโตนิน: ฉันจะบอกว่าเพียงเพราะตัวแปรมีความสำคัญมันไม่ได้ทำให้สิ่ง "ดีขึ้น" สิ่งเหล่านี้อาจดังที่ Dason ชี้ให้เห็นว่าเป็นผลบวกปลอมหากคุณดูถูกความแปรปรวนของข้อผิดพลาดต่ำเกินไป แน่นอนฉันจะใช้วิธีกึ่งหรือทวินามลบในกรณีนี้ แต่ถ้าฉันจะตรวจทานกระดาษของคุณคุณจะไม่ถูกบังคับให้ทำอะไร;)
Momo

ขอบคุณมากสำหรับคำตอบของคุณ! คุณรู้วิธีการเปรียบเทียบแบบกึ่งปัวซองและโมเดลทวินามลบหรือไม่? ในหนังสือส่วนใหญ่พวกเขานำเสนอแบบจำลอง แต่ไม่อธิบายวิธีเลือกระหว่างพวกเขา
Antonin

1
จากผลลัพธ์ดูเหมือนว่าคุณกำลังปรับพารามิเตอร์ 53-17 = 16 ให้เป็น 53 + 1 = 54 จุดข้อมูล ถูกไหม หากวิธีการใดก็ตามที่อาศัยการประมาณแบบเชิงเส้นกำกับรวมถึงการใช้glm()และglm.nb()มีแนวโน้มที่จะให้ข้อสรุปที่ไม่ถูกต้องสอบเทียบ มันจะสมเหตุสมผลที่จะคาดหวังความแม่นยำเกินจริง การรู้เพิ่มเติมเกี่ยวกับสาเหตุที่คุณต้องการทำสิ่งนี้เป็นประโยชน์ เป็นวิธีการที่เป็นไปได้ที่ทำงานได้ดีขึ้นในสถานการณ์ตัวอย่างขนาดเล็กสามารถใช้แทน
แขก
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.