คำถามติดแท็ก overdispersion

Overdispersion คือเมื่อมีความแปรปรวนมากกว่าที่ควรจะเป็นในข้อมูล เช่นความแปรปรวนของจำนวนนับมักจะมากกว่าค่าเฉลี่ยในขณะที่ความแปรปรวนของปัวซองควรเท่ากับค่าเฉลี่ย

1
glmnet จัดการกับการกระจายเกินขนาดได้อย่างไร
ฉันมีคำถามเกี่ยวกับวิธีจำลองข้อความเหนือข้อมูลการนับโดยเฉพาะฉันจะใช้lassoเทคนิคเพื่อลดคุณลักษณะได้อย่างไร สมมติว่าฉันมีบทความออนไลน์ N รายการและจำนวนการเปิดดูหน้าเว็บสำหรับแต่ละบทความ ฉันได้สกัด 1 กรัมและ 2 กรัมสำหรับแต่ละบทความแล้วและฉันต้องการเรียกใช้การถดถอยมากกว่า 1,2- กรัม เนื่องจากฟีเจอร์ (1,2-grams) นั้นมากกว่าวิธีการสังเกตจำนวนมาก Lasso จึงเป็นวิธีที่ดีในการลดจำนวนฟีเจอร์ นอกจากนี้ฉันพบว่าglmnetมันมีประโยชน์จริงๆในการรันการวิเคราะห์บ่วงบาศ อย่างไรก็ตามจำนวนการเปิดดูหน้าเว็บนั้นมีจำนวนมากเกินไป (แปรปรวน> หมายถึง) แต่glmnetไม่มีการเสนอquasipoisson(อย่างชัดเจน) หรือnegative binomialแต่poissonสำหรับการนับข้อมูล วิธีการแก้ปัญหาที่ฉันคิดคือlog transformการนับข้อมูล (วิธีที่ใช้กันทั่วไปในหมู่นักสังคมศาสตร์) และทำให้ตัวแปรตอบสนองคร่าว ๆ ตามการแจกแจงปกติ glmnetเป็นเช่นนี้ผมอาจจะรูปแบบข้อมูลกับครอบครัวของเกาส์โดยใช้ ดังนั้นคำถามของฉันคือ: เหมาะสมหรือไม่ หรือฉันจะใช้ปัวซองglmnetในกรณีglmnetด้ามจับquasipoisson? หรือมีแพ็คเกจ R อื่น ๆ จัดการกับสถานการณ์นี้หรือไม่? ขอบคุณมาก!
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.