ข้อมูลเหล่านี้สามารถรวมกันเป็นสัดส่วนสำหรับ binomial glm ได้หรือไม่?


11

เราขอให้คน 60 รายชื่อแฟรนไชส์ร้านอาหารจำนวนมากในแอตแลนตาเท่าที่จะทำได้ รายการโดยรวมนั้นมีร้านอาหารกว่า 70 ร้าน แต่เรากำจัดร้านที่ถูกกล่าวถึงน้อยกว่า 10% ของผู้คนทำให้เราเหลือ 45 คนสำหรับ 45 ร้านนี้เราคำนวณสัดส่วนของผู้ให้ข้อมูลที่แสดงรายการแฟรนไชส์และเราสนใจ การสร้างแบบจำลองสัดส่วนนี้เป็นฟังก์ชั่นของงบประมาณการโฆษณาของแฟรนไชส์ ​​(บันทึกการเปลี่ยนแปลง) และปีนับตั้งแต่กลายเป็นแฟรนไชส์

ดังนั้นฉันจึงเขียนรหัสนี้:

model <- glm ( cbind (listed, 55-listed) ~ log.budget + years, family = binomial, data = list.45)

ตามที่คาดการณ์ไว้ตัวแปรทั้งสองแสดงผลที่แข็งแกร่งและมีนัยสำคัญ

แต่ถึงแม้ว่าฉันรู้ว่าข้อมูลที่เป็นสัดส่วนไม่ควรเป็นแบบจำลองด้วยการถดถอย OLS ฉันก็เขียนรหัสนี้:

model.lm <- lm ( proportion.55 ~ log.budget + years, data = list.45)

ในกรณีนี้ "งบประมาณ" ยังคงเป็นตัวทำนายที่สำคัญ แต่ "ปี" นั้นค่อนข้างอ่อนแอและไม่มีนัยสำคัญ

ทำให้ฉันกังวลว่าความเชื่อมั่นในการประมาณนั้นสูงเกินจริงโดยการรวมกลุ่ม binomial glm นั้นไม่ได้ทำให้ข้อมูลเป็นแบบนั้นโดยพื้นฐานแล้วว่าแบบจำลองนั้นอิงตาม 45 * 55 = 2,475 แถวหรือไม่ มีความเหมาะสมหรือไม่ที่มีร้านอาหารเพียง 45 แห่งและผู้ให้ข้อมูล 55 รายเท่านั้น สิ่งนี้เรียกร้องให้สร้างแบบจำลองเอฟเฟกต์ผสมหรือไม่


4
คำใบ้: ดูว่าเกิดอะไรขึ้นกับfamily=quasibinomial
โบลเกอร์เกอร์

1
น่าสนใจ ค่าสัมประสิทธิ์โดยประมาณจะเหมือนกัน แต่ข้อผิดพลาดมาตรฐานจะอนุรักษ์มากกว่า (และปีไม่สำคัญในโมเดล quasibinomial) ฉันค้นหาไฟล์ช่วยเหลือสำหรับ quasibinomial แต่คุณสามารถอธิบายสิ่งที่เกิดขึ้นได้หรือไม่? ความประทับใจของฉันคือการใช้ quasibinomial เป็นหลักในการใช้งานเกินขนาด . .
Jeremy _

3
เผง มีความแตกต่างหลากหลายระหว่างlmและglm(...,family=binomial)แต่สิ่งสำคัญอย่างหนึ่งคือ GLM แบบทวินามสร้างสมมติฐานที่แข็งแกร่งเกี่ยวกับความแปรปรวน หากข้อมูลไม่ได้ถูกกระจายมากเกินไปการรวม / การกระจายข้อมูลจะไม่แตกต่างกัน
Ben Bolker

1
เอาท์พุท R แสดงให้เห็นว่าพารามิเตอร์การกระจายตัวนั้นถูกนำมาเป็น 8.7 ฉันพยายามคิดว่าสิ่งนี้พูดเกี่ยวกับการเกินขนาด ในขณะเดียวกันเบ็นฉันเห็นว่าคุณมีพื้นหลังค่อนข้างเยอะด้วยโมเดลมิกซ์ ฉันปลอดภัยที่จะใช้ glom binomial โดยไม่มีเอฟเฟกต์แบบผสมสำหรับผู้ให้ข้อมูลหรือแฟรนไชส์
Jeremy _

คำตอบ:


1

Y=cX1k1X2k2...Xnknln(Y)=ln(c)+k1ln(X1)+k2ln(X2)...+knln(Xn)R2

ทีนี้ถ้าบรรทัดการถดถอยที่ไม่เปลี่ยนแปลง (โดยเฉพาะการถดถอยแบบ bivariate เช่น Deming regression) ไม่น่าจะผ่าน {0,0} ได้แล้วมันมีความซับซ้อนมากกว่าและลดฟังก์ชันการสูญเสียสัดส่วนแบบออฟเซ็ตน้อยกว่าการใช้สามัญน้อยที่สุด สี่เหลี่ยม

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.