เราขอให้คน 60 รายชื่อแฟรนไชส์ร้านอาหารจำนวนมากในแอตแลนตาเท่าที่จะทำได้ รายการโดยรวมนั้นมีร้านอาหารกว่า 70 ร้าน แต่เรากำจัดร้านที่ถูกกล่าวถึงน้อยกว่า 10% ของผู้คนทำให้เราเหลือ 45 คนสำหรับ 45 ร้านนี้เราคำนวณสัดส่วนของผู้ให้ข้อมูลที่แสดงรายการแฟรนไชส์และเราสนใจ การสร้างแบบจำลองสัดส่วนนี้เป็นฟังก์ชั่นของงบประมาณการโฆษณาของแฟรนไชส์ (บันทึกการเปลี่ยนแปลง) และปีนับตั้งแต่กลายเป็นแฟรนไชส์
ดังนั้นฉันจึงเขียนรหัสนี้:
model <- glm ( cbind (listed, 55-listed) ~ log.budget + years, family = binomial, data = list.45)
ตามที่คาดการณ์ไว้ตัวแปรทั้งสองแสดงผลที่แข็งแกร่งและมีนัยสำคัญ
แต่ถึงแม้ว่าฉันรู้ว่าข้อมูลที่เป็นสัดส่วนไม่ควรเป็นแบบจำลองด้วยการถดถอย OLS ฉันก็เขียนรหัสนี้:
model.lm <- lm ( proportion.55 ~ log.budget + years, data = list.45)
ในกรณีนี้ "งบประมาณ" ยังคงเป็นตัวทำนายที่สำคัญ แต่ "ปี" นั้นค่อนข้างอ่อนแอและไม่มีนัยสำคัญ
ทำให้ฉันกังวลว่าความเชื่อมั่นในการประมาณนั้นสูงเกินจริงโดยการรวมกลุ่ม binomial glm นั้นไม่ได้ทำให้ข้อมูลเป็นแบบนั้นโดยพื้นฐานแล้วว่าแบบจำลองนั้นอิงตาม 45 * 55 = 2,475 แถวหรือไม่ มีความเหมาะสมหรือไม่ที่มีร้านอาหารเพียง 45 แห่งและผู้ให้ข้อมูล 55 รายเท่านั้น สิ่งนี้เรียกร้องให้สร้างแบบจำลองเอฟเฟกต์ผสมหรือไม่
lm
และglm(...,family=binomial)
แต่สิ่งสำคัญอย่างหนึ่งคือ GLM แบบทวินามสร้างสมมติฐานที่แข็งแกร่งเกี่ยวกับความแปรปรวน หากข้อมูลไม่ได้ถูกกระจายมากเกินไปการรวม / การกระจายข้อมูลจะไม่แตกต่างกัน
family=quasibinomial