ฉันพบคำถามเชิงปฏิบัติจำนวนมากเมื่อสร้างแบบจำลองนับข้อมูลจากการวิจัยเชิงทดลองโดยใช้การทดสอบภายในเรื่อง ฉันอธิบายการทดลองข้อมูลและสิ่งที่ฉันได้ทำไปแล้วตามด้วยคำถามของฉัน
มีการฉายภาพยนตร์สี่เรื่องที่แตกต่างกันตามตัวอย่างของผู้ตอบแบบสอบถาม หลังจากภาพยนตร์แต่ละเรื่องทำการสัมภาษณ์กันซึ่งเราได้นับจำนวนการปรากฏของข้อความบางอย่างที่น่าสนใจสำหรับ RQ (ตัวแปรการนับที่คาดการณ์) นอกจากนี้เรายังบันทึกจำนวนสูงสุดของเหตุการณ์ที่เป็นไปได้ (หน่วยการเข้ารหัสตัวแปรออฟเซ็ต) นอกจากนี้ยังมีการวัดคุณลักษณะหลายอย่างของภาพยนตร์ในระดับต่อเนื่องซึ่งสำหรับหนึ่งเรามีสมมติฐานเชิงสาเหตุของผลกระทบของคุณลักษณะภาพยนตร์ที่มีต่อการนับข้อความในขณะที่คุณสมบัติอื่น ๆ เป็นตัวควบคุม (ตัวทำนาย)
กลยุทธ์การสร้างแบบจำลองที่นำมาใช้จนถึงมีดังนี้:
ประมาณค่าแบบจำลองเอฟเฟกต์ปัวซงโดยใช้ตัวแปรสาเหตุเป็นตัวแปรร่วมและตัวแปรอื่น ๆ เป็นตัวแปรควบคุม รุ่นนี้มีการชดเชยเท่ากับ 'บันทึก (หน่วย)' (หน่วยการเข้ารหัส) เอฟเฟกต์แบบสุ่มจะถูกนำไปใช้กับตัวแบบ (จำนวนเฉพาะของภาพยนตร์นั้นซ้อนอยู่ในตัวแบบ) เราพบว่าสมมติฐานเชิงสาเหตุได้รับการยืนยัน (sig. สัมประสิทธิ์ของตัวแปรเชิงสาเหตุ) ในการประมาณค่าเราใช้แพ็คเกจ lme4 ใน R โดยเฉพาะฟังก์ชัน glmer
ตอนนี้ฉันมีคำถามต่อไปนี้ ปัญหาที่พบบ่อยในการถดถอยปัวซองคือ ฉันรู้ว่าสิ่งนี้สามารถทดสอบได้โดยใช้การถดถอยแบบทวินามลบและประเมินว่าพารามิเตอร์การกระจายของมันช่วยปรับปรุงแบบจำลองของปัวซองแบบง่าย ๆ หรือไม่ อย่างไรก็ตามฉันไม่รู้ว่าจะทำอย่างไรในบริบทของเอฟเฟกต์แบบสุ่ม
- ฉันควรทดสอบ overispersion ในสถานการณ์ของฉันอย่างไร ฉันทดสอบการกระจายตัวมากเกินไปในปัวซอง / การถดถอยแบบทวินามเชิงลบอย่างง่าย (ที่ไม่มีเอฟเฟกต์แบบสุ่ม) ที่ฉันรู้ว่าจะพอดีได้อย่างไร การทดสอบแสดงให้เห็นการปรากฏตัวของ overdispersion อย่างไรก็ตามเนื่องจากรุ่นเหล่านี้ไม่ได้พิจารณาการจัดกลุ่มฉันจึงคิดว่าการทดสอบนี้ไม่ถูกต้อง นอกจากนี้ฉันไม่แน่ใจเกี่ยวกับบทบาทของออฟเซ็ตสำหรับการทดสอบการเกินขนาด
- มีแบบจำลองการถดถอยเอฟเฟกต์แบบสุ่มแบบลบทวินามแบบลบหรือไม่และฉันควรใส่ใน R ได้อย่างไร?
- คุณมีคำแนะนำสำหรับแบบจำลองทางเลือกอื่นที่ฉันควรลองใช้กับข้อมูลหรือไม่เช่นการพิจารณาโครงสร้างการวัดซ้ำการนับตัวแปรและการเปิดรับ (หน่วยการเข้ารหัส)