แบบผสมที่มี 1 การสังเกตต่อระดับ


12

ฉันปรับโมเดลเอฟเฟกต์แบบสุ่มให้เหมาะกับglmerข้อมูลธุรกิจบางอย่าง จุดมุ่งหมายคือการวิเคราะห์ประสิทธิภาพการขายโดยผู้จัดจำหน่ายโดยคำนึงถึงความหลากหลายของภูมิภาค ฉันมีตัวแปรต่อไปนี้:

  • distcode: รหัสผู้จำหน่ายที่มีประมาณ 800 ระดับ
  • region: รหัสทางภูมิศาสตร์ระดับบนสุด (เหนือ, ใต้, ตะวันออก, ตะวันตก)
  • zone: ภูมิศาสตร์ระดับกลางซ้อนกันภายในregionประมาณ 30 ระดับในทุกระดับ
  • territory: ภูมิศาสตร์ระดับต่ำซ้อนกันภายในzoneประมาณ 150 ระดับ

ผู้จัดจำหน่ายแต่ละรายดำเนินงานในพื้นที่เดียวเท่านั้น ส่วนที่ยุ่งยากคือการสรุปข้อมูลพร้อมจุดข้อมูลหนึ่งจุดต่อผู้จัดจำหน่าย ดังนั้นฉันจึงมี 800 จุดข้อมูลและฉันพยายามปรับให้พอดี (อย่างน้อย) พารามิเตอร์ 800 ถึงแม้ว่าจะเป็นแบบธรรมดา

ฉันได้ติดตั้งโมเดลดังนี้:

glmer(ninv ~ 1 + (1|region/zone/territory) + (1|distcode), family=poisson)

สิ่งนี้จะทำงานโดยไม่มีปัญหาแม้ว่าจะพิมพ์บันทึกย่อ:

จำนวนระดับของปัจจัยการจัดกลุ่มสำหรับเอฟเฟกต์แบบสุ่มเท่ากับ n จำนวนการสังเกต

นี่เป็นสิ่งที่ควรทำใช่ไหม ฉันได้รับการประมาณค่าสัมประสิทธิ์ทั้งหมดและ AIC ก็ไม่สมเหตุสมผล ถ้าฉันลองปัวซอง GLMM ด้วยลิงก์ตัวตน AIC นั้นแย่กว่ามากดังนั้นลิงก์ล็อกนั้นเป็นจุดเริ่มต้นที่ดีอย่างน้อย

ถ้าฉันพล็อตค่าที่พอดีกับการตอบสนองฉันจะได้รับสิ่งที่เหมาะสมที่สุดซึ่งฉันเดาว่าเป็นเพราะฉันมีจุดข้อมูลหนึ่งจุดต่อผู้จัดจำหน่าย มีเหตุผลหรือว่าฉันกำลังทำอะไรที่โง่อย่างสมบูรณ์?

นี่ใช้ข้อมูลเป็นเวลาหนึ่งเดือน ฉันสามารถรับข้อมูลเป็นเวลาหลายเดือนและได้รับการจำลองแบบด้วยวิธีนั้น แต่ฉันต้องเพิ่มคำศัพท์ใหม่สำหรับรูปแบบรายเดือนและการโต้ตอบที่เป็นไปได้ถูกต้องไหม


การทางพิเศษแห่งประเทศไทย: ฉันวิ่งโมเดลด้านบนอีกครั้ง แต่ไม่มีfamilyข้อโต้แย้ง (ดังนั้นเพียงแค่ LMM แบบเกาส์เซียนมากกว่า GLMM) ตอนนี้lmerให้ฉันข้อผิดพลาดต่อไปนี้:

ข้อผิดพลาดใน (ฟังก์ชั่น (fr, FL, start, REML, verbose): จำนวนระดับของปัจจัยการจัดกลุ่มสำหรับเอฟเฟกต์แบบสุ่มต้องน้อยกว่าจำนวนการสังเกต

ดังนั้นฉันเดาว่าฉันไม่ได้ทำอะไรที่สมเหตุสมผลเพราะการเปลี่ยนครอบครัวไม่ควรมีผลกระทบ แต่ตอนนี้คำถามคือทำไมมันทำงานในสถานที่แรก?

คำตอบ:


4

ฉันไม่เห็นด้วยอย่างยิ่งกับการฝึกฝนการผสมผสานโมเดลที่คุณมีจำนวนกลุ่มเท่ากันกับการสังเกตบนพื้นฐานความคิดไม่มี "กลุ่ม" และในพื้นที่การคำนวณเนื่องจากแบบจำลองของคุณควรมีปัญหาในกรณีเดียวกัน อย่างน้อย LMM (ฉันทำงานกับ LMM โดยเฉพาะมันอาจมีอคติด้วยเช่นกัน :))

yN(Xβ,ZDZT+σ2I)Dσ2

(ฉันไม่เข้าใจสิ่งที่คุณหมายถึงโดย "สมเหตุสมผล" AIC AIC ควรคำนวณได้ในแง่ที่ว่าข้อมูลของคุณเกินความเหมาะสมคุณยังคง "คำนวณอะไรบางอย่าง"

glmeryXβXβ>0glmer

ส่วนแนวคิด: ฉันคิดว่านี่เป็น "อัตนัย" อีกเล็กน้อย แต่ตรงไปตรงมาอีกเล็กน้อย คุณใช้เอฟเฟ็กต์แบบผสม แบบจำลองเนื่องจากคุณรู้ว่ามีโครงสร้างที่เกี่ยวข้องกับกลุ่มในข้อผิดพลาดของคุณ ตอนนี้ถ้าคุณมีกลุ่มข้อมูลเป็นจุดข้อมูลจำนวนมากจะไม่มีโครงสร้างให้เห็น การเบี่ยงเบนใด ๆ ในโครงสร้างข้อผิดพลาด LM ของคุณที่อาจเกิดจาก "การจัดกลุ่ม" จะเกิดจากจุดสังเกตที่เฉพาะเจาะจง

โดยทั่วไปกลุ่มสังเกตการณ์เดี่ยวมักจะยุ่งเหยิงเล็กน้อย เพื่ออ้างอิง D.Bates จากรายชื่อผู้รับจดหมาย r-sig-Mixed-models:

ฉันคิดว่าคุณจะพบว่ามีความแตกต่างกันเล็กน้อยในโมเดลนี้ไม่ว่าคุณจะรวมหรือแยกกลุ่มการสังเกตการณ์เดี่ยว ลองและดู


1
ถูกต้องที่สิ่งนี้ดูเหมือนจะไม่สมเหตุสมผลในการตั้งค่าแบบเส้นตรง แต่มันมีประโยชน์มากในการถดถอยแบบปัวซอง ฉันจะดูว่าฉันสามารถติดตามลิงก์ไปยังสิ่งที่ Ben Bolker พูดในเรื่องนี้ได้หรือไม่ (เขาเป็นหนึ่งในนักพัฒนาของ lme4 พร้อมด้วย Doug Bates)
David J. Harris

ใช่อย่างที่ฉันพูดไปแล้วฉันคิดว่าฉันลำเอียงที่จะคิดถึง LMM ส่วนใหญ่และฉันก็แสดงความคิดเห็นใน ฉันอธิบายว่าทำไมงานนี้ในกรณีของglmerต่อไปแม้ว่า (แม้จะไม่พอใจมากเกินไป)
usεr11852

8

หนึ่งระดับต่อการสังเกตนั้นมีประโยชน์มากหากคุณมีข้อมูลการนับจำนวนมากเกินไปซึ่งเป็นตัวแปรตอบกลับของคุณ เทียบเท่ากับการบอกว่าคุณคาดหวังว่าข้อมูลการนับของคุณจะมาจากการแจกแจงแบบปัวซอง - ล็อกนอร์มัลนั่นคือพารามิเตอร์แลมบ์ดาของการแจกแจงปัวซงไม่ได้ถูกกำหนดโดยตัวแปรทำนายอย่างสมบูรณ์ในแบบจำลองของคุณ

Ben Bolker หนึ่งในผู้พัฒนาสำหรับ lme4 ได้ทำตัวอย่างการสอนสองอย่างด้วยกัน คนแรกที่มีข้อมูลสังเคราะห์จะมีรายละเอียดเพิ่มขึ้นอีกเล็กน้อย คุณสามารถค้นหาไฟล์ PDF ที่นี่ เขายังได้ทำการวิเคราะห์ข้อมูลเชิงสำรวจด้วยข้อมูลจริงที่เกี่ยวข้องกับนกฮูก (PDF และรหัส R จากที่นี่ )


1
+1 ฉันเห็นด้วยกับสิ่งที่คุณพูด ขณะที่ผมกล่าวถึงในบทความเดิมของฉัน " 'ปัญหาของการมีเป็นจำนวนมากกลุ่มสังเกตมากกว่าการกระจายตัว ( ... ) เป็นวิธีที่คุณ' ได้รับรอบ " ขอบคุณที่ทำให้เป็นจุดที่ดีขึ้นของglmerในลักษณะที่เป็นนามธรรม
usεr11852

1
ขอบคุณสำหรับลิงค์! หลังจากอ่านสิ่งเหล่านี้และมองดูค่าที่เหมาะสมจากแบบจำลองของฉันฉันมีความคิดที่ดีขึ้นว่าเกิดอะไรขึ้น จริง ๆ แล้วฉันไม่คิดว่าสิ่งที่เบ็นทำนั้นเหมาะสมสำหรับการวิเคราะห์ของฉัน เขาใช้ตัวแปรระดับการสังเกตเพื่อให้มีการกระจายเกินเหตุดังนั้นจึงเป็นเรื่องที่น่ารำคาญ สำหรับการวิเคราะห์ของฉันนั้นdistributorเป็นผลที่น่าสนใจ: ฉันต้องการดูว่าตัวแทนจำหน่ายดำเนินการอย่างไรเมื่อเปรียบเทียบกับตัวแปรอื่น ๆ ดังนั้นมันจึงเปรียบได้กับโมเดลผสมแบบเชิงเส้นแบบดั้งเดิมมากกว่าซึ่งการใส่ได้มากเกินไปเป็นปัญหาที่แท้จริง
Hong Ooi
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.