แผ่นโกงของ Lmer


160

มีจำนวนมากของการสนทนาที่เกิดขึ้นบนเวทีนี้เกี่ยวกับวิธีการที่เหมาะสมในการระบุรูปแบบลำดับชั้นต่าง ๆ lmerโดยใช้เป็น

ฉันคิดว่ามันจะเป็นการดีหากมีข้อมูลทั้งหมดในที่เดียว คำถามสองสามข้อที่จะเริ่ม:

  1. วิธีการระบุหลายระดับที่กลุ่มหนึ่งซ้อนอยู่ในอื่น ๆ : มันเป็น(1|group1:group2)หรือ(1+group1|group2)?
  2. ความแตกต่างระหว่าง(~1 + ....)และ(1 | ...)และ(0 | ...)อื่น ๆ คืออะไร?
  3. จะระบุการโต้ตอบระดับกลุ่มได้อย่างไร

11
คู่มือและสามสะเปะสะปะสำหรับlme4แพคเกจสามารถพบได้บน CRAN
เฮนรี่

4
มีนอกเหนือไปจากวัสดุ CRAN สไลด์บรรยายบวกร่างบทของหนังสือดั๊กกำลังเขียนบน (G) LMMs และ R กับlme4สามารถใช้ได้จากr-forge
Gavin Simpson

ลิงก์โดยตรงไปยังเวอร์ชัน arXiv ของกระดาษ JSS โดย Bates et al.: แบบจำลองการผสมเอฟเฟกต์แบบลิเนียร์ที่เหมาะสมโดยใช้ lme4 (โดยเฉพาะในส่วนที่ 2.2 "การทำความเข้าใจสูตรผสมแบบจำลอง") ดูส่วนที่เกี่ยวข้องของคำถามที่พบบ่อยของ Ben Bolker
อะมีบา

5
เนื้อหาที่ใช้โดยlmerทั่วไปนั้นมีความสนใจทางสถิติและไม่ได้เป็นเพียงเรื่องของการเขียนโปรแกรมเท่านั้น ฉันจึงลงคะแนนเพื่อเปิดกระทู้นี้
whuber

2
@whuber +1 เห็นด้วยอย่างเต็มที่
อะมีบา

คำตอบ:


180

อะไรคือความแตกต่างระหว่าง (~ 1 + .... ) และ (1 | ... ) และ (0 | ... ) ฯลฯ ?

สมมติว่าคุณมีตัวแปร V1 ที่ทำนายโดยตัวแปรเด็ดขาด V2 ซึ่งถือว่าเป็นเอฟเฟกต์แบบสุ่มและตัวแปรต่อเนื่อง V3 ซึ่งถือว่าเป็นเอฟเฟกต์เชิงเส้นคงที่ การใช้ไวยากรณ์ lmer โมเดลที่ง่ายที่สุด (M1) คือ:

V1 ~ (1|V2) + V3

โมเดลนี้จะประมาณ:

P1:การสกัดกั้นทั่วโลก

P2: การสกัดเอฟเฟ็กต์แบบสุ่มสำหรับ V2 (เช่นสำหรับแต่ละระดับของ V2, การเบี่ยงเบนของการสกัดกั้นในระดับนั้นจากการสกัดกั้นทั่วโลก)

P3:การประมาณทั่วโลกเดียวสำหรับเอฟเฟกต์ (ความชัน) ของ V3

รุ่นที่ซับซ้อนที่สุดถัดไป (M2) คือ:

V1 ~ (1|V2) + V3 + (0+V3|V2)

โมเดลนี้ประมาณพารามิเตอร์ทั้งหมดจาก M1 แต่จะประมาณเพิ่มเติม:

P4:ผลกระทบของ V3 ภายในแต่ละระดับของ V2 (โดยเฉพาะอย่างยิ่งระดับที่ผลกระทบของ V3 ภายในระดับที่กำหนดเบี่ยงเบนไปจากผลกระทบระดับโลกของ V3) ในขณะที่บังคับใช้ความสัมพันธ์แบบศูนย์ระหว่างการเบี่ยงเบนของการสกัดกั้นและ ของ V2

ข้อ จำกัด หลังนี้ผ่อนคลายในโมเดลที่ซับซ้อนที่สุดขั้นสุดท้าย (M3):

V1 ~ (1+V3|V2) + V3

ซึ่งพารามิเตอร์ทั้งหมดจาก M2 ถูกประเมินในขณะที่อนุญาตให้มีความสัมพันธ์ระหว่างการเบี่ยงเบนของการสกัดกั้นและการเบี่ยงเบนผลของ V3 ภายในระดับของ V2 ดังนั้นใน M3 จะมีการประมาณพารามิเตอร์เพิ่มเติม:

P5:ความสัมพันธ์ระหว่างการเบี่ยงเบนของการสกัดกั้นและการเบี่ยงเบน V3 กับระดับของ V2

โดยทั่วไปแล้วแบบจำลองคู่เช่น M2 และ M3 จะถูกคำนวณแล้วเปรียบเทียบกับการประเมินหลักฐานความสัมพันธ์ระหว่างเอฟเฟกต์คงที่ (รวมถึงการสกัดกั้นสากล)

ตอนนี้ให้พิจารณาเพิ่มตัวทำนายผลกระทบคงที่อีกตัวหนึ่ง V4 นางแบบ:

V1 ~ (1+V3*V4|V2) + V3*V4

จะประเมิน:

P1:การสกัดกั้นทั่วโลก

P2:การประมาณทั่วโลกเดียวสำหรับผลกระทบของ V3

P3:การประมาณทั่วโลกเดียวสำหรับผลกระทบของ V4

P4:การประมาณทั่วโลกเดียวสำหรับการโต้ตอบระหว่าง V3 และ V4

P5: การเบี่ยงเบนของการสกัดกั้นจากP1ในแต่ละระดับของ V2

P6: การเบี่ยงเบนของผลกระทบ V3 จากP2ในแต่ละระดับของ V2

P7: การเบี่ยงเบนของผลกระทบ V4 จากP3ในแต่ละระดับของ V2

P8: การเบี่ยงเบนของการโต้ตอบ V3-by-V4 จากP4ในแต่ละระดับของ V2

P9สหสัมพันธ์ระหว่างP5และP6ในระดับ V2

P10สหสัมพันธ์ระหว่างP5กับP7ในระดับ V2

P11สหสัมพันธ์ระหว่างP5และP8ในระดับ V2

P12สหสัมพันธ์ระหว่างP6และP7ในระดับ V2

P13สหสัมพันธ์ระหว่างP6และP8ในระดับ V2

P14สหสัมพันธ์ระหว่างP7และP8กับระดับของ V2

ว้านั่นเป็นพารามิเตอร์จำนวนมาก! และฉันไม่ได้สนใจรายการพารามิเตอร์ความแปรปรวนที่ประเมินโดยตัวแบบ ยิ่งไปกว่านั้นหากคุณมีตัวแปรเด็ดขาดที่มีมากกว่า 2 ระดับที่คุณต้องการสร้างแบบจำลองเป็นเอฟเฟกต์คงที่แทนที่จะใช้เอฟเฟกต์เดี่ยวสำหรับตัวแปรนั้นคุณจะประมาณเอฟเฟกต์ k-1 (โดยที่ k คือจำนวนระดับ) ดังนั้นการกระจายจำนวนพารามิเตอร์ที่จะประเมินโดยตัวแบบเพิ่มเติม


1
@ Mike Lawrence ขอบคุณสำหรับคำตอบ! แบบจำลอง 3 ระดับนั้นถูกประเมินอย่างไร ปัจจัยการจัดกลุ่มหนึ่งซ้อนอยู่ภายในอีกปัจจัยหนึ่ง

DBR ฉันไม่คิดว่าคุณรู้ระดับอะไร คุณได้รับการถามเกี่ยวกับเรื่องนี้ตลอดไป สร้างคำถามที่มีรายละเอียดการออกแบบการทดสอบของคุณจริงและแสดงการตีความ "ระดับ" ของคุณ
John

3
ฉันคิดว่า DBR หมายถึงระดับในลำดับชั้น สิ่งที่ฉันอธิบายคือแบบจำลองลำดับชั้น 2 ระดับโดยมีการสังเกตซ้อนอยู่ในวิชาและ DBR จะถามเกี่ยวกับลำดับชั้น 3 ระดับตัวอย่างซึ่งอาจเป็นรายการทดสอบภายในนักเรียนภายในโรงเรียนที่คุณต้องการจำลองทั้งนักเรียนและโรงเรียนเป็นแบบสุ่ม ผลกระทบกับนักเรียนซ้อนกันภายในโรงเรียน ในกรณีเช่นนี้ฉันคิดว่าการคำนวณเบี่ยงเบนระดับโรงเรียนจะถูกคำนวณก่อนจากนั้นเบี่ยงเบนจากนักเรียนจากโรงเรียน
Mike Lawrence

2
คำตอบที่ดีที่สุดที่ฉันเคยเห็นสำหรับการตั้งค่ารุ่น ช่วยฉันจัดเตรียมกรอบงานที่ง่ายสำหรับเจ้านายของฉันให้เข้าใจสิ่งที่ฉันทำใน R ด้วย lmer
bfoste01

สมมติว่าฉันมีตัวแปรอิสระหนึ่งตัว (X) ที่ระดับบุคคลและอีกหนึ่งตัวแปรอิสระ (Z) ที่ระดับกลุ่ม ทั้งสองเป็นตัวแปรต่อเนื่อง หากโมเดลคือโดยที่ตัวห้อยหมายถึงบุคคลที่สามและหมายถึงกลุ่มที่จากนั้นใช้รูปแบบ syntex ซึ่งเป็นตัวแปรอื่นในกรอบข้อมูลเพื่อระบุในกลุ่มที่แต่ละบุคคลเป็นของ? ฉันฉันฉันj j
Yij=γ00+γ10Xij+γ01Zj+γ11XijZj+u1jXij+u0j+eij
iijjlmerY~X+Z+(1|group)+(0+X|Z)group
ABC

50

เคล็ดลับทั่วไปคือเป็นที่กล่าวถึงในคำตอบอื่นdependent ~ independent | groupingคือว่าสูตรดังต่อไปนี้รูปแบบ groupingโดยทั่วไปเป็นปัจจัยสุ่มคุณสามารถรวมถึงปัจจัยคงที่โดยไม่ต้องจัดกลุ่มใด ๆ และคุณสามารถมีปัจจัยสุ่มเพิ่มเติมได้โดยไม่ต้องได้รับการแก้ไขปัจจัยใด ๆ (รูปแบบการตัดอย่างเดียว) +ระหว่างปัจจัยบ่งชี้ไม่มีปฏิสัมพันธ์ที่*บ่งบอกถึงการมีปฏิสัมพันธ์

สำหรับปัจจัยสุ่มคุณมีตัวแปรพื้นฐานสามแบบ:

  1. ดักโดยปัจจัยสุ่มเท่านั้น: (1 | random.factor)
  2. ความลาดชันโดยปัจจัยสุ่มเท่านั้น: (0 + fixed.factor | random.factor)
  3. ดักและลาดโดยปัจจัยสุ่ม: (1 + fixed.factor | random.factor)

โปรดทราบว่าตัวแปร 3 มีความชันและการสกัดกั้นที่คำนวณในการจัดกลุ่มเดียวกันคือในเวลาเดียวกัน หากเราต้องการให้ความชันและการสกัดกั้นถูกคำนวณอย่างอิสระนั่นคือไม่มีความสัมพันธ์ที่สันนิษฐานระหว่างทั้งสองเราต้องการตัวแปรที่สี่:

  • การสกัดกั้นและความชันแยกจากกันโดยการสุ่มปัจจัย: (1 | random.factor) + (0 + fixed.factor | random.factor). fixed.factor + (fixed.factor || random.factor)ทางเลือกในการเขียนนี้ใช้สัญกรณ์คู่บาร์

นอกจากนี้ยังมีบทสรุปที่ดีในการตอบคำถามอื่นที่คุณควรดู

หากคุณพร้อมที่จะขุดลงไปในคณิตศาสตร์ Barr และคณะ (2013) สรุปlmerไวยากรณ์ค่อนข้างดีในตารางที่ 1 ของพวกเขาดัดแปลงที่นี่เพื่อตอบสนองข้อ จำกัด ของ markdown tableless กระดาษที่เกี่ยวข้องกับข้อมูล psycholinguistic ดังนั้นทั้งสองผลกระทบสุ่มและSubjectItem

รุ่นและlme4ไวยากรณ์ของสูตรที่เทียบเท่า:

    • Ysi=β0+β1Xi+esi
    • N / A (ไม่ใช่รูปแบบเอฟเฟกต์ผสม)
    • Ysi=β0+S0s+β1Xi+esi
    • Y ∼ X+(1∣Subject)
    • Ysi=β0+S0s+(β1+S1s)Xi+esi
    • Y ∼ X+(1 + X∣Subject)
    • Ysi=β0+S0s+I0i+(β1+S1s)Xi+esi
    • Y ∼ X+(1 + X∣Subject)+(1∣Item)
    • Ysi=β0+S0s+I0i+β1Xi+esi
    • Y ∼ X+(1∣Subject)+(1∣Item)
    • ในฐานะ (4) แต่เป็น ,เป็นอิสระ S0sS1s
    • Y ∼ X+(1∣Subject)+(0 + X∣ Subject)+(1∣Item)
    • Ysi=β0+I0i+(β1+S1s)Xi+esi
    • Y ∼ X+(0 + X∣Subject)+(1∣Item)

อ้างอิง:

Barr, Dale J, R. Levy, C. Scheepers และ HJ Tily (2013) โครงสร้างผลกระทบสุ่มสำหรับการทดสอบสมมติฐานยืนยัน: ให้มันสูงสุด วารสารหน่วยความจำและภาษา, 68: 255–278


4
ดี มันอาจเป็นข้อมูลที่ดีขึ้นเกี่ยวกับปัจจัยที่ซ้อนกัน '/' และเครื่องหมายสองแถบ '||'
skan

1
สัญลักษณ์อะไร:
eastafri

1
@eastafri มันหมายความว่าสิ่งเดียวกันมันทำทุกที่ใน R (สูตร) ​​- ปฏิสัมพันธ์ระหว่างสองตัวแปร
Livius

ใน (6) ความเข้าใจของฉันคือและไม่มีความสัมพันธ์กัน ในคำอื่น ๆ เป็นตัวแปรสุ่มแปรปรวนของพวกเขาคือ0การบอกว่าและเป็นอิสระนั้นเป็นคำสั่งที่ดีกว่าดังนั้นจึงไม่จำเป็นต้องเป็นความจริง ฉันเข้าใจผิด S0sS1s0S0sS1s
Muno

4

|สัญลักษณ์บ่งบอกถึงปัจจัยการจัดกลุ่มในวิธีการผสม

ตาม Pinheiro & Bates:

... สูตรนี้ยังจะกำหนดการตอบสนองและเมื่อนำมาใช้ได้เป็นตัวแปรร่วมหลัก มันได้รับเป็น

response ~ primary | grouping

โดยที่responseเป็นนิพจน์สำหรับการตอบสนองprimaryคือนิพจน์สำหรับ covariate หลักและgroupingเป็นนิพจน์สำหรับปัจจัยการจัดกลุ่ม

Rคุณอาจต้องสร้างgroupedDataวัตถุเพื่อให้สามารถใช้การจัดกลุ่มในการวิเคราะห์ขึ้นอยู่กับวิธีที่คุณใช้เพื่อทำการวิเคราะห์แบบผสม(ดูnlmeแพคเกจสำหรับรายละเอียดlme4ดูเหมือนไม่จำเป็นต้องใช้สิ่งนี้) ฉันไม่สามารถพูดกับวิธีที่คุณระบุlmerงบรุ่นของคุณเพราะฉันไม่ทราบข้อมูลของคุณ อย่างไรก็ตามการมีหลายแบบ(1|foo)ในโมเดลนั้นผิดปกติจากสิ่งที่ฉันเห็น คุณพยายามทำตัวแบบอะไร

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.