แบบจำลองเชิงเส้นผสม


13

ฉันเคยได้ยินมาว่าแบบจำลอง LME นั้นฟังดูดีกว่าในการวิเคราะห์ข้อมูลความถูกต้อง (เช่นในการทดลองทางจิตวิทยา) ซึ่งพวกเขาสามารถทำงานกับการแจกแจงทวินามและการแจกแจงแบบไม่ปกติอื่น ๆ ที่วิธีการแบบดั้งเดิม (เช่น ANOVA)

อะไรคือพื้นฐานทางคณิตศาสตร์ของโมเดล LME ที่อนุญาตให้รวมการแจกแจงอื่น ๆ เหล่านี้และอะไรคือเอกสารทางเทคนิคที่ไม่อธิบายมากเกินไป?

คำตอบ:


15

ประโยชน์หลักประการหนึ่งของแบบจำลองเอฟเฟ็กต์มิกซ์คือพวกเขาไม่ถือว่าเป็นอิสระระหว่างการสังเกตและอาจมีการสังเกตที่สัมพันธ์กันภายในหน่วยหรือคลัสเตอร์

สิ่งนี้จะกล่าวถึงอย่างกระชับใน "สถิติประยุกต์สมัยใหม่กับ S" (MASS) ในส่วนแรกของบทที่ 10 ในหัวข้อ "Random and Mixed Effects" V&R เดินผ่านตัวอย่างที่มีข้อมูลน้ำมันเปรียบเทียบ ANOVA และ lme ในส่วนนั้นดังนั้นจึงเป็นภาพรวมที่ดี ฟังก์ชั่น R เพื่อนำไปใช้ในlmeในnlmeแพคเกจ

การกำหนดรูปแบบขึ้นอยู่กับ Laird and Ware (1982) ดังนั้นคุณสามารถอ้างอิงได้ว่าเป็นแหล่งข้อมูลหลักแม้ว่าจะไม่ดีสำหรับการแนะนำ

  • เจ้าของที่ดินนิวเม็กซิโกและพัสดุ JH (2525) "แบบจำลอง - ผลกระทบแบบสุ่มสำหรับข้อมูลระยะยาว", ชีวภาพ, 38, 963–974
  • Venables, WN และ Ripley, BD (2002) " สถิติประยุกต์สมัยใหม่พร้อม S ", รุ่นที่ 4, Springer-Verlag

นอกจากนี้คุณยังสามารถดูภาคผนวก"โมเดลผสมเชิงเส้น" (PDF) ของจอห์นฟ็อกซ์เรื่อง "คู่หู R และ S-PLUS เพื่อการถดถอยประยุกต์" และการบรรยายครั้งนี้โดย Roger Levy (PDF) กล่าวถึงโมเดลเอฟเฟ็กต์แบบผสมที่มีการแจกแจงปกติหลายตัวแปร


ว้าวเชนขอขอบคุณสำหรับการตอบสนองที่รวดเร็วมาก! ฉันจะดูการอ้างอิงเหล่านั้น!
Mike Wong

10

บทความที่ดีมากที่อธิบายวิธีการทั่วไปของ LMM และความได้เปรียบเหนือ ANOVA คือ:

  • Baayen, RH, Davidson, DJ, & Bates, DM (2008) ผสมผลการสร้างแบบจำลองที่มีผลกระทบสุ่มข้ามสำหรับอาสาสมัครและรายการ วารสารหน่วยความจำและภาษา , 59 , 390-412

ตัวแบบผลผสมเชิงเส้น (LMMs) วางโมเดลการถดถอยแบบทั่วไปเพื่อให้มีส่วนประกอบคล้ายเศษซาก, ผลแบบสุ่ม, ในระดับของ, เช่น, บุคคลหรือสิ่งของและไม่เพียง แต่ในระดับการสังเกตการณ์ส่วนตัว แบบจำลองมีความยืดหยุ่นสูงตัวอย่างเช่นการสร้างแบบจำลองของความลาดชันและจุดตัดต่างๆ

LMM ทำงานโดยใช้ฟังก์ชั่นความน่าจะเป็นบางชนิดความน่าจะเป็นของข้อมูลของคุณที่ได้รับจากพารามิเตอร์และวิธีการในการเพิ่มความน่าจะเป็นนี้ (การประมาณความน่าจะเป็นสูงสุด; MLE) โดยเล่นซอกับพารามิเตอร์ต่างๆ MLE เป็นเทคนิคทั่วไปที่อนุญาตให้มีโมเดลที่แตกต่างกันมากมายเช่นสำหรับข้อมูลไบนารี่และการนับสามารถติดตั้งกับข้อมูลและอธิบายในหลาย ๆ ที่เช่น

  • Agresti, A. (2007) รู้เบื้องต้นเกี่ยวกับหมวดหมู่วิเคราะห์ข้อมูล (ฉบับที่ 2) John Wiley & Sons

อย่างไรก็ตาม LMM ไม่สามารถจัดการกับข้อมูลที่ไม่ใช่แบบเกาส์อินเช่นข้อมูลไบนารี่หรือจำนวน; สำหรับสิ่งที่คุณต้องการโมเดลผลผสมเชิงเส้นทั่วไป (GLMM) วิธีหนึ่งในการทำความเข้าใจสิ่งเหล่านี้คือการมองหา GLM ก่อนเป็นอันดับแรก ยังเห็น Agresti (2007)


มีสถานการณ์ที่จะไม่เลือก lmm มากกว่า anova หรือไม่?
Ben

8

ข้อได้เปรียบหลักของ LME สำหรับการวิเคราะห์ข้อมูลความถูกต้องคือความสามารถในการคิดหาเอฟเฟกต์แบบสุ่ม ในการทดลองทางจิตวิทยานักวิจัยมักจะรวมรายการและ / หรือผู้เข้าร่วม ไม่เพียง แต่เป็นคนที่แตกต่างจากกัน แต่รายการก็แตกต่างกันไป (เช่นคำบางคำอาจมีความโดดเด่นหรือน่าจดจำมากกว่า) การเพิกเฉยแหล่งที่มาของความแปรปรวนเหล่านี้มักจะนำไปสู่การประเมินความแม่นยำต่ำเกินไป (เช่นค่า d 'ต่ำกว่า) แม้ว่าปัญหาการรวมกลุ่มของผู้เข้าร่วมสามารถจัดการกับการประมาณค่าแต่ละอย่างได้ แต่ผลของไอเท็มยังคงอยู่ที่นั่นและมักจะมีขนาดใหญ่กว่าเอฟเฟกต์ของผู้เข้าร่วม LME ไม่เพียง แต่ช่วยให้คุณสามารถจัดการเอฟเฟกต์แบบสุ่มทั้งสองอย่างพร้อมกัน แต่ยังสามารถเพิ่มตัวแปรตัวทำนายเพิ่มเติมเฉพาะ (อายุระดับการศึกษาความยาวของคำและอื่น ๆ ) ให้กับพวกเขา

การอ้างอิงที่ดีสำหรับ LME โดยเฉพาะอย่างยิ่งในสาขาภาษาศาสตร์และจิตวิทยาเชิงทดลองคือการ วิเคราะห์ข้อมูลภาษาศาสตร์: การแนะนำเบื้องต้นเกี่ยวกับสถิติโดยใช้ R

ไชโย


2
... และในเส้นเลือดนั้นยังมีแพ็คเกจ lme4 (ซึ่งฉันพบว่าใช้งานง่ายกว่า lme หรือ nlme) และแพ็คเกจที่เกี่ยวข้องจากหนังสืออ้างอิงข้างต้นของ Baayen, languageR
russellpierce

ขอบคุณสำหรับความคิดเห็นฉันเห็นด้วยกับคุณโดยสิ้นเชิง lme4 เป็นสิ่งที่ดีที่สุด
Dave Kellen
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.