การคำนวณ


13

ผมได้อ่านเกี่ยวกับการคำนวณR2ค่าในรูปแบบผสมและหลังจากที่ได้อ่านคำถามที่พบบ่อย R-sig โพสต์อื่น ๆ ในฟอรั่มนี้ (ฉันจะเชื่อมโยงไม่กี่ แต่ฉันไม่ได้มีชื่อเสียงพอ) และอีกหลายอ้างอิงอื่น ๆ ผมเข้าใจว่าการใช้R2ค่าในบริบทของตัวแบบผสมนั้นซับซ้อน

อย่างไรก็ตามเมื่อเร็ว ๆ นี้ฉันได้พบกับสองเอกสารด้านล่าง ในขณะที่วิธีการเหล่านี้ดูมีแนวโน้ม (สำหรับฉัน) ฉันไม่ใช่นักสถิติและฉันก็สงสัยว่าถ้ามีใครอีกคนที่มีข้อมูลเชิงลึกเกี่ยวกับวิธีที่พวกเขาเสนอและวิธีเปรียบเทียบกับวิธีอื่น ๆ ที่ได้รับการเสนอ

Nakagawa, Shinichi และ Holger Schielzeth "วิธีการทั่วไปและง่าย ๆ สำหรับรับ R2 จากโมเดลเอฟเฟกต์การผสมเชิงเส้นทั่วไป" วิธีการทางนิเวศวิทยาและวิวัฒนาการ 4.2 (2013): 133-142

จอห์นสันพอลซีดี "การขยาย R2GLMM ของ Nakagawa & Schielzeth ไปเป็นแบบจำลองเชิงลาดแบบสุ่ม" วิธีการในนิเวศวิทยาและวิวัฒนาการ (2014)

วิธีนี้ยังสามารถนำมาใช้โดยใช้ฟังก์ชั่น r.squaredGLMM ในแพ็คเกจ MuMInซึ่งให้คำอธิบายวิธีการดังต่อไปนี้

R2R2

RGLMM(m)2=σf2σf2+(σl2)+σe2+σd2
R2
RGLMM(c)2=(σf2+(σl2))(σf2+(σl2)+σe2+σd2
σf2(σl2)σl2คือความแปรปรวนเนื่องจากการกระจายตัวแบบเพิ่มเติมและคือความแปรปรวนเฉพาะการกระจาย σd2

ในการวิเคราะห์ของฉันฉันกำลังดูข้อมูลระยะยาวและฉันสนใจความแปรปรวนที่อธิบายโดยเอฟเฟกต์คงที่ในโมเดลเป็นหลัก

library(MuMIn) 
library(lme4)

fm1 <- lmer(zglobcog ~ age_c + gender_R2 + ibphdtdep + iyeareducc + apoegeno + age_c*apoegeno + (age_c | pathid), data = dat, REML = FALSE, control = lmerControl(optimizer = "Nelder_Mead"))

# Jarret Byrnes (correlation between the fitted and the observed values)
r2.corr.mer <- function(m) {
   lmfit <-  lm(model.response(model.frame(m)) ~ fitted(m))
   summary(lmfit)$r.squared
}

r2.corr.mer(fm1)
[1] 0.8857005

# Xu 2003
1-var(residuals(fm1))/(var(model.response(model.frame(fm1))))
[1] 0.8783479

# Nakagawa & Schielzeth's (2013)
r.squaredGLMM(fm1)
      R2m       R2c 
0.1778225 0.8099395 

ฉันได้แก้ไขโพสต์ของคุณเพื่อใช้การจัดรูปแบบ mathjax โปรดตรวจสอบอีกครั้งว่าฉันไม่ได้ตั้งใจแนะนำข้อผิดพลาดใด ๆ
Sycorax พูดว่า Reinstate Monica

คำถามของคุณไม่มีคำถามจริงเท่าที่ฉันเข้าใจ คุณช่วยอธิบายสิ่งที่คุณต้องการได้ไหม? คำแนะนำสิ่งที่จะใช้?
Henrik

สวัสดี @Henrik ฉันสนใจคำแนะนำว่าควรใช้อย่างไร แต่ก็มีความแตกต่างกันมากขึ้นเมื่อเปรียบเทียบกับวิธีการที่ต่างกันและความแตกต่างนั้นเป็นอย่างไร
แอนดรู

ฉันเชื่อว่าสมการดั้งเดิมและสมการข้างบนผิด สิ่งนี้ไม่ได้เกิดจากการเปลี่ยนแปลงของ @ user777 คำสองคำทางด้านขวาควรอยู่ในตัวหาร ดูนี่สิ
Cyrille

ข้อผิดพลาดนี้น่าจะเกิดจากการเอกสารแพคเกจ Mumin หายวงเล็บปิด
Cyrille

คำตอบ:


11

ฉันกำลังตอบโดยวางคำตอบของดักลาสเบตส์ในรายการส่งจดหมาย R-Sig-ME เมื่อวันที่ 17 ธันวาคม 2014 สำหรับคำถามเกี่ยวกับวิธีคำนวณสถิติสำหรับโมเดลเชิงเส้นเชิงเส้นทั่วไปซึ่งฉันเชื่อว่าจำเป็นต้องอ่านสำหรับทุกคนที่สนใจ สิ่งนั้น Bates เป็นผู้แต่งดั้งเดิมของแพคเกจสำหรับ R และผู้เขียนร่วมของรวมทั้งผู้เขียนร่วมของหนังสือที่รู้จักกันดีในรูปแบบผสมและ CV จะได้รับประโยชน์จากการมีข้อความในคำตอบมากกว่าแค่การเชื่อมโยงไปยัง มัน.R2lme4nlme

ฉันต้องยอมรับว่าจะกระตุกเล็กน้อยเมื่อผู้คนพูดถึง "R2 สำหรับ GLMM" R2 สำหรับโมเดลเชิงเส้นมีการกำหนดอย่างดีและมีคุณสมบัติที่ต้องการจำนวนมาก สำหรับรุ่นอื่น ๆ สามารถกำหนดปริมาณที่แตกต่างกันซึ่งสะท้อนคุณสมบัติบางอย่าง แต่ไม่ใช่ทั้งหมด แต่นี่ไม่ใช่การคำนวณ R2 ในแง่ของการได้ตัวเลขที่มีคุณสมบัติทั้งหมดที่ R2 สำหรับโมเดลเชิงเส้นทำ มักจะมีหลายวิธีที่สามารถกำหนดปริมาณดังกล่าวได้ โดยเฉพาะอย่างยิ่งสำหรับ GLM และ GLMM ก่อนที่คุณจะสามารถกำหนด "สัดส่วนของความแปรปรวนการตอบสนองที่อธิบาย" คุณต้องกำหนดสิ่งที่คุณหมายถึงโดย "ความแปรปรวนการตอบสนอง" ก่อน

ความสับสนเกี่ยวกับสิ่งที่ประกอบด้วย R2 หรือองศาอิสระของปริมาณอื่น ๆ ที่เกี่ยวข้องกับตัวแบบเชิงเส้นที่ใช้กับแบบจำลองอื่น ๆ นั้นมาจากการทำให้สูตรสับสนด้วยแนวคิด แม้ว่าสูตรจะมาจากแบบจำลอง แต่การสืบทอดมักเกี่ยวข้องกับคณิตศาสตร์ที่ค่อนข้างซับซ้อน เพื่อหลีกเลี่ยงความสับสนที่อาจเกิดขึ้นและเพียง "ตัดไล่ล่า" มันง่ายที่จะนำเสนอสูตร แต่สูตรไม่ใช่แนวคิด การสรุปสูตรไม่เท่ากับการสรุปแนวคิด และสูตรเหล่านั้นแทบจะไม่เคยถูกใช้ในทางปฏิบัติโดยเฉพาะอย่างยิ่งสำหรับโมเดลเชิงเส้นทั่วไปการวิเคราะห์ความแปรปรวนและผลกระทบแบบสุ่ม ฉันมี "meta-theorem" ที่มีเพียงปริมาณจริงคำนวณตามสูตรที่ให้ไว้ในตำราเบื้องต้นคือค่าเฉลี่ยตัวอย่าง

อาจดูเหมือนว่าฉันเป็นชายชราที่ไม่พอใจเกี่ยวกับเรื่องนี้และบางทีฉันก็เป็น แต่สิ่งที่อันตรายคือผู้คนคาดหวังว่าปริมาณ "เหมือน R2" จะมีคุณสมบัติทั้งหมดของ R2 สำหรับโมเดลเชิงเส้น มันไม่สามารถ ไม่มีวิธีที่จะสรุปคุณสมบัติทั้งหมดให้เป็นแบบจำลองที่ซับซ้อนมากขึ้นเช่น GLMM

ฉันครั้งหนึ่งคณะกรรมการตรวจสอบข้อเสนอวิทยานิพนธ์สำหรับปริญญาเอก ผู้สมัคร ข้อเสนอคือการตรวจสอบฉันคิดว่า 9 สูตรที่แตกต่างกันซึ่งถือได้ว่าเป็นวิธีการคำนวณ R2 สำหรับแบบจำลองการถดถอยแบบไม่เชิงเส้นเพื่อตัดสินใจว่าอันไหนที่ "ดีที่สุด" แน่นอนว่าสิ่งนี้จะเกิดขึ้นจากการศึกษาแบบจำลองด้วยโมเดลที่แตกต่างกันเพียงไม่กี่แบบและมีค่าพารามิเตอร์ที่แตกต่างกันสองสามชุดเท่านั้น ข้อเสนอแนะของฉันว่านี่คือการออกกำลังกายที่ไม่มีความหมายโดยสิ้นเชิงไม่ได้รับการต้อนรับอย่างอบอุ่น


10

หลังจากอ่านวรรณกรรมฉันได้พบบทความต่อไปนี้ซึ่งเปรียบเทียบวิธีการที่แตกต่างกันหลายวิธีสำหรับการคำนวณค่าสำหรับรุ่นผสมซึ่งวิธี (MVP) นั้นเทียบเท่ากับวิธีที่เสนอโดย Nakagawa และ SchielzethR2R2

  • Lahuis, D et al (2014) การวัดความแปรปรวนแบบอธิบายสำหรับโมเดลหลายระดับ ระเบียบวิธีวิจัยองค์กร

ป้อนคำอธิบายรูปภาพที่นี่

โดยรวมแล้วมาตรการส่วนใหญ่ (สูตร, สูตร, (OLS) และ (MVP)) แสดงระดับอคติที่ยอมรับได้สม่ำเสมอและมีประสิทธิภาพในทุกสภาวะและรุ่น นอกจากนี้ความแตกต่างของค่าอคติเฉลี่ยสำหรับมาตรการเหล่านี้มีขนาดเล็ก สูตรและสูตรมีความเอนเอียงน้อยที่สุดในโมเดลการสกัดกั้นแบบสุ่มและสูตรและสูตร (MVP) มีความเอนเอียงน้อยที่สุดในโมเดลความชันแบบสุ่ม ในแง่ของประสิทธิภาพสูตรและ (MVP) มีค่าเบี่ยงเบนมาตรฐานต่ำที่สุดในรูปแบบการสกัดกั้นแบบสุ่ม (MVP) และ (OLS) มีค่าเบี่ยงเบนมาตรฐานต่ำที่สุดในโมเดลความชันแบบสุ่ม โดยทั่วไปสูตรไม่ใช่ตัวประมาณที่มีประสิทธิภาพR2R2R2R2R2R2

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.