จะทำอย่างไรกับสหสัมพันธ์แบบสุ่มที่มีค่าเท่ากับ 1 หรือ -1


9

ไม่ใช่เรื่องแปลกที่เกิดขึ้นเมื่อต้องรับมือกับตัวแบบผสมที่ซับซ้อนสูงสุด (การประมาณค่าเอฟเฟกต์แบบสุ่มที่เป็นไปได้ทั้งหมดสำหรับข้อมูลและตัวแบบที่กำหนด) นั้นสมบูรณ์แบบ (+1 หรือ -1) หรือสัมพันธ์ที่สมบูรณ์แบบ สำหรับวัตถุประสงค์ของการสนทนาเรามาดูรูปแบบและสรุปแบบจำลองต่อไปนี้

Model: Y ~ X*Cond + (X*Cond|subj)

# Y = logit variable  
# X = continuous variable  
# Condition = values A and B, dummy coded; the design is repeated 
#             so all participants go through both Conditions  
# subject = random effects for different subjects  

Random effects:
 Groups  Name             Variance Std.Dev. Corr             
 subject (Intercept)      0.85052  0.9222                    
         X                0.08427  0.2903   -1.00            
         CondB            0.54367  0.7373   -0.37  0.37      
         X:CondB          0.14812  0.3849    0.26 -0.26 -0.56
Number of obs: 39401, groups:  subject, 219

Fixed effects:
                 Estimate Std. Error z value Pr(>|z|)    
(Intercept)       2.49686    0.06909   36.14  < 2e-16 ***
X                -1.03854    0.03812  -27.24  < 2e-16 ***
CondB            -0.19707    0.06382   -3.09  0.00202 ** 
X:CondB           0.22809    0.05356    4.26 2.06e-05 ***

เหตุผลที่อยู่เบื้องหลังความสัมพันธ์ที่สมบูรณ์แบบเหล่านี้คือเราได้สร้างแบบจำลองที่ซับซ้อนเกินไปสำหรับข้อมูลที่เรามี คำแนะนำทั่วไปที่ให้ไว้ในสถานการณ์เหล่านี้คือ (เช่น Matuschek et al., 2017; paper ) เพื่อแก้ไขค่าสัมประสิทธิ์ overparameterized เป็น 0 เพราะโมเดลที่เสื่อมเหล่านี้มีแนวโน้มที่จะลดพลังงานลง หากเราสังเกตการเปลี่ยนแปลงที่ทำเครื่องหมายไว้ในเอฟเฟกต์คงที่ในโมเดลที่ลดลงเราควรยอมรับสิ่งนั้น หากไม่มีการเปลี่ยนแปลงแสดงว่าไม่มีปัญหาในการยอมรับต้นฉบับ

อย่างไรก็ตามสมมติว่าเราไม่ได้สนใจเฉพาะเอฟเฟกต์คงที่ที่ควบคุมสำหรับ RE (เอฟเฟกต์แบบสุ่ม) แต่ยังอยู่ในโครงสร้าง RE ด้วย ในกรณีที่กำหนดมันจะฟังดูทฤษฏีที่จะสันนิษฐานว่าInterceptและความชันXมีความสัมพันธ์เชิงลบที่ไม่เป็นศูนย์ คำถามหลายข้อปฏิบัติตาม:

  1. จะทำอย่างไรในสถานการณ์เช่นนี้? เราควรรายงานความสัมพันธ์ที่สมบูรณ์แบบและบอกว่าข้อมูลของเราไม่ "ดีพอ" เพื่อประเมินความสัมพันธ์ "ของจริง"? หรือเราควรรายงานรูปแบบความสัมพันธ์ 0 หรือเราควรลองตั้งค่าสหสัมพันธ์อื่น ๆ เป็น 0 ด้วยความหวังว่าสิ่งที่ "สำคัญ" จะไม่สมบูรณ์แบบอีกต่อไป? ฉันไม่คิดว่าจะมีคำตอบที่ถูกต้อง 100% ที่นี่ฉันต้องการได้ยินความคิดเห็นของคุณเป็นส่วนใหญ่

  2. วิธีการเขียนโค้ดที่แก้ไขความสัมพันธ์ของเอฟเฟกต์สุ่ม 2 แบบเป็น 0 โดยไม่มีผลต่อความสัมพันธ์ระหว่างพารามิเตอร์อื่น ๆ ?


แพ็คเกจ nlme ช่วยให้คุณควบคุมอย่างละเอียดเกี่ยวกับความแปรปรวนร่วม - ความแปรปรวนร่วมของผลกระทบแบบสุ่ม ฉันไม่เคยต้องการสิ่งนี้ด้วยตัวเอง แต่ฉันจะอ่านแบบจำลองเอฟเฟกต์แบบผสมใน S และ S-PLUS (Pinheiro และ Bates, 2000) ถ้าฉันทำ
Roland

3
ทางเลือกที่รุนแรงคือการกฏหมายรูปแบบคือรูปแบบพอดีคชกรรมกับไพรเออร์ค่อนข้างให้ข้อมูลเกี่ยวกับโครงสร้างผลกระทบแบบสุ่ม (เช่นผ่านทางblme, MCMCglmm, rstanarm, brms... )
เบน Bolker

@ BenBolker Ben ฉันไม่แน่ใจว่าเป็นความคิดที่รุนแรงเนื่องจากการปรับแบบจำลองที่ไม่สม่ำเสมออาจเป็นวิธีที่รุนแรงกว่าเพื่อให้พอดีกับแบบจำลอง)
D_Williams

ขอบคุณพวกคุณทุกคนสำหรับคำตอบที่ดี ... น่าเสียดายที่ฉันออฟไลน์อยู่สองสามวัน แต่ฉันกลับมาแล้ว
User33268

คำตอบ:


13

เมทริกซ์ความแปรปรวนร่วมแบบสุ่มพิเศษ

การได้รับการประมาณความสัมพันธ์ของเอฟเฟกต์แบบสุ่มที่ +1 หรือ -1 หมายความว่าอัลกอริธึมการเพิ่มประสิทธิภาพมีผลกับ "ขอบเขต": สหสัมพันธ์ไม่สามารถสูงกว่า +1 หรือต่ำกว่า -1 แม้ว่าจะไม่มีข้อผิดพลาดหรือคำเตือนการคอนเวอร์เจนซ์ที่ชัดเจน แต่สิ่งนี้อาจบ่งบอกถึงปัญหาบางประการของการคอนเวอร์เจนซ์เพราะเราไม่ได้คาดหวังว่าสหสัมพันธ์ที่แท้จริงจะอยู่บนขอบเขต อย่างที่คุณพูดนี่มักจะหมายความว่ามีข้อมูลไม่เพียงพอที่จะประเมินพารามิเตอร์ทั้งหมดได้อย่างน่าเชื่อถือ Matuschek et al. 2017บอกว่าในสถานการณ์เช่นนี้อำนาจจะถูกทำลาย

อีกวิธีในการเข้าถึงขอบเขตคือการได้รับการประมาณค่าความแปรปรวนเป็น 0: ทำไมฉันถึงได้รับผลต่างแบบสุ่มของเอฟเฟกต์แบบสุ่มในโมเดลผสมของฉันแม้ว่าจะมีการเปลี่ยนแปลงของข้อมูลบ้างไหม?

สถานการณ์ทั้งสองสามารถมองเห็นเป็นได้รับเมทริกซ์ความแปรปรวนของผลกระทบที่เลวแบบสุ่ม (ในตัวอย่างแปรปรวนเอาท์พุทเมทริกซ์ของคุณมี ); ความแปรปรวนเป็นศูนย์หรือความสัมพันธ์ที่สมบูรณ์แบบหมายความว่าเมทริกซ์ความแปรปรวนร่วมไม่เต็มอันดับและ [อย่างน้อย] หนึ่งในค่าลักษณะเฉพาะของมันคือศูนย์ การสังเกตนี้แสดงให้เห็นทันทีว่ามีวิธีอื่นที่ซับซ้อนกว่าเพื่อให้เมทริกซ์ความแปรปรวนร่วมลดลง: ใครสามารถมีเมทริกซ์ความแปรปรวนร่วมโดยไม่มีศูนย์หรือสหสัมพันธ์ที่สมบูรณ์แบบ แต่อย่างไรก็ตามอันดับไม่เพียงพอ (เอกพจน์) เบตส์และคณะ รุ่นผสม Parsimonious 20154×44×4(preprint ที่ไม่ได้เผยแพร่) แนะนำให้ใช้การวิเคราะห์องค์ประกอบหลัก (PCA) เพื่อตรวจสอบว่าเมทริกซ์ความแปรปรวนร่วมที่ได้รับนั้นเป็นเอกพจน์หรือไม่ หากเป็นเช่นนั้นพวกเขาแนะนำให้ปฏิบัติต่อสถานการณ์นี้ในลักษณะเดียวกับสถานการณ์เอกพจน์ข้างต้น

แล้วจะทำอย่างไรดี?

หากมีข้อมูลไม่เพียงพอที่จะประเมินพารามิเตอร์ทั้งหมดของโมเดลได้อย่างน่าเชื่อถือเราควรพิจารณาทำให้โมเดลง่ายขึ้น จากตัวอย่างของคุณX*Cond + (X*Cond|subj)มีหลายวิธีที่เป็นไปได้ในการทำให้มันง่ายขึ้น:

  1. ลบเอฟเฟกต์แบบสุ่มอย่างใดอย่างหนึ่งซึ่งโดยปกติจะมีความสัมพันธ์สูงสุด

    X*Cond + (X+Cond|subj)
  2. กำจัดพารามิเตอร์ที่เกี่ยวข้องทั้งหมด:

    X*Cond + (X*Cond||subj)

    อัปเดต: เนื่องจาก @Henrik มีการบันทึก||ไวยากรณ์จะลบความสัมพันธ์เฉพาะเมื่อตัวแปรทั้งหมดทางด้านซ้ายเป็นตัวเลข หากตัวแปรเด็ดขาด (เช่นCond) มีส่วนเกี่ยวข้องหนึ่งควรใช้afexแพ็คเกจที่สะดวกสบายของเขา(หรือการแก้ไขปัญหาด้วยตนเองที่ยุ่งยาก) ดูคำตอบของเขาสำหรับรายละเอียดเพิ่มเติม

  3. กำจัดพารามิเตอร์ที่เกี่ยวข้องโดยการแบ่งคำออกเป็นหลาย ๆ ตัวอย่างเช่น:

    X*Cond + (X+Cond|subj) + (0+X:Cond|subj)
  4. จำกัดความแปรปรวนร่วมในรูปแบบที่เฉพาะเจาะจงเช่นโดยการตั้งค่าความสัมพันธ์เฉพาะหนึ่ง (หนึ่งที่ตีขอบเขต) เป็นศูนย์ตามที่คุณแนะนำ ไม่มีวิธีการในlme4การบรรลุเป้าหมายนี้ ดูคำตอบของ @ BenBolker เกี่ยวกับ SOสำหรับการสาธิตวิธีการทำสิ่งนี้ผ่านการแฮ็กสมาร์ท

ตรงกันข้ามกับสิ่งที่คุณพูดฉันไม่คิดว่าMatuschek และคณะ 2017แนะนำเฉพาะ # 4 ส่วนสำคัญของ Matuschek และคณะ 2017 และ Bates et al ดูเหมือนว่าปี 2015 จะเริ่มต้นด้วยรุ่นสูงสุด a la Barr et al 2013จากนั้นลดความซับซ้อนจนกระทั่งเมทริกซ์ความแปรปรวนร่วมเป็นอันดับเต็ม (ยิ่งไปกว่านั้นพวกเขามักจะแนะนำให้ลดความซับซ้อนมากยิ่งขึ้นเพื่อเพิ่มพลัง) ปรับปรุง: ในทางตรงกันข้าม Barr และคณะ แนะนำให้ลดความซับซ้อนเท่านั้นหากโมเดลไม่ได้มาบรรจบกัน พวกเขายินดีที่จะทนเมทริกซ์ความแปรปรวนร่วมเอกพจน์ ดูคำตอบของ @ Henrik

ถ้าใครเห็นด้วยกับ Bates / Matuschek ฉันคิดว่ามันเป็นเรื่องดีที่จะลองใช้วิธีการต่าง ๆ ในการลดความซับซ้อนเพื่อหาสิ่งที่ทำงานในขณะที่ทำ "ความเสียหายน้อยที่สุด" เมื่อดูรายการด้านบนเมทริกซ์ความแปรปรวนร่วมเดิมมี 10 พารามิเตอร์ # 1 มี 6 พารามิเตอร์ # 2 มี 4 พารามิเตอร์ # 3 มี 7 พารามิเตอร์ รูปแบบใดที่จะกำจัดความสัมพันธ์ที่สมบูรณ์แบบเป็นไปไม่ได้ที่จะพูดโดยไม่ต้องปรับให้เหมาะสม

แต่ถ้าคุณสนใจพารามิเตอร์นี้

การสนทนาข้างต้นถือว่าเมทริกซ์ความแปรปรวนร่วมแบบสุ่มเป็นพารามิเตอร์ที่สร้างความรำคาญ คุณตั้งคำถามที่น่าสนใจว่าจะทำอย่างไรถ้าคุณสนใจพารามิเตอร์ความสัมพันธ์ที่คุณต้อง "ยอมแพ้" เพื่อที่จะได้วิธีแก้ปัญหาแบบเต็มความหมาย

โปรดทราบว่าการแก้ไขพารามิเตอร์สหสัมพันธ์ที่ศูนย์จะไม่จำเป็นต้องให้ผลลัพธ์ BLUP ( ranef) ที่ไม่เกี่ยวข้องกัน ในความเป็นจริงพวกเขาอาจไม่ได้รับผลกระทบมากนัก (ดูคำตอบ @ Placidia สำหรับการสาธิต ) ดังนั้นทางเลือกหนึ่งคือดูที่สหสัมพันธ์ของ BLUP และรายงานว่า

อีกทางเลือกหนึ่งที่น่าสนใจกว่าคือใช้รักษาsubjectเป็นผลคงที่Y~X*cond*subjได้รับการประเมินสำหรับแต่ละวิชาและคำนวณความสัมพันธ์ระหว่างพวกเขา สิ่งนี้เทียบเท่ากับการรันY~X*condการถดถอยแยกต่างหากสำหรับแต่ละเรื่องแยกกันและรับการประมาณค่าสหสัมพันธ์จากพวกเขา


ดูส่วนที่เป็นเอกเทศในโมเดลผสมของ Ben Bolker คำถามที่พบบ่อย:

มันเป็นเรื่องธรรมดามากที่โมเดลแบบผสมที่อัดแน่นเกินไปจะส่งผลให้พอดีกับเอกพจน์ ในทางเทคนิคความแปลกประหลาดหมายความว่าบางส่วนของθ (แปรปรวน - ความแปรปรวนร่วม Cholesky การสลายตัว) พารามิเตอร์ที่สอดคล้องกับองค์ประกอบในแนวทแยงของปัจจัย Cholesky เป็นศูนย์ซึ่งเป็นขอบของพื้นที่ที่เป็นไปได้หรือเท่ากับว่าเมทริกซ์แปรปรวนร่วมแปรปรวนมีค่าศูนย์ค่าเฉพาะ (กล่าวคือบวก semidefinite ) หรือ (เกือบเท่ากัน) ที่ความแปรปรวนบางอย่างประมาณเป็นศูนย์หรือมีความสัมพันธ์บางส่วนประมาณ +/- 1


1
ตัวอย่างของฉันแสดงให้เห็นว่าสำหรับการ(Machine||Worker) lmerประมาณค่าความแปรปรวนมากกว่า(Machine|Worker)หนึ่ง ดังนั้นสิ่งที่lmerทำ||กับปัจจัยไม่สามารถอธิบายได้โดย 'สิ่งนี้จะลบความสัมพันธ์ระหว่างปัจจัยเท่านั้น แต่ไม่ได้อยู่ระหว่างระดับของปัจจัยหมวดหมู่' มันเปลี่ยนโครงสร้างเอฟเฟกต์แบบสุ่มในแบบที่ค่อนข้างแปลก (มันจะขยาย(Machine||Worker)ไป(1|Worker) + (0+Machine|Worker)ด้วยดังนั้นความแปรปรวนเพิ่มเติม) อย่าลังเลที่จะเปลี่ยนการแก้ไขของฉัน ประเด็นหลักของฉันคือในคำแถลงนี้ความแตกต่างระหว่าง covariates ที่เป็นตัวเลขและที่จัดหมวดหมู่จะต้องชัดเจน
Henrik

1
machines2 <- subset(Machines, Machine %in% c("A", "B")); summary(lmer(score ~ Machine + (Machine || Worker), data=machines2))ไม่มียังไม่ได้ทำงานกับตัวแปรไบนารีดูตัวเอง: โดยทั่วไปแล้วจะไม่ทำงานกับปัจจัยเนื่องจากการขยายตัวนี้และวิธีการRจัดการกับปัจจัยmodel.matrixมา
Henrik

@ amoeba: ฉันคิดว่าคุณทำประเด็นที่น่าสนใจโดยแนะนำให้หันไปหาranefค่าสำหรับการศึกษาความสัมพันธ์ระหว่างเอฟเฟกต์แบบสุ่ม ฉันไม่ได้ลึกเข้าไปในหัวข้อนี้ แต่ฉันรู้ว่าโดยทั่วไปแล้วจะไม่แนะนำให้ทำงานกับค่าที่แยกออกมาranefแต่จะมีความสัมพันธ์และความแปรปรวนโดยประมาณ คุณมีความคิดเห็นอย่างไรกับเรื่องนี้? นอกจากนี้ฉันไม่รู้ว่าใครจะอธิบายให้ผู้ตรวจสอบทราบว่าความสัมพันธ์ในแบบจำลองนั้นไม่ได้ถูกอ้างถึง แต่เรายังคงคำนวณความสัมพันธ์ของค่าที่แยกออกมา ไม่
เป็นไร

1
@RockyRaccoon ใช่ฉันคิดว่ามันจะดีกว่าที่จะใช้ / รายงานพารามิเตอร์ความสัมพันธ์โดยประมาณ แต่ที่นี่เรากำลังพูดถึงสถานการณ์เมื่อเราไม่สามารถประเมินได้เนื่องจากมันมาถึง 1 นั่นคือสิ่งที่ฉันจะเขียนลงในกระดาษ: " เพื่อแก้ปัญหาด้วย corr = 1 ดังนั้นคำแนะนำต่อไปนี้ใน [อ้างอิง] เราใช้โมเดลที่ลดลง [รายละเอียด] ความสัมพันธ์ระหว่าง BLUPs เอฟเฟกต์แบบสุ่มในรุ่นนี้คือ 0.9 " อีกครั้งเมื่อคุณไม่รวมความสัมพันธ์คุณไม่ได้ จำกัด รูปแบบในการปฏิบัติต่อพวกเขาเหมือนไม่เกี่ยวข้อง! คุณไม่ได้สร้างแบบจำลองความสัมพันธ์นี้อย่างชัดเจน
อะมีบา

ฉันมีคำถามอีกข้อหนึ่ง: ความแปรปรวนแบบใกล้ถึงศูนย์และความสัมพันธ์ที่สมบูรณ์แบบและใกล้เคียงกับเอฟเฟกต์แบบสุ่มหมายความถึงบางสิ่งเกี่ยวกับมูลค่าที่แท้จริงของพารามิเตอร์หรือไม่ ตัวอย่างเช่นการทำ -1 ความสัมพันธ์หมายความว่าความสัมพันธ์ที่แท้จริงเป็นอย่างน้อยเป็นค่าลบและ / หรือว่าอย่างน้อยก็ไม่ใช่ศูนย์? ถ้าเราพยายามประมาณค่าสหสัมพันธ์ซึ่งเป็น 0 ในความเป็นจริงเป็นไปได้ไหมที่เราจะได้ค่าประมาณ -1
User33268

9

ฉันเห็นด้วยกับทุกอย่างที่กล่าวไว้ในคำตอบของอะมีบาซึ่งให้บทสรุปที่ดีของการอภิปรายในปัจจุบันเกี่ยวกับปัญหานี้ ฉันจะพยายามเพิ่มจุดเพิ่มเติมไม่กี่อย่างและอ้างอิงถึงเอกสารประกอบแบบจำลองผสมล่าสุดของฉันซึ่งจะสรุปประเด็นเหล่านี้ด้วย


การระงับพารามิเตอร์สหสัมพันธ์ (ตัวเลือกที่ 2 และ 3 ในคำตอบของอะมีบา) ผ่านการ||ทำงานเฉพาะสำหรับ covariates เชิงตัวเลขในlmerและไม่ใช่สำหรับปัจจัย นี้จะกล่าวถึงในรายละเอียดบางด้วยรหัสโดยโฮลด์ Kliegl

อย่างไรก็ตามafexแพคเกจของฉันมีฟังก์ชั่นในการยับยั้งความสัมพันธ์และในกรณีที่มีการโต้แย้งexpand_re = TRUEในการเรียก mixed()(ดูฟังก์ชันlmer_alt()) มันเป็นเช่นนั้นโดยการใช้วิธีการที่ Reinhold Kliegl พูดถึง (กล่าวคือทำการแปลงปัจจัยให้เป็นตัวเลข covariates และระบุโครงสร้างสุ่มผลกระทบเหล่านั้น)

ตัวอย่างง่ายๆ:

library("afex")
data("Machines", package = "MEMSS") # same data as in Kliegl code

# with correlation:
summary(lmer(score ~ Machine + (Machine  | Worker), data=Machines))
# Random effects:
#  Groups   Name        Variance Std.Dev. Corr       
#  Worker   (Intercept) 16.6405  4.0793              
#           MachineB    34.5467  5.8776    0.48      
#           MachineC    13.6150  3.6899   -0.37  0.30
#  Residual              0.9246  0.9616              
# Number of obs: 54, groups:  Worker, 6

## crazy results:
summary(lmer(score ~ Machine + (Machine  || Worker), data=Machines))
# Random effects:
#  Groups   Name        Variance Std.Dev. Corr     
#  Worker   (Intercept)  0.2576  0.5076            
#  Worker.1 MachineA    16.3829  4.0476            
#           MachineB    74.1381  8.6103   0.80     
#           MachineC    19.0099  4.3600   0.62 0.77
#  Residual              0.9246  0.9616            
# Number of obs: 54, groups:  Worker, 6

## as expected:
summary(lmer_alt(score ~ Machine + (Machine  || Worker), data=Machines))
# Random effects:
#  Groups   Name         Variance Std.Dev.
#  Worker   (Intercept)  16.600   4.0743  
#  Worker.1 re1.MachineB 34.684   5.8894  
#  Worker.2 re1.MachineC 13.301   3.6471  
#  Residual               0.926   0.9623  
# Number of obs: 54, groups:  Worker, 6

สำหรับผู้ที่ไม่ทราบafexหน้าที่การทำงานหลักสำหรับรุ่นผสมคือการให้ค่า p สำหรับผลกระทบคงที่เช่น:

(m1 <- mixed(score ~ Machine + (Machine  || Worker), data=Machines, expand_re = TRUE))
# Mixed Model Anova Table (Type 3 tests, KR-method)
# 
# Model: score ~ Machine + (Machine || Worker)
# Data: Machines
#    Effect      df        F p.value
# 1 Machine 2, 5.98 20.96 **    .002
# ---
# Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘+’ 0.1 ‘ ’ 1

summary(m1)  
# [...]
# Random effects:
#  Groups   Name         Variance Std.Dev.
#  Worker   (Intercept)  27.4947  5.2435  
#  Worker.1 re1.Machine1  6.6794  2.5845  
#  Worker.2 re1.Machine2 13.8015  3.7150  
#  Residual               0.9265  0.9626  
# Number of obs: 54, groups:  Worker, 6
# [...]

Dale Barr จาก Barr และคณะ (2013) กระดาษมีความระมัดระวังในการแนะนำให้ลดโครงสร้างแบบสุ่มเอฟเฟกต์มากกว่าคำตอบของอะมีบา ในการแลกเปลี่ยน Twitter ล่าสุดเขาเขียนว่า:

  • "การลดแบบจำลองทำให้เกิดความเสี่ยงต่อการต่อต้านการรับรู้โดยไม่รู้ตัวและควรกระทำด้วยความระมัดระวัง และ
  • "ความกังวลหลักของฉันคือการที่ผู้คนเข้าใจความเสี่ยงที่เกี่ยวข้องกับการลดรูปแบบและการลดความเสี่ยงนี้ต้องใช้วิธีอนุรักษ์นิยมมากกว่าที่เป็นที่ยอมรับกันทั่วไป (เช่นการทดสอบลาดแต่ละครั้งที่. 05)

ดังนั้นขอแนะนำให้ใช้ความระมัดระวัง


ในฐานะที่เป็นหนึ่งในผู้ตรวจสอบฉันสามารถให้ข้อมูลเชิงลึกเกี่ยวกับสาเหตุที่เราBates และคณะ (2015)กระดาษยังไม่ถูกเผยแพร่ ฉันและผู้ตรวจสอบอีกสองคน (ซึ่งลงนาม แต่จะยังไม่มีชื่อในที่นี้) มีการวิพากษ์วิจารณ์ด้วยวิธี PCA (ดูเหมือนไม่มีหลักการและไม่มีหลักฐานว่ามันเหนือกว่าในแง่ของอำนาจ) นอกจากนี้ฉันเชื่อว่าทั้งสามคนวิพากษ์วิจารณ์ว่ากระดาษไม่ได้มุ่งเน้นไปที่ปัญหาของวิธีการระบุโครงสร้างเอฟเฟ็กต์แบบสุ่ม แต่ยังพยายามแนะนำ GAMM ดังนั้นกระดาษ Bates et al (2015) ที่ปรับให้เป็นMatuschek et al (2017)กระดาษที่เน้นปัญหาของโครงสร้างสุ่มเอฟเฟกต์ด้วยแบบจำลองและBaayen และคณะ (2017)กระดาษแนะนำ GAMM

รีวิวฉบับเต็มของฉันเกี่ยวกับ Bates และคณะ ร่างสามารถพบได้ที่นี่ IIRC รีวิวอื่น ๆ มีประเด็นหลักที่คล้ายกัน


ตกลง. จากนั้นฉันอาจแทรกการแก้ไข / อัปเดตเล็กน้อยเพื่อชี้แจงจุดที่คุณกำลังทำอยู่ เกี่ยวกับการพิมพ์ของเบทส์มันอาจจะไม่ค่อยดีนักในหลาย ๆ ด้าน แต่ฉันเห็นด้วยอย่างเต็มที่กับ Bates และคณะ เมทริกซ์ความแปรปรวนร่วมเอกพจน์นั้นเป็นปัญหาเดียวกันกับความสัมพันธ์ของ + 1 / -1 ในทางคณิตศาสตร์ไม่มีความแตกต่าง ดังนั้นถ้าเรายอมรับความสัมพันธ์ที่สมบูรณ์แบบนั้นก็จะทำให้พลังลดน้อยลงดังนั้นเราจะต้องระมัดระวังอย่างยิ่งกับโคฟเอกพจน์ แม้ในกรณีที่ไม่มีการจำลองชัดเจนแสดงให้เห็น ฉันไม่เห็นด้วยว่ามันเป็น "ไม่ได้รับหลักการ"
อะมีบา

@amoeba lmer_altโดยทั่วไปทำงานเหมือนกับlmer(หรือแม้กระทั่งglmer) ที่มีความแตกต่างเพียงอย่างเดียวที่จะช่วยให้||ไวยากรณ์ ดังนั้นฉันไม่แน่ใจว่าทำไมคุณต้องการหลีกเลี่ยงafexค่าใช้จ่ายทั้งหมด มันควรจะทำงานได้โดยไม่ต้องติด (เช่นafex::lmer_alt(...))
Henrik

@amoeba สิ่งที่ทำนั้นเป็นวิธีการที่อธิบายไว้ในรหัสโดย Reinhold Kliegl (เช่นการขยายเอฟเฟกต์แบบสุ่ม) สำหรับแต่ละเอฟเฟ็กต์แบบสุ่มคำของสูตรจะสร้างเมทริกซ์ตัวแบบ (กล่าวคือแปลงปัจจัยให้เป็นตัวเลข covariates) model.matrix นี้เป็นcbindข้อมูล จากนั้นคำสุ่มเอฟเฟกต์ในสูตรจะถูกแทนที่ด้วยใหม่ซึ่งแต่ละคอลัมน์ที่สร้างขึ้นใหม่จะถูกต่อกันด้วย + ดูบรรทัด 690 ถึง 730 ในgithub.com/singmann/afex/blob/master/R/mixed.R
Henrik

เกี่ยวกับตัวแปรเด็ดขาดทางด้านซ้ายของ||นี่เป็นจุดสำคัญจริงๆขอบคุณที่นำมันมาอธิบายให้ฉัน (ฉันแก้ไขคำตอบของฉันเพื่อสะท้อนมัน) ผมชอบการทำงานของนี้ในlmer_alt afexผมก็จะพูดถึงที่นี่เพื่อความสมบูรณ์ที่จะได้รับผลเช่นเดียวกันกับวานิลลาlmerโทรโดยไม่ต้องหนึ่งก่อนการประมวลผลใด ๆ (1+dummy(Machine,'B')+dummy(Machine,'C') || Worker)เพิ่มเติมสามารถระบุเช่น สิ่งนี้ชัดเจนว่ายุ่งยากมากเมื่อตัวแปรเด็ดขาดมีหลายระดับ
อะมีบา

2
@amoeba เป็นสิ่งสำคัญที่จะต้องทราบว่าวิธีการใช้dummy()งานได้เฉพาะกับการรักษาความแตกต่างเริ่มต้นและไม่เมื่อผลกระทบแบบสุ่มใช้ความแตกต่างแบบรวมศูนย์เป็นศูนย์ (ซึ่งควรใช้ในกรณีที่แบบจำลองมีปฏิสัมพันธ์) คุณสามารถเช่นดูว่าถ้าคุณเปรียบเทียบส่วนประกอบผลต่างในตัวอย่างด้านบนสำหรับการlmer_altโทรด้วยการmixedโทร
Henrik

1

ฉันก็มีปัญหานี้เช่นกันเมื่อใช้การประเมินความน่าจะเป็นสูงสุด - ฉันเท่านั้นที่ใช้อัลกอริทึม Goldstein IGLS ตามที่นำมาใช้ผ่านซอฟต์แวร์ MLwiN และไม่ใช่ LME4 ใน R อย่างไรก็ตามในแต่ละกรณีมีปัญหาแก้ไขเมื่อฉันเปลี่ยนมาใช้ MCMC ซอฟต์แวร์. ฉันยังมีความสัมพันธ์เกินกว่า 3 ซึ่งแก้ไขได้เมื่อฉันเปลี่ยนการประมาณ การใช้ IGLS ความสัมพันธ์จะถูกคำนวณหลังการประเมินเนื่องจากความแปรปรวนร่วมหารด้วยผลคูณของสแควร์รูทของผลิตภัณฑ์ของผลต่างที่เกี่ยวข้อง - และสิ่งนี้ไม่ได้คำนึงถึงความไม่แน่นอนในการประมาณการแต่ละองค์ประกอบ

ซอฟต์แวร์ IGLS ไม่ 'รู้' ว่าค่าความแปรปรวนร่วมนั้นมีความสัมพันธ์กันและเพียงคำนวณค่าประมาณของฟังก์ชั่นค่าคงที่เชิงเส้นเชิงเส้นกำลังสอง ฯลฯ ในทางตรงกันข้ามวิธีการ MCMC ถูกสร้างขึ้นบนสมมติฐานของตัวอย่างจากการแจกแจงปกติหลายตัวแปรที่สอดคล้องกับความแปรปรวนและความแปรปรวนร่วมที่มีคุณสมบัติที่ดีและการแสดงความผิดพลาดเต็มรูปแบบเพื่อให้ความไม่แน่นอนในการประมาณค่าความแปรปรวนร่วม และในทางกลับกัน.

MLwin เป็นห่วงโซ่การประเมิน MCMC พร้อมการประเมิน IGLS และเมทริกซ์ความแปรปรวนแปรปรวนแปรปรวนแบบไม่เชิงลบอาจต้องมีการเปลี่ยนแปลงโดยการเปลี่ยนค่าความแปรปรวนร่วมเป็นศูนย์ที่เริ่มแรกก่อนที่จะเริ่มการสุ่มตัวอย่าง

สำหรับตัวอย่างการทำงานดู

การพัฒนาตัวแบบหลายระดับสำหรับการวิเคราะห์บริบทความหลากหลายและการเปลี่ยนแปลงโดยใช้ MLwiN 3, เล่มที่ 1 (อัพเดทกันยายน 2017) เล่ม 2 ยังอยู่ใน RGate

https://www.researchgate.net/publication/320197425_Vol1Training_manualRevisedSept2017

ภาคผนวกถึงบทที่ 10

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.