สถิติและข้อมูลขนาดใหญ่ lme4-nlme

3

มีจำนวนมากของการสนทนาที่เกิดขึ้นบนเวทีนี้เกี่ยวกับวิธีการที่เหมาะสมในการระบุรูปแบบลำดับชั้นต่าง ๆ lmerโดยใช้เป็น ฉันคิดว่ามันจะเป็นการดีหากมีข้อมูลทั้งหมดในที่เดียว คำถามสองสามข้อที่จะเริ่ม: วิธีการระบุหลายระดับที่กลุ่มหนึ่งซ้อนอยู่ในอื่น ๆ : มันเป็น(1|group1:group2)หรือ(1+group1|group2)? ความแตกต่างระหว่าง(~1 + ....)และ(1 | ...)และ(0 | ...)อื่น ๆ คืออะไร? จะระบุการโต้ตอบระดับกลุ่มได้อย่างไร

160 r mixed-model random-effects-model fixed-effects-model lme4-nlme

1

เอฟเฟ็กต์แบบซ้อน vs แบบซ้อน: พวกมันต่างกันอย่างไรและพวกมันระบุอย่างถูกต้องใน lme4 ได้อย่างไร?

นี่คือวิธีที่ฉันเข้าใจการซ้อนแบบสุ่มกับเอฟเฟกต์แบบข้าม: เอฟเฟกต์แบบสุ่มซ้อนกันเกิดขึ้นเมื่อปัจจัยระดับล่างลดลงจะปรากฏเฉพาะภายในระดับเฉพาะของปัจจัยระดับบน ตัวอย่างเช่นนักเรียนในชั้นเรียนที่จุดคงที่ในเวลา ในlme4ฉันคิดว่าเราเป็นตัวแทนผลสุ่มสำหรับข้อมูลที่ซ้อนกันในสองวิธีที่เทียบเท่า: (1|class/pupil) # or (1|class) + (1|class:pupil) ข้ามสุ่มผลหมายความว่าปัจจัยที่กำหนดปรากฏในมากกว่าหนึ่งระดับของปัจจัยระดับบน ตัวอย่างเช่นมีนักเรียนภายในชั้นเรียนที่ถูกวัดเป็นเวลาหลายปี ในlme4เราจะเขียน: (1|class) + (1|pupil) อย่างไรก็ตามเมื่อฉันดูชุดข้อมูลที่ซ้อนอยู่โดยเฉพาะฉันสังเกตว่าสูตรทั้งสองแบบให้ผลลัพธ์เหมือนกัน (โค้ดและผลลัพธ์ด้านล่าง) อย่างไรก็ตามฉันได้เห็นชุดข้อมูลอื่นที่ทั้งสองสูตรให้ผลลัพธ์ที่แตกต่างกัน แล้วเกิดอะไรขึ้นที่นี่? mydata <- read.csv("https://web.archive.org/web/20160624172041if_/http://www-personal.umich.edu/~bwest/classroom.csv") # (the data is no longer at `http://www-personal.umich.edu/~bwest/classroom.csv` # hence the link to web.archive.org) # Crossed version: Linear mixed model fit by REML ['lmerMod'] Formula: mathgain ~ …

88 r mixed-model multilevel-analysis lme4-nlme

2

เราน่ากลัวแค่ไหนเกี่ยวกับคำเตือนการบรรจบกันใน lme4

หากเราติดตั้ง glmer อีกครั้งเราอาจได้รับคำเตือนที่บอกเราว่าแบบจำลองกำลังค้นหาช่วงเวลาที่ยากลำบากในการบรรจบกัน ... เช่น >Warning message: In checkConv(attr(opt, "derivs"), opt$par, ctrl = control$checkConv, : Model failed to converge with max|grad| = 0.00389462 (tol = 0.001) อีกวิธีในการตรวจสอบการสนทนาที่กล่าวถึงในหัวข้อนี้โดย @Ben Bolker คือ: relgrad <- with(model@optinfo$derivs,solve(Hessian,gradient)) max(abs(relgrad)) #[1] 1.152891e-05 ถ้าmax(abs(relgrad))เป็นเช่น<0.001นั้นสิ่งที่อาจจะตกลง ... ดังนั้นในกรณีนี้เรามีผลลัพธ์ที่ขัดแย้งกัน? เราควรเลือกระหว่างวิธีการและรู้สึกปลอดภัยกับแบบจำลองของเราอย่างไร ในทางกลับกันเมื่อเราได้รับค่าสุดโต่งเช่น: >Warning message: In checkConv(attr(opt, "derivs"), opt$par, ctrl = control$checkConv, …

88 r mixed-model lme4-nlme

3

การขาดอันดับคืออะไรและจะจัดการกับมันอย่างไร

การปรับการถดถอยโลจิสติกให้เหมาะสมโดยใช้lme4ลงท้ายด้วย Error in mer_finalize(ans) : Downdated X'X is not positive definite. สาเหตุที่เป็นไปได้ของข้อผิดพลาดนี้คือการขาดอันดับ การจัดอันดับบกพร่องคืออะไรและฉันควรจะแก้ไขอย่างไร

87 r logistic lme4-nlme

4

วิธีการเลือกไลบรารี nlme หรือ lme4 R สำหรับโมเดลเอฟเฟกต์ผสม

ฉันมีโมเดลเอฟเฟ็กต์แบบผสมไม่กี่แบบ (โดยเฉพาะอย่างยิ่งแบบจำลองตามยาว) ที่ใช้lme4ในRแต่ต้องการที่จะเชี่ยวชาญโมเดลและโค้ดที่ไปกับพวกเขาจริงๆ อย่างไรก็ตามก่อนที่จะดำน้ำด้วยเท้าทั้งสองข้าง (และซื้อหนังสือ) ฉันต้องการให้แน่ใจว่าฉันกำลังเรียนรู้ห้องสมุดที่ถูกต้อง ฉันเคยชินlme4กับตอนนี้เพราะฉันเพิ่งพบว่าง่ายกว่าnlmeแต่ถ้าnlmeดีกว่าสำหรับวัตถุประสงค์ของฉันฉันก็รู้สึกว่าฉันควรจะใช้มัน ฉันแน่ใจว่าไม่มี "ดีกว่า" ในวิธีที่ง่าย แต่ฉันจะให้คุณค่าความคิดเห็นหรือความคิดบางอย่าง เกณฑ์หลักของฉันคือ: ใช้งานง่าย (ฉันเป็นนักจิตวิทยาโดยการฝึกอบรมและไม่เฉพาะในสถิติหรือการเข้ารหัส แต่ฉันกำลังเรียนรู้) คุณสมบัติที่ดีสำหรับการติดตั้งข้อมูลตามยาว (ถ้ามีความแตกต่างตรงนี้ - แต่นี่คือสิ่งที่ฉันใช้เป็นหลัก) สรุปกราฟิกที่ดี (ง่ายต่อการตีความ) อีกครั้งไม่แน่ใจว่ามีความแตกต่างที่นี่หรือไม่ แต่ฉันมักจะสร้างกราฟสำหรับคนที่มีความเชี่ยวชาญด้านเทคนิคน้อยกว่าฉันดังนั้นพล็อตที่ชัดเจนดีจึงเป็นสิ่งที่ดีเสมอ () สำหรับเหตุผลนี้). ตามปกติหวังว่าคำถามนี้จะไม่คลุมเครือเกินไปและขอบคุณล่วงหน้าสำหรับภูมิปัญญาใด ๆ !

85 r mixed-model lme4-nlme

9

จะรับค่า p-value (ตรวจสอบนัยสำคัญ) ของผลกระทบในรูปแบบผสม lme4 ได้อย่างไร

ฉันใช้ lme4 ใน R เพื่อให้พอดีกับโมเดลผสม lmer(value~status+(1|experiment))) โดยที่ค่านั้นต่อเนื่องสถานะและการทดลองเป็นปัจจัยและฉันได้รับ Linear mixed model fit by REML Formula: value ~ status + (1 | experiment) AIC BIC logLik deviance REMLdev 29.1 46.98 -9.548 5.911 19.1 Random effects: Groups Name Variance Std.Dev. experiment (Intercept) 0.065526 0.25598 Residual 0.053029 0.23028 Number of obs: 264, groups: experiment, …

56 r hypothesis-testing mixed-model p-value lme4-nlme

5

“ แบบจำลองลักษณะพิเศษแบบสุ่ม” ในแบบเศรษฐมิติสัมพันธ์อย่างไรกับแบบจำลองแบบผสมนอกเศรษฐมิติ

ฉันเคยคิดว่า "แบบจำลองเอฟเฟกต์แบบสุ่ม" ในเศรษฐมิติสอดคล้องกับ "โมเดลผสมกับการสกัดกั้นแบบสุ่ม" นอกเศรษฐมิติ แต่ตอนนี้ฉันไม่แน่ใจ ทำมัน? เศรษฐมิติใช้คำเช่น "เอฟเฟ็กต์คงที่" และ "เอฟเฟ็กต์แบบสุ่ม" ค่อนข้างแตกต่างจากวรรณกรรมในโมเดลผสมและสิ่งนี้ทำให้เกิดความสับสนฉาวโฉ่ ให้เราพิจารณาสถานการณ์ง่าย ๆ ที่เชิงเส้นขึ้นอยู่กับแต่ด้วยการสกัดกั้นที่แตกต่างกันในการวัดกลุ่มต่างๆ:yYyxxx yit=βxit+ui+ϵit.Yผมเสื้อ=βxผมเสื้อ+ยูผม+εผมเสื้อ.y_{it} = \beta x_{it} + u_i + \epsilon_{it}. นี่แต่ละหน่วย / กลุ่มเป็นที่สังเกตที่แตกต่างกัน timepoints ทีนักเศรษฐศาสตร์เรียกมันว่า "ข้อมูลแผง"iผมitเสื้อt ในคำศัพท์แบบผสมเราสามารถถือว่าเป็นเอฟเฟกต์คงที่หรือเป็นเอฟเฟกต์แบบสุ่ม (ในกรณีนี้คือการสกัดกั้นแบบสุ่ม) การดำเนินการตามที่ได้รับการแก้ไขหมายถึงการติดตั้งและเพื่อลดข้อผิดพลาดกำลังสอง (เช่นการเรียกใช้ OLS regression พร้อมกับตัวแปรกลุ่มจำลอง) การปฏิบัติเป็นแบบสุ่มหมายความว่าเรายังสมมติว่าและใช้โอกาสสูงสุดเพื่อให้พอดีกับและแทนการปรับแต่ละด้วยตนเอง นี้นำไปสู่ผล "บางส่วนร่วมกัน" ซึ่งประมาณการได้รับการหดตัวที่มีต่อค่าเฉลี่ยของพวกเขาu_0เบต้าuiยูผมu_iUฉันU ฉัน ~ N ( U 0 , σ 2 U …

56 mixed-model econometrics panel-data lme4-nlme plm

3

คำถามเกี่ยวกับวิธีระบุเอฟเฟกต์แบบสุ่มใน lmer

เมื่อไม่นานมานี้ฉันได้วัดความหมายของคำศัพท์ใหม่ผ่านการสัมผัสซ้ำ ๆ (การปฏิบัติ: วันที่ 1 ถึงวันที่ 10) โดยการวัด ERP (EEG) เมื่อดูคำศัพท์ในบริบทที่แตกต่างกัน ฉันยังควบคุมคุณสมบัติของบริบทเช่นมีประโยชน์สำหรับการค้นหาความหมายคำใหม่ (สูงกับต่ำ) ฉันสนใจผลของการฝึกซ้อมเป็นพิเศษ (วัน) เนื่องจากการบันทึก ERP แต่ละครั้งมีเสียงดังค่าส่วนประกอบของ ERP จะได้รับโดยเฉลี่ยจากการทดลองตามเงื่อนไขเฉพาะ ด้วยlmerฟังก์ชั่นฉันใช้สูตรต่อไปนี้: lmer(ERPindex ~ practice*context + (1|participants), data=base) และ lmer(ERPindex ~ practice*context + (1+practice|participants), data=base) ฉันยังได้เห็นผลเทียบเท่าแบบสุ่มต่อไปนี้ในวรรณคดี: lmer(ERPindex ~ practice*context + (practice|participants) + (practice|participants:context), data=base) อะไรคือความสำเร็จโดยใช้ปัจจัยสุ่มของรูปแบบparticipants:context? มีแหล่งข้อมูลที่ดีที่จะอนุญาตให้ใครบางคนที่มีความรู้คร่าวๆของพีชคณิตเมทริกซ์เข้าใจอย่างแม่นยำว่าปัจจัยแบบสุ่มทำอะไรในโมเดลเชิงเส้นผสมและพวกเขาควรเลือกอย่างไร?

55 r mixed-model lme4-nlme random-effects-model

3

การแปลความหมายของตัวทำนายการแปลงสภาพบันทึกและ / หรือการตอบสนอง

ฉันสงสัยว่ามันจะสร้างความแตกต่างในการตีความไม่ว่าจะเป็นเพียงขึ้นอยู่กับทั้งขึ้นอยู่กับและเป็นอิสระหรือตัวแปรอิสระเท่านั้นที่ถูกเปลี่ยนเข้าสู่ระบบ พิจารณากรณีของ log(DV) = Intercept + B1*IV + Error ฉันสามารถตีความ IV เป็นเปอร์เซ็นต์เพิ่มขึ้น แต่จะเปลี่ยนแปลงได้อย่างไรเมื่อฉันมี log(DV) = Intercept + B1*log(IV) + Error หรือเมื่อฉันมี DV = Intercept + B1*log(IV) + Error ?

46 regression data-transformation interpretation regression-coefficients logarithm r dataset stata hypothesis-testing contingency-tables hypothesis-testing statistical-significance standard-deviation unbiased-estimator t-distribution r functional-data-analysis maximum-likelihood bootstrap regression change-point regression sas hypothesis-testing bayesian randomness predictive-models nonparametric terminology parametric correlation effect-size loess mean pdf quantile-function bioinformatics regression terminology r-squared pdf maximum multivariate-analysis references data-visualization r pca r mixed-model lme4-nlme distributions probability bayesian prior anova chi-squared binomial generalized-linear-model anova repeated-measures t-test post-hoc clustering variance probability hypothesis-testing references binomial profile-likelihood self-study excel data-transformation skewness distributions statistical-significance econometrics spatial r regression anova spss linear-model

2

การใช้ lmer สำหรับวัดซ้ำโมเดลเอฟเฟกต์เชิงเส้นซ้ำ

แก้ไข 2: ตอนแรกฉันคิดว่าฉันต้องใช้ ANOVA สองปัจจัยพร้อมมาตรการซ้ำ ๆ บนปัจจัยเดียว แต่ตอนนี้ฉันคิดว่าโมเดลเชิงเส้นผสมเอฟเฟกต์จะทำงานได้ดีขึ้นสำหรับข้อมูลของฉัน ฉันคิดว่าฉันเกือบจะรู้ว่าต้องเกิดอะไรขึ้น แต่ฉันก็ยังสับสนอยู่บ้าง การทดลองที่ฉันต้องวิเคราะห์มีลักษณะเช่นนี้: อาสาสมัครถูกกำหนดให้กับหนึ่งในหลายกลุ่มการรักษา การวัดแต่ละเรื่องถูกถ่ายในหลายวัน ดังนั้น: ผู้ทดลองถูกทำซ้อนในการรักษา รักษาข้ามกับวัน (แต่ละวิชาได้รับมอบหมายให้ทำการรักษาเพียงครั้งเดียวเท่านั้นและจะทำการวัดในแต่ละเรื่องในแต่ละวัน) ชุดข้อมูลของฉันมีข้อมูลต่อไปนี้: Subject = ปัจจัยการปิดกั้น (ปัจจัยสุ่ม) Day = ภายในหัวเรื่องหรือปัจจัยการวัดซ้ำ (ปัจจัยคงที่) การรักษา = ระหว่างปัจจัยเรื่อง (ปัจจัยคงที่) Obs = ตัวแปร (ขึ้นอยู่กับ) ที่วัดได้ อัปเดต ตกลงฉันเลยไปคุยกับนักสถิติ แต่เขาเป็นผู้ใช้ SAS เขาคิดว่าแบบจำลองควรเป็น: การรักษา + วัน + วิชา (การรักษา) + วัน * วิชา …

41 r anova mixed-model repeated-measures lme4-nlme

1

ทำไม Glmer ไม่ได้รับโอกาสสูงสุด (ตรวจสอบโดยใช้การเพิ่มประสิทธิภาพทั่วไปเพิ่มเติม)

ตัวเลขที่ได้จากMLE s ของGLMMนั้นยากและในทางปฏิบัติฉันรู้ว่าเราไม่ควรใช้การเพิ่มประสิทธิภาพกำลังดุร้าย (เช่นใช้optimในวิธีที่ง่าย) แต่เพื่อจุดประสงค์ทางการศึกษาของฉันฉันต้องการลองเพื่อให้แน่ใจว่าฉันเข้าใจโมเดลอย่างถูกต้อง (ดูรหัสด้านล่าง) ฉันพบว่าฉันได้รับผลลัพธ์ที่ไม่สอดคล้องกันglmer()เสมอ โดยเฉพาะอย่างยิ่งแม้ว่าฉันจะใช้ MLEs glmerเป็นค่าเริ่มต้นตามฟังก์ชั่นความน่าจะเป็นที่ฉันเขียน ( negloglik) พวกเขาไม่ใช่ MLEs ( opt1$valueเล็กกว่าopt2) ฉันคิดว่าสองเหตุผลที่เป็นไปได้คือ: negloglik เขียนได้ไม่ดีเพื่อให้มีข้อผิดพลาดทางตัวเลขมากเกินไปและ ข้อมูลจำเพาะรุ่นไม่ถูกต้อง สำหรับสเปคโมเดลรุ่นที่ต้องการคือ: L=∏i=1n(∫∞−∞f(yi|N,a,b,ri)g(ri|s)dri)L=∏i=1n(∫−∞∞f(yi|N,a,b,ri)g(ri|s)dri)\begin{equation} L=\prod_{i=1}^{n} \left(\int_{-\infty}^{\infty}f(y_i|N,a,b,r_{i})g(r_{i}|s)dr_{i}\right) \end{equation} โดยที่คือทวินามทวินามและเป็นไฟล์ PDF ปกติ ฉันพยายามที่จะประเมิน,และsโดยเฉพาะอย่างยิ่งฉันต้องการทราบว่าสเปคโมเดลผิดหรือไม่สเปคที่ถูกต้องคืออะไรfffgggaaabbbsss p <- function(x,a,b) exp(a+b*x)/(1+exp(a+b*x)) a <- -4 # fixed effect (intercept) b <- 1 # fixed effect (slope) s <- 1.5 …

37 r maximum-likelihood optimization lme4-nlme

2

ช่วงการทำนายสำหรับโมเดลเอฟเฟกต์ผสม lmer () ใน R

ฉันต้องการรับช่วงการทำนายรอบการทำนายจากโมเดล lmer () ฉันได้พบการสนทนาเกี่ยวกับเรื่องนี้: http://rstudio-pubs-static.s3.amazonaws.com/24365_2803ab8299934e888a60e7b16113f619.html http://glmm.wikidot.com/faq แต่ดูเหมือนว่าพวกเขาจะไม่คำนึงถึงความไม่แน่นอนของเอฟเฟกต์แบบสุ่ม นี่คือตัวอย่างที่เฉพาะเจาะจง ฉันแข่งปลาทอง ฉันมีข้อมูลในการแข่ง 100 ครั้งที่ผ่านมา ฉันต้องการที่จะคาดการณ์ลำดับที่ 101 โดยคำนึงถึงความไม่แน่นอนของการประมาณการ RE ของฉันและการประมาณ FE ฉันรวมถึงการสกัดกั้นแบบสุ่มสำหรับปลา (มี 10 ปลาที่แตกต่างกัน) และผลคงที่สำหรับน้ำหนัก (ปลาที่หนักน้อยกว่านั้นเร็วกว่า) library("lme4") fish <- as.factor(rep(letters[1:10], each=100)) race <- as.factor(rep(900:999, 10)) oz <- round(1 + rnorm(1000)/10, 3) sec <- 9 + rep(1:10, rep(100,10))/10 + oz + rnorm(1000)/10 fishDat …

37 r mixed-model prediction prediction-interval lme4-nlme

2

ช่วงเวลาความเชื่อมั่นที่น่าเชื่อถือสำหรับวัตถุ lmer ผ่านแพ็คเกจเอฟเฟกต์เป็นอย่างไร?

Effectsแพคเกจมีวิธีการอย่างรวดเร็วและสะดวกสบายสำหรับการวางแผนเชิงเส้นผสมผลผลรูปแบบที่ได้รับผ่านแพคเกจlme4 effectช่วงความเชื่อมั่นฟังก์ชั่นคำนวณ (CIS) ได้รวดเร็วมาก แต่วิธีการที่น่าเชื่อถือมีช่วงความเชื่อมั่นเหล่านี้หรือไม่ ตัวอย่างเช่น: library(lme4) library(effects) library(ggplot) data(Pastes) fm1 <- lmer(strength ~ batch + (1 | cask), Pastes) effs <- as.data.frame(effect(c("batch"), fm1)) ggplot(effs, aes(x = batch, y = fit, ymin = lower, ymax = upper)) + geom_rect(xmax = Inf, xmin = -Inf, ymin = effs[effs$batch == "A", "lower"], …

36 r mixed-model confidence-interval effects lme4-nlme

2

สมมาตรแบบผสมในภาษาอังกฤษธรรมดาคืออะไร

ฉันเพิ่งตระหนักว่าโมเดลผสมที่มีหัวเรื่องเป็นปัจจัยสุ่มเท่านั้นและปัจจัยอื่น ๆ ที่เป็นปัจจัยคงที่เทียบเท่ากับ ANOVA เมื่อตั้งค่าโครงสร้างสหสัมพันธ์ของโมเดลผสมกับสมมาตรผสม ดังนั้นฉันอยากจะรู้ว่าสมมาตรผสมหมายถึงอะไรในบริบทของ ANOVA แบบผสม (เช่นการแบ่งส่วนย่อย) ที่อธิบายได้ดีที่สุดในภาษาอังกฤษแบบธรรมดา นอกจากนี้สมมาตรแบบผสมlmeยังมีโครงสร้างความสัมพันธ์ประเภทอื่นเช่น corSymm เมทริกซ์สหสัมพันธ์ทั่วไปที่ไม่มีโครงสร้างเพิ่มเติม หรือความแตกต่างของความสัมพันธ์เชิงพื้นที่ ดังนั้นฉันมีคำถามที่เกี่ยวข้องกับโครงสร้างความสัมพันธ์ประเภทอื่น ๆ ที่อาจจะแนะนำให้ใช้ในบริบทของการทดลองออกแบบ (กับปัจจัยระหว่างและภายในเรื่อง)? มันจะดีถ้าคำตอบสามารถชี้ไปที่การอ้างอิงบางอย่างสำหรับโครงสร้างความสัมพันธ์ที่แตกต่างกัน

35 correlation anova mixed-model lme4-nlme

2

รูปแบบเอฟเฟกต์ผสมกับการทำรัง

ฉันมีข้อมูลที่รวบรวมจากการทดสอบที่จัดระเบียบดังนี้: สองไซต์แต่ละแห่งมีต้นไม้ 30 ต้น ได้รับการปฏิบัติ 15, 15 คือการควบคุมในแต่ละเว็บไซต์ จากต้นไม้แต่ละต้นเราสุ่มตัวอย่างก้านสามชิ้นและรากสามชิ้นดังนั้น 6 ระดับ 1 ตัวอย่างต่อต้นซึ่งแสดงโดยหนึ่งในสองระดับปัจจัย (รากลำต้น) จากนั้นตัวอย่างต้นกำเนิด / รากเราใช้สองตัวอย่างโดยการผ่าเนื้อเยื่อต่าง ๆ ภายในตัวอย่างซึ่งแสดงโดยหนึ่งในสองระดับปัจจัยสำหรับประเภทเนื้อเยื่อ (ประเภทเนื้อเยื่อ A, ประเภทเนื้อเยื่อ B) ตัวอย่างเหล่านี้วัดเป็นตัวแปรต่อเนื่อง จำนวนการสังเกตทั้งหมดคือ 720; 2 ไซต์ * ต้นไม้ 30 ต้น * (ตัวอย่างลำต้นสามชิ้น + ตัวอย่างรากสามต้น) * (เนื้อเยื่อหนึ่งตัวอย่าง + เนื้อเยื่อหนึ่งตัวอย่าง B) ข้อมูลมีลักษณะเช่นนี้ ... ï..Site Tree Treatment Organ Sample Tissue Total_Length …

34 r mixed-model model nested-data lme4-nlme

คำถามติดแท็ก lme4-nlme