คำถามติดแท็ก mixed-model

แบบผสม (aka หลายระดับหรือลำดับชั้น) เป็นโมเดลเชิงเส้นที่มีทั้งเอฟเฟกต์คงที่และเอฟเฟกต์แบบสุ่ม พวกเขาจะใช้ในการจำลองข้อมูลระยะยาวหรือซ้อน

3
โอกาสที่อาจเกิดความสับสนในการออกแบบการทดสอบ
ภาพรวมของคำถาม คำเตือน: คำถามนี้ต้องมีการตั้งค่าจำนวนมาก กรุณาทนกับฉัน เพื่อนร่วมงานของฉันและฉันกำลังทำงานในการออกแบบการทดสอบ การออกแบบต้องแก้ไขข้อ จำกัด จำนวนมากซึ่งฉันจะแสดงรายการด้านล่าง ฉันได้พัฒนาการออกแบบที่สอดคล้องกับข้อ จำกัด และนั่นทำให้เราประเมินค่าผลกระทบที่น่าสนใจของเราโดยไม่ลำเอียง อย่างไรก็ตามเพื่อนร่วมงานของฉันเชื่อว่ามีความสับสนในการออกแบบ เราโต้เถียงประเด็นนี้ได้โดยไม่ต้องมีการแก้ปัญหาดังนั้น ณ จุดนี้ฉันต้องการความเห็นจากภายนอก ฉันจะอธิบายถึงเป้าหมายของการศึกษาข้อ จำกัด ของเราความสับสนที่อาจเกิดขึ้นและสาเหตุที่ฉันเชื่อว่า "ความสับสน" นี้ไม่ใช่ปัญหาด้านล่าง เมื่อคุณอ่านแต่ละส่วนโปรดจำไว้ว่าคำถามโดยรวมของฉัน: มีความสับสนในการออกแบบที่ฉันอธิบายหรือไม่ [รายละเอียดของการทดลองนี้ได้รับการแก้ไข แต่องค์ประกอบสำคัญที่จำเป็นในการถามคำถามของฉันยังคงเหมือนเดิม] เป้าหมายการทดสอบ เราต้องการตรวจสอบว่าเรียงความที่เขียนโดยตัวผู้สีขาวได้รับการประเมินอย่างดีกว่าเรียงความที่เขียนโดยตัวเมียสีขาวตัวผู้ผิวดำหรือตัวเมียดำ ( ตัวแปรการประพันธ์เรียงความ ) นอกจากนี้เรายังต้องการตรวจสอบว่าอคติใด ๆ ที่เราพบปรากฏขึ้นในทุนที่มีคุณภาพสูงหรือต่ำ ( ตัวแปรคุณภาพ ) สุดท้ายเราต้องการรวมบทความที่เขียนประมาณ 12 หัวข้อที่แตกต่างกัน ( ตัวแปรหัวข้อ ) อย่างไรก็ตามมีเพียงสองตัวแปรแรกเท่านั้นที่น่าสนใจ แม้ว่าหัวข้อจะต้องแตกต่างกันไปตามแต่ละบทความ แต่เราไม่สนใจอย่างมากว่าการประเมินแตกต่างกันอย่างไรในแต่ละหัวข้อ ข้อ จำกัด มีข้อ จำกัด ทั้งจำนวนผู้เข้าร่วมและจำนวนเรียงความที่เราสามารถรวบรวมได้ ผลที่ได้คือการประพันธ์ไม่สามารถควบคุมได้อย่างสมบูรณ์ระหว่างผู้เข้าร่วมและไม่สามารถจัดการได้อย่างสมบูรณ์ระหว่างการเขียนเรียงความ …

1
การรายงานผลของตัวแบบผสมผลกระทบเชิงเส้น
แบบจำลองเชิงเส้นผสมแบบเชิงเส้นไม่ได้ใช้กันทั่วไปในมุมชีววิทยาของฉันและฉันต้องรายงานการทดสอบทางสถิติที่ฉันใช้ในกระดาษที่ฉันพยายามจะเขียน ฉันรู้ว่าการตระหนักถึงการสร้างแบบจำลองหลายระดับเริ่มปรากฏในบางพื้นที่ของวิทยาศาสตร์ชีวภาพ ( วิธีแก้ปัญหาสำหรับการพึ่งพา: ใช้การวิเคราะห์หลายระดับเพื่อรองรับข้อมูลที่ซ้อนกัน ) แต่ฉันยังคงพยายามเรียนรู้วิธีรายงานผลของฉัน! การออกแบบการทดลองโดยสังเขปของฉัน: * ผู้เข้าร่วมการวิจัยได้รับมอบหมายให้หนึ่งในสี่กลุ่มการรักษา * การวัดตัวแปรตามขึ้นอยู่กับหลายวันหลังจากเริ่มการรักษา * การออกแบบไม่สมดุลกัน (จำนวนไม่เท่ากันของกลุ่มการรักษา การวัดสำหรับบางวิชาในบางวัน) * การรักษา A เป็นหมวดหมู่อ้างอิง * ฉันจัดให้อยู่กึ่งกลางข้อมูลในวันสุดท้ายของการรักษา ฉันต้องการทราบว่าการรักษา A (หมวดหมู่อ้างอิง) ให้ผลลัพธ์ที่ดีกว่าการรักษาอื่น ๆ (เมื่อสิ้นสุดการรักษา) หรือไม่ ฉันทำการวิเคราะห์ใน R โดยใช้ nlme: mymodel <- lme(dv ~ Treatment*Day, random = ~1|Subject, data = mydf, na.action = na.omit, + correlation = …

1
ปัญหาในการหาแบบจำลองที่ดีเหมาะสำหรับการนับข้อมูลด้วยเอฟเฟกต์แบบผสม - ZINB หรืออย่างอื่นใช่ไหม
ฉันมีชุดข้อมูลขนาดเล็กมากที่มีผึ้งมากมายโดดเดี่ยวที่ฉันมีปัญหาในการวิเคราะห์ มันคือข้อมูลนับและจำนวนเกือบทั้งหมดอยู่ในการรักษาหนึ่งโดยมีศูนย์ส่วนใหญ่ในการรักษาอื่น นอกจากนี้ยังมีค่าสูงสองสามค่า (ค่าละหนึ่งในสองแห่งในหกแห่ง) ดังนั้นการแจกแจงค่าจะมีหางที่ยาวมาก ฉันทำงานในอาร์ฉันใช้แพ็คเกจที่แตกต่างกันสองแบบ: lme4 และ glmmADMB รูปแบบผสมปัวซองไม่เหมาะสม: แบบจำลองมีการกระจายตัวมากเกินไปเมื่อเอฟเฟกต์แบบสุ่มไม่เหมาะสม (แบบจำลอง GLM) และแบบจำลองที่น้อยเกินไปเมื่อติดตั้งเอฟเฟกต์แบบสุ่ม (รุ่น glmer) ฉันไม่เข้าใจว่าทำไมถึงเป็นเช่นนี้ การออกแบบการทดลองเรียกร้องให้มีเอฟเฟกต์แบบซ้อนกันดังนั้นฉันจึงจำเป็นต้องรวมไว้ด้วย การกระจายข้อผิดพลาดของปัวซอง lognormal ไม่ได้ปรับปรุงให้พอดี ฉันลองใช้การแจกแจงข้อผิดพลาดแบบทวินามลบโดยใช้ glmer.nb และไม่สามารถทำให้พอดี - ถึงขีด จำกัด การวนซ้ำแม้ว่าจะเปลี่ยนความอดทนโดยใช้ glmerControl (tolPwrss = 1e-3) เนื่องจากเลขศูนย์จำนวนมากจะเกิดจากความจริงที่ว่าฉันไม่เห็นผึ้ง (พวกมันมักจะเป็นสิ่งดำเล็ก ๆ ) ฉันจึงลองแบบจำลองที่ไม่มีการพอง ZIP ไม่พอดี ZINB เป็นแบบจำลองที่ดีที่สุดจนถึงตอนนี้ แต่ฉันก็ยังไม่ค่อยมีความสุขกับแบบจำลอง ฉันตกอยู่ในความสูญเสียว่าจะลองทำอะไรต่อไป ฉันลองใช้แบบจำลองอุปสรรค์ แต่ไม่สามารถกระจายการตัดทอนไปยังผลลัพธ์ที่ไม่เป็นศูนย์ได้ - ฉันคิดว่าเนื่องจากศูนย์จำนวนมากอยู่ในการควบคุมการรักษา (ข้อความแสดงข้อผิดพลาดคือ“ ข้อผิดพลาดใน model.frame.default” …

1
คำนวณความน่าจะเป็นบันทึก“ ด้วยมือ” สำหรับการถดถอยแบบไม่เชิงเส้นกำลังสองน้อยที่สุด (nlme)
ฉันกำลังพยายามคำนวณความน่าจะเป็นในการบันทึกสำหรับการถดถอยกำลังสองน้อยที่สุดแบบไม่เชิงเส้นสำหรับฟังก์ชันปรับโดยฟังก์ชั่นในแพคเกจ R โดยใช้เมทริกซ์ความแปรปรวนร่วมแปรปรวนที่สร้างขึ้นโดยระยะทางบนต้นไม้สายวิวัฒนาการที่สมมติว่ามีการเคลื่อนที่แบบบราวเนียน ( จากแพ็คเกจ) รหัส R ที่สามารถทำซ้ำได้ดังต่อไปนี้เหมาะกับรุ่น gnls โดยใช้ข้อมูล x, y และแผนภูมิแบบสุ่มที่มี 9 แท็กซ่า:f(x)=β1(1+xβ2)β3f(x)=β1(1+xβ2)β3f(x)=\frac{\beta_1}{(1+\frac x\beta_2)^{\beta_3}}gnlsnlmecorBrownian(phy=tree)ape require(ape) require(nlme) require(expm) tree <- rtree(9) x <- c(0,14.51,32.9,44.41,86.18,136.28,178.21,262.3,521.94) y <- c(100,93.69,82.09,62.24,32.71,48.4,35.98,15.73,9.71) data <- data.frame(x,y,row.names=tree$tip.label) model <- y~beta1/((1+(x/beta2))^beta3) f=function(beta,x) beta[1]/((1+(x/beta[2]))^beta[3]) start <- c(beta1=103.651004,beta2=119.55067,beta3=1.370105) correlation <- corBrownian(phy=tree) fit <- gnls(model=model,data=data,start=start,correlation=correlation) logLik(fit) ผมอยากจะคำนวณความน่าจะเข้าสู่ระบบ "ด้วยมือ" (ใน R …

1
การอนุมานเกี่ยวกับเอฟเฟกต์คงที่ในโมเดลเอฟเฟกต์ผสม
ฉันมีข้อมูลที่มีความสัมพันธ์กันและกำลังใช้แบบจำลองผลกระทบการถดถอยแบบโลจิสติกส์เพื่อประมาณผลกระทบระดับบุคคล (แบบมีเงื่อนไข) สำหรับการทำนายผลประโยชน์ ฉันรู้ว่าสำหรับโมเดลส่วนเพิ่มมาตรฐานการอนุมานพารามิเตอร์โมเดลโดยใช้การทดสอบ Wald นั้นสอดคล้องกับอัตราส่วนความน่าจะเป็นและการทดสอบคะแนน พวกเขามักจะประมาณเดียวกัน เนื่องจาก Wald นั้นง่ายต่อการคำนวณและพร้อมใช้งานในเอาต์พุต R ฉันจึงใช้ 99% ของเวลา อย่างไรก็ตามด้วยโมเดลเอฟเฟ็กต์แบบผสมฉันรู้สึกทึ่งที่เห็นความแตกต่างอย่างมากระหว่างการทดสอบ Wald สำหรับเอฟเฟกต์คงที่เนื่องจากมีการรายงานในโมเดลเอาท์พุทใน R และการทดสอบอัตราส่วนความน่าจะเป็น "ด้วยมือ" เหมาะสมจริงลดรูปแบบ โดยสังหรณ์ใจฉันสามารถเห็นว่าทำไมสิ่งนี้อาจสร้างความแตกต่างอย่างมากเพราะในโมเดลที่ลดลงความแปรปรวนของเอฟเฟกต์แบบสุ่มนั้นถูกประเมินใหม่และอาจส่งผลกระทบอย่างมีนัยสำคัญต่อโอกาส บางคนสามารถอธิบายได้ สถิติการทดสอบของ Wald คำนวณใน R เพื่อหาผลกระทบคงที่อย่างไร อะไรคือเมทริกซ์ข้อมูลสำหรับพารามิเตอร์โมเดลโดยประมาณในโมเดลเอฟเฟกต์ผสม? (และเป็น mx เดียวกันกับที่คำนวณสถิติการทดสอบของ Wald หรือไม่) อะไรคือความแตกต่างในการตีความระหว่างผลลัพธ์จากการทดสอบทั้งสองในกรณีที่ฉันอธิบาย โดยทั่วไปมีแรงจูงใจอะไรบ้างและนำไปใช้ในงานวรรณกรรมเพื่อการอนุมาน

1
ความสับสนเกี่ยวกับ lmer และ p-values: p-values ​​จากแพคเกจ memisc เปรียบเทียบกับ MCMC อย่างไร
ฉันรู้สึกว่าฟังก์ชั่นlmer()ในlme4แพ็คเกจไม่ได้สร้างค่า p (ดูlmer, ค่า p และทั้งหมดนั้น ) ฉันได้รับการใช้ค่าพี MCMC สร้างขึ้นแทนเป็นต่อคำถามนี้: ผลกระทบอย่างมีนัยสำคัญในlme4รูปแบบผสมและคำถามนี้: ไม่พบหน้าค่าในการส่งออกจากlmer()ในlm4Rแพคเกจใน เมื่อเร็ว ๆ นี้ฉันลองแพคเกจที่เรียกว่าmemiscและgetSummary.mer()เพื่อให้ได้เอฟเฟกต์คงที่ของโมเดลของฉันลงในไฟล์ csv ราวกับว่าเป็นเวทมนต์คอลัมน์ที่เรียกว่าpปรากฏขึ้นซึ่งตรงกับค่า p MCMC ของฉันอย่างใกล้ชิด (และไม่ได้รับเวลาการประมวลผลที่มาพร้อมกับการใช้pvals.fnc()) ฉันดูรหัสในคร่าวๆgetSummary.merแล้วเห็นเส้นที่สร้างค่า p: p <- (1 - pnorm(abs(smry@coefs[, 3]))) * 2 สิ่งนี้หมายความว่าค่า p สามารถสร้างได้โดยตรงจากlmerเอาต์พุตของแทนที่จะเรียกใช้pvals.fncหรือไม่ ฉันรู้ว่าสิ่งนี้จะไม่เริ่มสงสัยการอภิปราย 'ค่านิยมทางไสยศาสตร์' แต่ฉันสนใจที่จะรู้ ฉันไม่ได้ยินกล่าวก่อนเมื่อมันมาถึงmemisclmer เพื่อรวบรัดมากขึ้น: อะไรคือประโยชน์ (ถ้ามี) ของการใช้ค่า p MCMC มากกว่าที่สร้างขึ้นโดยgetSummary.mer()?

2
แบบผสมที่มี 1 การสังเกตต่อระดับ
ฉันปรับโมเดลเอฟเฟกต์แบบสุ่มให้เหมาะกับglmerข้อมูลธุรกิจบางอย่าง จุดมุ่งหมายคือการวิเคราะห์ประสิทธิภาพการขายโดยผู้จัดจำหน่ายโดยคำนึงถึงความหลากหลายของภูมิภาค ฉันมีตัวแปรต่อไปนี้: distcode: รหัสผู้จำหน่ายที่มีประมาณ 800 ระดับ region: รหัสทางภูมิศาสตร์ระดับบนสุด (เหนือ, ใต้, ตะวันออก, ตะวันตก) zone: ภูมิศาสตร์ระดับกลางซ้อนกันภายในregionประมาณ 30 ระดับในทุกระดับ territory: ภูมิศาสตร์ระดับต่ำซ้อนกันภายในzoneประมาณ 150 ระดับ ผู้จัดจำหน่ายแต่ละรายดำเนินงานในพื้นที่เดียวเท่านั้น ส่วนที่ยุ่งยากคือการสรุปข้อมูลพร้อมจุดข้อมูลหนึ่งจุดต่อผู้จัดจำหน่าย ดังนั้นฉันจึงมี 800 จุดข้อมูลและฉันพยายามปรับให้พอดี (อย่างน้อย) พารามิเตอร์ 800 ถึงแม้ว่าจะเป็นแบบธรรมดา ฉันได้ติดตั้งโมเดลดังนี้: glmer(ninv ~ 1 + (1|region/zone/territory) + (1|distcode), family=poisson) สิ่งนี้จะทำงานโดยไม่มีปัญหาแม้ว่าจะพิมพ์บันทึกย่อ: จำนวนระดับของปัจจัยการจัดกลุ่มสำหรับเอฟเฟกต์แบบสุ่มเท่ากับ n จำนวนการสังเกต นี่เป็นสิ่งที่ควรทำใช่ไหม ฉันได้รับการประมาณค่าสัมประสิทธิ์ทั้งหมดและ AIC ก็ไม่สมเหตุสมผล ถ้าฉันลองปัวซอง GLMM ด้วยลิงก์ตัวตน …

1
กระทบยอดสัญลักษณ์สำหรับโมเดลผสม
ฉันคุ้นเคยกับสัญกรณ์เช่น: β0j=β0+ujyij=β0+βixij+uj+eij=β0j+βixij+eijyij=β0+βixij+uj+eij=β0j+βixij+eij\begin{align} y_{ij} &= \beta_0 + \beta_i x_{ij} + u_j + e_{ij}\\ &= \beta_{0j} + \beta_i x_{ij} + e_{ij} \end{align} โดยที่และβ0j=β0+ujβ0j=β0+uj\beta_{0j}=\beta_{0}+u_j yij=β0+β1xij+u0j+u1jxij+eij=β0j+β1jxij+eijyij=β0+β1xij+u0j+u1jxij+eij=β0j+β1jxij+eij\begin{align} y_{ij} &= \beta_0 + \beta_1 x_{ij} + u_{0j} + u_{1j} x_{ij} + e_{ij} \\ &= \beta_{0j} + \beta_{1j} x_{ij} + e_{ij} \end{align} โดยที่และ β 1 j = β …

1
การถดถอยเชิงเส้นพร้อมมาตรการซ้ำใน R
ฉันไม่สามารถหาวิธีการถดถอยเชิงเส้นใน R ในการออกแบบการวัดซ้ำ ในคำถามก่อนหน้านี้ (ยังไม่ได้ตอบ) แนะนำให้ฉันไม่ใช้lmแต่ควรใช้โมเดลผสม ฉันใช้lmวิธีต่อไปนี้: lm.velocity_vs_Velocity_response <- lm(Velocity_response~Velocity*Subject, data=mydata) (รายละเอียดเพิ่มเติมเกี่ยวกับชุดข้อมูลสามารถดูได้ที่ลิงค์ด้านบน) อย่างไรก็ตามฉันไม่สามารถค้นหาบนอินเทอร์เน็ตตัวอย่างด้วยรหัส R ที่แสดงวิธีการวิเคราะห์การถดถอยเชิงเส้น สิ่งที่ฉันต้องการก็คือพล็อตของข้อมูลที่มีเส้นที่พอดีกับข้อมูลและในทางกลับกันค่าพร้อมกับค่า p สำหรับการทดสอบความสำคัญสำหรับแบบจำลองR2R2R^2 มีใครบ้างที่สามารถให้คำแนะนำได้บ้าง ตัวอย่างรหัส R สามารถช่วยได้มาก แก้ไข ตามคำแนะนำที่ฉันได้รับจนถึงขณะนี้โซลูชันของฉันในการวิเคราะห์ข้อมูลของฉันเพื่อที่จะเข้าใจว่ามีความสัมพันธ์เชิงเส้นตรงระหว่างตัวแปรสองตัว Velocity_response (ที่ได้จากแบบสอบถาม) และ Velocity (ที่ได้มาจากประสิทธิภาพ) ควรเป็นดังนี้: library(nlme) summary(lme(Velocity_response ~ Velocity*Subject, data=scrd, random= ~1|Subject)) ผลลัพธ์ของการสรุปให้สิ่งนี้: > summary(lme(Velocity_response ~ Velocity*Subject, data=scrd, random= ~1|Subject)) Linear mixed-effects model fit by …

1
ฉันจะปรับประสิทธิภาพการคำนวณให้เหมาะสมได้อย่างไรเมื่อติดตั้งแบบจำลองที่ซับซ้อนกับชุดข้อมูลขนาดใหญ่ซ้ำ ๆ
ฉันประสบปัญหาประสิทธิภาพการทำงานโดยใช้MCMCglmmแพ็คเกจใน R เพื่อเรียกใช้โมเดลเอฟเฟกต์แบบผสม รหัสมีลักษณะดังนี้: MC1<-MCMCglmm(bull~1,random=~school,data=dt,family="categorical" , prior=list(R=list(V=1,fix=1), G=list(G1=list(V=1, nu=0))) , slice=T, nitt=iter, ,burnin=burn, verbose=F) มีการสำรวจข้อมูลประมาณ 20,000 ครั้งและมีการรวมกลุ่มกันในโรงเรียนประมาณ 200 แห่ง ฉันลบตัวแปรที่ไม่ได้ใช้ทั้งหมดจากดาต้าเฟรมและลบวัตถุอื่นทั้งหมดออกจากหน่วยความจำก่อนที่จะทำงาน ปัญหาที่ฉันมีคือมันใช้เวลานานมากในการรันยกเว้นว่าฉันจะลดการวนซ้ำให้เหลือน้อยมาก ด้วย 50,000 ซ้ำมันใช้เวลา 5 ชั่วโมงและฉันมีรูปแบบที่แตกต่างกันมากมายในการทำงาน ดังนั้นฉันต้องการทราบว่ามีวิธีเร่งความเร็วในการเรียกใช้รหัสหรือแพ็คเกจอื่น ๆ ที่ฉันสามารถใช้ได้ ฉันใช้MCMCglmmเพราะฉันต้องการช่วงความมั่นใจสำหรับเอฟเฟกต์แบบสุ่ม ในทางกลับกันฉันหวังว่าจะได้รับพีซีเครื่องใหม่ในปีนี้ แต่โชคดีที่ฉันสามารถนำมันไปข้างหน้าได้ดังนั้นฉันจึงสงสัยว่าจะใช้เงินจำนวน จำกัด กับฮาร์ดแวร์ใหม่ได้ดีที่สุด - RAM เพิ่มเติม เร็วกว่าซีพียู ฯลฯ จากการดูตัวจัดการงานฉันไม่เชื่อว่า RAM เป็นปัญหา (ไม่เคยใช้งานเกิน 50% ของการใช้งานจริง) แต่การใช้งาน CPU ไม่ได้สูงกว่า 50% มากซึ่งทำให้ฉันแปลก …

1
ความแตกต่างระหว่าง PROC Mixed และ lme / lmer ใน R - degree of freedom
หมายเหตุ: คำถามนี้เป็นคำถามใหม่เนื่องจากต้องลบคำถามก่อนหน้านี้ด้วยเหตุผลทางกฎหมาย ในขณะที่เปรียบเทียบ PROC MIXED จาก SAS กับฟังก์ชันlmeจากnlmeแพ็คเกจใน R ฉันพบความแตกต่างที่ค่อนข้างสับสน โดยเฉพาะอย่างยิ่งองศาอิสระในการทดสอบที่แตกต่างกันระหว่างPROC MIXEDและlmeและฉันสงสัยว่าทำไม เริ่มจากชุดข้อมูลต่อไปนี้ (รหัส R ระบุด้านล่าง): ind: ปัจจัยบ่งชี้บุคคลที่จะทำการวัด fac: อวัยวะที่ใช้ทำการวัด trt: ปัจจัยบ่งชี้การรักษา y: ตัวแปรตอบสนองต่อเนื่องบางอย่าง ความคิดคือการสร้างแบบจำลองง่ายๆดังต่อไปนี้: y ~ trt + (ind): indเป็นปัจจัยสุ่ม y ~ trt + (fac(ind)): facซ้อนกันindเป็นปัจจัยสุ่ม โปรดทราบว่ารุ่นสุดท้ายที่ควรทำให้เกิดเอกเป็นมีเพียง 1 ค่าของyสำหรับการรวมกันของทุกและindfac แบบจำลองแรก ใน SAS ฉันสร้างโมเดลต่อไปนี้: PROC MIXED data=Data; CLASS ind fac …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

2
เราจะทำแบบทดสอบสมมติฐาน MCMC กับแบบจำลองการถดถอยแบบผสมเอฟเฟกต์ด้วยความชันแบบสุ่มได้อย่างไร
ไลบรารี่ languageR จัดเตรียมวิธีการ (pvals.fnc) เพื่อทำการทดสอบ MCMC อย่างมีนัยสำคัญของเอฟเฟกต์คงที่ในรูปแบบการถดถอยเอฟเฟกต์เอฟเฟกต์แบบพอดีโดยใช้ lmer อย่างไรก็ตาม pvals.fnc ให้ข้อผิดพลาดเมื่อโมเดล lmer มีความลาดชันแบบสุ่ม มีวิธีการทำแบบทดสอบสมมติฐาน MCMC ของแบบจำลองดังกล่าวหรือไม่? ถ้าเป็นเช่นนั้นได้อย่างไร (หากได้รับคำตอบคำตอบควรมีตัวอย่างการทำงานใน R) ถ้าไม่มีเหตุผลทางความคิด / การคำนวณว่าทำไมไม่มีทาง? คำถามนี้อาจเกี่ยวข้องกับคำถามนี้แต่ฉันไม่เข้าใจเนื้อหาที่นั่นเพียงพอที่จะแน่ใจ แก้ไข 1 : หลักฐานของแนวคิดที่แสดงว่า pvals.fnc () ยังคงทำ 'บางสิ่งบางอย่าง' กับโมเดล lme4 แต่มันไม่ได้ทำอะไรกับแบบจำลองความชันแบบสุ่ม library(lme4) library(languageR) #the example from pvals.fnc data(primingHeid) # remove extreme outliers primingHeid = primingHeid[primingHeid$RT < 7.1,] …

3
วิธีการใช้รูปแบบผสมโดยใช้ฟังก์ชั่น betareg ใน R?
ฉันมีชุดข้อมูลประกอบด้วยสัดส่วนที่วัด "ระดับกิจกรรม" ของลูกอ๊อดแต่ละตัวดังนั้นจึงทำให้ค่าที่ผูกไว้ระหว่าง 0 และ 1 ข้อมูลนี้ถูกรวบรวมโดยการนับจำนวนครั้งที่บุคคลย้ายภายในช่วงเวลาหนึ่ง (1 สำหรับการเคลื่อนไหว 0 สำหรับไม่มีการเคลื่อนไหว) จากนั้นค่าเฉลี่ยเพื่อสร้างหนึ่งค่าต่อบุคคล ผลกระทบคงที่หลักของฉันคือ "ระดับความหนาแน่น" ปัญหาที่ฉันเผชิญคือว่าฉันมีตัวแปรปัจจัย "บ่อน้ำ" ที่ฉันต้องการรวมไว้เป็นเอฟเฟกต์แบบสุ่ม - ฉันไม่สนใจความแตกต่างระหว่างบ่อน้ำ แต่ต้องการที่จะอธิบายถึงสถิติเหล่านั้น ประเด็นสำคัญอย่างหนึ่งเกี่ยวกับบ่อน้ำคือฉันมีเพียง 3 แห่งเท่านั้นและฉันเข้าใจว่ามันเป็นอุดมคติที่จะมีระดับปัจจัยมากกว่า (5+) เมื่อจัดการกับเอฟเฟกต์แบบสุ่ม หากเป็นไปได้ที่จะทำฉันต้องการคำแนะนำเกี่ยวกับวิธีการใช้รูปแบบผสมโดยใช้betareg()หรือbetamix()ในอาร์ฉันได้อ่านไฟล์วิธีใช้ R แต่ฉันมักจะพบพวกเขายากที่จะเข้าใจ (สิ่งที่แต่ละพารามิเตอร์อาร์กิวเมนต์จริงๆหมายถึงในบริบท ของข้อมูลของฉันเองและความหมายของผลลัพธ์ในแง่ของระบบนิเวศ) และดังนั้นฉันจึงมักจะทำงานได้ดีขึ้นผ่านตัวอย่าง ในบันทึกที่เกี่ยวข้องฉันสงสัยว่าถ้าฉันสามารถใช้glm()ภายใต้ตระกูลทวินามและลิงค์ logit แทนการทำบัญชีสุ่มเอฟเฟ็กต์กับข้อมูลประเภทนี้

2
อะไรคือความแตกต่างระหว่างแบบผสมผลกระทบและแบบจำลองการถดถอยเชิงเส้น?
ใครช่วยอธิบายความแตกต่างระหว่างแบบผสมและการวิเคราะห์การถดถอยเชิงเส้นได้ไหม (ฉันมีความรู้เกี่ยวกับสถิติที่ จำกัด มาก)

1
ฉันจะใส่โมเดลเอฟเฟกต์แบบไม่เชิงเส้นสำหรับข้อมูลการวัดซ้ำโดยใช้ nlmer () ได้อย่างไร
ฉันพยายามวิเคราะห์ข้อมูลการวัดซ้ำ ๆ และพยายามดิ้นรนเพื่อให้มันทำงานRได้ ข้อมูลของฉันเป็นหลักต่อไปนี้ฉันมีสองกลุ่มการรักษา ทุกวิชาในแต่ละกลุ่มมีการทดสอบทุกวันและได้รับคะแนน (เปอร์เซ็นต์ที่ถูกต้องในการทดสอบ) ข้อมูลอยู่ในรูปแบบยาว: Time Percent Subject Group 1 0 GK11 Ethanol 2 0 GK11 Ethanol 3 0 GK11 Ethanol 4 0 GK11 Ethanol 5 0 GK11 Ethanol 6 0 GK11 Ethanol ข้อมูลมีลักษณะเป็นเส้นโค้งโลจิสติกส์วัตถุไม่ดีในสองสามวันตามด้วยการปรับปรุงอย่างรวดเร็วตามด้วยที่ราบสูง ฉันต้องการทราบว่าการรักษามีผลต่อกราฟประสิทธิภาพการทดสอบหรือไม่ ความคิดของฉันคือการใช้nlmer()ในแพคเกจในlme4 Rฉันสามารถใส่ไลน์สำหรับแต่ละกลุ่มโดยใช้สิ่งต่อไปนี้ print(nm1 <- nlmer(Percent ~ SSlogis(Time,Asym, xmid, scal) ~ Asym | Subject, …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.