คำถามติดแท็ก generalized-linear-model

ลักษณะทั่วไปของการถดถอยเชิงเส้นที่อนุญาตให้มีความสัมพันธ์แบบไม่เชิงเส้นผ่าน "ฟังก์ชันลิงก์" และสำหรับความแปรปรวนของการตอบสนองขึ้นอยู่กับค่าที่ทำนายไว้ (เพื่อไม่ให้สับสนกับ "โมเดลเชิงเส้นทั่วไป" ซึ่งขยายโมเดลเชิงเส้นปกติไปยังโครงสร้างความแปรปรวนร่วมทั่วไปและการตอบสนองหลายตัวแปร)

2
การตีความฟังก์ชันสรุปสำหรับโมเดล lm ใน R
ความหมายของt valueและPr(>|t|)เมื่อใช้summary()ฟังก์ชันกับตัวแบบการถดถอยเชิงเส้นใน R คืออะไร? Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 10.1595 1.3603 7.469 1.11e-13 *** log(var) 0.3422 0.1597 2.143 0.0322 *

1
ประเภทใดที่เหลือและระยะทางของ Cook ที่ใช้สำหรับ GLM
ไม่มีใครรู้ว่าสูตรระยะทางของ Cook คืออะไร? สูตรระยะทางของ Cook ดั้งเดิมใช้ส่วนที่เหลือเป็นราย ๆ แต่ทำไม R จึงใช้ std เพียร์สันที่เหลือเมื่อคำนวณระยะทางพล็อตของ Cook สำหรับ GLM ฉันรู้ว่าเศษที่เหลือเป็นนักเรียนไม่ได้กำหนดไว้สำหรับ GLMs แต่สูตรคำนวณระยะทางของ Cook มีลักษณะอย่างไร สมมติตัวอย่างต่อไปนี้: numberofdrugs <- rcauchy(84, 10) healthvalue <- rpois(84,75) test <- glm(healthvalue ~ numberofdrugs, family=poisson) plot(test, which=5) สูตรสำหรับระยะทางของ Cook คืออะไร กล่าวอีกนัยหนึ่งสูตรการคำนวณเส้นประสีแดงคืออะไร สูตรนี้สำหรับเพียร์สันที่เหลืออยู่นั้นมาจากที่ไหน?

3
วิธีจัดการกับคำเตือน“ ไม่เป็นจำนวนเต็ม” จากลบ binomial GLM อย่างไร
ฉันพยายามจำลองความเข้มเฉลี่ยของปรสิตที่มีผลต่อโฮสต์ใน R โดยใช้โมเดลทวินามลบ ฉันได้รับคำเตือน 50 คำขึ้นไปที่บอกว่า: In dpois(y, mu, log = TRUE) : non-integer x = 251.529000 ฉันจะจัดการกับสิ่งนี้ได้อย่างไร รหัสของฉันมีลักษณะเช่นนี้: mst.nb = glm.nb(Larvae+Nymphs+Adults~B.type+Month+Season, data=MI.df)

2
RMSE (Root Mean Squared Error) สำหรับโมเดลโลจิสติก
ฉันมีคำถามเกี่ยวกับความถูกต้องของการใช้ RMSE (Root Mean Squared Error) เพื่อเปรียบเทียบโมเดลโลจิสติกที่แตกต่างกัน การตอบสนองเป็นอย่างใดอย่างหนึ่ง0หรือ1และการคาดการณ์ที่มีความน่าจะเป็นระหว่าง0- 1? วิธีที่ใช้ด้านล่างนี้ใช้ได้กับการตอบกลับแบบไบนารีหรือไม่ # Using glmnet require(glmnet) load(url("https://github.com/cran/glmnet/raw/master /data/BinomialExample.RData")) cvfit = cv.glmnet(x, y, family = "binomial", type.measure = "mse") A <- predict(cvfit, newx = x, s = "lambda.min", type = "response") RMSE1 <- mean((y - A)^2) # 0.05816881 # glm mydata <- read.csv("https://stats.idre.ucla.edu/stat/data/binary.csv") …

3
glm ใน R - pvalue ใดที่แสดงให้เห็นถึงความดีของแบบเต็มรูปแบบ?
ฉันกำลังเรียกใช้ glms ใน R (โมเดลเชิงเส้นเชิงเส้นทั่วไป) ฉันคิดว่าฉันรู้จัก pvalues ​​- จนกระทั่งฉันเห็นว่าการเรียกสรุปสำหรับ glm ไม่ได้ให้ตัวแทน pvalue ที่เอาชนะคุณของโมเดลทั้งหมด - อย่างน้อยก็ไม่ได้อยู่ในตำแหน่งที่โมเดลเชิงเส้นทำ ฉันสงสัยว่าสิ่งนี้จะได้รับเป็นค่าสำหรับการสกัดกั้นที่ด้านบนของตารางค่าสัมประสิทธิ์ ดังนั้นในตัวอย่างต่อไปนี้ในขณะที่ Wind.speed .. knots และ canopy_density อาจมีความสำคัญต่อตัวแบบเราจะรู้ได้อย่างไรว่าตัวแบบนั้นสำคัญหรือไม่ ฉันจะรู้ได้อย่างไรว่าจะเชื่อใจคุณค่าเหล่านี้หรือไม่ ฉันถูกสงสัยหรือไม่ว่า Pr (> | z |) สำหรับ (Intercept) แสดงถึงความสำคัญของตัวแบบ? รุ่นนี้มีความหมายหรือไม่? ขอบคุณ! ฉันควรทราบว่าการใช้การทดสอบแบบ F จะไม่ทำให้เกิดความเสียหายเนื่องจากฉันได้รับข้อความแสดงข้อผิดพลาดที่บอกว่าการทดสอบแบบ F ในครอบครัวแบบทวินามนั้นไม่เหมาะสม Call: glm(formula = Empetrum_bin ~ Wind.speed..knots. + canopy_density, family = …

1
bayesglm (แขน) กับ MCMCpack
ทั้งbayesglm()(ในแพ็คเกจ R) และฟังก์ชั่นต่าง ๆ ในแพ็คเกจ MCMCpack มีวัตถุประสงค์เพื่อทำการประมาณค่าแบบจำลองเชิงเส้นแบบเบย์แบบเบย์ แต่ฉันไม่แน่ใจว่าพวกเขากำลังคำนวณสิ่งเดียวกัน ฟังก์ชั่น MCMCpack ใช้โซ่มาร์คอฟ Monte Carlo เพื่อให้ได้ตัวอย่าง (ขึ้นอยู่กับ) จากส่วนหลังของข้อต่อสำหรับพารามิเตอร์รุ่น bayesglm()ในทางกลับกันผลิตผล ฉันไม่แน่ใจ ดูเหมือนbayesglm()จะสร้างการประมาณค่าแบบจุดซึ่งจะทำให้การประมาณค่า MAP (สูงสุดหลัง) แทนที่จะเป็นการประมาณแบบเบย์แบบเต็ม แต่มีsim()ฟังก์ชั่นที่ดูเหมือนว่าสามารถใช้ในการดึงหลังได้ บางคนสามารถอธิบายความแตกต่างในการใช้งานทั้งสองอย่างได้ไหม สามารถbayesglm() + sim()ผลิตหลังดึงที่แท้จริงหรือมันเป็นประมาณบางชนิด?

1
คำนวณความน่าจะเป็นบันทึกใหม่จากโมเดล R lm อย่างง่าย
ฉันเพียงแค่พยายามคำนวณใหม่ด้วย dnorm () ความน่าจะเป็นของล็อกจากฟังก์ชัน logLik จาก lm model (in R) ใช้งานได้ (เกือบสมบูรณ์แบบ) สำหรับข้อมูลจำนวนมาก (เช่น n = 1,000): > n <- 1000 > x <- 1:n > set.seed(1) > y <- 10 + 2*x + rnorm(n, 0, 2) > mod <- glm(y ~ x, family = gaussian) > logLik(mod) 'log Lik.' …

3
การถดถอยทั่วไปแบบถ่วงน้ำหนักใน BUGS, JAGS
ในRเราสามารถ "น้ำหนักก่อนหน้า" การglmถดถอยผ่านพารามิเตอร์น้ำหนัก ตัวอย่างเช่น: glm.D93 <- glm(counts ~ outcome + treatment, family = poisson(), weights=w) วิธีนี้สามารถทำได้ในJAGSหรือBUGSรูปแบบ? ฉันพบบทความบางส่วนเกี่ยวกับเรื่องนี้ แต่ไม่มีบทความใดแสดงให้เห็น ฉันสนใจตัวอย่างปัวซองและการถดถอยโลจิสติกเป็นส่วนใหญ่

3
วิธีรับช่วงความมั่นใจในการเปลี่ยนแปลงประชากร r-square
ตัวอย่างง่ายๆสมมติว่ามีตัวแบบถดถอยเชิงเส้นสองแบบ รุ่นที่ 1 มีสามทำนาย, x1a, x2bและx2c แบบจำลอง 2 มีตัวทำนายสามตัวจากแบบจำลอง 1 และสองตัวทำนายเพิ่มเติมx2aและx2b มีสมการถดถอยที่ประชากรประชากรแปรปรวนอธิบายคือเป็น สำหรับรุ่นที่ 1 และρ 2 ( 2 )สำหรับรุ่น 2. แปรปรวนเพิ่มขึ้นอธิบายโดยรุ่น 2 ในประชากรที่อยู่Δ ρ 2 = ρ 2 ( 2 ) - ρ 2 ( 1 )ρ2(1)ρ(1)2\rho^2_{(1)}ρ2(2)ρ(2)2\rho^2_{(2)}Δρ2=ρ2(2)−ρ2(1)Δρ2=ρ(2)2−ρ(1)2\Delta\rho^2 = \rho^2_{(2)} - \rho^2_{(1)} ฉันสนใจในการได้รับข้อผิดพลาดมาตรฐานและช่วงความเชื่อมั่นสำหรับประมาณการของ 2 ในขณะที่ตัวอย่างเกี่ยวข้องกับตัวทำนาย 3 และ 2 ตามลำดับความสนใจงานวิจัยของฉันเกี่ยวข้องกับตัวทำนายจำนวนต่าง ๆ (เช่น …

1
ฉันบันทึกการแปลงตัวแปรตามของฉันฉันสามารถใช้การกระจายปกติ GLM กับฟังก์ชั่นการเชื่อมโยงเข้าสู่ระบบ?
ฉันมีคำถามเกี่ยวกับโมเดลเชิงเส้นทั่วไป (GLM) ตัวแปรตามของฉัน (DV) นั้นต่อเนื่องและไม่ปกติ ดังนั้นฉันเข้าสู่ระบบเปลี่ยนมัน (ยังไม่ปกติ แต่ปรับปรุงมัน) ฉันต้องการเชื่อมโยง DV กับตัวแปรเด็ดขาดสองรายการและหนึ่งตัวแปรแปรปรวนต่อเนื่อง สำหรับสิ่งนี้ฉันต้องการดำเนินการ GLM (ฉันใช้ SPSS) แต่ฉันไม่แน่ใจว่าจะตัดสินใจเกี่ยวกับการกระจายและฟังก์ชั่นที่จะเลือกได้อย่างไร ฉันได้ทำการทดสอบแบบไม่มีพารามิเตอร์ของ Levene และฉันมีความแปรปรวนเหมือนกันดังนั้นฉันจึงอยากใช้การแจกแจงแบบปกติ ฉันได้อ่านว่าสำหรับการถดถอยเชิงเส้นข้อมูลไม่จำเป็นต้องเป็นปกติส่วนที่เหลือทำ ดังนั้นฉันได้พิมพ์ส่วนที่เหลือของเพียร์สันที่ได้มาตรฐานและค่าทำนายสำหรับตัวทำนายเชิงเส้นจากแต่ละ GLM แยกกัน (ฟังก์ชั่นประจำตัวปกติ GLM และฟังก์ชั่นบันทึกปกติ) ฉันได้ทำการทดสอบภาวะปกติ (ฮิสโตแกรมและชาปิโร - วิลค์) และวางแผนส่วนที่เหลือกับค่าที่คาดการณ์ไว้ (เพื่อตรวจสอบการสุ่มและความแปรปรวน) สำหรับทั้งสองแบบแยกกัน ส่วนที่เหลือจากฟังก์ชั่นตัวตนไม่ปกติ แต่ส่วนที่เหลือจากฟังก์ชั่นบันทึกเป็นเรื่องปกติ ฉันมีแนวโน้มที่จะเลือกปกติด้วยฟังก์ชั่นบันทึกการเชื่อมโยงเพราะเพียร์สันส่วนที่เหลือมีการกระจายตามปกติ ดังนั้นคำถามของฉันคือ: ฉันสามารถใช้การกระจายปกติ GLM กับฟังก์ชั่นบันทึกการเชื่อมโยงใน DV ที่ได้รับการแปลงบันทึกได้หรือไม่? การทดสอบความสม่ำเสมอของความแปรปรวนเพียงพอที่จะพิสูจน์การใช้การแจกแจงแบบปกติหรือไม่? ขั้นตอนการตรวจสอบส่วนที่เหลือถูกต้องหรือไม่เพื่อปรับการเลือกรุ่นฟังก์ชั่นลิงก์? รูปภาพของการกระจาย DV ทางด้านซ้ายและส่วนที่เหลือจาก GLM ปกติพร้อมฟังก์ชั่นบันทึกลิงค์ทางด้านขวา

1
glm หรือ glmnet ใดที่มีความแม่นยำมากกว่า
R glm และ glmnet ใช้อัลกอริธึมที่แตกต่างกัน ฉันสังเกตเห็นความแตกต่างเล็ก ๆ น้อย ๆ ระหว่างค่าสัมประสิทธิ์โดยประมาณเมื่อฉันใช้ทั้งคู่ ฉันสนใจเมื่อคนหนึ่งมีความแม่นยำมากกว่าคนอื่นและเวลาที่จะแก้ไข / แลกเปลี่ยนความแม่นยำ โดยเฉพาะฉันหมายถึงกรณีที่หนึ่งชุดแลมบ์ดา = 0 ใน glmnet st มันประมาณเช่นเดียวกับ glm

4
วิธีตรวจสอบว่าแบบจำลองการถดถอยของฉันดีหรือไม่
วิธีหนึ่งในการค้นหาความแม่นยำของโมเดลการถดถอยโลจิสติกโดยใช้ 'glm' คือการค้นหาพล็อต AUC จะตรวจสอบสิ่งเดียวกันสำหรับแบบจำลองการถดถอยที่พบกับตัวแปรตอบสนองต่อเนื่อง (family = 'gaussian') ได้อย่างไร? วิธีใดที่ใช้ในการตรวจสอบว่ารูปแบบการถดถอยของฉันเหมาะสมกับข้อมูลอย่างไร

2
ความแตกต่างระหว่างการถดถอยเชิงเส้นของ logit-transformed, การถดถอยโลจิสติกและการผสมแบบโลจิสติกคืออะไร?
สมมติว่าฉันมีนักเรียน 10 คนแต่ละคนพยายามแก้ปัญหาคณิตศาสตร์ 20 ข้อ ปัญหาคะแนนถูกต้องหรือไม่ถูกต้อง (ใน longdata) และประสิทธิภาพของนักเรียนแต่ละคนสามารถสรุปได้ด้วยการวัดความแม่นยำ (ใน subjdata) แบบจำลอง 1, 2 และ 4 ด้านล่างดูเหมือนจะให้ผลลัพธ์ที่แตกต่างกัน แต่ฉันเข้าใจว่าพวกเขากำลังทำสิ่งเดียวกัน ทำไมพวกเขาถึงให้ผลลัพธ์ที่แตกต่างกัน? (ฉันรวมโมเดล 3 ไว้สำหรับการอ้างอิง) library(lme4) set.seed(1) nsubjs=10 nprobs=20 subjdata = data.frame('subj'=rep(1:nsubjs),'iq'=rep(seq(80,120,10),nsubjs/5)) longdata = subjdata[rep(seq_len(nrow(subjdata)), each=nprobs), ] longdata$correct = runif(nsubjs*nprobs)<pnorm(longdata$iq/50-1.4) subjdata$acc = by(longdata$correct,longdata$subj,mean) model1 = lm(logit(acc)~iq,subjdata) model2 = glm(acc~iq,subjdata,family=gaussian(link='logit')) model3 = glm(acc~iq,subjdata,family=binomial(link='logit')) model4 …

1
ทำไม Anova () และ drop1 () จึงให้คำตอบที่แตกต่างกันสำหรับ GLMM
ฉันมีแบบฟอร์ม GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) เมื่อฉันใช้drop1(model, test="Chi")ฉันได้รับผลลัพธ์ที่แตกต่างกว่าถ้าผมใช้จากแพคเกจรถหรือAnova(model, type="III") summary(model)สองหลังนี้ให้คำตอบเดียวกัน จากการใช้ข้อมูลที่ประดิษฐ์ขึ้นมาฉันพบว่าทั้งสองวิธีปกติไม่แตกต่างกัน พวกเขาให้คำตอบเดียวกันสำหรับแบบจำลองเชิงเส้นที่มีความสมดุลแบบจำลองเชิงเส้นที่ไม่สมดุล (ซึ่งไม่เท่ากันในกลุ่มต่าง ๆ ) และสำหรับแบบจำลองเชิงเส้นที่สมดุลแบบทั่วไป ดังนั้นจึงปรากฏว่าเฉพาะในกรณีที่มีการรวมปัจจัยแบบสุ่มเข้าด้วยกัน ทำไมจึงมีความคลาดเคลื่อนระหว่างสองวิธีนี้? เมื่อใช้ GLMM ควรAnova()หรือdrop1()จะใช้งานอย่างไร ความแตกต่างระหว่างสองสิ่งนี้ค่อนข้างเล็กน้อยอย่างน้อยสำหรับข้อมูลของฉัน มันมีความสำคัญต่อการใช้งานหรือไม่?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
คุณใช้อัลกอริธึม EM ในการคำนวณ MLEs สำหรับสูตรตัวแปรแฝงของโมเดลปัวซองที่มีค่าศูนย์ได้อย่างไร
แบบจำลองการถดถอยปัวซงแบบ zero zero ถูกกำหนดไว้สำหรับตัวอย่างโดย และจะถือว่าพารามิเตอร์และไปY i = { 0 ด้วยความน่าจะเป็นp i + ( 1 - p i ) e - λ i k ด้วยความน่าจะเป็น( 1 - p i ) e - λ ฉัน λ k i / k ! λ = ( λ 1 , … , λ n ) …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.