คำถามติดแท็ก generalized-linear-model

ลักษณะทั่วไปของการถดถอยเชิงเส้นที่อนุญาตให้มีความสัมพันธ์แบบไม่เชิงเส้นผ่าน "ฟังก์ชันลิงก์" และสำหรับความแปรปรวนของการตอบสนองขึ้นอยู่กับค่าที่ทำนายไว้ (เพื่อไม่ให้สับสนกับ "โมเดลเชิงเส้นทั่วไป" ซึ่งขยายโมเดลเชิงเส้นปกติไปยังโครงสร้างความแปรปรวนร่วมทั่วไปและการตอบสนองหลายตัวแปร)

1
ฟังก์ชันลิงก์แบบบัญญัติสำหรับ Tweedie GLM คืออะไร
ฉันเพิ่งได้รับการแนะนำให้รู้จักกับการแจกแจงแบบทวีด (ดูนี่หรือสิ่งนี้ ) แต่ฉันมีปัญหาในการค้นหาว่าฟังก์ชันการเชื่อมโยงสำหรับตัวแบบเชิงเส้นทั่วไปของ Tweedie เป็นอย่างไร คิด?

1
Binomial glmm พร้อมตัวแปรเด็ดขาดพร้อมความสำเร็จเต็มรูปแบบ
ฉันกำลังเรียกใช้ glmm พร้อมกับตัวแปรตอบสนองทวินามและตัวทำนายหมวดหมู่ ผลแบบสุ่มจะได้รับจากการออกแบบที่ซ้อนกันที่ใช้สำหรับการรวบรวมข้อมูล ข้อมูลมีลักษณะดังนี้: m.gen1$treatment [1] sucrose control protein control no_injection ..... Levels: no_injection control sucrose protein m.gen1$emergence [1] 1 0 0 1 0 1 1 1 1 1 1 0 0.... > m.gen1$nest [1] 1 1 1 2 2 3 3 3 3 4 4 4 ..... Levels: …

3
GLM ที่มีข้อมูลต่อเนื่องซ้อนกันเป็นศูนย์
ฉันพยายามใช้แบบจำลองเพื่อประเมินว่าโรคภัยพิบัติเช่นวัณโรคเอดส์ ฯลฯ ส่งผลกระทบต่อการใช้จ่ายในการเข้ารักษาตัวในโรงพยาบาล ฉันมี "ต้นทุนต่อการเข้ารักษาตัวในโรงพยาบาล" เป็นตัวแปรตามและเครื่องหมายของแต่ละบุคคลเป็นตัวแปรอิสระซึ่งเกือบทั้งหมดเป็นตัวอย่างเช่นเพศหัวหน้าครัวเรือนสถานะสถานะความยากจนและแน่นอนเป็นตัวแทนว่าคุณมีความเจ็บป่วยหรือไม่ และอายุกำลังสอง) และกลุ่มคำศัพท์โต้ตอบ ตามที่คาดไว้มีจำนวนมาก - และฉันหมายถึงข้อมูลจำนวนมากซ้อนกันที่ศูนย์ (กล่าวคือไม่มีค่าใช้จ่ายในการเข้ารักษาตัวในโรงพยาบาลในระยะเวลาอ้างอิง 12 เดือน) อะไรจะเป็นวิธีที่ดีที่สุดในการจัดการกับข้อมูลเช่นนี้ ณ ตอนนี้ฉันตัดสินใจที่จะแปลงค่าใช้จ่ายln(1+cost)เพื่อรวมการสังเกตทั้งหมดแล้วเรียกใช้โมเดลเชิงเส้น ฉันกำลังติดตามใช่ไหม?

1
มีฟังก์ชั่นลิงก์แบบ canonical อยู่เสมอสำหรับ Generalized Linear Model (GLM) หรือไม่?
ใน GLM สมมติว่าสเกลาร์และθสำหรับการแจกแจงต้นแบบด้วย pdf f Y ( y | θ , τ ) = h ( y , τ ) exp ( θ y - A ( θ )YYYθθ\theta ก็สามารถที่จะแสดงให้เห็นว่าμ=E(Y)='(θ) ถ้าฟังก์ชันลิงก์g(⋅)สอดคล้องกับสิ่งต่อไปนี้g(μ)=θ=X′βโดยที่X′βคือตัวทำนายเชิงเส้นจากนั้นg(⋅)เรียกว่าฟังก์ชันลิงก์แบบบัญญัติสำหรับรุ่นนี้ฉY( y| θ , τ) = h ( y, τ)ประสบการณ์( θ y- A ( θ )d( τ))ฉY(Y|θ,τ)=ชั่วโมง(Y,τ)ประสบการณ์⁡(θY-A(θ)d(τ))f_Y(y | \theta, \tau) …

4
การถดถอยโลจิสติกและจุดโรคติดเชื้อ
เรามีข้อมูลที่มีผลลัพธ์เป็นเลขฐานสองและเพื่อนร่วมทุนบางคน ฉันใช้การถดถอยโลจิสติกเพื่อทำแบบจำลองข้อมูล แค่การวิเคราะห์อย่างง่ายไม่มีอะไรพิเศษ ผลลัพธ์สุดท้ายควรจะเป็นเส้นโค้งการตอบสนองต่อปริมาณที่เราแสดงให้เห็นว่าความน่าจะเป็นเปลี่ยนแปลงสำหรับ covariate ที่เฉพาะเจาะจงอย่างไร บางสิ่งเช่นนี้ เราได้รับคำวิจารณ์จากผู้ตรวจสอบภายใน (ไม่ใช่นักสถิติบริสุทธิ์) สำหรับการเลือกการถดถอยโลจิสติก การถดถอยโลจิสติกถือว่า (หรือกำหนด) ว่าจุดผันของเส้นโค้งรูปตัว S ในระดับความน่าจะเป็นอยู่ที่ความน่าจะเป็น 0.5 เขาแย้งว่าจะไม่มีเหตุผลที่จะคิดว่าจุดเปลี่ยนความเว้าเป็นจริงที่ความน่าจะเป็น 0.5 และเราควรเลือกรูปแบบการถดถอยที่แตกต่างกันซึ่งช่วยให้จุดเปลี่ยนความเว้าแตกต่างกันไปตามตำแหน่งที่เกิดขึ้นจริง ในตอนแรกฉันถูกจับโดยการโต้แย้งของเขาตั้งแต่ฉันไม่เคยคิดเกี่ยวกับประเด็นนี้ ฉันไม่มีข้อโต้แย้งใด ๆ ว่าทำไมจึงสมควรที่จะสันนิษฐานว่าจุดโรคติดเชื้ออยู่ที่ 0.5 หลังจากทำวิจัยแล้วฉันยังไม่มีคำตอบสำหรับคำถามนี้ ฉันเจอการถดถอยโลจิสติก 5 พารามิเตอร์ซึ่งจุดเปลี่ยนเป็นพารามิเตอร์เพิ่มเติม แต่ดูเหมือนว่ารูปแบบการถดถอยนี้มักจะใช้เมื่อสร้างเส้นโค้งการตอบสนองต่อปริมาณด้วยผลลัพธ์ที่ต่อเนื่อง ฉันไม่แน่ใจว่าสามารถขยายไปยังตัวแปรตอบกลับแบบไบนารี่ได้หรือไม่ ฉันเดาคำถามหลักของฉันคือทำไมหรือเมื่อไรที่สมมติว่าจุดเปลี่ยนของการถดถอยโลจิสติกอยู่ที่ 0.5 มันสำคัญหรือไม่ ฉันไม่เคยเห็นใครเหมาะกับโมเดลการถดถอยแบบโลจิสติกส์และพูดคุยอย่างชัดเจนในประเด็นของจุดโรคติดเชื้อ มีทางเลือกอื่นในการสร้างเส้นโค้งการตอบสนองปริมาณรังสีที่จุดผันน้ำไม่จำเป็นต้องอยู่ที่ 0.5 หรือไม่? เพื่อความสมบูรณ์รหัส R สำหรับสร้างภาพด้านบน: dat <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") dat$rank <- factor(dat$rank) logit <- glm(admit ~ …

2
การวิเคราะห์การเพิ่มปริมาณโดยระดับการทำสำเนาของยีน
ความเป็นมาทางชีวภาพ เมื่อเวลาผ่านไปพืชบางชนิดมีแนวโน้มที่จะทำซ้ำจีโนมทั้งหมดของพวกเขาได้รับสำเนาเพิ่มเติมของแต่ละยีน เนื่องจากความไม่แน่นอนของการตั้งค่านี้ทำให้ยีนเหล่านี้จำนวนมากถูกลบออกและจีโนมจัดเรียงตัวเองใหม่และทำให้เสถียรพร้อมที่จะทำซ้ำอีกครั้ง เหตุการณ์การทำซ้ำเหล่านี้เกี่ยวข้องกับการเก็งกำไรและการบุกรุกและทฤษฎีก็คือการทำซ้ำช่วยให้พืชสามารถปรับตัวเข้ากับสภาพแวดล้อมใหม่ได้เร็วขึ้น Lupinus เป็นพืชดอกออกดอกบุกรุก Andes ในเหตุการณ์ speciation ที่เร็วที่สุดเท่าที่เคยตรวจพบและยิ่งไปกว่านั้นดูเหมือนว่าจะมีสำเนาที่ซ้ำกันในจีโนมมากกว่า Baptisia ที่เกี่ยวข้องมากที่สุด และตอนนี้ปัญหาทางคณิตศาสตร์: จีโนมของสมาชิกของ Lupinus และสมาชิกของ Baptisia ได้รับการจัดลำดับโดยให้ข้อมูลดิบประมาณ 25,000 ยีนในแต่ละสปีชีส์ ด้วยการสอบถามกับฐานข้อมูลของยีนที่รู้จักกันในฟังก์ชั่นตอนนี้ฉันมี "คาดเดาที่ดีที่สุด" สำหรับสิ่งที่ฟังก์ชั่นที่ยีนอาจทำ - ตัวอย่างเช่น Gene1298 อาจเกี่ยวข้องกับ "เมตาบอลิซึมฟรุกโตส ฉันอยากรู้ว่าถ้ามีเหตุการณ์การทำซ้ำระหว่าง Baptisia และ Lupinus ไม่ว่าการสูญเสียยีนจะเกิดขึ้นแบบสุ่มหรือว่ายีนที่ทำหน้าที่เฉพาะนั้นมีแนวโน้มที่จะถูกเก็บหรือลบมากกว่า ฉันมีสคริปต์ที่จะส่งออกตารางเช่นเดียวกับที่แสดงด้านล่าง L * คือจำนวนยีน Lupinus ทั้งหมดที่เกี่ยวข้องกับฟังก์ชัน L 1+ คือจำนวนยีน lupinus ที่เกี่ยวข้องกับฟังก์ชันที่มีสำเนาอย่างน้อยหนึ่งสำเนา ฉันสามารถทำให้มันผลิต L 2+, L 3+ ฯลฯ …

1
ข้อมูลเหล่านี้สามารถรวมกันเป็นสัดส่วนสำหรับ binomial glm ได้หรือไม่?
เราขอให้คน 60 รายชื่อแฟรนไชส์ร้านอาหารจำนวนมากในแอตแลนตาเท่าที่จะทำได้ รายการโดยรวมนั้นมีร้านอาหารกว่า 70 ร้าน แต่เรากำจัดร้านที่ถูกกล่าวถึงน้อยกว่า 10% ของผู้คนทำให้เราเหลือ 45 คนสำหรับ 45 ร้านนี้เราคำนวณสัดส่วนของผู้ให้ข้อมูลที่แสดงรายการแฟรนไชส์และเราสนใจ การสร้างแบบจำลองสัดส่วนนี้เป็นฟังก์ชั่นของงบประมาณการโฆษณาของแฟรนไชส์ ​​(บันทึกการเปลี่ยนแปลง) และปีนับตั้งแต่กลายเป็นแฟรนไชส์ ดังนั้นฉันจึงเขียนรหัสนี้: model <- glm ( cbind (listed, 55-listed) ~ log.budget + years, family = binomial, data = list.45) ตามที่คาดการณ์ไว้ตัวแปรทั้งสองแสดงผลที่แข็งแกร่งและมีนัยสำคัญ แต่ถึงแม้ว่าฉันรู้ว่าข้อมูลที่เป็นสัดส่วนไม่ควรเป็นแบบจำลองด้วยการถดถอย OLS ฉันก็เขียนรหัสนี้: model.lm <- lm ( proportion.55 ~ log.budget + years, data = list.45) …

2
พารามิเตอร์การกระจายในเอาต์พุต GLM
ฉันวิ่ง glm ใน R และใกล้ด้านล่างสุดของsummary()เอาต์พุตมันระบุ (Dispersion parameter for gaussian family taken to be 28.35031) ฉันได้ทำการค้นหาใน Google และได้เรียนรู้ว่าพารามิเตอร์การกระจายใช้เพื่อให้พอดีกับข้อผิดพลาดมาตรฐาน ฉันหวังว่าใครบางคนสามารถให้รายละเอียดเพิ่มเติมเกี่ยวกับพารามิเตอร์การกระจายคืออะไรและควรตีความอย่างไร

1
ติดตั้ง Poisson GLM ใน R - ปัญหาเกี่ยวกับอัตราเทียบกับจำนวน
ขณะนี้ฉันกำลังทำงานในโครงการที่เกี่ยวข้องกับ GLM (และในที่สุดเกม) ของการนับจำนวนข้อมูลเมื่อเวลาผ่านไป โดยปกติฉันจะทำสิ่งนี้ใน SAS แต่ฉันพยายามย้ายไปที่ R และมีปัญหา ... เมื่อฉันพอดีกับ GLM เพื่อนับข้อมูลโดยใช้สิ่งต่อไปนี้: cdi_model <- glm(counts ~ exposure + covariate + month, data=test, family = poisson) ฉันเข้าใจ: Deviance Residuals: Min 1Q Median 3Q Max -1.9825 -0.7903 -0.1187 0.5717 1.7649 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.97563 0.20117 9.821 …

1
ฉันจะปรับ ANOVA สำหรับข้อมูลไบนารีได้อย่างไร
ฉันมีโมเดลการแข่งขันสี่แบบที่ฉันใช้ในการทำนายตัวแปรผลลัพธ์แบบไบนารี (เช่นสถานะการจ้างงานหลังจบการศึกษา 1 = มีงานทำ, 0 = ไม่มีงานทำ) สำหรับอาสาสมัคร n คน ตัวชี้วัดตามธรรมชาติของประสิทธิภาพของแบบจำลองคืออัตราการเข้าชมซึ่งเป็นอัตราร้อยละของการทำนายที่ถูกต้องสำหรับแต่ละแบบจำลอง สำหรับฉันดูเหมือนว่าฉันไม่สามารถใช้ ANOVA ในการตั้งค่านี้ได้เนื่องจากข้อมูลละเมิดสมมติฐานที่ ANOVA อ้างอิง มีขั้นตอนที่เทียบเท่ากันที่ฉันสามารถใช้แทน ANOVA ในการตั้งค่าด้านบนเพื่อทดสอบสมมติฐานที่ว่าทั้งสี่รุ่นมีประสิทธิภาพเท่าเทียมกันหรือไม่

1
R / mgcv: เพราะเหตุใดผลิตภัณฑ์ te () และ ti () เทนเซอร์จึงให้พื้นผิวที่แตกต่างกัน
mgcvแพคเกจสำหรับการRมีสองฟังก์ชั่นสำหรับการปฏิสัมพันธ์กระชับเมตริกซ์ผลิตภัณฑ์: และte() ti()ฉันเข้าใจการแบ่งขั้นพื้นฐานของการใช้แรงงานระหว่างคนทั้งสอง (ปรับให้เหมาะสมกับการทำงานแบบไม่เป็นเชิงเส้นเปรียบเทียบกับการย่อยสลายการโต้ตอบนี้เป็นผลกระทบหลักและการโต้ตอบ) สิ่งที่ฉันไม่เข้าใจคือสาเหตุte(x1, x2)และti(x1) + ti(x2) + ti(x1, x2)อาจให้ผลลัพธ์ที่แตกต่าง (เล็กน้อย) MWE (ดัดแปลงมาจาก?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
สูตร y ~ x + 0 ใน R คำนวณอะไรจริง ๆ
ความแตกต่างทางสถิติระหว่างการทำการถดถอยเชิงเส้นใน R กับformulaชุดเป็นy ~ x + 0แทนที่จะเป็นy ~ xอะไร? ฉันจะตีความผลลัพธ์ที่แตกต่างกันสองแบบได้อย่างไร

1
OLS vs. Poisson GLM พร้อมลิงค์ตัวตน
คำถามของฉันเปิดเผยความเข้าใจที่ไม่ดีของฉันเกี่ยวกับการถดถอยปัวซองและ GLMs โดยทั่วไป นี่คือข้อมูลปลอมที่จะแสดงคำถามของฉัน: ### some fake data x=c(1:14) y=c(0, 1, 2, 3, 1, 4, 9, 18, 23, 31, 20, 25, 37, 45) บางฟังก์ชั่นที่กำหนดเองเพื่อกลับ psuedo-R2: ### functions of pseudo-R2 psuR2 <- function(null.dev, model.dev) { 1 - (model.dev / null.dev)} predR2 <- function(actuals, predicted) { 1 - (sum((actuals - predicted)^2)) / …

1
วิธีการเลือกความน่าจะเป็นทางลัดสำหรับ Logistic Regression ที่หายาก
ฉันมีการสังเกต 100,000 ครั้ง (ตัวแปรตัวบ่งชี้จำลอง 9 ตัว) พร้อม 1,000 ผลบวก การถดถอยโลจิสติกควรทำงานได้ดีในกรณีนี้ แต่ความเป็นไปได้ที่จะตัดตัวฉัน ในวรรณกรรมทั่วไปเราเลือกตัด 50% เพื่อทำนาย 1s และ 0s ฉันทำสิ่งนี้ไม่ได้เพราะแบบจำลองของฉันให้ค่าสูงสุด ~ 1% ดังนั้นเกณฑ์อาจอยู่ที่ 0.007 หรือที่ใดที่หนึ่งโดยรอบ ฉันเข้าใจROCเส้นโค้งและพื้นที่ใต้เส้นโค้งสามารถช่วยฉันเลือกระหว่างรุ่น LR สองชุดสำหรับชุดข้อมูลเดียวกันได้อย่างไร อย่างไรก็ตาม ROC ไม่ได้ช่วยฉันเลือกความน่าจะเป็นทางลัดที่เหมาะสมที่สามารถใช้ในการทดสอบแบบจำลองกับข้อมูลที่ไม่อยู่ในกลุ่มตัวอย่าง ฉันควรใช้ค่า cutoff ที่ลดmisclassification rateหรือไม่ ( http://www2.sas.com/proceedings/sugi31/210-31.pdf ) เพิ่ม -> สำหรับอัตราเหตุการณ์ที่ต่ำเช่นนี้อัตราการผิดพลาดของฉันได้รับผลกระทบจากผลบวกปลอมจำนวนมาก ในขณะที่อัตราโดยรวมนั้นดูดีเนื่องจากขนาดของจักรวาลทั้งหมดยังใหญ่ แต่แบบจำลองของฉันไม่ควรมีผลบวกผิด ๆ มากมาย (เพราะเป็นแบบจำลองการคืนทุน) 5/10 coeff มีความสำคัญ

1
การทดสอบอัตราส่วนความน่าจะเป็นและการทดสอบ Wald ให้ข้อสรุปที่แตกต่างกันสำหรับ glm ใน R
ฉันทำซ้ำเช่นจากทั่วไปเชิงเส้นและรูปแบบผสม MWE ของฉันอยู่ด้านล่าง: Dilution <- c(1/128, 1/64, 1/32, 1/16, 1/8, 1/4, 1/2, 1, 2, 4) NoofPlates <- rep(x=5, times=10) NoPositive <- c(0, 0, 2, 2, 3, 4, 5, 5, 5, 5) Data <- data.frame(Dilution, NoofPlates, NoPositive) fm1 <- glm(formula=NoPositive/NoofPlates~log(Dilution), family=binomial("logit"), data=Data) summary(object=fm1) เอาท์พุต Call: glm(formula = NoPositive/NoofPlates ~ log(Dilution), family …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.