คำถามติดแท็ก offset


2
ในโมเดลปัวซองความแตกต่างระหว่างการใช้เวลาในรูปของ covariate หรือออฟเซ็ตคืออะไร
ฉันเพิ่งค้นพบวิธีจำลองแบบการเปิดเผยเมื่อเวลาผ่านไปโดยใช้บันทึกเวลา (เช่น) เป็นการชดเชยในการถดถอยของปัวซอง ฉันเข้าใจว่าออฟเซ็ตสอดคล้องกับการมีเวลาเป็น covariate กับสัมประสิทธิ์ 1 ฉันต้องการเข้าใจความแตกต่างระหว่างการใช้เวลาเป็นออฟเซ็ตหรือ covariate ปกติดีกว่า (ดังนั้นการประมาณค่าสัมประสิทธิ์) ฉันควรใช้วิธีใดวิธีหนึ่งในสถานการณ์ใด การอัปเกรด: ฉันไม่รู้ว่ามันน่าสนใจหรือไม่ แต่ฉันรันการตรวจสอบความถูกต้องของสองวิธีโดยใช้ข้อมูลแยกแบบสุ่มซ้ำ 500 ครั้งและฉันสังเกตเห็นว่าการใช้วิธีการชดเชยทำให้เกิดข้อผิดพลาดในการทดสอบที่มากขึ้น

4
การใช้ offset ในรูปแบบทวินามเพื่ออธิบายจำนวนผู้ป่วยที่เพิ่มขึ้น
คำถามสองข้อที่เกี่ยวข้องจากฉัน ฉันมีกรอบข้อมูลซึ่งมีจำนวนผู้ป่วยในหนึ่งคอลัมน์ (ช่วงผู้ป่วย 10 - 17 คน) และ 0s และ 1s แสดงว่าเหตุการณ์เกิดขึ้นในวันนั้นหรือไม่ ฉันใช้รูปแบบทวินามเพื่อลดความน่าจะเป็นของเหตุการณ์ที่เกิดขึ้นกับจำนวนผู้ป่วย อย่างไรก็ตามฉันต้องการที่จะปรับให้เข้ากับความจริงที่ว่าเมื่อมีผู้ป่วยมากขึ้นจะมีเหตุการณ์ที่เกิดขึ้นอย่างหลีกเลี่ยงไม่ได้เพราะจำนวนเวลาผู้ป่วยทั้งหมดในวอร์ดนั้นสูงขึ้นในวันนั้น ดังนั้นฉันใช้รูปแบบทวินามแบบออฟเซ็ตเช่นนี้ (รหัส R): glm(Incident~Numbers, offset=Numbers, family=binomial, data=threatdata) คำถามของฉันคือ: มันโอเคที่จะมีตัวแปรที่เหมือนกันในการทำนายและใน offset หรือไม่? ฉันต้องการแยกความน่าจะเป็นของยาชูกำลังที่เพิ่มขึ้นและดูว่ามีอะไรเหลืออยู่บ้างหรือไม่ มันสมเหตุสมผลสำหรับฉัน แต่ฉันก็ค่อนข้างระมัดระวังในกรณีที่ฉันผิด มีการระบุออฟเซ็ตอย่างถูกต้องหรือไม่? ฉันรู้ว่าในรูปแบบปัวซองมันจะอ่าน offset=log(Numbers) ฉันไม่ทราบว่ามีสิ่งที่เทียบเท่าที่นี่และฉันไม่สามารถหาการชดเชยทวินามใด ๆ กับ Google (ปัญหาหลักคือการที่ฉันได้รับทวินามลบซึ่งแน่นอนว่าไม่ดี)

3
ใช้ glm () แทนการทดสอบไคสแควร์อย่างง่าย
ฉันสนใจที่จะเปลี่ยนสมมติฐานว่างที่ใช้glm()ใน R ตัวอย่างเช่น: x = rbinom(100, 1, .7) summary(glm(x ~ 1, family = "binomial")) การทดสอบสมมติฐานที่ว่า0.5 ถ้าฉันต้องการเปลี่ยนค่า null เป็น = ค่าที่กำหนดเองภายในจะทำอย่างไร p=0.5p=0.5p = 0.5pppglm() ฉันรู้ว่าสิ่งนี้สามารถทำได้ด้วยprop.test()และchisq.test()แต่ฉันต้องการสำรวจความคิดของการใช้glm()เพื่อทดสอบสมมติฐานทั้งหมดที่เกี่ยวข้องกับข้อมูลเด็ดขาด

2
ตัวแบบไบนารี (Probit and Logit) ที่มีการชดเชยแบบลอการิทึม
ไม่มีใครมีรากศัพท์ว่าออฟเซ็ตทำงานในรูปแบบไบนารีเช่น probit และ logit หรือไม่ ในปัญหาของฉันหน้าต่างติดตามผลอาจมีความยาวแตกต่างกันไป สมมติว่าผู้ป่วยได้รับการยิงป้องกันโรคในการรักษา การยิงเกิดขึ้นในเวลาที่ต่างกันดังนั้นหากผลลัพธ์เป็นตัวบ่งชี้ไบนารีว่ามีการเกิดวูบวาบเกิดขึ้นหรือไม่คุณจำเป็นต้องปรับเปลี่ยนตามความจริงที่ว่าบางคนมีเวลามากขึ้นในการแสดงอาการ ดูเหมือนว่าความน่าจะเป็นของการลุกเป็นไฟจะแปรผันตามความยาวของระยะเวลาติดตามผล มันไม่ชัดเจนสำหรับฉันในทางคณิตศาสตร์ว่าไบนารีโมเดลที่มีอ็อฟเซ็ตบันทึกสัญชาตญาณนี้อย่างไร (เหมือนกับปัวซง) ออฟเซ็ตเป็นตัวเลือกมาตรฐานทั้งในStata (หน้า 1666)และRและฉันสามารถเห็นมันสำหรับปัวซองได้อย่างง่ายดายแต่กรณีไบนารีนั้นเป็นบิตทึบแสง ตัวอย่างเช่นถ้าเรามี นี่คือพีชคณิตเทียบเท่ากับแบบจำลองที่ไหน ซึ่งเป็นรูปแบบมาตรฐานที่มีค่าสัมประสิทธิ์ในบีบบังคับให้1นี้เรียกว่าลอการิทึมชดเชย ฉันมีปัญหาในการหาวิธีการทำงานนี้ถ้าเราแทนที่กับหรือ()E[y|x]Z=exp{x′β},E[y|x]Z=exp⁡{x′β},\begin{equation} \frac{E[y \vert x]}{Z}=\exp\{x'\beta\}, \end{equation}E[y|x]=exp{x′β+logZ},E[y|x]=exp⁡{x′β+log⁡Z},\begin{equation}E[y \vert x]=\exp\{x'\beta+\log{Z}\}, \end{equation}logZlog⁡Z\log Z111exp{}exp⁡{}\exp\{\}Φ()Φ()\Phi()Λ()Λ()\Lambda() อัปเดต # 1: กรณี logit ถูกอธิบายด้านล่าง อัปเดต # 2: นี่คือคำอธิบายของสิ่งที่ดูเหมือนว่าเป็นการใช้หลักของ offsets สำหรับโมเดลที่ไม่ใช่ปัวซองเช่น probit ออฟเซ็ตสามารถใช้ในการทดสอบอัตราส่วนความน่าจะเป็นของสัมประสิทธิ์ฟังก์ชั่นดัชนี ก่อนอื่นให้คุณประเมินโมเดลที่ไม่มีข้อ จำกัด และจัดเก็บค่าประมาณ สมมติว่าคุณต้องการที่จะทดสอบสมมติฐานที่ว่า 2 จากนั้นคุณสร้างตัวแปรให้พอดีกับแบบจำลองและใช้เป็นออฟเซ็ตที่ไม่ใช่ลอการิทึม นี่เป็นโมเดลที่มีข้อ จำกัด การทดสอบ LR …

3
ฉันควรใช้การชดเชยสำหรับ Poisson GLM ของฉันหรือไม่
ฉันกำลังทำการวิจัยเพื่อดูความแตกต่างของความหนาแน่นของปลาและความร่ำรวยของสายพันธุ์ปลาเมื่อใช้วิธีการสำรวจสำมะโนประชากรด้วยภาพใต้น้ำสองวิธี เดิมข้อมูลของฉันถูกนับข้อมูล แต่โดยทั่วไปแล้วนี่จะเปลี่ยนเป็นความหนาแน่นของปลา แต่ฉันยังคงตัดสินใจใช้ Poisson GLM ซึ่งฉันหวังว่าถูกต้อง model1 <- glm(g_den ~ method + site + depth, poisson) ตัวแปรทำนาย 3 ตัวของฉันคือวิธีเว็บไซต์และความลึกซึ่งฉันสั่งเป็นปัจจัยเมื่อฉันป้อนพวกเขา ตัวแปรการตอบสนองของฉันคือความอุดมสมบูรณ์ของปลากะรัง, ความหนาแน่นของปลาเก๋าและเหมือนกันสำหรับกลุ่มปลาอื่น ๆ ฉันทราบว่าความหนาแน่นไม่ใช่จำนวนเต็มและเป็นข้อมูลตัวเลขเช่น 1.34849 ตอนนี้ฉันได้รับข้อผิดพลาดนี้: In dpois(y, mu, log = TRUE) : non-integer x = 0.037500 ฉันอ่านมาแล้วหลายคนแนะนำให้ใช้การชดเชยนี่เป็นสิ่งที่แนะนำให้ทำมากที่สุดหรือไม่?

1
R ตัวแปรเชิงเส้นถดถอยหมวดหมู่ "ซ่อน" ค่า
นี่เป็นเพียงตัวอย่างที่ฉันเจอหลายครั้งดังนั้นฉันจึงไม่มีข้อมูลตัวอย่าง ใช้แบบจำลองการถดถอยเชิงเส้นใน R: a.lm = lm(Y ~ x1 + x2) x1เป็นตัวแปรต่อเนื่อง x2เป็นหมวดหมู่และมีสามค่าเช่น "ต่ำ", "ปานกลาง" และ "สูง" อย่างไรก็ตามเอาต์พุตที่กำหนดโดย R จะเป็นดังนี้: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 ฉันเข้าใจว่า R แนะนำการเข้ารหัสแบบหลอกบางอย่างเกี่ยวกับปัจจัยดังกล่าว ( …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

3
การสร้างแบบจำลองข้อมูลนับที่ตัวแปรออฟเซ็ตเป็น 0 สำหรับการสังเกตบางอย่าง
ฉันพยายามช่วยนักเรียนของเพื่อนร่วมงาน นักเรียนสังเกตและนับพฤติกรรมของนก (จำนวนสาย) ในชุดทดลอง จำนวนการโทรที่เกี่ยวข้องกับนกที่สังเกตได้เฉพาะในระหว่างการทดสอบแต่ละครั้งไม่สามารถระบุได้ แต่สามารถนับจำนวนนกที่สนับสนุนการบันทึกการโทรได้ ดังนั้นข้อเสนอแนะครั้งแรกของฉันคือการใส่หมายเลขของนกเป็นระยะชดเชยในรูปแบบ Poisson GLM เพราะฉะนั้นเราจะกระชับจำนวนที่คาดหวังของสายต่อนก ปัญหานี้คือว่าในช่วงเวลาที่สังเกตหลายครั้งไม่มีนก (และดังนั้นจึงไม่มีสาย) ถูกสังเกต ซอฟแวร์ (R ในกรณีนี้) บ่นเพราะ (R บ่นเกี่ยวกับการที่มีข้อมูล แต่ที่เป็นอย่างหมดจดผลมาจากการถูก)เข้าสู่ระบบ( 0 ) = - infเข้าสู่ระบบ⁡(0)=-INF\log(0) = -\infy-Infoffset(log(nbirds))-Inf ฉันสงสัยว่าจริง ๆ แล้วเราจำเป็นต้องมีแบบจำลองอุปสรรค์ (หรือคล้ายกัน) ที่เรามีรูปแบบทวินามแยกต่างหากสำหรับ "การสังเกตการโทร" (หรือไม่) และแบบจำลองการนับที่ถูกตัดทอนสำหรับจำนวนการโทร (ต่อนก) ในสถานการณ์ที่มีการโทรโดยที่เรารวมคำศัพท์ชดเชยเฉพาะในส่วนการนับของแบบจำลอง ต้องลองสิ่งนี้โดยใช้แพ็คเกจpsclใน R แต่ฉันยังคงได้รับข้อผิดพลาดเดิม: mod1 <- hurdle(NumberCallsCOPO ~ Condition * MoonVis + offset(log(NumberCOPO)) | …

1
ทำนายปัวซอง GLM พร้อมออฟเซ็ต
ฉันรู้ว่านี่อาจเป็นคำถามพื้นฐาน ... แต่ฉันดูเหมือนจะไม่พบคำตอบ ฉันเหมาะสมกับ GLM กับครอบครัวปัวซงแล้วลองดูการคาดคะเน แต่สิ่งที่พิจารณาจะนำมาพิจารณา: model_glm=glm(cases~rhs(data$year,2003)+lhs(data$year,2003), offset=(log(population)), data=data, subset=28:36, family=poisson()) predict (model_glm, type="response") ฉันได้รับคดีไม่ใช่อัตรา ... ฉันได้ลองแล้วเช่นกัน model_glm=glm(cases~rhs(data$year,2003)+lhs(data$year,2003)+ offset(log(population)), data=data, subset=28:36, family=poisson()) ด้วยผลลัพธ์เดียวกัน อย่างไรก็ตามเมื่อฉันทำนายจาก GAM โดยใช้ mgcv การคาดคะเนจะพิจารณาการชดเชย (ฉันได้รับอัตรา) ฉันทำอะไรบางอย่างหายไป?
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.