คำถามติดแท็ก generalized-linear-model

ลักษณะทั่วไปของการถดถอยเชิงเส้นที่อนุญาตให้มีความสัมพันธ์แบบไม่เชิงเส้นผ่าน "ฟังก์ชันลิงก์" และสำหรับความแปรปรวนของการตอบสนองขึ้นอยู่กับค่าที่ทำนายไว้ (เพื่อไม่ให้สับสนกับ "โมเดลเชิงเส้นทั่วไป" ซึ่งขยายโมเดลเชิงเส้นปกติไปยังโครงสร้างความแปรปรวนร่วมทั่วไปและการตอบสนองหลายตัวแปร)

2
การใช้ข้อมูลนับเป็นตัวแปรอิสระละเมิดสมมติฐาน GLM ใด ๆ หรือไม่
ฉันต้องการใช้ข้อมูลนับเป็น covariates ในขณะที่เหมาะสมกับรูปแบบการถดถอยโลจิสติก คำถามของฉันคือ: ฉันจะละเมิดสมมติฐานใด ๆ ของโมเดลโลจิสติกส์ (และโดยทั่วไปของโมเดลเชิงเส้นทั่วไป) โดยใช้การนับตัวแปรที่ไม่เป็นลบจำนวนเต็มเป็นตัวแปรอิสระหรือไม่? ฉันพบการอ้างอิงจำนวนมากในวรรณคดีที่เกี่ยวกับการใช้ข้อมูลนับร้อนเป็นผลลัพธ์ แต่ไม่เป็น covariates ดูตัวอย่างกระดาษที่ชัดเจนมาก: "NE Breslow (1996) โมเดลเชิงเส้นทั่วไป: การตรวจสอบข้อสรุปและการเสริมสร้างข้อสรุป, Congresso Nazionale Societa Italianeta di Biometria, Cortona มิถุนายน 1995", มีอยู่ที่ http://biostat.georgiahealth.edu/~dryu /course/stat9110spring12/land16_ref.pdf พูดอย่างหลวม ๆ ดูเหมือนว่าสมมติฐาน GLM อาจแสดงได้ดังนี้: iid ส่วนที่เหลือ; ฟังก์ชั่นลิงค์จะต้องแสดงความสัมพันธ์ระหว่างตัวแปรอิสระและตัวแปรอิสระอย่างถูกต้อง กรณีที่ไม่มีค่าผิดปกติ ทุกคนทราบหรือไม่ว่ามีข้อสันนิษฐานอื่น ๆ / ปัญหาทางเทคนิคที่อาจแนะนำให้ใช้รูปแบบอื่น ๆ เพื่อจัดการกับ covariates นับหรือไม่? ท้ายที่สุดโปรดสังเกตว่าข้อมูลของฉันมีตัวอย่างค่อนข้างน้อย (<100) และช่วงการนับตัวแปรอาจแตกต่างกันภายใน …

2
ฉันสามารถใช้อัลกอริทึม glm เพื่อทำการถดถอยโลจิสติกพหุนาม
ฉันใช้สปอตไฟร์ (S ++) สำหรับการวิเคราะห์ทางสถิติในโครงการของฉันและฉันต้องเรียกใช้การถดถอยโลจิสติกหลายมิติสำหรับชุดข้อมูลขนาดใหญ่ ฉันรู้ว่าอัลกอริทึมที่ดีที่สุดจะเป็น mlogit แต่น่าเสียดายที่มันไม่สามารถใช้ได้ใน s ++ อย่างไรก็ตามฉันมีตัวเลือกในการใช้อัลกอริทึม glm สำหรับการถดถอยนี้ ฉันต้องการชี้แจงสองสิ่งที่นี่: 1. ความเข้าใจของฉันถูกต้องหรือไม่ที่ glm สามารถใช้ในการรัน Multinomial Logistic Regression ได้? หากตอบคำถามก่อนหน้านี้คือใช่แล้วพารามิเตอร์ใดที่ควรใช้ใน glm algo ขอบคุณ

3
คะแนนทดสอบเป็นไปตามการแจกแจงปกติหรือไม่
ฉันพยายามเรียนรู้ว่าการแจกแจงแบบใดที่จะใช้ใน GLMs และฉันสับสนเล็กน้อยเมื่อต้องใช้การแจกแจงแบบปกติ ในส่วนหนึ่งของตำราเรียนของฉันบอกว่าการแจกแจงแบบปกติอาจจะดีสำหรับการทำแบบจำลองคะแนนสอบ ในส่วนถัดไปมันจะถามว่าการจัดจำหน่ายแบบใดที่เหมาะสมในการสร้างแบบจำลองการเคลมประกันรถยนต์ เวลานี้มันบอกว่าการแจกแจงที่เหมาะสมจะเป็นแกมม่าหรืออินเวอร์สเกาส์เนื่องจากพวกมันมีค่าบวกอย่างต่อเนื่องเท่านั้น ฉันเชื่อว่าคะแนนสอบจะต่อเนื่องกับค่าบวกเท่านั้นดังนั้นทำไมเราถึงใช้การแจกแจงแบบปกติที่นั่น? การแจกแจงปกติไม่อนุญาตสำหรับค่าลบหรือไม่

3
ใน GLM ความเป็นไปได้ของบันทึกของโมเดลอิ่มตัวมักเป็นศูนย์หรือไม่?
ในฐานะที่เป็นส่วนหนึ่งของเอาท์พุทของตัวแบบเชิงเส้นแบบทั่วไปนั้นการเบี่ยงเบนแบบ null และส่วนที่เหลือจะถูกใช้ในการประเมินแบบจำลอง ฉันมักจะเห็นสูตรสำหรับปริมาณเหล่านี้แสดงในแง่ของโอกาสในการเข้าสู่ระบบของรูปแบบอิ่มตัวเช่น: /stats//a/113022/22199 , ถดถอยโลจิสติ: วิธีการที่จะได้รับรูปแบบการอิ่มตัว แบบจำลองที่อิ่มตัวตามที่ฉันเข้าใจเป็นแบบจำลองที่เหมาะสมกับการตอบสนองที่สังเกตได้อย่างสมบูรณ์แบบ ดังนั้นในสถานที่ส่วนใหญ่ที่ฉันเคยเห็นความเป็นไปได้ของแบบจำลองความอิ่มตัวจะได้รับเป็นศูนย์เสมอ ทว่าวิธีการกำหนดสูตรการเบี่ยงเบนแสดงให้เห็นว่าบางครั้งปริมาณนี้ไม่ใช่ศูนย์ (ราวกับว่ามันเป็นศูนย์เสมอทำไมต้องรวมมันด้วย) ในกรณีใดบ้างที่ไม่เป็นศูนย์ ถ้าไม่ใช่ศูนย์ไม่ใช่ทำไมรวมไว้ในสูตรสำหรับการเบี่ยงเบน

2
R: ฟังก์ชั่น glm พร้อมตระกูล = ข้อมูลจำเพาะ "ทวินาม" และ "น้ำหนัก"
ฉันสับสนมากกับการทำงานของน้ำหนักใน glm กับครอบครัว = "ทวินาม" ในความเข้าใจของฉันความเป็นไปได้ของ glm กับครอบครัว = "ทวินาม" ระบุไว้ดังนี้: f(y)=(nny)pny(1−p)n(1−y)=exp(n[ylogp1−p−(−log(1−p))]+log(nny))f(y)=(nny)pny(1−p)n(1−y)=exp⁡(n[ylog⁡p1−p−(−log⁡(1−p))]+log⁡(nny)) f(y) = {n\choose{ny}} p^{ny} (1-p)^{n(1-y)} = \exp \left(n \left[ y \log \frac{p}{1-p} - \left(-\log (1-p)\right) \right] + \log {n \choose ny}\right) โดยที่yyyคือ "สัดส่วนของความสำเร็จที่สังเกต" และnnnคือจำนวนการทดลองที่ทราบ ในความเข้าใจของฉันความน่าจะเป็นที่จะประสบความสำเร็จpppถูกเปรียบเทียบกับสัมประสิทธิ์เชิงเส้นββ\betaเป็นp=p(β)p=p(β)p=p(\beta)และฟังก์ชัน glm กับครอบครัว = "ทวินาม" ค้นหา: argmaxβ∑ilogf(yi).argmaxβ∑ilog⁡f(yi). \textrm{arg}\max_{\beta} \sum_i \log f(y_i). ดังนั้นปัญหาการปรับให้เหมาะสมนี้สามารถทำให้ง่ายขึ้นเป็น: หาเรื่องสูงสุดβΣผมเข้าสู่ระบบฉ( yผม) …

2
วิธีตีความการประมาณค่าพารามิเตอร์ในผลลัพธ์ Poisson GLM [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน5 ปีที่ผ่านมา Call: glm(formula = darters ~ river + pH + temp, family = poisson, data = darterData) Deviance Residuals: Min 1Q Median 3Q Max -3.7422 -1.0257 0.0027 0.7169 3.5347 Coefficients: Estimate Std.Error z value Pr(>|z|) (Intercept) 3.144257 0.218646 14.381 < 2e-16 *** riverWatauga -0.049016 …

1
Poisson Regression มีข้อผิดพลาดหรือไม่?
ฉันแค่สงสัยว่าปัวซงถดถอยนั้นมีข้อผิดพลาดหรือไม่? การถดถอยของปัวซองนั้นมีผลแบบสุ่มและมีข้อผิดพลาดหรือไม่? ฉันสับสนเกี่ยวกับประเด็นนี้ ในการถดถอยโลจิสติกไม่มีคำผิดพลาดเพราะตัวแปรผลลัพธ์ของคุณเป็นไบนารี นั่นเป็นรุ่น glm เดียวที่ไม่มีเทอมหรือเปล่า?

1
R-squared ในแบบจำลองเชิงเส้นข้อเบี่ยงเบนในแบบจำลองเชิงเส้นทั่วไป?
นี่คือบริบทของฉันสำหรับคำถามนี้: จากสิ่งที่ฉันสามารถบอกได้เราไม่สามารถเรียกใช้การถดถอยกำลังสองน้อยสุดธรรมดาใน R เมื่อใช้ข้อมูลที่มีน้ำหนักและsurveyแพคเกจ ที่นี่เราต้องใช้svyglm()ซึ่งใช้โมเดลเชิงเส้นทั่วไปแทน (ซึ่งอาจเป็นสิ่งเดียวกันหรือไม่ฉันคลุมเครือที่นี่ในแง่ของสิ่งที่แตกต่างกัน) ใน OLS และผ่านlm()ฟังก์ชั่นมันจะคำนวณค่า R-squared ซึ่งเป็นการตีความที่ฉันเข้าใจ อย่างไรก็ตามsvyglm()ดูเหมือนจะไม่สามารถคำนวณสิ่งนี้ได้และให้ค่าเบี่ยงเบนมาตรฐานแทนซึ่งการเดินทางสั้น ๆ รอบอินเทอร์เน็ตของฉันบอกฉันว่าเป็นการวัดความดีที่พอดีซึ่งตีความได้แตกต่างจาก R-squared ดังนั้นฉันเดาว่าฉันมีคำถามสองข้อที่ฉันหวังว่าจะได้รับทิศทาง: ทำไมเราไม่สามารถเรียกใช้ OLS ในsurveyแพ็คเกจได้ แต่ดูเหมือนว่าเป็นไปได้ที่จะทำกับข้อมูลที่มีน้ำหนักใน Stata อะไรคือความแตกต่างในการตีความระหว่างความเบี่ยงเบนของตัวแบบเส้นตรงทั่วไปกับค่า r-squared?

1
สมมติฐานของโมเดลเชิงเส้นทั่วไป
ฉันสร้างโมเดลเชิงเส้นแบบทั่วไปพร้อมตัวแปรตอบกลับเดียว (กระจายต่อเนื่อง / ปกติ) และตัวแปรอธิบาย 4 ตัว (3 ตัวซึ่งเป็นปัจจัยและตัวที่สี่คือจำนวนเต็ม) ฉันใช้การแจกแจงข้อผิดพลาดแบบเกาส์กับฟังก์ชั่นลิงค์ตัวตนแล้ว ขณะนี้ฉันกำลังตรวจสอบว่าแบบจำลองเป็นไปตามสมมติฐานของโมเดลเชิงเส้นทั่วไปซึ่ง ได้แก่ : ความเป็นอิสระของ Y ฟังก์ชั่นลิงค์ที่ถูกต้อง สเกลที่ถูกต้องของการวัดตัวแปรอธิบาย ไม่มีข้อสังเกตที่มีอิทธิพล คำถามของฉันคือฉันจะตรวจสอบว่าแบบจำลองตรงตามสมมติฐานเหล่านี้ได้อย่างไร ดูเหมือนว่าจุดเริ่มต้นที่ดีที่สุดคือการวางแผนการตอบสนองต่อตัวแปรอธิบายแต่ละตัว อย่างไรก็ตามตัวแปรอธิบาย 3 ตัวนั้นจัดอยู่ในหมวดหมู่ (ที่มีระดับ 1-4) ดังนั้นฉันควรมองหาอะไรในแปลง นอกจากนี้ฉันต้องตรวจสอบความหลากหลายและความสัมพันธ์ระหว่างตัวแปรอธิบายหรือไม่? ถ้าใช่ฉันจะทำสิ่งนี้กับตัวแปรอธิบายอย่างละเอียดได้อย่างไร

2
ใช้ R สำหรับ GLM ด้วยการกระจายแกมม่า
ขณะนี้ฉันมีปัญหาในการทำความเข้าใจไวยากรณ์สำหรับ R เพื่อปรับ GLM ให้เหมาะสมโดยใช้การแจกแจงแกมมา ฉันมีชุดข้อมูลซึ่งแต่ละแถวมี 3 co-variates ( ), ตัวแปรตอบกลับ ( Y ) และพารามิเตอร์รูปร่าง ( K ) ฉันต้องการจำลองสเกลของการแจกแจงแกมม่าเป็นฟังก์ชันเชิงเส้นของสามตัวแปร แต่ฉันไม่เข้าใจวิธีตั้งค่ารูปร่างของการแจกแจงเป็นKสำหรับแต่ละแถวของข้อมูลX1,X2,X3X1,X2,X3X_1, X_2, X_3YYYKKKKKK สถานการณ์ที่ฉันคิดว่าคล้ายคลึงกันคือสำหรับการแจกแจงแบบทวินาม GLM ต้องการให้ทราบจำนวนการทดลอง ( ) สำหรับการป้อนข้อมูลแต่ละครั้งNNN

1
การตีความเอาต์พุต. L & .Q จาก GLM ทวินามลบที่มีข้อมูลหมวดหมู่
ฉันเพิ่งวิ่ง GLM ลบแบบทวินามและนี่คือผลลัพธ์: Call: glm.nb(formula = small ~ method + site + depth, data = size.dat, init.theta = 1.080668549, link = log) Deviance Residuals: Min 1Q Median 3Q Max -2.2452 -0.9973 -0.3028 0.3864 1.8727 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.6954 0.1152 14.720 < 2e-16 *** method.L -0.6828 …

1
อะไรคือความแตกต่างระหว่างการถดถอยโลจิสติกและการถดถอยการตอบสนองแบบเศษส่วน?
เท่าที่ฉันทราบความแตกต่างระหว่างตัวแบบโลจิสติกและตัวแบบการตอบสนองแบบเศษส่วน (frm) คือตัวแปรตาม (Y) ซึ่ง frm คือ [0,1] แต่โลจิสติกคือ {0, 1} นอกจากนี้ frm ใช้ตัวประมาณค่าความน่าจะเป็นในการกำหนดพารามิเตอร์ โดยปกติเราสามารถใช้เพื่อให้ได้รูปแบบโลจิสติกโดยglmglm(y ~ x1+x2, data = dat, family = binomial(logit)) สำหรับ FRM เราเปลี่ยนไป family = binomial(logit)family = quasibinomial(logit) ฉันสังเกตเห็นว่าเรายังสามารถใช้family = binomial(logit)เพื่อรับพารามิเตอร์ของ frm เพราะมันให้ค่าประมาณเดียวกัน ดูตัวอย่างต่อไปนี้ library(foreign) mydata <- read.dta("k401.dta") glm.bin <- glm(prate ~ mrate + age + sole …

2
การกระจายตัวใน summary.glm ()
ฉันทำ glm.nb โดย glm1<-glm.nb(x~factor(group)) กับกลุ่มที่เป็น categorial และ x เป็นตัวแปรเมทริกซ์ เมื่อฉันพยายามที่จะได้รับการสรุปผลที่ฉันได้รับผลลัพธ์ที่แตกต่างกันเล็กน้อยขึ้นอยู่กับว่าผมใช้หรือsummary() ให้ฉันsummary.glmsummary(glm1) ... Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.1044 0.1519 0.687 0.4921 factor(gruppe)2 0.1580 0.2117 0.746 0.4555 factor(gruppe)3 0.3531 0.2085 1.693 0.0904 . --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 …

1
ทำความเข้าใจเกี่ยวกับการทำนายจากการถดถอยโลจิสติก
การคาดการณ์ของฉันมาจากแบบจำลองการถดถอยโลจิสติก (glm ใน R) ไม่ได้ล้อมรอบระหว่าง 0 ถึง 1 เหมือนที่ฉันคาดไว้ ความเข้าใจของฉันเกี่ยวกับการถดถอยโลจิสติกคือพารามิเตอร์อินพุตและโมเดลของคุณรวมกันเป็นเส้นตรงและการตอบสนองจะเปลี่ยนเป็นความน่าจะเป็นโดยใช้ฟังก์ชั่นลิงค์ logit เนื่องจากฟังก์ชั่น logit มีขอบเขตระหว่าง 0 ถึง 1 ฉันคาดว่าการคาดการณ์ของฉันจะถูกล้อมรอบระหว่าง 0 ถึง 1 อย่างไรก็ตามนั่นไม่ใช่สิ่งที่ฉันเห็นเมื่อฉันใช้การถดถอยโลจิสติกใน R: data(iris) iris.sub <- subset(iris, Species%in%c("versicolor","virginica")) model <- glm(Species ~ Sepal.Length + Sepal.Width, data = iris.sub, family = binomial(link = "logit")) hist(predict(model)) หากสิ่งใดผลลัพธ์ของการทำนาย (รุ่น) ดูเป็นเรื่องปกติสำหรับฉัน ใครสามารถอธิบายให้ฉันฟังได้ว่าทำไมค่าที่ฉันได้รับไม่ใช่ความน่าจะเป็น

1
เทคนิคการวิเคราะห์อัตราส่วน
ฉันกำลังมองหาคำแนะนำและความคิดเห็นที่เกี่ยวข้องกับการวิเคราะห์อัตราส่วนและอัตรา ในสาขาที่ฉันทำงานวิเคราะห์อัตราส่วนโดยเฉพาะอย่างยิ่งเป็นที่แพร่หลาย แต่ฉันได้อ่านเอกสารสองสามฉบับที่แนะนำว่านี่อาจเป็นปัญหาได้ฉันกำลังคิดถึง: Kronmal, Richard A. 1993. ความสัมพันธ์ปลอมและการเข้าใจผิดของมาตรฐานอัตราส่วนที่มาเยือน วารสารสมาคมสถิติราชวงศ์ A 156 (3): 379-392 และเอกสารที่เกี่ยวข้อง จากสิ่งที่ฉันได้อ่านจนถึงขณะนี้ก็ดูเหมือนว่าอัตราส่วนสามารถสร้างความสัมพันธ์ปลอมเส้นแรงถดถอยผ่านต้นกำเนิด (ซึ่งเป็นสิ่งที่ไม่เหมาะสมเสมอ) และการสร้างแบบจำลองพวกเขาอาจละเมิดหลักการของขอบเขตหากไม่ได้ทำอย่างถูกต้อง ( ใช้อัตราส่วนในการถดถอยโดยริชาร์ดโกลด์สไตน์ ) อย่างไรก็ตามจะต้องมีโอกาสเมื่อการใช้อัตราส่วนเป็นธรรมและฉันต้องการความคิดเห็นจากนักสถิติในหัวข้อนี้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.