คำถามติดแท็ก generalized-linear-model

ลักษณะทั่วไปของการถดถอยเชิงเส้นที่อนุญาตให้มีความสัมพันธ์แบบไม่เชิงเส้นผ่าน "ฟังก์ชันลิงก์" และสำหรับความแปรปรวนของการตอบสนองขึ้นอยู่กับค่าที่ทำนายไว้ (เพื่อไม่ให้สับสนกับ "โมเดลเชิงเส้นทั่วไป" ซึ่งขยายโมเดลเชิงเส้นปกติไปยังโครงสร้างความแปรปรวนร่วมทั่วไปและการตอบสนองหลายตัวแปร)

1
มีปัญหากับความสัมพันธ์แบบหลายค่าและการถดถอยเชิงเส้นหรือไม่
เมื่อใช้ลูกบาศก์ธรรมชาติ (เช่นถูก จำกัด ) Splines ฟังก์ชันพื้นฐานที่สร้างขึ้นนั้นมี collinear สูงและเมื่อใช้ในการถดถอยดูเหมือนจะสร้างสถิติ VIF สูง (ปัจจัยเงินเฟ้อแปรปรวน) สูงมากส่งสัญญาณความหลากหลายทางชีวภาพ เมื่อมีการพิจารณากรณีของแบบจำลองเพื่อการคาดการณ์นี่เป็นปัญหาหรือไม่ ดูเหมือนว่ามันจะเป็นอย่างนั้นเสมอเพราะธรรมชาติของโครงสร้างการสร้างเส้นโค้ง นี่คือตัวอย่างใน R: library(caret) library(Hmisc) library(car) data(GermanCredit) spl_mat<-rcspline.eval(GermanCredit$Amount, nk=5, inclx=TRUE) #natural cubic splines with 5 knots class<-ifelse(GermanCredit$Class=='Bad',1,0) #binary target variable dat<-data.frame(cbind(spl_mat,class)) cor(spl_mat) OUTPUT: x x 1.0000000 0.9386463 0.9270723 0.9109491 0.9386463 1.0000000 0.9994380 0.9969515 0.9270723 0.9994380 1.0000000 0.9989905 …

2
การกระจายตัวของสารตกค้างที่คาดหวังในตัวแบบเชิงเส้นทั่วไปคืออะไร
ฉันกำลังแสดงโมเดลเชิงเส้นทั่วไปที่ฉันต้องระบุครอบครัวที่แตกต่างจากครอบครัวปกติ การกระจายของสารตกค้างที่คาดหวังคืออะไร? ตัวอย่างเช่นส่วนที่เหลือควรกระจายตามปกติ?

2
ปัญหาในการเปรียบเทียบแบบจำลอง GLM ที่มีฟังก์ชั่นลิงก์แตกต่างกัน
ด้วยชุดโควารีและชุดการกระจายเดียวกันฉันจะเปรียบเทียบรุ่นที่มีฟังก์ชั่นลิงค์ต่างกันได้อย่างไร ฉันคิดว่าคำตอบที่ถูกต้องคือ "AIC / BIC" แต่ฉันไม่แน่ใจ 100% เป็นไปได้ไหมที่จะมีรุ่นที่ซ้อนกันหากมีลิงค์อื่นอยู่?

4
วิธีการใช้วิธีกำลังสองน้อยที่สุด (IRLS) ที่ได้รับผลตอบแทนซ้ำกับโมเดล LASSO อย่างไร
ฉันมีโปรแกรมถดถอยโลจิสติกโดยใช้อัลกอริทึม IRLS ฉันต้องการใช้การลงโทษ LASSOเพื่อเลือกคุณสมบัติที่ถูกต้องโดยอัตโนมัติ ในการวนซ้ำแต่ละครั้งจะมีการแก้ไขดังต่อไปนี้: (XTWX)δβ^=XT(y−p)(XTWX)δβ^=XT(y−p)\mathbf{\left(X^TWX\right) \delta\hat\beta=X^T\left(y-p\right)} ให้เป็นจำนวนจริงที่ไม่ลบ ฉันไม่ได้ทำการลงโทษดักตามที่แนะนำในองค์ประกอบของ การเรียนรู้ทางสถิติ เหมือนกันสำหรับสัมประสิทธิ์เป็นศูนย์อยู่แล้ว มิฉะนั้นฉันจะลบคำหนึ่งออกจากด้านขวา:λλ\lambda XT(y−p)−λ×sign(β^)XT(y−p)−λ×sign(β^)\mathbf{X^T\left(y-p\right)-\lambda\times \mathrm{sign}\left(\hat\beta\right)} อย่างไรก็ตามฉันไม่แน่ใจเกี่ยวกับการปรับเปลี่ยนอัลกอริทึม IRLS มันเป็นวิธีที่ถูกต้องหรือไม่ แก้ไข: แม้ว่าฉันไม่มั่นใจเกี่ยวกับเรื่องนี้ แต่นี่เป็นหนึ่งในวิธีแก้ปัญหาที่ฉันได้รับในที่สุด สิ่งที่น่าสนใจคือโซลูชันนี้สอดคล้องกับสิ่งที่ฉันเข้าใจเกี่ยวกับ LASSO ในขณะนี้ แน่นอนว่ามีสองขั้นตอนในการทำซ้ำแต่ละครั้งแทนที่จะเป็นเพียงขั้นตอนเดียว: ขั้นตอนแรกเหมือนกับเมื่อก่อน: เราทำการวนซ้ำของอัลกอริทึม (ราวกับว่าในสูตรสำหรับการไล่ระดับสีด้านบน)λ=0λ=0\lambda=0 ขั้นตอนที่สองคือขั้นตอนใหม่: เราใช้ซอฟต์ในแต่ละองค์ประกอบ (ยกเว้น componentซึ่งสอดคล้องกับการสกัดกั้น) ของ vectorได้รับในขั้นตอนแรก นี้เรียกว่าซ้ำอ่อน Thresholding อัลกอริทึมβ0β0\beta_0ββ\beta ∀i≥1,βi←sign(βi)×max(0,|βi|−λ)∀i≥1,βi←sign(βi)×max(0,|βi|−λ)\forall i \geq 1, \beta_{i}\leftarrow\mathrm{sign}\left(\beta_{i}\right)\times\max\left(0,\,\left|\beta_{i}\right|-\lambda\right)

1
การจัดการแบบจำลองการถดถอยโลจิสติก
ฉันต้องการเข้าใจว่าโค้ดต่อไปนี้กำลังทำอะไร คนที่เขียนรหัสไม่สามารถใช้งานได้ที่นี่อีกต่อไปและเกือบจะไม่มีเอกสารทั้งหมด ฉันถูกขอให้ตรวจสอบโดยคนที่คิดว่า " เป็นแบบจำลองการถดถอยโลจิสติกแบบเบย์ " bglm <- function(Y,X) { # Y is a vector of binary responses # X is a design matrix fit <- glm.fit(X,Y, family = binomial(link = logit)) beta <- coef(fit) fs <- summary.glm(fit) M <- t(chol(fs$cov.unscaled)) betastar <- beta + M %*% rnorm(ncol(M)) p <- …

4
การถดถอยปัวซองมีข้อดีอะไรบ้างในกรณีนี้การถดถอยเชิงเส้น
ฉันได้รับชุดข้อมูลที่มีจำนวนรางวัลที่นักเรียนได้รับจากโรงเรียนมัธยมแห่งหนึ่งซึ่งผู้ทำนายจำนวนรางวัลที่ได้รับนั้นรวมถึงประเภทของโปรแกรมที่นักเรียนลงทะเบียนและคะแนนสอบปลายภาคในวิชาคณิตศาสตร์ ฉันสงสัยว่าถ้าใครสามารถบอกฉันได้ว่าทำไมแบบจำลองการถดถอยเชิงเส้นอาจไม่เหมาะสมในตัวอย่างนี้และทำไมมันจะดีกว่าถ้าใช้การถดถอยแบบปัวซอง ขอบคุณ

1
ฟังก์ชันต้นทุนสำหรับการตรวจสอบแบบจำลองการถดถอยของปัวซอง
สำหรับข้อมูลนับที่ฉันรวบรวมฉันใช้การถดถอยปัวซองเพื่อสร้างแบบจำลอง ฉันไม่นี้โดยใช้ฟังก์ชั่นในการวิจัยที่ผมใช้glm family = "poisson"เพื่อประเมินตัวแบบที่เป็นไปได้ (ฉันมีตัวทำนายหลายตัว) ฉันใช้ AIC จนถึงตอนนี้ดีมาก ตอนนี้ฉันต้องการทำการตรวจสอบข้าม ฉันประสบความสำเร็จในการทำสิ่งนี้โดยใช้cv.glmฟังก์ชั่นจากbootแพ็คเกจ จากเอกสารของcv.glmฉันเห็นว่าเช่นสำหรับข้อมูลทวินามคุณต้องใช้ฟังก์ชั่นค่าใช้จ่ายเฉพาะเพื่อรับข้อผิดพลาดการทำนายที่มีความหมาย อย่างไรก็ตามฉันไม่รู้เลยว่าฟังก์ชั่นค่าใช้จ่ายใดเหมาะสมfamily = poissonและการค้นหาโดย Google ที่กว้างขวางไม่ได้ให้ผลลัพธ์ที่เฉพาะเจาะจง คำถามของฉันคือทุกคนมีแสงที่จะหลั่งซึ่งฟังก์ชันต้นทุนเหมาะสมสำหรับcv.glmกรณีของ poisson glm

1
เหมาะสมกับฟังก์ชันเลขชี้กำลังโดยใช้กำลังสองน้อยที่สุดเทียบกับโมเดลเชิงเส้นทั่วไปกับสี่เหลี่ยมจัตุรัสไม่เชิงเส้นน้อยที่สุด
ฉันมีชุดข้อมูลที่แสดงถึงการสลายตัวแบบเลขชี้กำลัง ฉันต้องการใส่ฟังก์ชั่นเลขชี้กำลังกับข้อมูลนี้ ฉันได้ลองบันทึกการเปลี่ยนตัวแปรการตอบสนองแล้วใช้กำลังสองน้อยที่สุดเพื่อให้พอดีกับเส้น ใช้โมเดลเชิงเส้นทั่วไปที่มีฟังก์ชั่นบันทึกการเชื่อมโยงและการกระจายแกมม่ารอบ ๆ ตัวแปรตอบสนอง; และใช้กำลังสองน้อยที่สุดแบบไม่เชิงเส้น ฉันได้รับคำตอบที่แตกต่างกันสำหรับสัมประสิทธิ์สองตัวของฉันในแต่ละวิธีแม้ว่ามันจะคล้ายกันทั้งหมด ที่ฉันมีความสับสนคือฉันไม่แน่ใจว่าวิธีใดดีที่สุดที่จะใช้และทำไม ใครบางคนช่วยเปรียบเทียบและเปรียบเทียบวิธีการเหล่านี้ได้ไหม ขอบคุณ.y=Beaxy=Beaxy = Be^{ax}

1
ฟังก์ชัน "ค่าเริ่มต้น" ในฟังก์ชัน glm () คืออะไร
สิ่งที่เป็นพารามิเตอร์start, etastart, mustartในGLM () ฟังก์ชั่น ? ฉันได้ดูเอกสารและอินเทอร์เน็ต แต่ฉันไม่พบคำอธิบายที่ชัดเจนว่ามันหมายถึงอะไร มันคล้ายกับ Bayesian "ค่าเริ่มต้น" สำหรับกลุ่ม แต่ฉันสงสัยว่ามันเกี่ยวข้องกับเนื่องจากฟังก์ชัน glm () ใน R เป็นสถิติที่ใช้บ่อย ...

1
การคำนวณฟังก์ชั่นลิงก์แบบบัญญัติใน GLM
ฉันคิดว่าฟังก์ชั่น canonical linkมาจากพารามิเตอร์ธรรมชาติของตระกูล exponential พูดดูครอบครัว ดังนั้นคือฟังก์ชันลิงก์แบบบัญญัติ ใช้การกระจาย Bernoulliเป็นตัวอย่างเรามี ดังนั้นฟังก์ชันลิงก์แบบบัญญัติg(⋅)g(⋅)g(\cdot)f(y,θ,ψ)=exp{yθ−b(θ)a(ψ)−c(y,ψ)}f(y,θ,ψ)=exp⁡{yθ−b(θ)a(ψ)−c(y,ψ)} f(y,\theta,\psi)=\exp\left\{\frac{y\theta-b(\theta)}{a(\psi)}-c(y,\psi)\right\} θ=θ(μ)θ=θ(μ)\theta=\theta(\mu)P(Y=y)=μy(1−μ)1−y=exp{ylogμ1−μ+log(1−μ)}P(Y=y)=μy(1−μ)1−y=exp⁡{ylog⁡μ1−μ+log⁡(1−μ)} P(Y=y)=\mu^{y}(1-\mu)^{1-y}=\exp\left\{y\log\frac{\mu}{1-\mu}+\log{(1-\mu)}\right\} g(μ)=logμ1−μg(μ)=log⁡μ1−μg(\mu)=\log\frac{\mu}{1-\mu} แต่เมื่อฉันเห็นสไลด์นี้มันก็อ้างว่า g′(μ)=1V(μ)g′(μ)=1V(μ) g'(\mu)=\frac{1}{V(\mu)} แม้ว่ามันจะสามารถตรวจสอบได้ง่ายสำหรับการแจกแจงนี้โดยเฉพาะ (และการแจกแจงอื่น ๆ เช่นการแจกแจงปัวซอง) ฉันไม่เห็นความเท่าเทียมกันของกรณีทั่วไป ใครสามารถให้คำแนะนำได้บ้าง ขอบคุณ ~

1
ควรใช้การแก้ไของศาอิสระเพื่ออนุมานพารามิเตอร์ GLM หรือไม่?
คำถามนี้เป็นคำถามแรงบันดาลใจจากคำตอบ Martijn ของที่นี่ สมมติว่าเราเหมาะกับ GLM สำหรับหนึ่งพารามิเตอร์ตระกูลเช่นแบบทวินามหรือปัวซองและเป็นขั้นตอนที่น่าจะเป็นแบบเต็ม (ตรงข้ามกับ quasipoisson) จากนั้นความแปรปรวนเป็นฟังก์ชันของค่าเฉลี่ย ด้วยทวินาม:และ Poisson[X]var[X]=E[X]E[1−X]var[X]=E[X]E[1−X]\text{var}[X] = E[X]E[1-X]var[X]=E[X]var[X]=E[X]\text{var}[X] = E[X] ซึ่งแตกต่างจากการถดถอยเชิงเส้นเมื่อส่วนที่เหลือมีการแจกแจงปกติ, จำกัด การกระจายตัวอย่างที่แน่นอนของสัมประสิทธิ์เหล่านี้ไม่เป็นที่รู้จักมันเป็นชุดที่อาจซับซ้อนของผลลัพธ์และ covariates นอกจากนี้การใช้ประมาณการ GLM ของค่าเฉลี่ยที่นำมาใช้เป็นปลั๊กอินสำหรับประมาณการความแปรปรวนของผลที่ เช่นเดียวกับการถดถอยเชิงเส้นสัมประสิทธิ์มีการแจกแจงปกติแบบซีมโทติคและในการอนุมานตัวอย่าง จำกัด เราสามารถประมาณการกระจายตัวตัวอย่างด้วยเส้นโค้งปกติ คำถามของฉันคือ: เราได้อะไรจากการประมาณค่าการแจกแจงแบบ T กับการกระจายตัวตัวอย่างของสัมประสิทธิ์ในตัวอย่าง จำกัด หรือไม่? ในอีกด้านหนึ่งเรารู้ความแปรปรวน แต่เราไม่ทราบการกระจายที่แน่นอนดังนั้นการประมาณ T ดูเหมือนจะเป็นทางเลือกที่ผิดเมื่อตัวประมาณ bootstrap หรือ jackknife สามารถอธิบายความคลาดเคลื่อนเหล่านี้ได้อย่างเหมาะสม ในทางกลับกันบางทีความอนุรักษ์นิยมเล็กน้อยของการแจกแจงแบบทีเป็นที่นิยมในทางปฏิบัติ

3
ฉันควรใช้การชดเชยสำหรับ Poisson GLM ของฉันหรือไม่
ฉันกำลังทำการวิจัยเพื่อดูความแตกต่างของความหนาแน่นของปลาและความร่ำรวยของสายพันธุ์ปลาเมื่อใช้วิธีการสำรวจสำมะโนประชากรด้วยภาพใต้น้ำสองวิธี เดิมข้อมูลของฉันถูกนับข้อมูล แต่โดยทั่วไปแล้วนี่จะเปลี่ยนเป็นความหนาแน่นของปลา แต่ฉันยังคงตัดสินใจใช้ Poisson GLM ซึ่งฉันหวังว่าถูกต้อง model1 <- glm(g_den ~ method + site + depth, poisson) ตัวแปรทำนาย 3 ตัวของฉันคือวิธีเว็บไซต์และความลึกซึ่งฉันสั่งเป็นปัจจัยเมื่อฉันป้อนพวกเขา ตัวแปรการตอบสนองของฉันคือความอุดมสมบูรณ์ของปลากะรัง, ความหนาแน่นของปลาเก๋าและเหมือนกันสำหรับกลุ่มปลาอื่น ๆ ฉันทราบว่าความหนาแน่นไม่ใช่จำนวนเต็มและเป็นข้อมูลตัวเลขเช่น 1.34849 ตอนนี้ฉันได้รับข้อผิดพลาดนี้: In dpois(y, mu, log = TRUE) : non-integer x = 0.037500 ฉันอ่านมาแล้วหลายคนแนะนำให้ใช้การชดเชยนี่เป็นสิ่งที่แนะนำให้ทำมากที่สุดหรือไม่?

2
แบบจำลอง logit แบบเบส์ - คำอธิบายที่เข้าใจง่าย?
ฉันต้องยอมรับว่าก่อนหน้านี้ฉันไม่เคยได้ยินคำศัพท์นั้นในชั้นเรียนระดับปริญญาตรีหรือปริญญาโทเลย การถดถอยโลจิสติกหมายถึง Bayesian หมายความว่าอย่างไร ฉันกำลังมองหาคำอธิบายเกี่ยวกับการเปลี่ยนจากโลจิสติกส์ธรรมดาเป็นโลจิสติกส์แบบเบย์ดังต่อไปนี้: นี่คือสมการในรูปแบบการถดถอยเชิงเส้น:\E(y)=β0+β1x1+...+βnxnE(y)=β0+β1x1+...+βnxnE(y) = \beta_0 + \beta_1x_1 + ... + \beta_nx_n นี่คือสมการในรูปแบบการถดถอยโลจิสติก:\ สิ่งนี้จะกระทำเมื่อ y เป็นหมวดหมู่LN( E( y)1 - E( y)) = β0+ β1x1+ . . . + βnxnln⁡(E(y)1−E(y))=β0+β1x1+...+βnxn\ln(\frac{E(y)}{1-E(y)}) = \beta_0 + \beta_1x_1 + ... + \beta_nx_n สิ่งที่เราทำคือการเปลี่ยนแปลงเพื่อ\ LN (\ frac {E (y)} {1-E (y)})ln ( E ( …

1
มีการแจกแจงจำนวนเท่าไรใน GLM
ฉันได้ระบุสถานที่หลายแห่งในตำราเรียนที่อธิบาย GLM ด้วยการแจกแจง 5 แบบ ได้แก่ (, Gamma, Gaussian, Binomial, Inverse Gaussian, & Poisson) นี่คือสุดขั้วในหน้าที่ของครอบครัวในอาร์ บางครั้งฉันเจอการอ้างอิงถึง GLM ที่มีการแจกแจงเพิ่มเติม ( ตัวอย่าง ) บางคนสามารถอธิบายได้ว่าทำไม 5 เหล่านี้จึงพิเศษหรืออยู่ใน GLM เสมอ แต่บางครั้งคนอื่นก็เป็นเช่นนั้น? จากสิ่งที่ฉันได้เรียนรู้จนถึงตอนนี้การแจกแจง GLM ในตระกูลเอ็กซ์โปเนนเชียลนั้นอยู่ในรูปแบบ: โดยที่คือพารามิเตอร์การกระจายและเป็นพารามิเตอร์ที่ยอมรับf(y;θ,ϕ)=exp{yθ−b(θ)ϕ+c(y,ϕ)}f(y;θ,ϕ)=exp⁡{yθ−b(θ)ϕ+c(y,ϕ)}f(y;\theta,\phi)=\exp\left\{\frac{y\theta-b(\theta)}{\phi}+c(y,\phi)\right\}ϕϕ\phiθθ\theta ไม่สามารถแปลงการกระจายใด ๆ ให้พอดีกับ GLM ได้หรือไม่

1
ทดสอบโมเดล GLM โดยใช้ค่าศูนย์และค่าเบี่ยงเบนของโมเดล
ฉันสร้างแบบจำลอง glm ใน R และได้ทำการทดสอบโดยใช้กลุ่มการทดสอบและการฝึกอบรมเพื่อให้มั่นใจว่ามันทำงานได้ดี ผลลัพธ์จาก R คือ: Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -2.781e+00 1.677e-02 -165.789 < 2e-16 *** Coeff_A 1.663e-05 5.438e-06 3.059 0.00222 ** log(Coeff_B) 8.925e-01 1.023e-02 87.245 < 2e-16 *** log(Coeff_C) -3.978e-01 7.695e-03 -51.689 < 2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.