คำถามติดแท็ก generalized-linear-model

ลักษณะทั่วไปของการถดถอยเชิงเส้นที่อนุญาตให้มีความสัมพันธ์แบบไม่เชิงเส้นผ่าน "ฟังก์ชันลิงก์" และสำหรับความแปรปรวนของการตอบสนองขึ้นอยู่กับค่าที่ทำนายไว้ (เพื่อไม่ให้สับสนกับ "โมเดลเชิงเส้นทั่วไป" ซึ่งขยายโมเดลเชิงเส้นปกติไปยังโครงสร้างความแปรปรวนร่วมทั่วไปและการตอบสนองหลายตัวแปร)

1
การติดตั้งโมเดลเชิงเส้นตรงแบบเฮเทอโรเซสติกสำหรับการตอบสนองแบบทวินาม
ผมมีข้อมูลจากการออกแบบการทดลองต่อไปนี้: ข้อสังเกตของฉันมีการนับจำนวนของตัวเลขของความสำเร็จ (คนK) ออกจากจำนวนของการทดลอง (ตรงN) วัดสองกลุ่มแต่ละประกอบด้วยIบุคคลจากTการรักษาที่ในแต่ละชุดปัจจัยดังกล่าวมีRการทำซ้ำ . ดังนั้นทั้งหมดที่ฉันมี 2 * I * T * R K 'และสอดคล้องN ' s ข้อมูลมาจากชีววิทยา แต่ละคนเป็นยีนที่ฉันวัดระดับการแสดงออกของสองรูปแบบทางเลือก (เนื่องจากปรากฏการณ์ที่เรียกว่าการประกบทางเลือก) ดังนั้นKคือระดับการแสดงออกของหนึ่งในรูปแบบและNคือผลรวมของระดับการแสดงออกของทั้งสองรูปแบบ ตัวเลือกระหว่างสองรูปแบบในสำเนาที่แสดงออกเพียงครั้งเดียวถือว่าเป็นการทดลองของ Bernoulli ดังนั้นKจากNสำเนาตามทวินาม แต่ละกลุ่มประกอบด้วยยีนที่แตกต่างกัน ~ 20 และยีนในแต่ละกลุ่มมีหน้าที่ทั่วไปซึ่งแตกต่างกันระหว่างสองกลุ่ม สำหรับยีนแต่ละตัวในแต่ละกลุ่มฉันมีการวัดประมาณ 30 ตัวอย่างจากแต่ละเนื้อเยื่อที่แตกต่างกัน (การรักษา) ฉันต้องการประเมินผลกระทบที่กลุ่มและการรักษามีต่อความแปรปรวนของ K / N การแสดงออกของยีนเป็นที่รู้กันว่า overdispersed ดังนั้นการใช้ทวินามลบในรหัสด้านล่าง เช่นRรหัสของข้อมูลจำลอง: library(MASS) set.seed(1) I = 20 # individuals in …

5
การถดถอยโลจิสติกในข้อมูลขนาดใหญ่
ฉันมีชุดข้อมูลประมาณ 5,000 ฟีเจอร์ สำหรับข้อมูลนั้นฉันใช้การทดสอบ Chi Square เป็นครั้งแรกเพื่อเลือกคุณสมบัติ หลังจากนั้นฉันได้ประมาณ 1,500 ตัวแปรซึ่งแสดงความสัมพันธ์อย่างมีนัยสำคัญกับตัวแปรตอบกลับ ตอนนี้ฉันต้องพอดีกับการถดถอยโลจิสติกในที่ ฉันใช้แพ็คเกจ glmulti สำหรับ R (แพ็คเกจ glmulti ให้การเลือกเซตย่อยที่มีประสิทธิภาพสำหรับ vlm) แต่สามารถใช้คุณสมบัติได้ครั้งละ 30 คุณสมบัติเท่านั้นประสิทธิภาพในการทำงานลดลงเนื่องจากจำนวนแถวในชุดข้อมูลของฉันอยู่ที่ประมาณ 20,000 มีวิธีการหรือเทคนิคอื่น ๆ ในการแก้ปัญหาข้างต้นหรือไม่? ถ้าฉันไปตามวิธีข้างต้นมันจะใช้เวลามากเกินไปในการปรับให้เข้ากับโมเดล

2
เหตุใดส่วนที่เหลือของ Pearson จากการถดถอยแบบทวินามเชิงลบจึงมีขนาดเล็กกว่าการถดถอยแบบปัวซอง
ฉันมีข้อมูลเหล่านี้: set.seed(1) predictor <- rnorm(20) set.seed(1) counts <- c(sample(1:1000, 20)) df <- data.frame(counts, predictor) ฉันใช้การถดถอยปัวซอง poisson_counts <- glm(counts ~ predictor, data = df, family = "poisson") และการถดถอยแบบทวินามลบ require(MASS) nb_counts <- glm.nb(counts ~ predictor, data = df) จากนั้นฉันคำนวณหาสถิติการกระจายตัวสำหรับการถดถอยปัวซอง: sum(residuals(poisson_counts, type="pearson")^2)/df.residual(poisson_counts) # [1] 145.4905 และการถดถอยแบบทวินามลบ sum(residuals(nb_counts, type="pearson")^2)/df.residual(nb_counts) # [1] 0.7650289 มีใครที่สามารถอธิบายได้โดยไม่ต้องใช้เครื่องมือทำไมสถิติการกระจายตัวของการถดถอยแบบทวินามลบน้อยกว่าสถิติการกระจายตัวสำหรับการถดถอยปัวซอง

2
การประมาณค่าพารามิเตอร์ด้วยโมเดลเชิงเส้นทั่วไป
โดยค่าเริ่มต้นเมื่อเราใช้glmฟังก์ชั่นใน R มันจะใช้วิธีการวนซ้ำน้อยที่สุดอย่างน้อยสี่เหลี่ยม (IWLS) เพื่อหาโอกาสในการประมาณค่าพารามิเตอร์สูงสุด ตอนนี้ฉันมีสองคำถาม การประมาณค่าของ IWLS รับประกันว่าจะมีฟังก์ชั่นโอกาสสูงสุดในระดับโลก ฉันคิดว่ามันไม่ได้ขึ้นอยู่กับสไลด์สุดท้ายในงานนำเสนอนี้ ! ฉันแค่ต้องการทำให้แน่ใจว่า เราสามารถพูดได้ว่าเหตุผลของคำถามที่ 1 ข้างต้นนั้นเป็นเพราะความจริงที่ว่าวิธีการหาค่าเหมาะที่สุดเชิงตัวเลขเกือบทั้งหมดอาจติดอยู่ที่ค่าสูงสุดในท้องถิ่นมากกว่าค่าสูงสุดทั่วโลก

2
สมมติฐานของโมเดลเชิงเส้นทั่วไป
ในหน้า 232 ของ "คู่หู R เพื่อนำไปใช้การถดถอย" โน้ต Fox และ Weisberg มีเพียงตระกูลเกาส์เซียนเท่านั้นที่มีความแปรปรวนคงที่และใน GLM อื่น ๆ ทั้งหมดความแปรปรวนแบบมีเงื่อนไขของ y ที่ขึ้นอยู่กับxx\bf{x}μ(x)μ(x)\mu(x) ก่อนหน้านี้พวกเขาทราบว่าเงื่อนไขความแปรปรวนของ Poisson เป็นและที่ของทวินามคือ{N}μμ\muμ(1−μ)Nμ(1−μ)N\frac{\mu(1-\mu)}{N} สำหรับเกาส์เซียนนี่เป็นข้อสันนิษฐานที่คุ้นเคยและตรวจสอบบ่อยครั้ง (homoscedasticity) ในทำนองเดียวกันฉันมักจะเห็นความแปรปรวนแบบมีเงื่อนไขของปัวซองที่กล่าวถึงเป็นข้อสันนิษฐานของการถดถอยปัวซองพร้อมกับการเยียวยาสำหรับกรณีที่มีการละเมิด (เช่นลบทวินามลบศูนย์ศูนย์ ฯลฯ ) แต่ฉันไม่เคยเห็นความแปรปรวนแบบมีเงื่อนไขสำหรับทวินามที่กล่าวถึงเป็นข้อสันนิษฐานในการถดถอยโลจิสติก Googling เล็กน้อยไม่พบสิ่งที่กล่าวถึง ฉันหายไปนี่อะไร แก้ไขตามความคิดเห็นของ @whuber: ตามที่แนะนำฉันกำลังดู Hosmer & Lemeshow มันน่าสนใจและฉันคิดว่ามันแสดงให้เห็นว่าทำไมฉัน (และบางทีคนอื่น ๆ ) สับสน ตัวอย่างเช่นคำว่า "สมมติฐาน" ไม่ได้อยู่ในดัชนีของหนังสือ นอกจากนี้เรามีสิ่งนี้ (หน้า 175) ในการถดถอยโลจิสติกเราจะต้องพึ่งพาการประเมินภาพเป็นหลักเนื่องจากการกระจายของการวินิจฉัยภายใต้สมมติฐานที่ว่ารูปแบบที่เหมาะเป็นที่รู้จักกันเฉพาะในการตั้งค่า จำกัด บางอย่าง …

1
สัมประสิทธิ์มหาศาลในการถดถอยโลจิสติก - มันหมายความว่าอะไรและจะทำอย่างไร?
ฉันได้รับค่าสัมประสิทธิ์มหาศาลระหว่างการถดถอยโลจิสติกดูค่าสัมประสิทธิ์กับkrajULKV: > summary(m5) Call: glm(formula = cbind(ml, ad) ~ rok + obdobi + kraj + resid_usili2 + rok:obdobi + rok:kraj + obdobi:kraj + kraj:resid_usili2 + rok:obdobi:kraj, family = "quasibinomial") Deviance Residuals: Min 1Q Median 3Q Max -2.7796 -1.0958 -0.3101 1.0034 2.8370 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -486.72087 …

1
การกระจายข้อผิดพลาดสำหรับการถดถอยเชิงเส้นและโลจิสติก
ด้วยข้อมูลอย่างต่อเนื่องการถดถอยเชิงเส้นถือว่าข้อผิดพลาดมีการกระจาย N (0, )Y=β1+β2X2+uY=β1+β2X2+uY=\beta_1+\beta_2X_2+uσ2σ2\sigma^2 1) เราคิดว่า Var (Y | x) เป็นเช่นเดียวกัน ~ N (0, ) หรือไม่σ2σ2\sigma^2 2) การกระจายข้อผิดพลาดนี้ในการถดถอยโลจิสติกคืออะไร? เมื่อข้อมูลอยู่ในรูปแบบของบันทึก 1 ต่อกรณีที่ "Y" คือ 1 หรือ 0 เป็นข้อผิดพลาดกระจาย Bernoulli (เช่นความแปรปรวนคือ p (1-p)) และเมื่อข้อมูลอยู่ในรูปแบบ # ประสบความสำเร็จจากการทดลอง #of มันถือว่าเป็นทวินาม (เช่นความแปรปรวนคือ np (1-p)) โดยที่ p คือความน่าจะเป็นที่ Y เป็น 1 หรือไม่

1
วิธีการรับข้อผิดพลาดมาตรฐานจากการถดถอยของการนับข้อมูลที่มีค่าศูนย์สูงเกินศูนย์จะทำอย่างไร [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามดังนั้นจึงเป็นหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน2 ปีที่ผ่านมา รหัสต่อไปนี้ PredictNew <- predict (glm.fit, newdata = Predict, X1 =X1, Y1= Y1, type = "response", se.fit = TRUE) สร้าง 3 คอลัมน์data.frame--PredictNew, ค่าติดตั้ง, ข้อผิดพลาดมาตรฐานและคำที่เหลือขนาด สมบูรณ์แบบ ... อย่างไรก็ตามการใช้โมเดลที่มีzeroinfl {pscl}: PredictNew <- predict (zeroinfl.fit, newdata = Predict, X1 =X1, Y1= Y1, type = "response", se.fit = …

2
ติดตั้งโมเดลพัวซอง GLM ผสมกับความชันและจุดตัดแบบสุ่ม
ขณะนี้ฉันกำลังทำงานกับแบบจำลองอนุกรมเวลาของปัวซองที่พยายามประเมินผลของการเปลี่ยนแปลงวิธีการนับจำนวนที่ได้รับ (เปลี่ยนจากการทดสอบการวินิจฉัยหนึ่งไปสู่อีกการทดสอบหนึ่ง) ในขณะที่ควบคุมแนวโน้มอื่น ๆ ในช่วงเวลาหนึ่ง อุบัติการณ์ของโรค) ฉันมีข้อมูลสำหรับไซต์ต่าง ๆ จำนวนมาก ในขณะที่ฉันกำลังซ่อมบำรุงเกมด้วยเช่นกันฉันพอดีกับ GLM พื้นฐานที่เหมาะสมกับแนวโน้มเวลาในพวกเขาจากนั้นจึงรวมผลลัพธ์ รหัสสำหรับสิ่งนี้จะมีลักษณะเช่นนี้ใน SAS: PROC GENMOD data=work.data descending; model counts = dependent_variable time time*time / link=log dist = poisson; run; หรือนี่ใน R: glm(counts ~ dependent_variable + time + time*time, family="poisson") จากนั้นนำค่าประมาณเหล่านั้นมารวมกันในหลาย ๆ ไซต์ มันก็ถูกแนะนำด้วยว่าให้ฉันลองใช้แบบจำลองปัวซองผสมกับความชันแบบสุ่มและจุดตัดสำหรับแต่ละไซต์แทนที่จะรวมกัน ดังนั้นโดยพื้นฐานแล้วคุณต้องมีเอฟเฟกต์คงที่ของ dependent_variable จากนั้นจะมีเอฟเฟกต์แบบสุ่มสำหรับการสกัดกั้นและเวลา (หรือเวลาและเวลาที่ดีเลิศ ^ 2 …

1
การถดถอยโลจิสติกส์: จัดกลุ่มและไม่จัดกลุ่มตัวแปร (ใช้ R)
ฉันกำลังอ่าน A. Agresti (2007), การแนะนำการวิเคราะห์ข้อมูลเชิงหมวดหมู่ , อันดับที่ 2 รุ่นและไม่แน่ใจว่าฉันเข้าใจย่อหน้านี้ (หน้า 106, 4.2.1) ถูกต้อง (แม้ว่าควรง่าย): ในตารางที่ 3.1 เกี่ยวกับการกรนและโรคหัวใจในบทก่อนหน้า 254 คนรายงานการกรนทุกคืนซึ่ง 30 คนเป็นโรคหัวใจ หากไฟล์ข้อมูลมีการจัดกลุ่มข้อมูลไบนารีเส้นหนึ่งในไฟล์ข้อมูลจะรายงานข้อมูลเหล่านี้ว่าเป็นโรคหัวใจ 30 รายจากขนาดตัวอย่าง 254 ถ้าไฟล์ข้อมูลมีข้อมูลไบนารีที่ไม่ได้จัดกลุ่มแต่ละบรรทัดในไฟล์ข้อมูลหมายถึง แยกกันดังนั้น 30 บรรทัดประกอบด้วย 1 สำหรับโรคหัวใจและ 224 บรรทัดประกอบด้วย 0 สำหรับโรคหัวใจ ค่า ML และค่า SE จะเหมือนกันสำหรับไฟล์ข้อมูลทั้งสองประเภท การแปลงชุดข้อมูลที่ไม่จัดกลุ่ม (ขึ้นอยู่กับ 1 อิสระ 1) จะใช้เวลามากกว่า "บรรทัด" เพื่อรวมข้อมูลทั้งหมด! ในตัวอย่างต่อไปนี้ชุดข้อมูลแบบง่าย (ไม่สมจริง!) …

1
ทำนายปัวซอง GLM พร้อมออฟเซ็ต
ฉันรู้ว่านี่อาจเป็นคำถามพื้นฐาน ... แต่ฉันดูเหมือนจะไม่พบคำตอบ ฉันเหมาะสมกับ GLM กับครอบครัวปัวซงแล้วลองดูการคาดคะเน แต่สิ่งที่พิจารณาจะนำมาพิจารณา: model_glm=glm(cases~rhs(data$year,2003)+lhs(data$year,2003), offset=(log(population)), data=data, subset=28:36, family=poisson()) predict (model_glm, type="response") ฉันได้รับคดีไม่ใช่อัตรา ... ฉันได้ลองแล้วเช่นกัน model_glm=glm(cases~rhs(data$year,2003)+lhs(data$year,2003)+ offset(log(population)), data=data, subset=28:36, family=poisson()) ด้วยผลลัพธ์เดียวกัน อย่างไรก็ตามเมื่อฉันทำนายจาก GAM โดยใช้ mgcv การคาดคะเนจะพิจารณาการชดเชย (ฉันได้รับอัตรา) ฉันทำอะไรบางอย่างหายไป?

1
ความแตกต่างระหว่าง GLM และ GEE คืออะไร?
อะไรคือความแตกต่างระหว่างโมเดล GLM (การถดถอยโลจิสติก) กับตัวแปรการตอบสนองแบบไบนารีซึ่งรวมถึงเรื่องและเวลาเป็น covariates และโมเดล GEE แบบอะนาล็อกซึ่งคำนึงถึงความสัมพันธ์ระหว่างการวัดที่จุดเวลาหลายจุด? GLM ของฉันดูเหมือนว่า: Y(binary) ~ A + B1X1(subject id) + B2X2(time) + B3X3(interesting continuous covariate) ด้วยฟังก์ชั่นการเชื่อมโยง logit ฉันกำลังมองหาคำอธิบายง่ายๆ (มุ่งเป้าไปที่นักวิทยาศาสตร์สังคม) ว่าทำไมเวลาจึงได้รับการปฏิบัติแตกต่างกันในสองโมเดลและสิ่งที่เกี่ยวข้องกับการตีความ

1
จำเป็นต้องมีการนับศูนย์สำหรับการทดสอบอัตราส่วนความน่าจะเป็นของโมเดลปัวซอง / loglinear หรือไม่
หากมี 0 อยู่ในตารางฉุกเฉินและเรากำลังจัดวางแบบจำลอง Poisson / loglinear ที่ซ้อนกัน (ใช้glmฟังก์ชั่นR ) สำหรับการทดสอบอัตราส่วนความน่าจะเป็นเราจำเป็นต้องปรับข้อมูลก่อนที่จะติดตั้งแบบจำลอง glm (เช่นเพิ่ม 1/2 ลงในทั้งหมด จำนวน) เห็นได้ชัดว่าบางพารามิเตอร์ไม่สามารถประมาณได้หากไม่มีการปรับ แต่การปรับ / ขาดการปรับมีผลต่อการทดสอบ LR อย่างไร

1
มีวิธีง่ายๆในการรวมสองรุ่น glm ใน R หรือไม่?
glm()ฉันมีสองรูปแบบการถดถอยโลจิสติกในการวิจัยที่ทำด้วย พวกเขาทั้งสองใช้ตัวแปรเดียวกัน แต่ทำโดยใช้ชุดย่อยที่แตกต่างกันของเมทริกซ์ มีวิธีง่ายๆในการรับแบบจำลองเฉลี่ยซึ่งให้ค่าสัมประสิทธิ์แล้วใช้กับฟังก์ชันทำนาย () หรือไม่ [ขออภัยถ้าคำถามประเภทนี้ควรโพสต์บนเว็บไซต์การเขียนโปรแกรมแจ้งให้เราทราบและฉันจะโพสต์ที่นั่น] ขอบคุณ
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.