คำถามติดแท็ก generalized-linear-model

ลักษณะทั่วไปของการถดถอยเชิงเส้นที่อนุญาตให้มีความสัมพันธ์แบบไม่เชิงเส้นผ่าน "ฟังก์ชันลิงก์" และสำหรับความแปรปรวนของการตอบสนองขึ้นอยู่กับค่าที่ทำนายไว้ (เพื่อไม่ให้สับสนกับ "โมเดลเชิงเส้นทั่วไป" ซึ่งขยายโมเดลเชิงเส้นปกติไปยังโครงสร้างความแปรปรวนร่วมทั่วไปและการตอบสนองหลายตัวแปร)

3
การแปลความหมายของตัวทำนายการแปลงสภาพบันทึกและ / หรือการตอบสนอง
ฉันสงสัยว่ามันจะสร้างความแตกต่างในการตีความไม่ว่าจะเป็นเพียงขึ้นอยู่กับทั้งขึ้นอยู่กับและเป็นอิสระหรือตัวแปรอิสระเท่านั้นที่ถูกเปลี่ยนเข้าสู่ระบบ พิจารณากรณีของ log(DV) = Intercept + B1*IV + Error ฉันสามารถตีความ IV เป็นเปอร์เซ็นต์เพิ่มขึ้น แต่จะเปลี่ยนแปลงได้อย่างไรเมื่อฉันมี log(DV) = Intercept + B1*log(IV) + Error หรือเมื่อฉันมี DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

2
วิธีการจำลองข้อมูลเทียมสำหรับการถดถอยโลจิสติก?
ฉันรู้ว่าฉันไม่มีอะไรในการทำความเข้าใจเกี่ยวกับการถดถอยโลจิสติกและขอขอบคุณสำหรับความช่วยเหลือ เท่าที่ฉันเข้าใจแล้วการถดถอยโลจิสติกถือว่าความน่าจะเป็นของผลลัพธ์ '1' ที่ได้รับจากอินพุตคือการรวมกันเชิงเส้นของอินพุตที่ส่งผ่านฟังก์ชันผกผัน - โลจิสติกส์ นี่คือสุดขั้วในรหัส R ต่อไปนี้: #create data: x1 = rnorm(1000) # some continuous variables x2 = rnorm(1000) z = 1 + 2*x1 + 3*x2 # linear combination with a bias pr = 1/(1+exp(-z)) # pass through an inv-logit function y = pr > 0.5 # take …

3
มีความแตกต่างระหว่าง lm และ glm สำหรับตระกูล gaussian ของ glm หรือไม่?
โดยเฉพาะผมต้องการที่จะทราบว่ามีความแตกต่างระหว่างและlm(y ~ x1 + x2) glm(y ~ x1 + x2, family=gaussian)ฉันคิดว่ากรณีเฉพาะของ glm นี้เท่ากับ lm ฉันผิดหรือเปล่า?

3
การถดถอยของผลลัพธ์ (อัตราส่วนหรือเศษส่วน) ระหว่าง 0 และ 1
ผมคิดว่าการสร้างแบบจำลองการคาดการณ์อัตราส่วน/ขที่≤ ขและ> 0และB > 0 ดังนั้นอัตราส่วนจะอยู่ระหว่าง0และ1a / ba/ba/ba ≤ ba≤ba \le ba > 0a>0a > 0b > 0b>0b > 0000111 ฉันสามารถใช้การถดถอยเชิงเส้นแม้ว่ามันจะไม่ได้ จำกัด อยู่ที่ 0..1 ฉันไม่มีเหตุผลที่จะเชื่อว่าความสัมพันธ์นั้นเป็นเส้นตรง แต่แน่นอนว่ามันมักจะถูกนำมาใช้เป็นโมเดลแรกง่ายๆ ฉันสามารถใช้การถดถอยโลจิสติกได้แม้ว่าโดยปกติจะใช้ในการทำนายความน่าจะเป็นของผลลัพธ์แบบสองสถานะไม่ใช่เพื่อทำนายค่าต่อเนื่องจากช่วง 0..1 หากไม่รู้อะไรเพิ่มเติมคุณจะใช้การถดถอยเชิงเส้นการถดถอยโลจิสติกหรือตัวเลือกที่ซ่อนอยู่cหรือไม่?

2
การจำลองการวิเคราะห์กำลังถดถอยของโลจิสติกส์ - การทดลองที่ออกแบบมา
คำถามนี้เป็นคำถามในการตอบสนองต่อคำตอบที่ได้รับจาก @ Greg หิมะในเรื่องที่เกี่ยวกับคำถามที่Proc GLMPOWERผมถามเกี่ยวกับการวิเคราะห์การใช้พลังงานที่มีการถดถอยโลจิสติกและเอสเอ ถ้าฉันออกแบบการทดลองและวิเคราะห์ผลลัพธ์ในการถดถอยแบบลอจิสติกแบบแฟคทอเรียลฉันจะใช้การจำลอง (และที่นี่ ) เพื่อทำการวิเคราะห์พลังงานได้อย่างไร นี่คือตัวอย่างง่ายๆที่มีตัวแปรสองตัวตัวแรกใช้กับค่าที่เป็นไปได้สามค่าคือ {0.03, 0.06, 0.09} และตัวที่สองคือตัวบ่งชี้จำลอง {0,1} สำหรับแต่ละครั้งเราประเมินอัตราการตอบกลับสำหรับแต่ละชุดค่าผสม (จำนวนผู้ตอบ / จำนวนผู้ที่ทำการตลาด) นอกจากนี้เราต้องการให้มีการรวมกันครั้งแรกหลายเท่าของปัจจัยอื่น ๆ (ซึ่งถือได้ว่ามีค่าเท่ากัน) เนื่องจากชุดค่าผสมครั้งแรกนี้เป็นรุ่นทดลองและจริงของเรา นี่คือการตั้งค่าที่กำหนดไว้ในหลักสูตร SAS ที่กล่าวถึงในคำถามที่เชื่อมโยง รูปแบบที่จะใช้ในการวิเคราะห์ผลลัพธ์จะเป็นการถดถอยโลจิสติกโดยมีเอฟเฟกต์หลักและการโต้ตอบ (การตอบสนองคือ 0 หรือ 1) mod <- glm(response ~ Var1 + Var2 + I(Var1*Var2)) ฉันจะจำลองชุดข้อมูลที่ใช้กับรุ่นนี้เพื่อทำการวิเคราะห์พลังงานได้อย่างไร เมื่อฉันรันสิ่งนี้ผ่าน SAS Proc GLMPOWER(การใช้STDDEV =0.05486016 ซึ่งสอดคล้องกับsqrt(p(1-p))ตำแหน่ง p คือค่าเฉลี่ยถ่วงน้ำหนักของอัตราการตอบกลับที่แสดง): data …

1
เหตุใดค่า p ของฉันจึงแตกต่างกันระหว่างเอาต์พุตการถดถอยโลจิสติกการทดสอบไคสแควร์และช่วงความมั่นใจสำหรับ OR
ฉันได้สร้างการถดถอยโลจิสติกที่ตัวแปรผลลัพธ์จะหายหลังจากได้รับการรักษา ( CureเทียบกับNo Cure) ผู้ป่วยทั้งหมดในการศึกษานี้ได้รับการรักษา ฉันสนใจที่จะดูว่ามีโรคเบาหวานเกี่ยวข้องกับผลลัพธ์นี้หรือไม่ ใน R ผลลัพธ์การถดถอยโลจิสติกของฉันมีลักษณะดังนี้: Call: glm(formula = Cure ~ Diabetes, family = binomial(link = "logit"), data = All_patients) ... Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.2735 0.1306 9.749 <2e-16 *** Diabetes -0.5597 0.2813 -1.990 0.0466 * ... Null deviance: 456.55 on 415 degrees …

2
วัตถุประสงค์ของฟังก์ชั่นลิงค์ในโมเดลเชิงเส้นทั่วไป
จุดประสงค์ของฟังก์ชั่นลิงค์ในฐานะที่เป็นองค์ประกอบของโมเดลเชิงเส้นตรงทั่วไปคืออะไร? ทำไมเราต้องการมัน? รัฐ Wikipedia: สะดวกในการจับคู่โดเมนของฟังก์ชันลิงก์กับช่วงของค่าเฉลี่ยของฟังก์ชันการแจกแจง อะไรคือข้อดีของการทำเช่นนี้?

1
การถดถอยโลจิสติก: การทดสอบ anova ไคสแควร์กับความสำคัญของค่าสัมประสิทธิ์ (anova () เทียบกับสรุป () ใน R)
ฉันมีโมเดล GLM โลจิสติกส์พร้อมตัวแปร 8 ตัว ฉันรันการทดสอบไคสแควร์ใน R anova(glm.model,test='Chisq')และตัวแปร 2 ตัวกลายเป็นการคาดการณ์เมื่อสั่งที่ด้านบนของการทดสอบและไม่มากเมื่อสั่งที่ด้านล่าง summary(glm.model)แสดงให้เห็นว่าค่าสัมประสิทธิ์ของพวกเขาจะไม่มีนัยสำคัญสูง (p-value) ในกรณีนี้ดูเหมือนว่าตัวแปรจะไม่สำคัญ ฉันอยากถามว่าการทดสอบความสำคัญของตัวแปรใดดีขึ้น - ค่าสัมประสิทธิ์นัยสำคัญในการสรุปแบบจำลองหรือการทดสอบไคสแควanova()ร์ นอกจากนี้ - เมื่อใดอย่างใดอย่างหนึ่งดีกว่าอีก ฉันเดาว่ามันเป็นคำถามที่กว้างขวาง แต่พอยน์เตอร์ใด ๆ เกี่ยวกับสิ่งที่ต้องพิจารณาจะได้รับการชื่นชม

3
ความแตกต่างระหว่างโมเดลเชิงเส้นทั่วไปกับโมเดลผสมเชิงเส้นทั่วไป
ฉันสงสัยว่าอะไรคือความแตกต่างระหว่าง GLM แบบผสมและแบบผสม ตัวอย่างเช่นใน SPSS เมนูแบบเลื่อนลงอนุญาตให้ผู้ใช้พอดี: analyze-> generalized linear models-> generalized linear models & analyze-> mixed models-> generalized linear พวกเขาจัดการกับค่าที่หายไปแตกต่างกันอย่างไร ตัวแปรตามของฉันคือไบนารีและฉันมีตัวแปรอิสระหลายหมวดหมู่และต่อเนื่อง

3
การตีความแปลงการวินิจฉัยที่เหลือสำหรับรุ่น GLM?
ฉันกำลังมองหาแนวทางในการตีความพล็อตที่เหลือของแบบจำลอง GLM โดยเฉพาะปัวซอง, ทวินามลบ, โมเดลทวินาม เราคาดหวังอะไรจากแปลงเหล่านี้เมื่อแบบจำลองนั้น "ถูกต้อง"? (ตัวอย่างเช่นเราคาดว่าความแปรปรวนจะเพิ่มขึ้นเมื่อค่าที่คาดการณ์เพิ่มขึ้นเมื่อใช้กับแบบจำลองปัวซอง) ฉันรู้ว่าคำตอบนั้นขึ้นอยู่กับรุ่น การอ้างอิงใด ๆ (หรือประเด็นทั่วไปที่ควรพิจารณา) จะเป็นประโยชน์ / ได้รับการชื่นชม

2
การถดถอยโลจิสติกส์ถูกแก้ไขเมื่อใดในรูปแบบปิด?
รับและและสมมติว่าเราจำลองงานของการทำนาย y ที่ได้รับ x โดยใช้การถดถอยโลจิสติก เมื่อใดที่สามารถเขียนสัมประสิทธิ์การถดถอยโลจิสติกในรูปแบบปิด? y ∈ { 0 , 1 }x∈{0,1}dx∈{0,1}dx \in \{0,1\}^dy∈{0,1}y∈{0,1}y \in \{0,1\} ตัวอย่างหนึ่งคือเมื่อเราใช้แบบจำลองที่อิ่มตัว นั่นคือกำหนดโดยที่ดัชนีของตั้งอยู่ในชุดพลังงานของและส่งคืน 1 ถ้า ตัวแปรทั้งหมดในชุดคือ 1 และ 0 เป็นอย่างอื่น จากนั้นคุณสามารถแสดงแต่ละในรูปแบบการถดถอยโลจิสติกนี้เป็นลอการิทึมของฟังก์ชันเหตุผลของสถิติของข้อมูลฉัน{ x 1 , ... , x d } ฉฉันฉันW ฉันP(y|x)∝exp(∑iwifi(xi))P(y|x)∝exp⁡(∑iwifi(xi))P(y|x) \propto \exp(\sum_i w_i f_i(x_i))iii{x1,…,xd}{x1,…,xd}\{x_1,\ldots,x_d\}fifif_iiiiwiwiw_i มีตัวอย่างที่น่าสนใจอื่น ๆ อีกไหมเมื่อมีแบบฟอร์มปิดอยู่?

2
การกระจายแบบกึ่งทวินามคืออะไร (ในบริบทของ GLM)
ฉันหวังว่าบางคนสามารถให้ภาพรวมที่เข้าใจง่ายเกี่ยวกับการกระจายตัวของ quasibinomial คืออะไรและมันทำอะไร ฉันสนใจในประเด็นเหล่านี้เป็นพิเศษ: วิธี quasibinomial แตกต่างกับการกระจายทวินาม เมื่อตัวแปรตอบสนองเป็นสัดส่วน (ค่าตัวอย่าง ได้แก่ 0.23, 0.11, 0.78, 0.98) โมเดล quasibinomial จะทำงานใน R แต่โมเดลทวินามจะไม่ ทำไมรูปแบบ quasibinomial ควรใช้เมื่อตัวแปรการตอบสนอง TRUE / FALSE เกินกำหนด

2
สมมติฐานของการถดถอยแบบทวินามเชิงลบคืออะไร?
ฉันทำงานกับชุดข้อมูลขนาดใหญ่ (เป็นความลับดังนั้นฉันจึงไม่สามารถแบ่งปันได้มากเกินไป) และมาถึงข้อสรุปการถดถอยเชิงลบแบบทวินามก็เป็นสิ่งที่จำเป็น ฉันไม่เคยทำการถดถอยแบบ glm มาก่อนและฉันไม่สามารถหาข้อมูลที่ชัดเจนเกี่ยวกับสมมติฐานได้ พวกเขาเหมือนกันสำหรับ MLR หรือไม่ ฉันสามารถแปลงตัวแปรในลักษณะเดียวกันได้หรือไม่ (ฉันได้ค้นพบแล้วว่าการเปลี่ยนตัวแปรตามคือการโทรที่ไม่ดีเนื่องจากต้องเป็นจำนวนธรรมชาติ) ฉันได้พิจารณาแล้วว่าการแจกแจงทวินามลบจะช่วยในการกระจายตัวมากเกินไปในข้อมูลของฉัน (ความแปรปรวนอยู่ที่ประมาณ 2000 ค่าเฉลี่ยคือ 48) ขอบคุณสำหรับความช่วยเหลือ !!

5
จะหาค่าตัวประมาณกำลังสองน้อยที่สุดสำหรับการถดถอยเชิงเส้นหลายเส้นได้อย่างไร
ในกรณีที่เรียบง่ายเชิงเส้นถดถอยy=β0+β1xy=β0+β1xy=\beta_0+\beta_1xคุณสามารถได้รับมาอย่างน้อยประมาณตารางβ 1 = Σ ( x ฉัน - ˉ x ) ( Y ฉัน - ˉ Y )β^1=∑(xi−x¯)(yi−y¯)∑(xi−x¯)2β^1=∑(xi−x¯)(yi−y¯)∑(xi−x¯)2\hat\beta_1=\frac{\sum(x_i-\bar x)(y_i-\bar y)}{\sum(x_i-\bar x)^2}เช่นที่คุณไม่จำเป็นต้องรู้ β 0เพื่อประเมิน β 1β^0β^0\hat\beta_0β^1β^1\hat\beta_1 สมมติว่าฉันมีy=β1x1+β2x2y=β1x1+β2x2y=\beta_1x_1+\beta_2x_2 , วิธีการที่ฉันไม่ได้รับมาβ 1โดยไม่ต้องประเมินβ 2 ? หรือเป็นไปไม่ได้?β^1β^1\hat\beta_1β^2β^2\hat\beta_2

2
การตีความพล็อต (glm.model)
ใครช่วยบอกฉันได้ว่าจะตีความ 'ส่วนที่เหลือเทียบพอดี', 'ปกติ q-q', 'มาตราส่วนที่ตั้ง' และ 'ส่วนที่เหลือเทียบกับความสามารถในการแปลง'? ฉันกำลังจัดวาง GLM แบบทวินามให้เหมาะสมแล้วบันทึกและวางแผนใหม่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.