คำถามติดแท็ก generalized-linear-model

ลักษณะทั่วไปของการถดถอยเชิงเส้นที่อนุญาตให้มีความสัมพันธ์แบบไม่เชิงเส้นผ่าน "ฟังก์ชันลิงก์" และสำหรับความแปรปรวนของการตอบสนองขึ้นอยู่กับค่าที่ทำนายไว้ (เพื่อไม่ให้สับสนกับ "โมเดลเชิงเส้นทั่วไป" ซึ่งขยายโมเดลเชิงเส้นปกติไปยังโครงสร้างความแปรปรวนร่วมทั่วไปและการตอบสนองหลายตัวแปร)

10
ความแตกต่างระหว่างรุ่น logit และ probit
LogitและProbit modelแตกต่างกันอย่างไร? ฉันสนใจที่นี่มากขึ้นในการรู้ว่าจะใช้การถดถอยแบบลอจิสติกเมื่อใดและเมื่อใดควรใช้ Probit หากมีวรรณกรรมใด ๆ ที่กำหนดโดยใช้Rก็จะเป็นประโยชน์เช่นกัน

4
พล็อตการวิเคราะห์สำหรับการนับถอยหลัง
แปลงวินิจฉัย (และการทดสอบอย่างเป็นทางการ) คุณพบว่าข้อมูลส่วนใหญ่สำหรับการถดถอยที่ผลเป็นตัวแปรนับ? ฉันสนใจเป็นพิเศษใน Poisson และแบบจำลอง Binomial เชิงลบเช่นเดียวกับ counterparts ที่สูงเกินจริงและกีดขวางของแต่ละ แหล่งที่มาส่วนใหญ่ที่ฉันได้พบเพียงแค่พล็อตส่วนที่เหลือเทียบกับค่าติดตั้งโดยไม่ต้องพูดคุยเกี่ยวกับสิ่งที่แปลงเหล่านี้ "ควร" ดูเหมือน ภูมิปัญญาและการอ้างอิงชื่นชมอย่างมาก เรื่องราวย้อนกลับไปในเหตุผลที่ผมถามนี้ถ้ามันมีความเกี่ยวข้องเป็นคำถามอื่น ๆ ของฉัน การอภิปรายที่เกี่ยวข้อง: การตีความแปลงการวินิจฉัยที่เหลือสำหรับรุ่น GLM? สมมติฐานของตัวแบบเชิงเส้นทั่วไป GLMs - การวินิจฉัยและครอบครัวใด

4
เมื่อใดจึงควรใช้แกมม่า GLM
การกระจายของแกมม่านั้นมีรูปร่างที่ค่อนข้างกว้างและด้วยการเชื่อมโยงระหว่างค่าเฉลี่ยและความแปรปรวนผ่านพารามิเตอร์ทั้งสองดูเหมือนว่าเหมาะสมที่จะจัดการกับ heteroskedasticity ในข้อมูลที่ไม่เป็นลบในวิธีที่ OLS ที่บันทึกการเปลี่ยนแปลงสามารถ ไม่ต้องดำเนินการโดยไม่ใช้ WLS หรือตัวประมาณ VCV ที่สอดคล้องกันของ heteroskedasticity ฉันจะใช้มันมากขึ้นสำหรับการสร้างแบบจำลองข้อมูลที่ไม่ใช่ลบเป็นประจำ แต่ฉันไม่รู้จักใครที่ใช้มันฉันไม่ได้เรียนรู้ในห้องเรียนที่เป็นทางการและวรรณกรรมที่ฉันอ่านไม่เคยใช้เลย เมื่อใดก็ตามที่ฉัน Google บางอย่างเช่น "การใช้แกมม่า GLM ในทางปฏิบัติ" ฉันจะได้รับคำแนะนำในการใช้เวลารอระหว่างเหตุการณ์ปัวซอง ตกลง. แต่ดูเหมือนว่าจะเข้มงวดและไม่สามารถใช้งานได้เท่านั้น อย่างไร้เดียงสาดูเหมือนว่าแกมม่า GLM เป็นวิธีที่ค่อนข้างเบาในการสร้างแบบจำลองข้อมูลที่ไม่ใช่เชิงลบเนื่องจากความยืดหยุ่นของแกมม่า แน่นอนคุณต้องตรวจสอบ QQ แปลงและแปลงที่เหลือเช่นรุ่นใด ๆ แต่มีข้อบกพร่องร้ายแรงที่ฉันหายไปหรือไม่ นอกเหนือจากการสื่อสารกับคนที่ "เพิ่งเรียกใช้ OLS" หรือไม่

3
ตัวอย่าง: การถดถอย LASSO โดยใช้ glmnet สำหรับผลลัพธ์ไบนารี
ฉันเริ่มตะลุยกับการใช้งานglmnetกับการถดถอยแบบ LASSOซึ่งผลลัพธ์ของความสนใจของฉันนั้นเป็นแบบขั้วคู่ ฉันได้สร้างกรอบข้อมูลจำลองขนาดเล็กด้านล่าง: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

5
อะไรคือทางเลือกที่ทันสมัยใช้ง่ายในการถดถอยแบบขั้นตอน
ฉันมีชุดข้อมูลที่มีตัวแปรอิสระประมาณ 30 ตัวและต้องการสร้างโมเดลเชิงเส้นทั่วไป (GLM) เพื่อสำรวจความสัมพันธ์ระหว่างพวกเขากับตัวแปรตาม ฉันรู้ว่าวิธีการที่ฉันถูกสอนสำหรับสถานการณ์นี้ถดถอยแบบขั้นตอนขณะนี้ถือว่าบาปสถิติ ควรใช้วิธีการแบบจำลองที่ทันสมัยในสถานการณ์นี้อย่างไร

4
อะไรคือความแตกต่างระหว่าง "ฟังก์ชั่นลิงค์" และ "ฟังก์ชั่นลิงก์แบบบัญญัติ" สำหรับ GLM
ความแตกต่างระหว่างคำว่า 'ฟังก์ชั่นการเชื่อมโยง' และ 'ฟังก์ชั่นการเชื่อมโยงแบบบัญญัติ' คืออะไร? นอกจากนี้ยังมีข้อดี (ทางทฤษฎี) ของการใช้อย่างใดอย่างหนึ่งมากกว่าที่อื่น ๆ ? ตัวอย่างเช่นตัวแปรการตอบสนองแบบไบนารีสามารถสร้างแบบจำลองโดยใช้ฟังก์ชั่นลิงค์จำนวนมากเช่นlogit , probitเป็นต้น แต่logitที่นี่ถือเป็นฟังก์ชันลิงก์ "canonical"

1
วิธีการตีความสัมประสิทธิ์ในการถดถอยปัวซอง?
ฉันจะตีความผลกระทบหลัก (ค่าสัมประสิทธิ์สำหรับปัจจัยจำลอง) ในการถดถอยปัวซองได้อย่างไร สมมติตัวอย่างต่อไปนี้: treatment <- factor(rep(c(1, 2), c(43, 41)), levels = c(1, 2), labels = c("placebo", "treated")) improved <- factor(rep(c(1, 2, 3, 1, 2, 3), c(29, 7, 7, 13, 7, 21)), levels = c(1, 2, 3), labels = c("none", "some", "marked")) numberofdrugs <- rpois(84, 10) + 1 healthvalue <- …

3
สิ่งที่เหลืออยู่ในการถดถอยโลจิสติกหมายถึงอะไร
ในการตอบคำถามนี้ John Christie แนะนำว่าแบบจำลองการถดถอยแบบโลจิสติกส์ควรได้รับการประเมินโดยการประเมินส่วนที่เหลือ ฉันคุ้นเคยกับวิธีการตีความส่วนที่เหลือใน OLS พวกเขาอยู่ในระดับเดียวกับ DV และความแตกต่างอย่างชัดเจนระหว่าง y และ y ที่ทำนายโดยโมเดล อย่างไรก็ตามสำหรับการถดถอยโลจิสติกส์ในอดีตที่ผ่านมาฉันมักจะตรวจสอบการประมาณการของแบบจำลองเช่น AIC เพราะฉันไม่แน่ใจว่าสิ่งที่เหลือจะหมายถึงการถดถอยโลจิสติก หลังจากดูไฟล์ช่วยเหลือของ Rแล้วฉันเห็นว่าใน R มี glm เหลืออยู่ห้าประเภท, c("deviance", "pearson", "working","response", "partial"). ไฟล์ช่วยเหลืออ้างถึง: Davison, AC และ Snell, EJ (1991) ส่วนที่เหลือและการวินิจฉัย ใน: ทฤษฎีสถิติและแบบจำลอง ในเกียรติของเซอร์เดวิดคอคส์ FRSชั้นเลิศ Hinkley, DV, Reid, N. และ Snell, EJ, Chapman & Hall ฉันไม่มีสำเนาของสิ่งนั้น มีวิธีสั้น …

1
ทำไมการแปลงสแควร์รูทจึงแนะนำสำหรับการนับข้อมูล
มันมักจะแนะนำให้ใช้รากที่สองเมื่อคุณมีข้อมูลนับ (สำหรับตัวอย่างบางส่วนใน CV ดู @ คำตอบ HarveyMotulsky ของที่นี่หรือคำตอบของ @ whuber ที่นี่ .) ในทางกลับกันเมื่อการปรับรูปแบบเชิงเส้นทั่วไปกับตัวแปรตอบสนองกระจายเป็น Poisson บันทึกคือการเชื่อมโยงที่เป็นที่ยอมรับ นี่เหมือนกับการแปลงบันทึกข้อมูลการตอบกลับของคุณ (แม้ว่าจะแม่นยำกว่านั้นคือทำการแปลงบันทึกของพารามิเตอร์ที่ควบคุมการกระจายการตอบสนอง) ดังนั้นจึงมีความตึงเครียดระหว่างสองสิ่งนี้ λλ\lambda คุณจะปรับความคลาดเคลื่อน (ชัดเจน) นี้อย่างไร ทำไมสแควร์รูทถึงดีกว่าลอการิทึม

4
การเลือกระหว่าง LM และ GLM สำหรับตัวแปรตอบกลับที่บันทึกการเปลี่ยนแปลง
ฉันพยายามที่จะเข้าใจปรัชญาที่อยู่เบื้องหลังโดยใช้แบบจำลองเชิงเส้นทั่วไป (GLM) เทียบกับแบบจำลองเชิงเส้น (LM) ฉันได้สร้างชุดข้อมูลตัวอย่างด้านล่างโดยที่: เข้าสู่ระบบ( y) = x + εlog⁡(y)=x+ε\log(y) = x + \varepsilon ตัวอย่างไม่ได้มีข้อผิดพลาดเป็นฟังก์ชันของขนาดของyดังนั้นฉันจะสมมติว่าโมเดลเชิงเส้นของบันทึกการแปลง y จะดีที่สุด ในตัวอย่างด้านล่างนี่เป็นกรณี (ฉันคิดว่า) - เนื่องจาก AIC ของ LM ในข้อมูลการแปลงบันทึกมีค่าต่ำที่สุด AIC ของการแจกแจงแกมมา GLM ที่มีฟังก์ชั่นบันทึกการเชื่อมโยงมีผลรวมของกำลังสองน้อยลง (SS) แต่การเพิ่มระดับความอิสระเพิ่มขึ้นส่งผลให้ AIC ที่สูงขึ้นเล็กน้อย ฉันรู้สึกประหลาดใจที่การแจกแจงแบบเกาส์ AIC นั้นสูงกว่ามาก (แม้ว่า SS จะเป็นรุ่นที่ต่ำที่สุด)εε\varepsilonYyy ฉันหวังว่าจะได้รับคำแนะนำเมื่อควรเข้าใกล้รุ่น GLM - มีบางสิ่งที่ฉันควรมองหาในโมเดล LM ของฉันที่พอดีกับส่วนที่เหลือเพื่อบอกฉันว่าการกระจายอื่นเหมาะสมกว่าหรือไม่ นอกจากนี้เราควรเลือกตระกูลการแจกจ่ายที่เหมาะสมอย่างไร ขอบคุณล่วงหน้าสำหรับความช่วยเหลือของคุณ [แก้ไข]: ตอนนี้ฉันได้ปรับสถิติสรุปเพื่อให้ …

9
คำแนะนำหนังสือสถิติขั้นสูง
มีหลายกระทู้ในเว็บไซต์นี้สำหรับคำแนะนำหนังสือเกี่ยวกับการมีสถิติเบื้องต้นและการเรียนรู้เครื่องแต่ฉันกำลังมองหาข้อความบนสถิติขั้นสูงรวมทั้งในลำดับความสำคัญ: ความน่าจะเป็นสูงสุดทั่วไปรุ่นเชิงเส้นวิเคราะห์องค์ประกอบหลักรุ่นที่ไม่ใช่เชิงเส้น ฉันลองแบบจำลองทางสถิติโดย AC Davison แต่ตรงไปตรงมาฉันต้องวางมันลงหลังจาก 2 บท ข้อความเป็นสารานุกรมในความครอบคลุมและการปฏิบัติทางคณิตศาสตร์ แต่ในฐานะผู้ปฏิบัติงานฉันชอบที่จะเข้าใกล้วิชาโดยการทำความเข้าใจสัญชาตญาณก่อนแล้วจึงเจาะลึกภูมิหลังทางคณิตศาสตร์ นี่คือข้อความบางส่วนที่ฉันพิจารณาว่าโดดเด่นสำหรับคุณค่าการสอนของพวกเขา ฉันต้องการหาวิชาที่เทียบเท่าสำหรับวิชาขั้นสูงที่ฉันกล่าวถึง สถิติ , D. อิสระ, R. Pisani, R. Purves การพยากรณ์: วิธีการและการประยุกต์ใช้ R. Hyndman และคณะ การถดถอยหลายครั้งและอื่นๆ TZ Keith การใช้เทคนิคทางสถิติร่วมสมัยแรนด์อาร์วิลคอกซ์ แนะนำการเรียนรู้เชิงสถิติด้วยแอปพลิเคชั่นใน R - (เวอร์ชันที่เผยแพร่ในรูปแบบ PDF) , Gareth James, Daniela Witten, Trevor Hastie และ Robert Tibshirani องค์ประกอบของการเรียนรู้ทางสถิติ: การทำเหมืองข้อมูลการอนุมานและการทำนาย - (เวอร์ชั่นที่วางจำหน่ายในรูปแบบ PDF) , …

1
การรับค่าที่คาดการณ์ (Y = 1 หรือ 0) จากแบบจำลองการถดถอยโลจิสติกพอดี
สมมติว่าผมมีวัตถุของคลาสglm(สอดคล้องกับรูปแบบการถดถอยโลจิสติก) และฉันต้องการที่จะเปิดความน่าจะเป็นที่คาดการณ์ที่ได้รับจากpredict.glmการใช้อาร์กิวเมนต์type="response"ลงในการตอบสนองไบนารีคือหรือ 0 วิธีที่เร็วและเป็นที่ยอมรับมากที่สุดในการทำเช่นนี้ใน R คืออะไร?Y = 0Y=1Y=1Y=1Y=0Y=0Y=0 ในขณะที่อีกครั้งฉันรู้predict.glmฉันไม่ทราบว่าค่า cutoff ที่อยู่ตรงไหน- และฉันคิดว่านี่เป็นบล็อกหลักของฉันที่นี่P(Yi=1|X^i)P(Yi=1|X^i)P(Y_i=1|\hat X_{i})


2
การตีความค่าส่วนที่เหลือและค่าเบี่ยงเบนมาตรฐานใน GLM R
จะแปลความหมายของ Null และ Residual Deviance ใน GLM ใน R ได้อย่างไร? อย่างที่เราบอกว่า AIC ที่เล็กกว่านั้นดีกว่า มีการตีความที่คล้ายกันและรวดเร็วสำหรับความเบี่ยงเบนด้วยหรือไม่ ความเบี่ยงเบนว่าง: 1146.1 เมื่อ 1,077 องศาอิสระส่วนที่เหลือเบี่ยงเบน: 4589.4 เมื่อ 1,099 องศาอิสระ AIC: 11089

3
ตัวแบบเชิงเส้นพร้อมการตอบสนองแบบแปลงรูปเทียบกับแบบจำลองเชิงเส้นแบบทั่วไปพร้อมลิงค์บันทึก
ในบทความนี้มีชื่อว่า "การเลือกรุ่นเชิงเส้นในแบบฉบับที่นำไปใช้กับข้อมูลทางการแพทย์" ผู้เขียนเขียน: ในโมเดลเชิงเส้นทั่วไปค่าเฉลี่ยถูกเปลี่ยนโดยฟังก์ชันลิงก์แทนที่จะเปลี่ยนการตอบสนองเอง การเปลี่ยนแปลงสองวิธีสามารถนำไปสู่ผลลัพธ์ที่แตกต่างกันมาก ตัวอย่างเช่น ค่าเฉลี่ยของการตอบสนองการเข้าสู่ระบบเปลี่ยนไม่ได้เช่นเดียวกับลอการิทึมของการตอบสนองเฉลี่ย โดยทั่วไปแล้วอดีตไม่สามารถแปลงเป็นคำตอบที่หมายถึงได้ง่าย ดังนั้นการแปลงค่าเฉลี่ยจึงทำให้สามารถตีความผลลัพธ์ได้ง่ายขึ้นโดยเฉพาะในพารามิเตอร์ค่าเฉลี่ยนั้นยังคงอยู่ในระดับเดียวกับการตอบสนองที่วัดได้ ดูเหมือนว่าพวกเขาแนะนำการปรับให้เหมาะสมของโมเดลเชิงเส้นทั่วไป (GLM) พร้อมกับลิงค์บันทึกแทนที่จะเป็นโมเดลเชิงเส้น (LM) พร้อมการตอบกลับที่เปลี่ยนรูปแบบ ฉันไม่เข้าใจถึงข้อดีของวิธีการนี้และดูเหมือนว่าผิดปกติสำหรับฉัน ตัวแปรตอบสนองของฉันดูเหมือนกระจายตามปกติ ฉันได้รับผลลัพธ์ที่คล้ายกันในแง่ของค่าสัมประสิทธิ์และข้อผิดพลาดมาตรฐานด้วยวิธีใดวิธีหนึ่ง ฉันยังคงสงสัยว่า: ถ้าตัวแปรมีการแจกแจงแบบล็อกปกติไม่ใช่ค่าเฉลี่ยของตัวแปรที่แปลงล็อกซึ่งดีกว่าล็อกของตัวแปรที่ไม่ถูกแปลงค่าเฉลี่ยเนื่องจากค่าเฉลี่ยคือการสรุปปกติของการแจกแจงแบบปกติและล็อก - ตัวแปรแปรผันมีการกระจายตามปกติในขณะที่ตัวแปรตัวเองไม่ได้?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.