คำถามติดแท็ก poisson-regression

การถดถอยปัวซองเป็นหนึ่งในจำนวนของแบบจำลองการถดถอยสำหรับตัวแปรตามที่มีการนับ (จำนวนเต็มไม่ใช่ลบ) แบบจำลองทั่วไปเพิ่มเติมคือการถดถอยแบบทวินาม ทั้งสองมีหลายสายพันธุ์

4
พล็อตการวิเคราะห์สำหรับการนับถอยหลัง
แปลงวินิจฉัย (และการทดสอบอย่างเป็นทางการ) คุณพบว่าข้อมูลส่วนใหญ่สำหรับการถดถอยที่ผลเป็นตัวแปรนับ? ฉันสนใจเป็นพิเศษใน Poisson และแบบจำลอง Binomial เชิงลบเช่นเดียวกับ counterparts ที่สูงเกินจริงและกีดขวางของแต่ละ แหล่งที่มาส่วนใหญ่ที่ฉันได้พบเพียงแค่พล็อตส่วนที่เหลือเทียบกับค่าติดตั้งโดยไม่ต้องพูดคุยเกี่ยวกับสิ่งที่แปลงเหล่านี้ "ควร" ดูเหมือน ภูมิปัญญาและการอ้างอิงชื่นชมอย่างมาก เรื่องราวย้อนกลับไปในเหตุผลที่ผมถามนี้ถ้ามันมีความเกี่ยวข้องเป็นคำถามอื่น ๆ ของฉัน การอภิปรายที่เกี่ยวข้อง: การตีความแปลงการวินิจฉัยที่เหลือสำหรับรุ่น GLM? สมมติฐานของตัวแบบเชิงเส้นทั่วไป GLMs - การวินิจฉัยและครอบครัวใด


2
ปัวซองและการถดถอยทวินามลบเมื่อใดจะพอดีกับค่าสัมประสิทธิ์เดียวกัน
ฉันสังเกตเห็นว่าใน R, Poisson และการถดถอยแบบทวินามลบ (NB) ดูเหมือนจะเหมาะสมกับค่าสัมประสิทธิ์เดียวกันสำหรับการจัดหมวดหมู่ แต่ไม่ต่อเนื่องทำนาย ตัวอย่างเช่นนี่คือการถดถอยด้วยตัวพยากรณ์หมวดหมู่: data(warpbreaks) library(MASS) rs1 = glm(breaks ~ tension, data=warpbreaks, family="poisson") rs2 = glm.nb(breaks ~ tension, data=warpbreaks) #compare coefficients cbind("Poisson"=coef(rs1), "NB"=coef(rs2)) นี่คือตัวอย่างที่มีตัวทำนายอย่างต่อเนื่องโดยที่ปัวซองและ NB มีค่าสัมประสิทธิ์ต่างกัน: data(cars) rs1 = glm(dist ~ speed, data=cars, family="poisson") rs2 = glm.nb(dist ~ speed, data=cars) #compare coefficients cbind("Poisson"=coef(rs1), "NB"=coef(rs2)) (แน่นอนว่าสิ่งเหล่านี้จะไม่นับข้อมูลและตัวแบบนั้นไม่มีความหมาย ... …

5
เหตุใดการถดถอยของปัวซองจึงใช้สำหรับนับข้อมูล
ฉันเข้าใจว่าสำหรับชุดข้อมูลบางอย่างเช่นการลงคะแนนจะทำงานได้ดีขึ้น เหตุใดการถดถอยของปัวซองจึงใช้กับการถดถอยเชิงเส้นปกติหรือการถดถอยโลจิสติก แรงจูงใจทางคณิตศาสตร์สำหรับมันคืออะไร?

3
พล็อตการตีความของส่วนที่เหลือเทียบกับค่าติดตั้งจากการถดถอยปัวซอง
ฉันกำลังพยายามปรับให้พอดีกับข้อมูลด้วย GLM (การถดถอยปัวซอง) ในอาร์เมื่อฉันพล็อตส่วนที่เหลือเทียบกับค่าติดตั้งพล็อตที่สร้างหลาย ๆ (เกือบเป็นเส้นตรง สิ่งนี้หมายความว่า? library(faraway) modl <- glm(doctorco ~ sex + age + agesq + income + levyplus + freepoor + freerepa + illness + actdays + hscore + chcond1 + chcond2, family=poisson, data=dvisits) plot(modl)

1
แบบจำลองเชิงเส้นแบบไม่เชิงเส้นกับแบบเชิงเส้นทั่วไป: คุณอ้างถึงการถดถอยแบบลอจิสติกปัวซอง ฯลฯ อย่างไร
ฉันมีคำถามเกี่ยวกับความหมายที่ฉันต้องการความคิดเห็นของนักสถิติเพื่อน เรารู้ว่าแบบจำลองต่างๆเช่นโลจิสติกปัวซอง ฯลฯ ตกอยู่ภายใต้ร่มของตัวแบบเชิงเส้นทั่วไป ตัวแบบมีฟังก์ชั่นไม่เชิงเส้นของพารามิเตอร์ซึ่งอาจถูกจำลองโดยใช้เฟรมเวิร์กโมเดลเชิงเส้นโดยใช้ฟังก์ชันลิงก์ที่เหมาะสม ฉันสงสัยว่าถ้าคุณพิจารณาสถานการณ์ (สอน?) เช่นการถดถอยโลจิสติกเป็น: แบบไม่เชิงเส้นกำหนดรูปแบบของพารามิเตอร์ โมเดลเชิงเส้นเนื่องจากลิงก์เปลี่ยนเราเป็นเฟรมเวิร์กโมเดลเชิงเส้น พร้อมกัน (1) และ (2): มัน "เริ่มต้น" เป็นโมเดลที่ไม่ใช่เชิงเส้น แต่อาจทำงานด้วยวิธีที่ทำให้เราคิดว่ามันเป็นโมเดลเชิงเส้น หวังว่าฉันจะสามารถตั้งค่าแบบสำรวจที่แท้จริง ...

1
การตีความตัวแปรแฝงของตัวแบบเชิงเส้นทั่วไป (GLM)
เวอร์ชั่นสั้น: เรารู้ว่าการถดถอยโลจิสติกและการถดถอยแบบ probit สามารถตีความได้ว่าเกี่ยวข้องกับตัวแปรแฝงอย่างต่อเนื่องที่ได้รับการแยกตามเกณฑ์คงที่บางส่วนก่อนที่จะสังเกต การตีความตัวแปรแฝงที่คล้ายกันมีให้สำหรับการพูดการถดถอยของปัวซองหรือไม่ วิธีการเกี่ยวกับการถดถอยแบบทวินาม (เช่น logit หรือ probit) เมื่อมีผลลัพธ์ที่ไม่ต่อเนื่องกันมากกว่าสองรายการ ในระดับทั่วไปส่วนใหญ่มีวิธีการตีความ GLM ใด ๆ ในแง่ของตัวแปรแฝงหรือไม่? รุ่นยาว: วิธีมาตรฐานในการสร้างแรงจูงใจให้กับโมเดล probit สำหรับผลลัพธ์ไบนารี (เช่นจาก Wikipedia ) มีดังต่อไปนี้ เรามีไม่มีใครสังเกต / แฝงผลตัวแปรที่มีการกระจายตามปกติเงื่อนไขในการทำนายXตัวแปรแฝงนี้อยู่ภายใต้กระบวนการ thresholding เพื่อให้ผลที่ไม่ต่อเนื่องเราจริงสังเกตคือถ้า ,ถ้า<\ สิ่งนี้นำไปสู่ความน่าจะเป็นของให้เพื่อให้อยู่ในรูปแบบของ CDF ปกติพร้อมค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานฟังก์ชันของ thresholdและความชันของการถดถอยของบนX U = 1 Y ≥ γ U = 0 Y < γ U = 1 X …

1
เมื่อใดจึงจะใช้ปัวซองเทียบกับเรขาคณิตเทียบกับลบทวินาม GLMs สำหรับการนับข้อมูล?
ฉันพยายามจัดโครงร่างสำหรับตัวเองเมื่อเหมาะสมที่จะใช้ประเภทการถดถอย (เรขาคณิต, ปัวซอง, ลบทวินาม) กับข้อมูลการนับภายในกรอบการทำงาน GLM (ใช้การกระจายแบบ GLM เพียง 3 ใน 8 เท่านั้นสำหรับข้อมูลการนับ ฉันอ่านศูนย์รอบทวินามลบและการแจกแจงปัวซง) เมื่อใดจึงจะใช้ปัวซองเทียบกับเรขาคณิตเทียบกับลบทวินาม GLMs สำหรับการนับข้อมูล? จนถึงตอนนี้ฉันมีตรรกะดังต่อไปนี้: มันนับข้อมูลหรือไม่ ถ้าใช่ค่าเฉลี่ยและความแปรปรวนไม่เท่ากันหรือไม่? ถ้าใช่การถดถอยแบบทวินามลบ ถ้าไม่มีปัวซงถดถอย มีอัตราเงินเฟ้อเป็นศูนย์หรือไม่? ถ้าใช่ปัวซองกำลังพองศูนย์หรือทวินามลบพอง คำถามที่ 1ดูเหมือนจะไม่มีข้อบ่งชี้ที่ชัดเจนว่าจะใช้เมื่อใด มีบางอย่างที่ต้องแจ้งการตัดสินใจนั้นหรือไม่? จากสิ่งที่ฉันเข้าใจเมื่อคุณเปลี่ยนไปใช้ ZIP ความแปรปรวนเฉลี่ยที่เป็นสมมติฐานที่เท่าเทียมกันนั้นค่อนข้างผ่อนคลายดังนั้นมันจึงค่อนข้างคล้ายกับ NB อีกครั้ง คำถามที่ 2ตระกูลเรขาคณิตสอดคล้องกับเรื่องนี้หรือคำถามประเภทใดที่ฉันควรถามข้อมูลเมื่อตัดสินใจว่าจะใช้ตระกูลเรขาคณิตในการถดถอยของฉันหรือไม่ คำถามที่ 3ฉันเห็นผู้คนแลกเปลี่ยนการแจกแจงทวินามและปัวซงตลอดเวลา แต่ไม่ใช่เชิงเรขาคณิตดังนั้นฉันเดาว่ามีบางอย่างที่แตกต่างกันอย่างชัดเจนว่าจะใช้เมื่อไร ถ้าเป็นเช่นนั้นมันคืออะไร? ป.ล. ฉันได้ทำแผนภาพ (อาจจะเกินความจริง) จากความคิดเห็น) ( แก้ไขได้ ) ของความเข้าใจปัจจุบันของฉันหากผู้คนต้องการแสดงความคิดเห็น / ปรับแต่งเพื่อการอภิปราย

1
ทำไม quasi-Poisson ใน GLM จึงไม่ถือว่าเป็นกรณีพิเศษของทวินามลบ
ฉันกำลังพยายามจัดวางโมเดลเชิงเส้นแบบทั่วไปกับชุดข้อมูลนับจำนวนหนึ่งที่อาจหรือไม่อาจใช้เกินขนาด การแจกแจงแบบบัญญัติทั้งสองที่ใช้ในที่นี้คือ Poisson และ Negative Binomial (Negbin) พร้อม EVและความแปรปรวนμμ\mu VRP= μVarP=μVar_P = \mu VRยังไม่มีข้อความB= μ + μ2θVarNB=μ+μ2θVar_{NB} = \mu + \frac{\mu^2}{\theta} ซึ่งสามารถติดตั้งในการใช้ R glm(..,family=poisson)และglm.nb(...)ตามลำดับ นอกจากนี้ยังมีquasipoissonครอบครัวซึ่งในความเข้าใจของฉันเป็นปัวซองปรับด้วย EV และความแปรปรวนเดียวกัน VRคิวพี= ϕ μVarQP=ϕμVar_{QP} = \phi\mu , เช่นตกบางแห่งระหว่าง Poisson และ Negbin ปัญหาหลักของครอบครัว quasipoisson คือไม่มีความเกี่ยวข้องกันดังนั้นจึงมีการทดสอบทางสถิติที่มีประโยชน์อย่างมากและใช้มาตรการที่เหมาะสม (AIC, LR etcetera) ถ้าคุณเปรียบเทียบ QP และ Negbin แปรปรวนคุณอาจสังเกตเห็นว่าคุณสามารถถือเอาพวกเขาโดยการวางtheta} ดำเนินการต่อในตรรกะนี้คุณสามารถลองแสดงการแจกแจง quasipoisson …

1
ความดีของความพอดีและแบบจำลองที่เลือกการถดถอยเชิงเส้นหรือปัวซอง
ฉันต้องการคำแนะนำเกี่ยวกับประเด็นขัดแย้งหลักสองประการในการวิจัยของฉันซึ่งเป็นกรณีศึกษาของ 3 ยาและนวัตกรรมขนาดใหญ่ จำนวนสิทธิบัตรต่อปีเป็นตัวแปรตาม คำถามของฉันคือ เกณฑ์ที่สำคัญที่สุดสำหรับแบบจำลองที่ดีคืออะไร มีความสำคัญอะไรมาก / น้อย? มันคือตัวแปรส่วนใหญ่หรือทั้งหมดจะมีความหมาย? มันเป็นปัญหาของ "สถิติ F" หรือไม่? มันคือค่าของ "Adjusted R squared" หรือไม่? ประการที่สองฉันจะตัดสินใจรูปแบบที่เหมาะสมที่สุดสำหรับการวิจัยได้อย่างไร นอกจากสิทธิบัตรซึ่งเป็นตัวแปรนับ (ดังนั้นอาจเป็นจำนวนปัวซง) ฉันมีตัวแปรอธิบายเช่นผลตอบแทนจากสินทรัพย์งบประมาณการวิจัยและพัฒนาพันธมิตรซ้ำ (% ไม่ใช่ตัวแปรไบนารี) ขนาด บริษัท (พนักงาน) และอีกสองคน ฉันควรทำการถดถอยเชิงเส้นหรือปัวซอง

4
ทำไมสแควร์ธรรมดาน้อยที่สุดจึงทำงานได้ดีกว่าการถดถอยปัวซอง?
ฉันกำลังพยายามทำให้การถดถอยเพื่ออธิบายจำนวนคดีฆาตกรรมในแต่ละเขตของเมือง แม้ว่าฉันจะรู้ว่าข้อมูลของฉันเป็นไปตามการแจกแจงปัวซอง แต่ฉันก็พยายามปรับให้เหมาะสมกับ OLS ดังนี้: log(y+1)=α+βX+ϵlog(y+1)=α+βX+ϵlog(y+1) = \alpha + \beta X + \epsilon จากนั้นฉันก็ลอง (ปฎิบัติ!) การถดถอยแบบปัวซอง ปัญหาคือว่าฉันมีผลลัพธ์ที่ดีกว่าในการถดถอย OLS: หลอก -สูงกว่า (0.71 เทียบกับ 0.57) และ RMSE เช่นกัน (3.8 vs 8.88 มาตรฐานที่มีหน่วยเดียวกัน)R2R2R^2 ทำไม? เป็นเรื่องปกติหรือไม่ มีอะไรผิดปกติในการใช้ OLS ไม่ว่าการเผยแพร่ข้อมูลจะเป็นอย่างไร แก้ไข ตามคำแนะนำของ kjetil b halvorsen และอื่น ๆ ฉันได้ติดตั้งข้อมูลผ่านสองรุ่น: OLS และ Negative Binomial GLM (NB) ฉันเริ่มด้วยฟีเจอร์ทั้งหมดที่ฉันมีจากนั้นฉันก็ทำการลบฟีเจอร์ที่ไม่สำคัญออกไปทีละแบบ …

2
ในโมเดลปัวซองความแตกต่างระหว่างการใช้เวลาในรูปของ covariate หรือออฟเซ็ตคืออะไร
ฉันเพิ่งค้นพบวิธีจำลองแบบการเปิดเผยเมื่อเวลาผ่านไปโดยใช้บันทึกเวลา (เช่น) เป็นการชดเชยในการถดถอยของปัวซอง ฉันเข้าใจว่าออฟเซ็ตสอดคล้องกับการมีเวลาเป็น covariate กับสัมประสิทธิ์ 1 ฉันต้องการเข้าใจความแตกต่างระหว่างการใช้เวลาเป็นออฟเซ็ตหรือ covariate ปกติดีกว่า (ดังนั้นการประมาณค่าสัมประสิทธิ์) ฉันควรใช้วิธีใดวิธีหนึ่งในสถานการณ์ใด การอัปเกรด: ฉันไม่รู้ว่ามันน่าสนใจหรือไม่ แต่ฉันรันการตรวจสอบความถูกต้องของสองวิธีโดยใช้ข้อมูลแยกแบบสุ่มซ้ำ 500 ครั้งและฉันสังเกตเห็นว่าการใช้วิธีการชดเชยทำให้เกิดข้อผิดพลาดในการทดสอบที่มากขึ้น

2
เป็นไปได้อย่างไรที่ Poisson GLM ยอมรับหมายเลขที่ไม่ใช่จำนวนเต็ม?
ฉันตกตะลึงกับความจริงที่ว่า Poisson GLM ยอมรับตัวเลขที่ไม่ใช่จำนวนเต็ม! ดู: ข้อมูล (เนื้อหาของdata.txt): 1 2001 0.25 1 1 2002 0.5 1 1 2003 1 1 2 2001 0.25 1 2 2002 0.5 1 2 2003 1 1 สคริปต์ R: t <- read.table("data.txt") names(t) <- c('site', 'year', 'count', 'weight') tm <- glm(count ~ 0 + as.factor(site) + …

2
เมื่อมีคนบอกว่าส่วนเบี่ยงเบน / df ที่เหลือควร ~ 1 สำหรับโมเดลปัวซองค่าประมาณเป็นอย่างไร
ฉันมักจะเห็นคำแนะนำสำหรับการตรวจสอบว่าแบบจำลองของปัวซองนั้นเต็มไปด้วยการแยกส่วนเบี่ยงเบนที่เหลือด้วยองศาอิสระหรือไม่ อัตราส่วนผลลัพธ์ควรเป็น "ประมาณ 1" คำถามคือช่วงที่เรากำลังพูดถึงสำหรับ "โดยประมาณ" - อัตราส่วนที่ควรตั้งปิดสัญญาณเตือนเพื่อพิจารณารูปแบบรูปแบบทางเลือกคืออะไร?

2
ปัวซองหรือปัวซองกึ่งในการถดถอยด้วยการนับข้อมูลและการกระจายเกินพิกัด?
ฉันมีข้อมูลนับจำนวน (การวิเคราะห์อุปสงค์ / ข้อเสนอพร้อมจำนวนการนับลูกค้าขึ้นอยู่กับปัจจัยหลายอย่าง) ฉันลองการถดถอยเชิงเส้นโดยมีข้อผิดพลาดปกติ แต่ QQ-plot ของฉันไม่ค่อยดี ฉันพยายามบันทึกการเปลี่ยนแปลงของคำตอบ: อีกครั้งแผนการดี QQ ดังนั้นตอนนี้ฉันกำลังลองถดถอยด้วยข้อผิดพลาดปัวซอง ด้วยโมเดลที่มีตัวแปรสำคัญทั้งหมดฉันจะได้รับ: Null deviance: 12593.2 on 53 degrees of freedom Residual deviance: 1161.3 on 37 degrees of freedom AIC: 1573.7 Number of Fisher Scoring iterations: 5 การเบี่ยงเบนส่วนที่เหลือมีขนาดใหญ่กว่าองศาอิสระที่เหลืออยู่ฉันมีการกระจายเกินกำหนด ฉันจะรู้ได้อย่างไรว่าฉันต้องใช้ quasipoisson? เป้าหมายของ quasipoisson ในกรณีนี้คืออะไร? ฉันอ่านคำแนะนำนี้ใน "The R Book" โดย Crawley แต่ฉันไม่เห็นประเด็นหรือการปรับปรุงขนาดใหญ่ในกรณีของฉัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.