คำถามติดแท็ก negative-binomial

การแจกแจงแบบไม่ต่อเนื่องและไม่แปรตามจำนวน Bernoulli(p) การทดลองสำเร็จจนกระทั่งจำนวนความล้มเหลวที่ระบุเกิดขึ้น

2
การกระจายตัวใน summary.glm ()
ฉันทำ glm.nb โดย glm1<-glm.nb(x~factor(group)) กับกลุ่มที่เป็น categorial และ x เป็นตัวแปรเมทริกซ์ เมื่อฉันพยายามที่จะได้รับการสรุปผลที่ฉันได้รับผลลัพธ์ที่แตกต่างกันเล็กน้อยขึ้นอยู่กับว่าผมใช้หรือsummary() ให้ฉันsummary.glmsummary(glm1) ... Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.1044 0.1519 0.687 0.4921 factor(gruppe)2 0.1580 0.2117 0.746 0.4555 factor(gruppe)3 0.3531 0.2085 1.693 0.0904 . --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 …

1
จะจัดการกับ overdispersion ในการถดถอยของปัวซองได้อย่างไร: ความเป็นไปได้เสมือน, GLM ทวินามลบ, หรือเอฟเฟกต์แบบสุ่มระดับหัวเรื่อง?
ฉันได้พบกับข้อเสนอสามข้อเพื่อจัดการกับการกระจายเกินพิกัดในตัวแปรตอบกลับของปัวซองและโมเดลเริ่มต้นที่มีเอฟเฟกต์ถาวรทั้งหมด: ใช้แบบจำลองเสมือน; ใช้ GLM ลบแบบทวินาม ใช้โมเดลผสมกับเอฟเฟกต์แบบสุ่มระดับหัวเรื่อง แต่สิ่งที่จะเลือกจริงและทำไม? มีเกณฑ์ใดบ้างในกลุ่มนี้?

1
การใช้มากเกินไปและการสร้างแบบจำลองทางเลือกในโมเดลเอฟเฟกต์แบบปัวซองที่มีออฟเซ็ต
ฉันพบคำถามเชิงปฏิบัติจำนวนมากเมื่อสร้างแบบจำลองนับข้อมูลจากการวิจัยเชิงทดลองโดยใช้การทดสอบภายในเรื่อง ฉันอธิบายการทดลองข้อมูลและสิ่งที่ฉันได้ทำไปแล้วตามด้วยคำถามของฉัน มีการฉายภาพยนตร์สี่เรื่องที่แตกต่างกันตามตัวอย่างของผู้ตอบแบบสอบถาม หลังจากภาพยนตร์แต่ละเรื่องทำการสัมภาษณ์กันซึ่งเราได้นับจำนวนการปรากฏของข้อความบางอย่างที่น่าสนใจสำหรับ RQ (ตัวแปรการนับที่คาดการณ์) นอกจากนี้เรายังบันทึกจำนวนสูงสุดของเหตุการณ์ที่เป็นไปได้ (หน่วยการเข้ารหัสตัวแปรออฟเซ็ต) นอกจากนี้ยังมีการวัดคุณลักษณะหลายอย่างของภาพยนตร์ในระดับต่อเนื่องซึ่งสำหรับหนึ่งเรามีสมมติฐานเชิงสาเหตุของผลกระทบของคุณลักษณะภาพยนตร์ที่มีต่อการนับข้อความในขณะที่คุณสมบัติอื่น ๆ เป็นตัวควบคุม (ตัวทำนาย) กลยุทธ์การสร้างแบบจำลองที่นำมาใช้จนถึงมีดังนี้: ประมาณค่าแบบจำลองเอฟเฟกต์ปัวซงโดยใช้ตัวแปรสาเหตุเป็นตัวแปรร่วมและตัวแปรอื่น ๆ เป็นตัวแปรควบคุม รุ่นนี้มีการชดเชยเท่ากับ 'บันทึก (หน่วย)' (หน่วยการเข้ารหัส) เอฟเฟกต์แบบสุ่มจะถูกนำไปใช้กับตัวแบบ (จำนวนเฉพาะของภาพยนตร์นั้นซ้อนอยู่ในตัวแบบ) เราพบว่าสมมติฐานเชิงสาเหตุได้รับการยืนยัน (sig. สัมประสิทธิ์ของตัวแปรเชิงสาเหตุ) ในการประมาณค่าเราใช้แพ็คเกจ lme4 ใน R โดยเฉพาะฟังก์ชัน glmer ตอนนี้ฉันมีคำถามต่อไปนี้ ปัญหาที่พบบ่อยในการถดถอยปัวซองคือ ฉันรู้ว่าสิ่งนี้สามารถทดสอบได้โดยใช้การถดถอยแบบทวินามลบและประเมินว่าพารามิเตอร์การกระจายของมันช่วยปรับปรุงแบบจำลองของปัวซองแบบง่าย ๆ หรือไม่ อย่างไรก็ตามฉันไม่รู้ว่าจะทำอย่างไรในบริบทของเอฟเฟกต์แบบสุ่ม ฉันควรทดสอบ overispersion ในสถานการณ์ของฉันอย่างไร ฉันทดสอบการกระจายตัวมากเกินไปในปัวซอง / การถดถอยแบบทวินามเชิงลบอย่างง่าย (ที่ไม่มีเอฟเฟกต์แบบสุ่ม) ที่ฉันรู้ว่าจะพอดีได้อย่างไร การทดสอบแสดงให้เห็นการปรากฏตัวของ overdispersion อย่างไรก็ตามเนื่องจากรุ่นเหล่านี้ไม่ได้พิจารณาการจัดกลุ่มฉันจึงคิดว่าการทดสอบนี้ไม่ถูกต้อง นอกจากนี้ฉันไม่แน่ใจเกี่ยวกับบทบาทของออฟเซ็ตสำหรับการทดสอบการเกินขนาด มีแบบจำลองการถดถอยเอฟเฟกต์แบบสุ่มแบบลบทวินามแบบลบหรือไม่และฉันควรใส่ใน …

1
ปัญหาในการหาแบบจำลองที่ดีเหมาะสำหรับการนับข้อมูลด้วยเอฟเฟกต์แบบผสม - ZINB หรืออย่างอื่นใช่ไหม
ฉันมีชุดข้อมูลขนาดเล็กมากที่มีผึ้งมากมายโดดเดี่ยวที่ฉันมีปัญหาในการวิเคราะห์ มันคือข้อมูลนับและจำนวนเกือบทั้งหมดอยู่ในการรักษาหนึ่งโดยมีศูนย์ส่วนใหญ่ในการรักษาอื่น นอกจากนี้ยังมีค่าสูงสองสามค่า (ค่าละหนึ่งในสองแห่งในหกแห่ง) ดังนั้นการแจกแจงค่าจะมีหางที่ยาวมาก ฉันทำงานในอาร์ฉันใช้แพ็คเกจที่แตกต่างกันสองแบบ: lme4 และ glmmADMB รูปแบบผสมปัวซองไม่เหมาะสม: แบบจำลองมีการกระจายตัวมากเกินไปเมื่อเอฟเฟกต์แบบสุ่มไม่เหมาะสม (แบบจำลอง GLM) และแบบจำลองที่น้อยเกินไปเมื่อติดตั้งเอฟเฟกต์แบบสุ่ม (รุ่น glmer) ฉันไม่เข้าใจว่าทำไมถึงเป็นเช่นนี้ การออกแบบการทดลองเรียกร้องให้มีเอฟเฟกต์แบบซ้อนกันดังนั้นฉันจึงจำเป็นต้องรวมไว้ด้วย การกระจายข้อผิดพลาดของปัวซอง lognormal ไม่ได้ปรับปรุงให้พอดี ฉันลองใช้การแจกแจงข้อผิดพลาดแบบทวินามลบโดยใช้ glmer.nb และไม่สามารถทำให้พอดี - ถึงขีด จำกัด การวนซ้ำแม้ว่าจะเปลี่ยนความอดทนโดยใช้ glmerControl (tolPwrss = 1e-3) เนื่องจากเลขศูนย์จำนวนมากจะเกิดจากความจริงที่ว่าฉันไม่เห็นผึ้ง (พวกมันมักจะเป็นสิ่งดำเล็ก ๆ ) ฉันจึงลองแบบจำลองที่ไม่มีการพอง ZIP ไม่พอดี ZINB เป็นแบบจำลองที่ดีที่สุดจนถึงตอนนี้ แต่ฉันก็ยังไม่ค่อยมีความสุขกับแบบจำลอง ฉันตกอยู่ในความสูญเสียว่าจะลองทำอะไรต่อไป ฉันลองใช้แบบจำลองอุปสรรค์ แต่ไม่สามารถกระจายการตัดทอนไปยังผลลัพธ์ที่ไม่เป็นศูนย์ได้ - ฉันคิดว่าเนื่องจากศูนย์จำนวนมากอยู่ในการควบคุมการรักษา (ข้อความแสดงข้อผิดพลาดคือ“ ข้อผิดพลาดใน model.frame.default” …

1
เกณฑ์สำหรับการเลือกโมเดล“ ดีที่สุด” ในโมเดลมาร์คอฟที่ซ่อนอยู่
ฉันมีชุดข้อมูลอนุกรมเวลาที่ฉันพยายามจัดวางแบบซ่อนมาร์คอฟ (HMM) เพื่อประเมินจำนวนสถานะแฝงในข้อมูล รหัสหลอกของฉันสำหรับทำสิ่งนี้มีดังต่อไปนี้: for( i in 2 : max_number_of_states ){ ... calculate HMM with i states ... optimal_number_of_states = "model with smallest BIC" ... } ตอนนี้ในรูปแบบการถดถอยปกติ BIC มีแนวโน้มที่จะชอบรูปแบบที่น่าสังเวชมากที่สุด แต่ในกรณีของ HMM ฉันไม่แน่ใจว่ามันคือสิ่งที่ทำ มีใครบ้างที่ทราบว่าเกณฑ์ BIC ของ HMM ประเภทใดมีแนวโน้มเป็นจริง? ฉันยังสามารถได้รับ AIC และค่าความน่าจะเป็นเช่นกัน เนื่องจากฉันพยายามที่จะอนุมานจำนวนจริงของรัฐเป็นหนึ่งในเกณฑ์เหล่านี้ "ดีกว่า" เพื่ออื่น ๆ สำหรับวัตถุประสงค์นี้หรือไม่

1
เครื่องมือประมาณความน่าจะเป็นสูงสุดสำหรับการแจกแจงแบบทวินามลบ
คำถามดังต่อไปนี้: ตัวอย่างแบบสุ่มของค่า n ถูกรวบรวมจากการแจกแจงแบบทวินามลบด้วยพารามิเตอร์ k = 3 ค้นหาตัวประมาณความน่าจะเป็นสูงสุดของพารามิเตอร์π ค้นหาสูตร asymptotic สำหรับข้อผิดพลาดมาตรฐานของตัวประมาณค่านี้ อธิบายว่าเหตุใดการแจกแจงทวินามลบจะประมาณปกติถ้าพารามิเตอร์ k ใหญ่พอ พารามิเตอร์ของการประมาณปกตินี้มีอะไรบ้าง การทำงานของฉันมีดังต่อไปนี้: 1. ฉันรู้สึกว่านี่เป็นสิ่งที่ต้องการ แต่ฉันไม่แน่ใจว่าฉันถูกต้องหรือไม่หรือถ้าฉันสามารถรับข้อมูลนี้เพิ่มเติมได้ p(x)=(x−1k−1)πk(1−π)x−kL(π)=Πnip(xn|π)ℓ(π)=Σniln(p(xn|π))ℓ‘(π)=Σnikπ−(x−k)(1−π)p(x)=(x−1k−1)πk(1−π)x−kL(π)=Πinp(xn|π)ℓ(π)=Σinln⁡(p(xn|π))ℓ‘(π)=Σinkπ−(x−k)(1−π)p(x) = {x-1 \choose k-1}\pi^k(1-\pi)^{x-k}\\ L(\pi) = \Pi_i^n p(x_n|\pi)\\ \ell(\pi) = \Sigma_i^n\ln(p(x_n|\pi))\\ \ell`(\pi) = \Sigma_i^n\dfrac{k}{\pi}-\dfrac{(x-k)}{(1-\pi)} ฉันคิดว่าต่อไปนี้เป็นสิ่งที่ขอ ในส่วนสุดท้ายฉันรู้สึกว่าฉันต้องการแทนที่π^π^\hat{\pi}ด้วยkxkx\dfrac{k}{x} ℓ‘‘(π^)=−kπ^2+x(1−π^)2se(π^)=−1ℓ‘‘(π^)−−−−−−−√se(π^)=π^2k−(1−π^)2x−−−−−−−−−−−−√ℓ‘‘(π^)=−kπ^2+x(1−π^)2se(π^)=−1ℓ‘‘(π^)se(π^)=π^2k−(1−π^)2x\ell``(\hat{\pi}) = -\dfrac{k}{\hat{\pi}^2} + \dfrac{x}{(1-\hat{\pi})^2}\\ se(\hat{\pi}) = \sqrt{-\dfrac{1}{\ell``(\hat{\pi})}}\\ se(\hat{\pi}) = \sqrt{\dfrac{\hat{\pi}^2}{k} - \dfrac{(1-\hat{\pi})^2}{x}}\\ ฉันไม่แน่ใจจริงๆว่าจะพิสูจน์ได้อย่างไรและยังคงค้นคว้าอยู่ …

3
วิธีจัดการกับคำเตือน“ ไม่เป็นจำนวนเต็ม” จากลบ binomial GLM อย่างไร
ฉันพยายามจำลองความเข้มเฉลี่ยของปรสิตที่มีผลต่อโฮสต์ใน R โดยใช้โมเดลทวินามลบ ฉันได้รับคำเตือน 50 คำขึ้นไปที่บอกว่า: In dpois(y, mu, log = TRUE) : non-integer x = 251.529000 ฉันจะจัดการกับสิ่งนี้ได้อย่างไร รหัสของฉันมีลักษณะเช่นนี้: mst.nb = glm.nb(Larvae+Nymphs+Adults~B.type+Month+Season, data=MI.df)

2
ปรับสเกลตัวแปรเป็นข้อมูลนับ - ถูกต้องหรือไม่?
ในบทความนี้ (ใช้ได้อย่างอิสระผ่าน PubMed กลาง) ผู้เขียนใช้การถดถอยแบบทวินามเชิงลบเพื่อทำแบบจำลองคะแนนในเครื่องมือคัดกรอง 10 ข้อที่มีคะแนน 0-40 ขั้นตอนนี้จะถือว่าข้อมูลมีการนับซึ่งเห็นได้ชัดว่าไม่ใช่ในกรณีนี้ ฉันต้องการความคิดเห็นของคุณว่าวิธีนี้เป็นที่ยอมรับหรือไม่เพราะบางครั้งฉันใช้เครื่องมือเดียวกันหรือวิธีที่คล้ายกันในการทำงานของฉัน ถ้าไม่ฉันต้องการทราบว่ามีทางเลือกที่ยอมรับได้หรือไม่ รายละเอียดเพิ่มเติมด้านล่าง: มาตราส่วนที่ใช้คือแบบทดสอบความผิดปกติในการใช้แอลกอฮอล์ (AUDIT) ซึ่งเป็นแบบสอบถาม 10 ข้อที่ออกแบบมาเป็นเครื่องมือคัดกรองสำหรับความผิดปกติในการใช้แอลกอฮอล์และการดื่มสุรา / เป็นอันตราย เครื่องมือนี้ทำคะแนนจาก 0 ถึง 40 และโดยทั่วไปแล้วผลลัพธ์จะเอียงไปทางซ้ายอย่างมาก เพื่อความเข้าใจของฉันการใช้ข้อมูลนับถือว่าค่าทั้งหมดที่ "นับ" เป็นอิสระจากกัน - ผู้ป่วยที่มาถึงแผนกฉุกเฉินในแต่ละวันจำนวนผู้เสียชีวิตในบางกลุ่มและอื่น ๆ ทั้งหมดเป็นอิสระจากกัน แม้ว่าจะขึ้นอยู่กับตัวแปรพื้นฐาน นอกจากนี้ฉันคิดว่าไม่สามารถนับจำนวนสูงสุดที่อนุญาตเมื่อใช้ข้อมูลนับได้ แต่ฉันคิดว่าสมมติฐานนี้สามารถผ่อนคลายได้เมื่อค่าสูงสุดทางทฤษฎีสูงมากเมื่อเปรียบเทียบกับค่าสูงสุดที่สังเกตได้ในข้อมูล? เมื่อใช้ระดับ AUDIT เราไม่ได้นับจริง เรามี 10 รายการที่มีคะแนนรวมสูงสุด 40 ถึงแม้ว่าคะแนนสูงสุดนั้นจะไม่ค่อยเห็นในทางปฏิบัติ คะแนนในรายการมีความสัมพันธ์กันตามธรรมชาติ สมมติฐานที่จำเป็นต้องใช้ข้อมูลนับจึงถูกละเมิด แต่นี่ยังเป็นวิธีที่ยอมรับได้หรือไม่? การละเมิดสมมติฐานมีความร้ายแรงเพียงใด? มีสถานการณ์บางอย่างที่วิธีนี้สามารถยอมรับได้มากกว่าหรือไม่? มีทางเลือกอื่นสำหรับวิธีการนี้ที่ไม่ได้เกี่ยวข้องกับการลดขนาดตัวแปรเป็นหมวดหมู่หรือไม่?

1
ทำไม Anova () และ drop1 () จึงให้คำตอบที่แตกต่างกันสำหรับ GLMM
ฉันมีแบบฟอร์ม GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) เมื่อฉันใช้drop1(model, test="Chi")ฉันได้รับผลลัพธ์ที่แตกต่างกว่าถ้าผมใช้จากแพคเกจรถหรือAnova(model, type="III") summary(model)สองหลังนี้ให้คำตอบเดียวกัน จากการใช้ข้อมูลที่ประดิษฐ์ขึ้นมาฉันพบว่าทั้งสองวิธีปกติไม่แตกต่างกัน พวกเขาให้คำตอบเดียวกันสำหรับแบบจำลองเชิงเส้นที่มีความสมดุลแบบจำลองเชิงเส้นที่ไม่สมดุล (ซึ่งไม่เท่ากันในกลุ่มต่าง ๆ ) และสำหรับแบบจำลองเชิงเส้นที่สมดุลแบบทั่วไป ดังนั้นจึงปรากฏว่าเฉพาะในกรณีที่มีการรวมปัจจัยแบบสุ่มเข้าด้วยกัน ทำไมจึงมีความคลาดเคลื่อนระหว่างสองวิธีนี้? เมื่อใช้ GLMM ควรAnova()หรือdrop1()จะใช้งานอย่างไร ความแตกต่างระหว่างสองสิ่งนี้ค่อนข้างเล็กน้อยอย่างน้อยสำหรับข้อมูลของฉัน มันมีความสำคัญต่อการใช้งานหรือไม่?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
R เทียบเท่ากับตัวเลือกของคลัสเตอร์เมื่อใช้การถดถอยแบบทวินามลบ
ฉันพยายามจำลองการทำงานของเพื่อนร่วมงานและกำลังย้ายการวิเคราะห์จาก Stata ไปยัง R โมเดลที่เธอใช้เรียกใช้ตัวเลือก "cluster" ภายในฟังก์ชัน nbreg เพื่อจัดกลุ่มข้อผิดพลาดมาตรฐาน ดูhttp://repec.org/usug2007/crse.pdfสำหรับคำอธิบายที่สมบูรณ์เกี่ยวกับสิ่งที่และเหตุผลของตัวเลือกนี้ คำถามของฉันคือวิธีการเรียกใช้ตัวเลือกเดียวกันนี้สำหรับการถดถอยทวินามลบภายใน R? รูปแบบหลักในกระดาษของเรามีการระบุไว้ใน Stata ดังนี้ xi: nbreg cntpd09 logpop08 pcbnkthft07 pccrunion07 urbanpop pov00 pov002 edu4yr /// black04 hispanic04 respop i.pdpolicy i.maxloan rollover i.region if isser4 != 1, cluster(state) และฉันได้แทนที่สิ่งนี้ด้วย pday<-glm.nb(cntpd09~logpop08+pcbnkthft07+pccrunion07+urbanpop+pov00+pov002+edu4yr+ black04+hispanic04+respop+as.factor(pdpolicy)+as.factor(maxloan)+rollover+ as.factor(region),data=data[which(data$isser4 != 1),]) ซึ่งเห็นได้ชัดว่าขาดชิ้นส่วนข้อผิดพลาดของคลัสเตอร์ เป็นไปได้ไหมที่จะทำการจำลองแบบที่แน่นอน? ถ้าเป็นเช่นนั้นได้อย่างไร ถ้าไม่ทางเลือกที่เหมาะสมคืออะไร? ขอบคุณ [แก้ไข] …

1
ช่วยตีความการนับข้อมูล GLMM โดยใช้ lme4 glmer และ glmer.nb - ทวินามลบกับปัวซอง
ฉันมีคำถามบางอย่างเกี่ยวกับข้อกำหนดและการตีความของ GLMM มี 3 คำถามที่แน่นอนทางสถิติและอีก 2 คำถามเกี่ยวกับอาร์ฉันกำลังโพสต์ที่นี่เพราะท้ายที่สุดฉันคิดว่าปัญหาคือการตีความผลลัพธ์ของ GLMM ฉันกำลังพยายามที่จะติดตั้ง GLMM ฉันใช้ข้อมูลการสำรวจสำมะโนประชากรสหรัฐจากฐานข้อมูลระบบทางเดินยาว ข้อสังเกตของฉันคือการสำรวจสำมะโนประชากร ตัวแปรตามของฉันคือจำนวนหน่วยที่พักอาศัยที่ว่างและฉันสนใจในความสัมพันธ์ระหว่างตำแหน่งว่างและตัวแปรทางเศรษฐกิจและสังคม ตัวอย่างที่นี่นั้นง่ายเพียงแค่ใช้เอฟเฟ็กต์คงที่สองตัวเลือก: เปอร์เซ็นต์ของประชากรที่ไม่ใช่คนผิวขาว ฉันต้องการรวมเอฟเฟกต์แบบซ้อนสองแบบไว้ด้วยกัน: ผืนผ้าภายในทศวรรษและทศวรรษเช่น (ทศวรรษ / ผืน) ฉันกำลังพิจารณาแบบสุ่มเหล่านี้ในความพยายามที่จะควบคุมพื้นที่ (เช่นระหว่างผืน) และชั่วขณะ (เช่นระหว่างทศวรรษ) autocorrelation อย่างไรก็ตามฉันสนใจทศวรรษที่ผ่านมาเป็นผลกระทบคงที่ดังนั้นฉันจึงรวมมันเป็นปัจจัยคงที่เช่นกัน เนื่องจากตัวแปรอิสระของฉันคือตัวแปรนับจำนวนเต็มที่ไม่เป็นลบฉันจึงพยายามใส่ปัวซองและลบทวินาม GLMM ฉันใช้บันทึกของหน่วยที่อยู่อาศัยทั้งหมดเพื่อชดเชย ซึ่งหมายความว่าค่าสัมประสิทธิ์ถูกตีความว่าเป็นผลกระทบต่ออัตราตำแหน่งที่ว่างไม่ใช่จำนวนบ้านที่ว่างทั้งหมด ฉันกำลังมีผลสำหรับ Poisson และลบทวินาม GLMM ประมาณโดยใช้ glmer และ glmer.nb จากlme4 การตีความค่าสัมประสิทธิ์ทำให้ฉันรู้สึกว่าขึ้นอยู่กับความรู้ของฉันของข้อมูลและพื้นที่การศึกษา ถ้าคุณต้องการให้ข้อมูลและสคริปต์พวกเขาอยู่ในของฉันGithub สคริปต์นี้มีการสืบสวนเชิงพรรณนามากกว่าที่ฉันเคยทำก่อนสร้างแบบจำลอง นี่คือผลลัพธ์ของฉัน: โมเดลปัวซอง Generalized linear mixed model fit by …

2
GAMM ที่มีข้อมูลที่ไม่เป็นศูนย์
เป็นไปได้หรือไม่ที่จะพอดีกับ GAMM (โมเดลผสมแบบผสมทั่วไป) สำหรับข้อมูลที่ไม่พองในศูนย์ใน R? ถ้าไม่เป็นไปได้หรือไม่ที่จะพอดีกับ GAM (โมเดลเสริมทั่วไป) สำหรับข้อมูลที่ไม่มีการขยายศูนย์ด้วยการแจกแจงแบบทวินามลบหรือกึ่งปัวซองเสมือนใน R? (ฉันพบCOZIGAM :: zigamและmgcv: ziPสำหรับการแจกแจงปัวซอง)

1
ทวินามลบนั้นไม่สามารถแสดงออกได้เหมือนในตระกูลเอ็กซ์โพเนนเชียลหรือไม่ถ้ามี 2 นิรนาม?
ฉันมีการบ้านเพื่อแสดงการกระจายตัวแบบทวินามลบเป็นตระกูลการแจกแจงแบบเลขชี้กำลังเนื่องจากพารามิเตอร์การกระจายตัวเป็นค่าคงที่ที่รู้จัก นี่ค่อนข้างง่าย แต่ฉันสงสัยว่าทำไมพวกเขาถึงต้องการให้เราเก็บพารามิเตอร์นั้นไว้ ฉันพบว่าฉันไม่สามารถหาวิธีที่จะใส่มันในรูปแบบที่ถูกต้องโดยไม่ทราบพารามิเตอร์สองตัว ดูออนไลน์ฉันพบการอ้างสิทธิ์ว่าเป็นไปไม่ได้ อย่างไรก็ตามฉันไม่พบหลักฐานว่านี่เป็นเรื่องจริง ฉันดูเหมือนจะไม่เกิดขึ้นกับตัวเองอย่างใดอย่างหนึ่ง ใครบ้างมีข้อพิสูจน์เรื่องนี้? ตามที่ร้องขอด้านล่างนี้ฉันได้แนบข้อเรียกร้องสองสามข้อ: "ตระกูลการแจกแจงลบแบบทวินามที่มีจำนวนความล้มเหลวคงที่ (aka พารามิเตอร์การหยุดเวลา) r คือตระกูลแบบเอ็กซ์โพเนนเชียลอย่างไรก็ตามเมื่อพารามิเตอร์คงที่ใด ๆ ที่กล่าวถึงข้างต้นได้รับอนุญาตให้เปลี่ยนแปลง " http://en.wikipedia.org/wiki/Exponential_family "การแจกแจงทวินามลบสองพารามิเตอร์ไม่ได้เป็นสมาชิกของตระกูลเอ็กซ์โพเนนเชียล แต่ถ้าเราปฏิบัติต่อพารามิเตอร์การกระจายตัวเป็นค่าคงที่ที่รู้จักกันคงที่แล้วมันก็เป็นสมาชิก" http://www.unc.edu/courses/2006spring/ecol/145/001/docs/lectures/lecture21.htm

2
เหตุใดส่วนที่เหลือของ Pearson จากการถดถอยแบบทวินามเชิงลบจึงมีขนาดเล็กกว่าการถดถอยแบบปัวซอง
ฉันมีข้อมูลเหล่านี้: set.seed(1) predictor <- rnorm(20) set.seed(1) counts <- c(sample(1:1000, 20)) df <- data.frame(counts, predictor) ฉันใช้การถดถอยปัวซอง poisson_counts <- glm(counts ~ predictor, data = df, family = "poisson") และการถดถอยแบบทวินามลบ require(MASS) nb_counts <- glm.nb(counts ~ predictor, data = df) จากนั้นฉันคำนวณหาสถิติการกระจายตัวสำหรับการถดถอยปัวซอง: sum(residuals(poisson_counts, type="pearson")^2)/df.residual(poisson_counts) # [1] 145.4905 และการถดถอยแบบทวินามลบ sum(residuals(nb_counts, type="pearson")^2)/df.residual(nb_counts) # [1] 0.7650289 มีใครที่สามารถอธิบายได้โดยไม่ต้องใช้เครื่องมือทำไมสถิติการกระจายตัวของการถดถอยแบบทวินามลบน้อยกว่าสถิติการกระจายตัวสำหรับการถดถอยปัวซอง

1
ตามเงื่อนไขทั้งหมด, การกระจายตัวของทวินามลบคืออะไร
หากเป็น IID ทวินามลบแล้วสิ่งคือการกระจายของได้รับx1,x2,…,xnx1,x2,…,xnx_1, x_2, \ldots, x_n(x1,x2,…,xn)(x1,x2,…,xn)(x_1, x_2, \ldots, x_n) x1+x2+…+xn=Nx1+x2+…+xn=Nx_1 + x_2 + \ldots + x_n = N\quad ? NNNแก้ไข หากเป็นปัวซองดังนั้นเงื่อนไขโดยรวมเป็นมัลติโนเมียล ฉันไม่แน่ใจว่ามันเป็นเรื่องจริงสำหรับทวินามลบหรือไม่เพราะมันเป็นปัวซองผสมx1,x2,…,xnx1,x2,…,xnx_1, x_2, \ldots, x_n(x1,x2,…,xn)(x1,x2,…,xn)(x_1, x_2, \ldots, x_n) ในกรณีที่คุณอยากรู้นี่ไม่ใช่ปัญหาการบ้าน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.