คำถามติดแท็ก poisson-distribution

การกระจายแบบไม่ต่อเนื่องที่กำหนดไว้ในจำนวนเต็มไม่เป็นลบที่มีคุณสมบัติที่ค่าเฉลี่ยเท่ากับความแปรปรวน

1
ความหนาแน่นสูงเกินไปสำหรับโมเดล Gamma-Poisson แบบลำดับชั้น
ในรูปแบบลำดับชั้นของข้อมูลที่ มันดูเหมือนจะเป็นเรื่องปกติในทางปฏิบัติเพื่อเลือกค่า (ว่าค่าเฉลี่ยและความแปรปรวนของการแจกแจงแกมมาประมาณตรงกับค่าเฉลี่ยและความแปรปรวนของข้อมูล (เช่น Clayton และ Kaldor, 1987 "Empirical Bayes Estimates ของความเสี่ยงสัมพัทธ์ตามมาตรฐานอายุสำหรับการทำแผนที่โรค" Biometrics ) เห็นได้ชัดว่านี่เป็นเพียงโซลูชันเฉพาะกิจแต่เนื่องจากมันจะเกินความเชื่อมั่นของนักวิจัยในพารามิเตอร์yyyy∼Poisson(λ)y∼Poisson(λ)y \sim \textrm{Poisson}(\lambda) λ∼Gamma(α,β)λ∼Gamma(α,β)\lambda \sim \textrm{Gamma}(\alpha, \beta)α,β)α,β)\alpha, \beta)yyy(α,β)(α,β)(\alpha, \beta)และความผันผวนเล็กน้อยในข้อมูลที่รับรู้อาจมีผลต่อความหนาแน่นของแกมม่าแม้ว่ากระบวนการสร้างข้อมูลพื้นฐานจะยังคงเหมือนเดิม นอกจากนี้ในการวิเคราะห์ข้อมูลแบบเบย์ (2nd Ed) Gelman เขียนว่าวิธีนี้คือ " เลอะเทอะ ;" ในหนังสือและบทความนี้ (เริ่มต้นที่ 3232) เขาแนะนำว่าควรเลือกความหนาแน่น hyperpriorในแบบที่คล้ายกับตัวอย่างเนื้องอกหนู (เริ่มต้นที่ 130)p(α,β)p(α,β)p(\alpha, \beta) แม้ว่าจะเป็นที่ชัดเจนว่ายอมรับได้ตราบใดที่มันสร้างความหนาแน่นของหลังที่ จำกัด แต่ฉันไม่พบตัวอย่างของความหนาแน่น hyperprior ที่นักวิจัยได้ใช้สำหรับปัญหานี้ในอดีต ฉันจะซาบซึ้งอย่างยิ่งถ้ามีคนชี้ให้ฉันไปที่หนังสือหรือบทความที่ใช้ความหนาแน่นสูงเกินไปเพื่อประเมินแบบจำลอง Poisson-Gamma เป็นการดีที่ฉันสนใจในที่ค่อนข้างแบนและจะถูกครอบงำโดยข้อมูลในตัวอย่างเนื้องอกหนูหรือการอภิปรายเปรียบเทียบข้อกำหนดทางเลือกหลายประการและการแลกเปลี่ยนที่เกี่ยวข้องกับแต่ละp(α,β)p(α,β)p(\alpha, \beta)p(α,β)p(α,β)p(\alpha, \beta)

2
การสร้างภาพข้อมูลที่ดีสำหรับการถดถอยของปัวซองคืออะไร
ฉันต้องการเชื่อมโยงข้อบกพร่องของรหัสเข้ากับการวัดความซับซ้อนของรหัสเช่นความใกล้ชิด แบบจำลองทั่วไปอย่างหนึ่งคือการดูสิ่งนี้เป็นกระบวนการปัวซองซึ่งระยะเวลาคือเวลาที่ใช้ในการเข้ารหัสและความหนาแน่นเป็นฟังก์ชันของความซับซ้อนของรหัส ฉันสามารถทำการถดถอยและรับค่านัยสำคัญเป็นต้น อย่างไรก็ตามมันยากสำหรับฉันที่จะเห็นภาพผลลัพธ์ (และยิ่งยากขึ้นสำหรับเพื่อนร่วมงานที่มีความโน้มเอียงทางคณิตศาสตร์ของฉัน) มีวิธีที่ดีในการดูสิ่งนี้เพื่อดูสิ่งต่าง ๆ เช่นค่าผิดปกติหรือไม่หากเป็นแนวโน้มเชิงเส้นเป็นต้น (ลิงก์ไปยังแพ็คเกจ R ได้รับการชื่นชม) ตัวอย่างเช่นฉันสามารถพล็อตได้Defects / Time ~ Complexityแต่มันค่อนข้างมีเสียงรบกวนและเนื่องจากDefectsมีการแบ่งแยกและมีขนาดเล็กมากจึงยากที่จะดูแนวโน้ม สิ่งหนึ่งที่ฉันคิดคือการที่ฉันสามารถแบ่งข้อมูลออกเป็นควอนไทล์แล้วทำการถดถอยต่อควอไทล์และวางแผนความหนาแน่นที่เกิดขึ้น - ฉันไม่แน่ใจว่ามันถูกต้องแค่ไหนโดยเฉพาะอย่างยิ่งเนื่องจากข้อมูลของฉันไม่ได้กระจายตามปกติ ผู้คนเข้าใจผิดเกี่ยวกับสิ่งที่เป็น quantile

5
ถ้าไม่ใช่ปัวซองแล้วการกระจายตัวนี้คืออะไร?
ฉันมีชุดข้อมูลที่มีจำนวนการกระทำที่ดำเนินการโดยบุคคลในระยะเวลา 7 วัน การกระทำที่เฉพาะเจาะจงไม่ควรเกี่ยวข้องกับคำถามนี้ นี่คือสถิติเชิงพรรณนาสำหรับชุดข้อมูล: RangeMeanVarianceNumber of observations0−77218.22791696Range0−772Mean18.2Variance2791Number of observations696 \begin{array}{|c|c|} \hline \text{Range} & 0 - 772 \\ \hline \text{Mean} & 18.2 \\ \hline \text{Variance} & 2791 \\ \hline \text{Number of observations} & 696 \\ \hline \end{array} นี่คือฮิสโตแกรมของข้อมูล: เมื่อพิจารณาจากแหล่งข้อมูลฉันคิดว่ามันจะพอดีกับการแจกแจงปัวซอง อย่างไรก็ตามความแปรปรวนเฉลี่ยและฮิสโตแกรมนั้นมีน้ำหนักทางด้านซ้ายอย่างมาก นอกจากนี้ฉันgoodfitทำการทดสอบใน R และได้รับ: > gf <- goodfit(actions,type="poisson", method = "MinChisq") …

2
แบบจำลองการนับศูนย์ที่ไม่พองใน R: ประโยชน์ที่แท้จริงคืออะไร
สำหรับการวิเคราะห์การนับนกศูนย์ที่สูงเกินจริงผมอยากจะใช้รุ่นนับเป็นศูนย์ที่สูงขึ้นโดยใช้แพคเกจ R pscl อย่างไรก็ตามเมื่อดูตัวอย่างที่ให้ไว้ในเอกสารสำหรับหนึ่งในฟังก์ชั่นหลัก ( ? zeroinfl ) ฉันเริ่มสงสัยว่าประโยชน์ที่แท้จริงของรุ่นเหล่านี้คืออะไร จากตัวอย่างโค้ดที่ให้ไว้ฉันคำนวณปัวซองมาตรฐาน, แบบกึ่งกลาง - ปัวซองและโมเดลไบโอโนเมียลบ, ปัวซองแบบ zero-inflated แบบง่าย, และแบบจำลองทวินามลบ, แบบปัวซองแบบพองตัวแบบศูนย์และแบบลบลบทวินาม จากนั้นฉันตรวจสอบฮิสโทแกรมของข้อมูลที่ตรวจพบและข้อมูลที่ติดตั้ง (นี่คือรหัสสำหรับการทำซ้ำ) library(pscl) data("bioChemists", package = "pscl") ## standard count data models fm_pois <- glm(art ~ ., data = bioChemists, family = poisson) fm_qpois <- glm(art ~ ., data = bioChemists, family …

2
การกระจายปัวซองนั้นเสถียรและมีสูตรผกผันสำหรับ MGF หรือไม่?
ก่อนอื่นฉันมีคำถามเกี่ยวกับการกระจายของปัวซองว่า "เสถียร" หรือไม่ ไร้เดียงสามาก (และฉันก็ไม่แน่ใจเกี่ยวกับการแจกแจง "เสถียร") ฉันคำนวณการกระจายตัวเชิงเส้นของ Poisson กระจาย RV's โดยใช้ผลิตภัณฑ์ของ MGF ดูเหมือนว่าฉันจะได้รับปัวซองอีกครั้งโดยมีพารามิเตอร์เท่ากับชุดค่าผสมเชิงเส้นของพารามิเตอร์ของ RV แต่ละตัว ดังนั้นฉันจึงสรุปได้ว่าปัวซองนั้น "เสถียร" ฉันกำลังคิดถึงอะไร ประการที่สองมีสูตรผกผันสำหรับ MGF เช่นเดียวกับฟังก์ชั่นลักษณะหรือไม่?

1
ติดตั้ง Poisson GLM ใน R - ปัญหาเกี่ยวกับอัตราเทียบกับจำนวน
ขณะนี้ฉันกำลังทำงานในโครงการที่เกี่ยวข้องกับ GLM (และในที่สุดเกม) ของการนับจำนวนข้อมูลเมื่อเวลาผ่านไป โดยปกติฉันจะทำสิ่งนี้ใน SAS แต่ฉันพยายามย้ายไปที่ R และมีปัญหา ... เมื่อฉันพอดีกับ GLM เพื่อนับข้อมูลโดยใช้สิ่งต่อไปนี้: cdi_model <- glm(counts ~ exposure + covariate + month, data=test, family = poisson) ฉันเข้าใจ: Deviance Residuals: Min 1Q Median 3Q Max -1.9825 -0.7903 -0.1187 0.5717 1.7649 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.97563 0.20117 9.821 …

1
ค่าเฉลี่ยและความแปรปรวนของการแจกแจงปัวซองแบบ zero-inflated
ทุกคนสามารถแสดงให้เห็นว่าค่าที่คาดหวังและความแปรปรวนของปัวซองที่สูงเกินศูนย์ด้วยฟังก์ชันความน่าจะเป็นเป็นอย่างไร f(y)={π+(1−π)e−λ,(1−π)λye−λy!,if y=0if y=1,2....f(y)={π+(1−π)e−λ,if y=0(1−π)λye−λy!,if y=1,2.... f(y) = \begin{cases} \pi+(1-\pi)e^{-\lambda}, & \text{if }y=0 \\ (1-\pi)\frac{\lambda^{y}e^{-\lambda}}{y!}, & \text{if }y=1,2.... \end{cases} ที่คือความน่าจะเป็นที่การสังเกตเป็นศูนย์โดยกระบวนการทวินามและλคือค่าเฉลี่ยของปัวซอง, ได้มา?ππ\piλλ\lambda ผลลัพธ์คือค่าที่คาดหวังและความแปรปรวนคือμ + πμ=(1−π)λμ=(1−π)λ\mu =(1-\pi)\lambda2μ+π1−πμ2μ+π1−πμ2\mu+ \frac{\pi}{1-\pi}\mu^{2} เพิ่ม: ฉันกำลังมองหากระบวนการ ตัวอย่างเช่นคุณสามารถใช้ฟังก์ชั่นสร้างช่วงเวลาได้หรือไม่? ในที่สุดฉันต้องการที่จะเห็นวิธีการทำเช่นนี้เพื่อทำความเข้าใจแกมมาที่สูงเกินจริงและอื่น ๆ เช่นกัน

2
ใช้การถดถอยปัวซองสำหรับข้อมูลอย่างต่อเนื่อง?
การแจกแจงปัวซงสามารถใช้ในการวิเคราะห์ข้อมูลแบบต่อเนื่องและข้อมูลแบบแยก ฉันมีชุดข้อมูลสองสามชุดที่ตัวแปรตอบสนองต่อเนื่อง แต่มีลักษณะคล้ายกับการแจกแจงปัวซองแทนการแจกแจงแบบปกติ อย่างไรก็ตามการแจกแจงปัวซงเป็นการกระจายแบบไม่ต่อเนื่องและมักเกี่ยวข้องกับตัวเลขหรือจำนวน

1
R / mgcv: เพราะเหตุใดผลิตภัณฑ์ te () และ ti () เทนเซอร์จึงให้พื้นผิวที่แตกต่างกัน
mgcvแพคเกจสำหรับการRมีสองฟังก์ชั่นสำหรับการปฏิสัมพันธ์กระชับเมตริกซ์ผลิตภัณฑ์: และte() ti()ฉันเข้าใจการแบ่งขั้นพื้นฐานของการใช้แรงงานระหว่างคนทั้งสอง (ปรับให้เหมาะสมกับการทำงานแบบไม่เป็นเชิงเส้นเปรียบเทียบกับการย่อยสลายการโต้ตอบนี้เป็นผลกระทบหลักและการโต้ตอบ) สิ่งที่ฉันไม่เข้าใจคือสาเหตุte(x1, x2)และti(x1) + ti(x2) + ti(x1, x2)อาจให้ผลลัพธ์ที่แตกต่าง (เล็กน้อย) MWE (ดัดแปลงมาจาก?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

1
OLS vs. Poisson GLM พร้อมลิงค์ตัวตน
คำถามของฉันเปิดเผยความเข้าใจที่ไม่ดีของฉันเกี่ยวกับการถดถอยปัวซองและ GLMs โดยทั่วไป นี่คือข้อมูลปลอมที่จะแสดงคำถามของฉัน: ### some fake data x=c(1:14) y=c(0, 1, 2, 3, 1, 4, 9, 18, 23, 31, 20, 25, 37, 45) บางฟังก์ชั่นที่กำหนดเองเพื่อกลับ psuedo-R2: ### functions of pseudo-R2 psuR2 <- function(null.dev, model.dev) { 1 - (model.dev / null.dev)} predR2 <- function(actuals, predicted) { 1 - (sum((actuals - predicted)^2)) / …

2
เหมือนหรือต่างกัน ทางเบย์
พูดว่าฉันมีรูปแบบดังต่อไปนี้: Poisson(λ)∼{λ1λ2if t<τif t≥τPoisson(λ)∼{λ1if t<τλ2if t≥τ\text{Poisson}(\lambda) \sim \begin{cases} \lambda_1 & \text{if } t \lt \tau \\ \lambda_2 & \text{if } t \geq \tau \end{cases} และฉันสรุปผู้โปสเตอร์สำหรับและλ 2 ที่แสดงด้านล่างจากข้อมูลของฉัน มีวิธีการบอกแบบเบย์ (หรือเชิงปริมาณ) ถ้าλ 1และλ 2เป็นเหมือนกันหรือแตกต่างกัน ?λ1λ1\lambda_1λ2λ2\lambda_2λ1λ1\lambda_1λ2λ2\lambda_2 บางทีการวัดความน่าจะเป็นที่แตกต่างจากλ 2λ1λ1\lambda_1λ2λ2\lambda_2หรือไม่? หรืออาจจะใช้ divergences ของ KL? ตัวอย่างเช่นฉันจะวัดหรืออย่างน้อยp ( λ 2 > λ 1 ) ได้อย่างไรp(λ2≠λ1)p(λ2≠λ1)p(\lambda_2 \neq \lambda_1)p(λ2>λ1)p(λ2>λ1)p(\lambda_2 …

3
ผลรวมถ่วงน้ำหนักของตัวแปรสุ่ม Poisson อิสระสองตัว
การใช้วิกิพีเดียฉันพบวิธีคำนวณความน่าจะเป็นของมวลฟังก์ชันที่เกิดจากผลรวมของตัวแปรสุ่มปัวซองสองตัว อย่างไรก็ตามฉันคิดว่าวิธีการที่ฉันมีผิด ให้เป็นตัวแปรสุ่มปัวซองสองตัวที่มีค่าเฉลี่ยและโดยที่และเป็นค่าคงที่จากนั้นฟังก์ชันสร้างความน่าจะเป็นของจะถูกกำหนดโดย ตอนนี้การใช้ความจริงที่ว่าฟังก์ชันสร้างความน่าจะเป็นสำหรับตัวแปรสุ่มของปัวซองคือเราสามารถเขียนฟังก์ชันสร้างความน่าจะเป็นของ ผลรวมของตัวแปรสุ่ม Poisson อิสระสองตัว X1,X2X1,X2X_1, X_2λ1,λ2λ1,λ2\lambda_1, \lambda_2S2=a1X1+a2X2S2=a1X1+a2X2S_2 = a_1 X_1+a_2 X_2a1a1a_1a2a2a_2S2S2S_2G X ฉัน (z)= e λ ฉัน ( z - 1 ) G S 2 ( z )GS2(z)=E(zS2)=E(za1X1+a2X2)GX1(za1)GX2(za2).GS2(z)=E⁡(zS2)=E⁡(za1X1+a2X2)GX1(za1)GX2(za2). G_{S_2}(z) = \operatorname{E}(z^{S_2})= \operatorname{E}(z^{a_1 X_1+a_2 X_2}) G_{X_1}(z^{a_1})G_{X_2}(z^{a_2}). GXi(z)=eλi(z−1)GXi(z)=eλi(z−1)G_{X_i}(z) = \textrm{e}^{\lambda_i(z - 1)} S2G S 2 (z)Pr(S2=k)= G ( k …

3
ผลรวมของตัวแปรสุ่มแบบทวินามและปัวซอง
หากเรามีตัวแปรสุ่มอิสระสองตัวและฟังก์ชันมวลความน่าจะเป็นของคืออะไร?X 2 ∼ P o ฉันs ( λ ) X 1 + X 2X1∼Binom(n,p)X1∼Binom(n,p)X_1 \sim \mathrm{Binom}(n,p)X2∼Pois(λ)X2∼Pois(λ)X_2 \sim \mathrm{Pois}(\lambda)X1+X2X1+X2X_1 + X_2 NBนี่ไม่ใช่การบ้านสำหรับฉัน

3
เมื่อใดควรใช้ข้อผิดพลาดมาตรฐานที่มีประสิทธิภาพในการถดถอยปัวซอง?
ฉันใช้แบบจำลองการถดถอยปัวซงสำหรับการนับข้อมูลและสงสัยว่ามีเหตุผลที่จะไม่ใช้ข้อผิดพลาดมาตรฐานที่แข็งแกร่งสำหรับการประมาณค่าพารามิเตอร์หรือไม่ ฉันกังวลเป็นพิเศษเนื่องจากบางส่วนของประมาณการที่ไม่มีความแข็งแกร่งไม่สำคัญ (เช่น p = 0.13) แต่ด้วยความแข็งแกร่งนั้นมีนัยสำคัญ (p <0.01) ใน SAS สามารถใช้คำสั่งซ้ำในproc genmod(เช่น, repeated subject=patid;) ฉันใช้http://www.ats.ucla.edu/stat/sas/dae/poissonreg.htmเป็นตัวอย่างที่อ้างอิงบทความโดย Cameron และ Trivedi (2009) เพื่อสนับสนุนการใช้ข้อผิดพลาดมาตรฐานที่มีประสิทธิภาพ

1
ทำไม Anova () และ drop1 () จึงให้คำตอบที่แตกต่างกันสำหรับ GLMM
ฉันมีแบบฟอร์ม GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) เมื่อฉันใช้drop1(model, test="Chi")ฉันได้รับผลลัพธ์ที่แตกต่างกว่าถ้าผมใช้จากแพคเกจรถหรือAnova(model, type="III") summary(model)สองหลังนี้ให้คำตอบเดียวกัน จากการใช้ข้อมูลที่ประดิษฐ์ขึ้นมาฉันพบว่าทั้งสองวิธีปกติไม่แตกต่างกัน พวกเขาให้คำตอบเดียวกันสำหรับแบบจำลองเชิงเส้นที่มีความสมดุลแบบจำลองเชิงเส้นที่ไม่สมดุล (ซึ่งไม่เท่ากันในกลุ่มต่าง ๆ ) และสำหรับแบบจำลองเชิงเส้นที่สมดุลแบบทั่วไป ดังนั้นจึงปรากฏว่าเฉพาะในกรณีที่มีการรวมปัจจัยแบบสุ่มเข้าด้วยกัน ทำไมจึงมีความคลาดเคลื่อนระหว่างสองวิธีนี้? เมื่อใช้ GLMM ควรAnova()หรือdrop1()จะใช้งานอย่างไร ความแตกต่างระหว่างสองสิ่งนี้ค่อนข้างเล็กน้อยอย่างน้อยสำหรับข้อมูลของฉัน มันมีความสำคัญต่อการใช้งานหรือไม่?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.