สถิติและข้อมูลขนาดใหญ่ poisson-distribution

1

ความหนาแน่นสูงเกินไปสำหรับโมเดล Gamma-Poisson แบบลำดับชั้น

ในรูปแบบลำดับชั้นของข้อมูลที่ มันดูเหมือนจะเป็นเรื่องปกติในทางปฏิบัติเพื่อเลือกค่า (ว่าค่าเฉลี่ยและความแปรปรวนของการแจกแจงแกมมาประมาณตรงกับค่าเฉลี่ยและความแปรปรวนของข้อมูล (เช่น Clayton และ Kaldor, 1987 "Empirical Bayes Estimates ของความเสี่ยงสัมพัทธ์ตามมาตรฐานอายุสำหรับการทำแผนที่โรค" Biometrics ) เห็นได้ชัดว่านี่เป็นเพียงโซลูชันเฉพาะกิจแต่เนื่องจากมันจะเกินความเชื่อมั่นของนักวิจัยในพารามิเตอร์yyyy∼Poisson(λ)y∼Poisson(λ)y \sim \textrm{Poisson}(\lambda) λ∼Gamma(α,β)λ∼Gamma(α,β)\lambda \sim \textrm{Gamma}(\alpha, \beta)α,β)α,β)\alpha, \beta)yyy(α,β)(α,β)(\alpha, \beta)และความผันผวนเล็กน้อยในข้อมูลที่รับรู้อาจมีผลต่อความหนาแน่นของแกมม่าแม้ว่ากระบวนการสร้างข้อมูลพื้นฐานจะยังคงเหมือนเดิม นอกจากนี้ในการวิเคราะห์ข้อมูลแบบเบย์ (2nd Ed) Gelman เขียนว่าวิธีนี้คือ " เลอะเทอะ ;" ในหนังสือและบทความนี้ (เริ่มต้นที่ 3232) เขาแนะนำว่าควรเลือกความหนาแน่น hyperpriorในแบบที่คล้ายกับตัวอย่างเนื้องอกหนู (เริ่มต้นที่ 130)p(α,β)p(α,β)p(\alpha, \beta) แม้ว่าจะเป็นที่ชัดเจนว่ายอมรับได้ตราบใดที่มันสร้างความหนาแน่นของหลังที่ จำกัด แต่ฉันไม่พบตัวอย่างของความหนาแน่น hyperprior ที่นักวิจัยได้ใช้สำหรับปัญหานี้ในอดีต ฉันจะซาบซึ้งอย่างยิ่งถ้ามีคนชี้ให้ฉันไปที่หนังสือหรือบทความที่ใช้ความหนาแน่นสูงเกินไปเพื่อประเมินแบบจำลอง Poisson-Gamma เป็นการดีที่ฉันสนใจในที่ค่อนข้างแบนและจะถูกครอบงำโดยข้อมูลในตัวอย่างเนื้องอกหนูหรือการอภิปรายเปรียบเทียบข้อกำหนดทางเลือกหลายประการและการแลกเปลี่ยนที่เกี่ยวข้องกับแต่ละp(α,β)p(α,β)p(\alpha, \beta)p(α,β)p(α,β)p(\alpha, \beta)

11 poisson-distribution gamma-distribution hierarchical-bayesian hyperparameter

2

การสร้างภาพข้อมูลที่ดีสำหรับการถดถอยของปัวซองคืออะไร

ฉันต้องการเชื่อมโยงข้อบกพร่องของรหัสเข้ากับการวัดความซับซ้อนของรหัสเช่นความใกล้ชิด แบบจำลองทั่วไปอย่างหนึ่งคือการดูสิ่งนี้เป็นกระบวนการปัวซองซึ่งระยะเวลาคือเวลาที่ใช้ในการเข้ารหัสและความหนาแน่นเป็นฟังก์ชันของความซับซ้อนของรหัส ฉันสามารถทำการถดถอยและรับค่านัยสำคัญเป็นต้น อย่างไรก็ตามมันยากสำหรับฉันที่จะเห็นภาพผลลัพธ์ (และยิ่งยากขึ้นสำหรับเพื่อนร่วมงานที่มีความโน้มเอียงทางคณิตศาสตร์ของฉัน) มีวิธีที่ดีในการดูสิ่งนี้เพื่อดูสิ่งต่าง ๆ เช่นค่าผิดปกติหรือไม่หากเป็นแนวโน้มเชิงเส้นเป็นต้น (ลิงก์ไปยังแพ็คเกจ R ได้รับการชื่นชม) ตัวอย่างเช่นฉันสามารถพล็อตได้Defects / Time ~ Complexityแต่มันค่อนข้างมีเสียงรบกวนและเนื่องจากDefectsมีการแบ่งแยกและมีขนาดเล็กมากจึงยากที่จะดูแนวโน้ม สิ่งหนึ่งที่ฉันคิดคือการที่ฉันสามารถแบ่งข้อมูลออกเป็นควอนไทล์แล้วทำการถดถอยต่อควอไทล์และวางแผนความหนาแน่นที่เกิดขึ้น - ฉันไม่แน่ใจว่ามันถูกต้องแค่ไหนโดยเฉพาะอย่างยิ่งเนื่องจากข้อมูลของฉันไม่ได้กระจายตามปกติ ผู้คนเข้าใจผิดเกี่ยวกับสิ่งที่เป็น quantile

11 regression data-visualization poisson-distribution

5

ถ้าไม่ใช่ปัวซองแล้วการกระจายตัวนี้คืออะไร?

ฉันมีชุดข้อมูลที่มีจำนวนการกระทำที่ดำเนินการโดยบุคคลในระยะเวลา 7 วัน การกระทำที่เฉพาะเจาะจงไม่ควรเกี่ยวข้องกับคำถามนี้ นี่คือสถิติเชิงพรรณนาสำหรับชุดข้อมูล: RangeMeanVarianceNumber of observations0−77218.22791696Range0−772Mean18.2Variance2791Number of observations696 \begin{array}{|c|c|} \hline \text{Range} & 0 - 772 \\ \hline \text{Mean} & 18.2 \\ \hline \text{Variance} & 2791 \\ \hline \text{Number of observations} & 696 \\ \hline \end{array} นี่คือฮิสโตแกรมของข้อมูล: เมื่อพิจารณาจากแหล่งข้อมูลฉันคิดว่ามันจะพอดีกับการแจกแจงปัวซอง อย่างไรก็ตามความแปรปรวนเฉลี่ยและฮิสโตแกรมนั้นมีน้ำหนักทางด้านซ้ายอย่างมาก นอกจากนี้ฉันgoodfitทำการทดสอบใน R และได้รับ: > gf <- goodfit(actions,type="poisson", method = "MinChisq") …

11 r distributions poisson-distribution mean sample

2

แบบจำลองการนับศูนย์ที่ไม่พองใน R: ประโยชน์ที่แท้จริงคืออะไร

สำหรับการวิเคราะห์การนับนกศูนย์ที่สูงเกินจริงผมอยากจะใช้รุ่นนับเป็นศูนย์ที่สูงขึ้นโดยใช้แพคเกจ R pscl อย่างไรก็ตามเมื่อดูตัวอย่างที่ให้ไว้ในเอกสารสำหรับหนึ่งในฟังก์ชั่นหลัก ( ? zeroinfl ) ฉันเริ่มสงสัยว่าประโยชน์ที่แท้จริงของรุ่นเหล่านี้คืออะไร จากตัวอย่างโค้ดที่ให้ไว้ฉันคำนวณปัวซองมาตรฐาน, แบบกึ่งกลาง - ปัวซองและโมเดลไบโอโนเมียลบ, ปัวซองแบบ zero-inflated แบบง่าย, และแบบจำลองทวินามลบ, แบบปัวซองแบบพองตัวแบบศูนย์และแบบลบลบทวินาม จากนั้นฉันตรวจสอบฮิสโทแกรมของข้อมูลที่ตรวจพบและข้อมูลที่ติดตั้ง (นี่คือรหัสสำหรับการทำซ้ำ) library(pscl) data("bioChemists", package = "pscl") ## standard count data models fm_pois <- glm(art ~ ., data = bioChemists, family = poisson) fm_qpois <- glm(art ~ ., data = bioChemists, family …

11 r poisson-distribution zero-inflation

2

การกระจายปัวซองนั้นเสถียรและมีสูตรผกผันสำหรับ MGF หรือไม่?

ก่อนอื่นฉันมีคำถามเกี่ยวกับการกระจายของปัวซองว่า "เสถียร" หรือไม่ ไร้เดียงสามาก (และฉันก็ไม่แน่ใจเกี่ยวกับการแจกแจง "เสถียร") ฉันคำนวณการกระจายตัวเชิงเส้นของ Poisson กระจาย RV's โดยใช้ผลิตภัณฑ์ของ MGF ดูเหมือนว่าฉันจะได้รับปัวซองอีกครั้งโดยมีพารามิเตอร์เท่ากับชุดค่าผสมเชิงเส้นของพารามิเตอร์ของ RV แต่ละตัว ดังนั้นฉันจึงสรุปได้ว่าปัวซองนั้น "เสถียร" ฉันกำลังคิดถึงอะไร ประการที่สองมีสูตรผกผันสำหรับ MGF เช่นเดียวกับฟังก์ชั่นลักษณะหรือไม่?

11 distributions poisson-distribution mgf

1

ติดตั้ง Poisson GLM ใน R - ปัญหาเกี่ยวกับอัตราเทียบกับจำนวน

ขณะนี้ฉันกำลังทำงานในโครงการที่เกี่ยวข้องกับ GLM (และในที่สุดเกม) ของการนับจำนวนข้อมูลเมื่อเวลาผ่านไป โดยปกติฉันจะทำสิ่งนี้ใน SAS แต่ฉันพยายามย้ายไปที่ R และมีปัญหา ... เมื่อฉันพอดีกับ GLM เพื่อนับข้อมูลโดยใช้สิ่งต่อไปนี้: cdi_model <- glm(counts ~ exposure + covariate + month, data=test, family = poisson) ฉันเข้าใจ: Deviance Residuals: Min 1Q Median 3Q Max -1.9825 -0.7903 -0.1187 0.5717 1.7649 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.97563 0.20117 9.821 …

11 r poisson-distribution generalized-linear-model

1

ค่าเฉลี่ยและความแปรปรวนของการแจกแจงปัวซองแบบ zero-inflated

ทุกคนสามารถแสดงให้เห็นว่าค่าที่คาดหวังและความแปรปรวนของปัวซองที่สูงเกินศูนย์ด้วยฟังก์ชันความน่าจะเป็นเป็นอย่างไร f(y)={π+(1−π)e−λ,(1−π)λye−λy!,if y=0if y=1,2....f(y)={π+(1−π)e−λ,if y=0(1−π)λye−λy!,if y=1,2.... f(y) = \begin{cases} \pi+(1-\pi)e^{-\lambda}, & \text{if }y=0 \\ (1-\pi)\frac{\lambda^{y}e^{-\lambda}}{y!}, & \text{if }y=1,2.... \end{cases} ที่คือความน่าจะเป็นที่การสังเกตเป็นศูนย์โดยกระบวนการทวินามและλคือค่าเฉลี่ยของปัวซอง, ได้มา?ππ\piλλ\lambda ผลลัพธ์คือค่าที่คาดหวังและความแปรปรวนคือμ + πμ=(1−π)λμ=(1−π)λ\mu =(1-\pi)\lambda2μ+π1−πμ2μ+π1−πμ2\mu+ \frac{\pi}{1-\pi}\mu^{2} เพิ่ม: ฉันกำลังมองหากระบวนการ ตัวอย่างเช่นคุณสามารถใช้ฟังก์ชั่นสร้างช่วงเวลาได้หรือไม่? ในที่สุดฉันต้องการที่จะเห็นวิธีการทำเช่นนี้เพื่อทำความเข้าใจแกมมาที่สูงเกินจริงและอื่น ๆ เช่นกัน

11 variance poisson-distribution expected-value zero-inflation

2

ใช้การถดถอยปัวซองสำหรับข้อมูลอย่างต่อเนื่อง?

การแจกแจงปัวซงสามารถใช้ในการวิเคราะห์ข้อมูลแบบต่อเนื่องและข้อมูลแบบแยก ฉันมีชุดข้อมูลสองสามชุดที่ตัวแปรตอบสนองต่อเนื่อง แต่มีลักษณะคล้ายกับการแจกแจงปัวซองแทนการแจกแจงแบบปกติ อย่างไรก็ตามการแจกแจงปัวซงเป็นการกระจายแบบไม่ต่อเนื่องและมักเกี่ยวข้องกับตัวเลขหรือจำนวน

11 distributions regression poisson-distribution continuous-data

1

R / mgcv: เพราะเหตุใดผลิตภัณฑ์ te () และ ti () เทนเซอร์จึงให้พื้นผิวที่แตกต่างกัน

mgcvแพคเกจสำหรับการRมีสองฟังก์ชั่นสำหรับการปฏิสัมพันธ์กระชับเมตริกซ์ผลิตภัณฑ์: และte() ti()ฉันเข้าใจการแบ่งขั้นพื้นฐานของการใช้แรงงานระหว่างคนทั้งสอง (ปรับให้เหมาะสมกับการทำงานแบบไม่เป็นเชิงเส้นเปรียบเทียบกับการย่อยสลายการโต้ตอบนี้เป็นผลกระทบหลักและการโต้ตอบ) สิ่งที่ฉันไม่เข้าใจคือสาเหตุte(x1, x2)และti(x1) + ti(x2) + ti(x1, x2)อาจให้ผลลัพธ์ที่แตกต่าง (เล็กน้อย) MWE (ดัดแปลงมาจาก?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

1

OLS vs. Poisson GLM พร้อมลิงค์ตัวตน

คำถามของฉันเปิดเผยความเข้าใจที่ไม่ดีของฉันเกี่ยวกับการถดถอยปัวซองและ GLMs โดยทั่วไป นี่คือข้อมูลปลอมที่จะแสดงคำถามของฉัน: ### some fake data x=c(1:14) y=c(0, 1, 2, 3, 1, 4, 9, 18, 23, 31, 20, 25, 37, 45) บางฟังก์ชั่นที่กำหนดเองเพื่อกลับ psuedo-R2: ### functions of pseudo-R2 psuR2 <- function(null.dev, model.dev) { 1 - (model.dev / null.dev)} predR2 <- function(actuals, predicted) { 1 - (sum((actuals - predicted)^2)) / …

11 generalized-linear-model poisson-distribution

2

เหมือนหรือต่างกัน ทางเบย์

พูดว่าฉันมีรูปแบบดังต่อไปนี้: Poisson(λ)∼{λ1λ2if t<τif t≥τPoisson(λ)∼{λ1if t<τλ2if t≥τ\text{Poisson}(\lambda) \sim \begin{cases} \lambda_1 & \text{if } t \lt \tau \\ \lambda_2 & \text{if } t \geq \tau \end{cases} และฉันสรุปผู้โปสเตอร์สำหรับและλ 2 ที่แสดงด้านล่างจากข้อมูลของฉัน มีวิธีการบอกแบบเบย์ (หรือเชิงปริมาณ) ถ้าλ 1และλ 2เป็นเหมือนกันหรือแตกต่างกัน ?λ1λ1\lambda_1λ2λ2\lambda_2λ1λ1\lambda_1λ2λ2\lambda_2 บางทีการวัดความน่าจะเป็นที่แตกต่างจากλ 2λ1λ1\lambda_1λ2λ2\lambda_2หรือไม่? หรืออาจจะใช้ divergences ของ KL? ตัวอย่างเช่นฉันจะวัดหรืออย่างน้อยp ( λ 2 > λ 1 ) ได้อย่างไรp(λ2≠λ1)p(λ2≠λ1)p(\lambda_2 \neq \lambda_1)p(λ2>λ1)p(λ2>λ1)p(\lambda_2 …

10 distributions bayesian poisson-distribution

3

ผลรวมถ่วงน้ำหนักของตัวแปรสุ่ม Poisson อิสระสองตัว

การใช้วิกิพีเดียฉันพบวิธีคำนวณความน่าจะเป็นของมวลฟังก์ชันที่เกิดจากผลรวมของตัวแปรสุ่มปัวซองสองตัว อย่างไรก็ตามฉันคิดว่าวิธีการที่ฉันมีผิด ให้เป็นตัวแปรสุ่มปัวซองสองตัวที่มีค่าเฉลี่ยและโดยที่และเป็นค่าคงที่จากนั้นฟังก์ชันสร้างความน่าจะเป็นของจะถูกกำหนดโดย ตอนนี้การใช้ความจริงที่ว่าฟังก์ชันสร้างความน่าจะเป็นสำหรับตัวแปรสุ่มของปัวซองคือเราสามารถเขียนฟังก์ชันสร้างความน่าจะเป็นของ ผลรวมของตัวแปรสุ่ม Poisson อิสระสองตัว X1,X2X1,X2X_1, X_2λ1,λ2λ1,λ2\lambda_1, \lambda_2S2=a1X1+a2X2S2=a1X1+a2X2S_2 = a_1 X_1+a_2 X_2a1a1a_1a2a2a_2S2S2S_2G X ฉัน (z)= e λ ฉัน ( z - 1 ) G S 2 ( z )GS2(z)=E(zS2)=E(za1X1+a2X2)GX1(za1)GX2(za2).GS2(z)=E⁡(zS2)=E⁡(za1X1+a2X2)GX1(za1)GX2(za2). G_{S_2}(z) = \operatorname{E}(z^{S_2})= \operatorname{E}(z^{a_1 X_1+a_2 X_2}) G_{X_1}(z^{a_1})G_{X_2}(z^{a_2}). GXi(z)=eλi(z−1)GXi(z)=eλi(z−1)G_{X_i}(z) = \textrm{e}^{\lambda_i(z - 1)} S2G S 2 (z)Pr(S2=k)= G ( k …

10 distributions poisson-distribution

3

ผลรวมของตัวแปรสุ่มแบบทวินามและปัวซอง

หากเรามีตัวแปรสุ่มอิสระสองตัวและฟังก์ชันมวลความน่าจะเป็นของคืออะไร?X 2 ∼ P o ฉันs ( λ ) X 1 + X 2X1∼Binom(n,p)X1∼Binom(n,p)X_1 \sim \mathrm{Binom}(n,p)X2∼Pois(λ)X2∼Pois(λ)X_2 \sim \mathrm{Pois}(\lambda)X1+X2X1+X2X_1 + X_2 NBนี่ไม่ใช่การบ้านสำหรับฉัน

10 distributions self-study binomial poisson-distribution

3

เมื่อใดควรใช้ข้อผิดพลาดมาตรฐานที่มีประสิทธิภาพในการถดถอยปัวซอง?

ฉันใช้แบบจำลองการถดถอยปัวซงสำหรับการนับข้อมูลและสงสัยว่ามีเหตุผลที่จะไม่ใช้ข้อผิดพลาดมาตรฐานที่แข็งแกร่งสำหรับการประมาณค่าพารามิเตอร์หรือไม่ ฉันกังวลเป็นพิเศษเนื่องจากบางส่วนของประมาณการที่ไม่มีความแข็งแกร่งไม่สำคัญ (เช่น p = 0.13) แต่ด้วยความแข็งแกร่งนั้นมีนัยสำคัญ (p <0.01) ใน SAS สามารถใช้คำสั่งซ้ำในproc genmod(เช่น, repeated subject=patid;) ฉันใช้http://www.ats.ucla.edu/stat/sas/dae/poissonreg.htmเป็นตัวอย่างที่อ้างอิงบทความโดย Cameron และ Trivedi (2009) เพื่อสนับสนุนการใช้ข้อผิดพลาดมาตรฐานที่มีประสิทธิภาพ

10 poisson-distribution robust

1

ทำไม Anova () และ drop1 () จึงให้คำตอบที่แตกต่างกันสำหรับ GLMM

ฉันมีแบบฟอร์ม GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) เมื่อฉันใช้drop1(model, test="Chi")ฉันได้รับผลลัพธ์ที่แตกต่างกว่าถ้าผมใช้จากแพคเกจรถหรือAnova(model, type="III") summary(model)สองหลังนี้ให้คำตอบเดียวกัน จากการใช้ข้อมูลที่ประดิษฐ์ขึ้นมาฉันพบว่าทั้งสองวิธีปกติไม่แตกต่างกัน พวกเขาให้คำตอบเดียวกันสำหรับแบบจำลองเชิงเส้นที่มีความสมดุลแบบจำลองเชิงเส้นที่ไม่สมดุล (ซึ่งไม่เท่ากันในกลุ่มต่าง ๆ ) และสำหรับแบบจำลองเชิงเส้นที่สมดุลแบบทั่วไป ดังนั้นจึงปรากฏว่าเฉพาะในกรณีที่มีการรวมปัจจัยแบบสุ่มเข้าด้วยกัน ทำไมจึงมีความคลาดเคลื่อนระหว่างสองวิธีนี้? เมื่อใช้ GLMM ควรAnova()หรือdrop1()จะใช้งานอย่างไร ความแตกต่างระหว่างสองสิ่งนี้ค่อนข้างเล็กน้อยอย่างน้อยสำหรับข้อมูลของฉัน มันมีความสำคัญต่อการใช้งานหรือไม่?

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

คำถามติดแท็ก poisson-distribution