คำถามติดแท็ก poisson-distribution

การกระจายแบบไม่ต่อเนื่องที่กำหนดไว้ในจำนวนเต็มไม่เป็นลบที่มีคุณสมบัติที่ค่าเฉลี่ยเท่ากับความแปรปรวน

2
ข้อผิดพลาดมาตรฐานของการนับ
ฉันมีชุดข้อมูลของเหตุการณ์ที่เกิดขึ้นตามฤดูกาลของโรคที่หายาก ตัวอย่างเช่นสมมติว่ามี 180 กรณีในฤดูใบไม้ผลิ 90 ในฤดูร้อน 45 ในฤดูใบไม้ร่วงและ 210 ในฤดูหนาว ฉันกำลังดิ้นรนกับว่ามันเหมาะสมที่จะแนบข้อผิดพลาดมาตรฐานกับตัวเลขเหล่านี้ เป้าหมายการวิจัยมีความสำคัญในแง่ที่ว่าเรากำลังมองหารูปแบบตามฤดูกาลในการเกิดโรคที่อาจเกิดขึ้นอีกในอนาคต ดังนั้นจึงรู้สึกอย่างสังหรณ์ใจว่าควรเป็นไปได้ที่จะแนบการวัดความไม่แน่นอนกับผลรวม อย่างไรก็ตามฉันไม่แน่ใจว่าจะคำนวณข้อผิดพลาดมาตรฐานในกรณีนี้อย่างไรเนื่องจากเรากำลังจัดการกับการนับง่าย ๆ แทนที่จะเป็นเช่นวิธีการหรือสัดส่วน ท้ายที่สุดคำตอบนั้นขึ้นอยู่กับว่าข้อมูลแสดงถึงจำนวนผู้ป่วย (ทุกกรณีที่เคยเกิดขึ้น) หรือสุ่มตัวอย่างหรือไม่? หากฉันไม่ผิดพลาดโดยทั่วไปไม่เหมาะสมที่จะแสดงข้อผิดพลาดมาตรฐานกับสถิติประชากรเนื่องจากไม่มีการอนุมาน

2
สืบทอดการกระจายปัวซอง
เมื่อไม่นานมานี้ฉันได้พบกับการแจกแจงปัวซองแบบกระจายตัว แต่ฉันสับสนเล็กน้อยว่ามันจะเกิดขึ้นได้อย่างไร การกระจายมอบให้โดย: P(X=x,Y=y)=e−(θ1+θ2+θ0)θx1x!θy2y!∑i=0min(x,y)(xi)(yi)i!(θ0θ1θ2)iP(X=x,Y=y)=e−(θ1+θ2+θ0)θ1xx!θ2yy!∑i=0min(x,y)(xi)(yi)i!(θ0θ1θ2)iP(X = x, Y = y) = e^{-(\theta_{1}+\theta_{2}+\theta_{0})} \displaystyle\frac{\theta_{1}^{x}}{x!}\frac{\theta_{2}^{y}}{y!} \sum_{i=0}^{min(x,y)}\binom{x}{i}\binom{y}{i}i!\left(\frac{\theta_{0}}{\theta_{1}\theta_{2}}\right)^{i} จากสิ่งที่ฉันสามารถรวบรวมได้θ0θ0\theta_{0}เทอมคือการวัดความสัมพันธ์ระหว่างXXXและYYY ; ดังนั้นเมื่อXXXและYYYเป็นอิสระθ0=0θ0=0\theta_{0} = 0และการกระจายจะกลายเป็นผลคูณของการแจกแจงแบบปัวซองแบบสองตัวแปร แบริ่งในใจ, สับสนของฉันคือการบอกกล่าวกับคำบวก - ฉันสมมติว่าในระยะนี้จะอธิบายถึงความสัมพันธ์ระหว่างXXXและYYYY ดูเหมือนว่าฉันว่า summand ถือเป็นผลคูณของฟังก์ชันการแจกแจงแบบทวินามที่น่าจะเป็นของ "ความสำเร็จ" โดย(θ0θ1θ2)(θ0θ1θ2)\left(\frac{\theta_{0}}{\theta_{1}\theta_{2}}\right)และความน่าจะเป็นของ "ความล้มเหลว" มอบให้โดยi!1min(x,y)−ii!1min(x,y)−ii!^{\frac{1}{min(x,y)-i}}เพราะ(i!1min(x,y)−i!)(min(x,y)−i)=i!(i!1min(x,y)−i!)(min(x,y)−i)=i!\left(i!^{\frac{1}{min(x,y)-i!}}\right)^{(min(x,y)-i)} = i!แต่ฉันสามารถออกไปได้ด้วยสิ่งนี้ ใครช่วยให้ความช่วยเหลือเกี่ยวกับวิธีการที่จะได้รับการกระจาย? นอกจากนี้ถ้ามันสามารถรวมอยู่ในคำตอบใด ๆ ว่ารูปแบบนี้อาจขยายไปยังสถานการณ์หลายตัวแปร (พูดว่าตัวแปรสุ่มสามตัวหรือมากกว่า) นั่นจะดีมาก! (ในที่สุดฉันได้ตั้งข้อสังเกตว่ามีคำถามที่คล้ายกันที่โพสต์ก่อนหน้านี้ ( ทำความเข้าใจเกี่ยวกับการแจกแจงปัวซอง bivariate ) แต่ที่มาไม่ได้สำรวจจริง ๆ )

2
สร้างตัวอย่างข้อมูลจากการถดถอยปัวซอง
ฉันสงสัยว่าคุณจะสร้างข้อมูลจากสมการการถดถอยปัวซองใน R ได้อย่างไร? ฉันสับสนวิธีจัดการกับปัญหา ดังนั้นถ้าผมถือว่าเรามีสองทำนายและซึ่งกระจาย(0,1) และการสกัดกั้นคือ 0 และสัมประสิทธิ์ทั้งสองเท่ากัน 1 จากนั้นค่าประมาณของฉันคือ:X1X1X_1X2X2X_2ยังไม่มีข้อความ( 0 , 1) )ยังไม่มีข้อความ(0,1)N(0,1) เข้าสู่ระบบ( Y) = 0 + 1 ⋅ X1+ 1 ⋅ X2เข้าสู่ระบบ⁡(Y)=0+1⋅X1+1⋅X2\log(Y) = 0+ 1\cdot X_1 + 1\cdot X_2 แต่เมื่อฉันคำนวณ log (Y) - ฉันจะสร้างจำนวนปัวซองตามนั้นได้อย่างไร พารามิเตอร์ rate สำหรับการแจกแจงปัวซองคืออะไร? ถ้าใครสามารถเขียนสคริปต์ R สั้น ๆ ที่สร้างตัวอย่างการถดถอยปัวซองที่น่ากลัว!

1
วิธีการหนึ่งที่แสดงให้เห็นว่าไม่มีความเป็นกลาง estimator ของ
สมมติว่าเป็นตัวแปรสุ่ม IID ที่เป็นไปตามการกระจาย Poisson ที่มีค่าเฉลี่ย\ฉันจะพิสูจน์ได้อย่างไรว่าไม่มีตัวประมาณปริมาณไม่ λ 1X0, X1, … , XnX0,X1,…,Xn X_{0},X_{1},\ldots,X_{n} λλ \lambda 1λ1λ \dfrac{1}{\lambda}

2
ปัวซองกับการถดถอยโลจิสติก
ฉันมีกลุ่มคนไข้ที่มีระยะเวลาการติดตามผลต่างกัน จนถึงตอนนี้ฉันไม่สนใจแง่มุมเวลาและเพียงแค่ต้องการสร้างแบบจำลองผลลัพธ์ไบนารีโรค - / ไม่มีโรค ฉันมักจะถดถอยโลจิสติกในการศึกษาเหล่านี้ แต่เพื่อนร่วมงานอีกคนของฉันถามว่าปัวซองการถดถอยจะเหมาะสมหรือไม่ ฉันไม่ได้อยู่ในปัวส์ซองและไม่แน่ใจว่าประโยชน์และข้อเสียของการทำปัวซองในสภาพแวดล้อมแบบนี้จะเปรียบเทียบการถดถอยโลจิสติกได้อย่างไร ฉันอ่านการถดถอยปัวซงเพื่อประเมินความเสี่ยงสัมพัทธ์สำหรับผลลัพธ์ไบนารีและฉันยังคงไม่แน่ใจว่าเป็นข้อดีของการถดถอยปัวซองในสถานการณ์นี้

5
จะทำการใส่ค่าในจุดข้อมูลจำนวนมากได้อย่างไร?
ฉันมีชุดข้อมูลที่มีขนาดใหญ่มากและมีค่าสุ่มประมาณ 5% หายไป ตัวแปรเหล่านี้มีความสัมพันธ์ซึ่งกันและกัน ตัวอย่างชุดข้อมูล R ต่อไปนี้เป็นเพียงตัวอย่างของเล่นที่มีข้อมูลที่สัมพันธ์กันจำลอง set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
จะทดสอบการกระจายตัวมากเกินไปใน Poisson GLMM ด้วย lmer () ใน R ได้อย่างไร
ฉันมีรูปแบบดังต่อไปนี้: > model1<-lmer(aph.remain~sMFS1+sAG1+sSHDI1+sbare+season+crop +(1|landscape),family=poisson) ... และนี่คือผลลัพธ์สรุป > summary(model1) Generalized linear mixed model fit by the Laplace approximation Formula: aph.remain ~ sMFS1 + sAG1 + sSHDI1 + sbare + season + crop + (1 | landscape) AIC BIC logLik deviance 4057 4088 -2019 4039 Random effects: Groups Name Variance Std.Dev. landscape …

1
ข้อมูลการตรวจนับเวลา
ฉันใช้ stl () ใน R เพื่อย่อยสลายข้อมูลนับเป็นแนวโน้มองค์ประกอบตามฤดูกาลและผิดปกติ ค่าแนวโน้มผลลัพธ์ไม่ได้เป็นจำนวนเต็มอีกต่อไป ฉันมีคำถามต่อไปนี้: เป็น stl () เป็นวิธีที่เหมาะสมในการ deseasonalize ข้อมูลการนับ? เนื่องจากแนวโน้มที่เกิดขึ้นไม่ได้เป็นค่า interger อีกต่อไปฉันสามารถใช้ lm () เพื่อสร้างแบบจำลองส่วนประกอบแนวโน้มได้หรือไม่

3
การเลือกทางเลือกในการถดถอยแบบปัวซองสำหรับข้อมูลการนับจำนวนมาก
ขณะนี้ฉันกำลังวิเคราะห์ข้อมูลจากชุดการทดลองเชิงพฤติกรรมที่ทุกคนใช้มาตรการต่อไปนี้ ผู้เข้าร่วมในการทดลองนี้ถูกขอให้เลือกเบาะแสที่ผู้อื่นสามารถใช้เพื่อช่วยแก้ปัญหา 10 ชุด ผู้เข้าร่วมจะถูกนำไปสู่การเชื่อว่าคนอื่น ๆ เหล่านี้จะได้รับหรือสูญเสียเงินขึ้นอยู่กับประสิทธิภาพของพวกเขาในการแก้ anagrams เบาะแสแตกต่างกันไปในการช่วยเหลือพวกเขา ตัวอย่างเช่นสำหรับแอนนาแกรม NUNGRIN แอนนาแกรมของ RUNNING อาจมีสามปม: ย้ายอย่างรวดเร็ว (ไม่ช่วยเหลือ) สิ่งที่คุณทำในการแข่งขันมาราธอน (มีประโยชน์) ไม่ได้เป็นงานอดิเรกที่ดีต่อสุขภาพเสมอไป (ไม่ช่วยเหลือ) ในการจัดทำมาตรการฉันนับจำนวนครั้ง (จาก 10) ที่ผู้เข้าร่วมเลือกเบาะแสที่ไม่ช่วยเหลือคนอื่น ในการทดลองฉันใช้ความหลากหลายที่แตกต่างกันเพื่อส่งผลต่อความช่วยเหลือของเบาะแสที่ผู้คนเลือก เนื่องจากการวัดความเอื้ออาทรและความช่วยเหลือไม่ดีค่อนข้างเบาบางลงอย่างมาก (คนส่วนใหญ่เลือกเบาะแสที่เป็นประโยชน์ 10 ข้อ) และเนื่องจากการวัดเป็นตัวแปรนับฉันจึงใช้ Poisson Generalized Linear Model เพื่อวิเคราะห์ข้อมูลเหล่านี้ อย่างไรก็ตามเมื่อฉันอ่านเพิ่มเติมเกี่ยวกับการถดถอยของปัวซองฉันพบว่าเนื่องจากปัวซงถดถอยไม่ได้ประเมินค่าเฉลี่ยและความแปรปรวนของการแจกแจงอย่างอิสระมันมักประเมินค่าความแปรปรวนในชุดข้อมูลต่ำกว่า ฉันเริ่มตรวจสอบทางเลือกในการถดถอยของปัวซองเช่นการถดถอยแบบ quasipoisson หรือการถดถอยแบบทวินามลบ อย่างไรก็ตามฉันยอมรับว่าฉันค่อนข้างใหม่สำหรับโมเดลเหล่านี้ดังนั้นฉันมาที่นี่เพื่อขอคำแนะนำ ใครบ้างมีคำแนะนำเกี่ยวกับรูปแบบที่จะใช้สำหรับข้อมูลประเภทนี้? มีข้อควรพิจารณาอื่น ๆ อีกหรือไม่ที่ฉันควรระวัง (เช่นเป็นรุ่นหนึ่งที่มีประสิทธิภาพมากกว่าอีกรุ่นหนึ่งหรือไม่) ฉันควรพิจารณาการวินิจฉัยประเภทใดเพื่อพิจารณาว่ารูปแบบที่ฉันเลือกจัดการข้อมูลของฉันอย่างเหมาะสมหรือไม่

3
การประมาณปรกติของการแจกแจงปัวซอง
ที่นี่ใน Wikipedia บอกว่า: สำหรับค่าที่มากพอของλλλ , (พูดλ>1000λ>1000λ>1000 ) การแจกแจงแบบปกติที่มีค่าเฉลี่ยλλλและความแปรปรวนλλλ (ค่าเบี่ยงเบนมาตรฐานλ−−√λ\sqrt{\lambda} ) เป็นค่าประมาณยอดเยี่ยมสำหรับการแจกแจงปัวซอง ถ้าλλλมากกว่า 10 แล้วการแจกแจงแบบปกติคือการประมาณที่ดีถ้าทำการแก้ไขความต่อเนื่องที่เหมาะสมคือP(X≤x),P(X≤x),P(X ≤ x),ที่ (ตัวพิมพ์เล็ก) xxxเป็นจำนวนเต็มไม่เป็นลบจะถูกแทนที่ด้วยP(X≤x+0.5).P(X≤x+0.5).P(X ≤ x + 0.5). FPoisson(x;λ)≈Fnormal(x;μ=λ,σ2=λ)FPoisson(x;λ)≈Fnormal(x;μ=λ,σ2=λ)F_\mathrm{Poisson}(x;\lambda) \approx F_\mathrm{normal}(x;\mu=\lambda,\sigma^2=\lambda) น่าเสียดายที่นี่ไม่ได้อ้างถึง ฉันต้องการที่จะแสดง / พิสูจน์สิ่งนี้ด้วยความแม่นยำ คุณจะบอกได้อย่างไรว่าการกระจายตัวแบบปกตินั้นเป็นค่าประมาณที่ดีเมื่อλ>1000λ>1000\lambda > 1000คุณจะวัดปริมาณการประมาณ 'ยอดเยี่ยม' นี้ได้อย่างไรใช้มาตรการใด สิ่งที่ไกลที่สุดที่ฉันเคยได้รับกับเรื่องนี้คือที่นี่ที่จอห์นพูดถึงเกี่ยวกับการใช้ทฤษฎีบท Berry - Esseen และใกล้เคียงกับข้อผิดพลาดในสอง CDFs จากสิ่งที่ฉันสามารถดูเขาไม่ได้พยายามที่ค่าใด ๆλ≥1000λ≥1000\lambda \geq 10001000

4
การถดถอยปัวซองมีข้อดีอะไรบ้างในกรณีนี้การถดถอยเชิงเส้น
ฉันได้รับชุดข้อมูลที่มีจำนวนรางวัลที่นักเรียนได้รับจากโรงเรียนมัธยมแห่งหนึ่งซึ่งผู้ทำนายจำนวนรางวัลที่ได้รับนั้นรวมถึงประเภทของโปรแกรมที่นักเรียนลงทะเบียนและคะแนนสอบปลายภาคในวิชาคณิตศาสตร์ ฉันสงสัยว่าถ้าใครสามารถบอกฉันได้ว่าทำไมแบบจำลองการถดถอยเชิงเส้นอาจไม่เหมาะสมในตัวอย่างนี้และทำไมมันจะดีกว่าถ้าใช้การถดถอยแบบปัวซอง ขอบคุณ

1
ฟังก์ชันต้นทุนสำหรับการตรวจสอบแบบจำลองการถดถอยของปัวซอง
สำหรับข้อมูลนับที่ฉันรวบรวมฉันใช้การถดถอยปัวซองเพื่อสร้างแบบจำลอง ฉันไม่นี้โดยใช้ฟังก์ชั่นในการวิจัยที่ผมใช้glm family = "poisson"เพื่อประเมินตัวแบบที่เป็นไปได้ (ฉันมีตัวทำนายหลายตัว) ฉันใช้ AIC จนถึงตอนนี้ดีมาก ตอนนี้ฉันต้องการทำการตรวจสอบข้าม ฉันประสบความสำเร็จในการทำสิ่งนี้โดยใช้cv.glmฟังก์ชั่นจากbootแพ็คเกจ จากเอกสารของcv.glmฉันเห็นว่าเช่นสำหรับข้อมูลทวินามคุณต้องใช้ฟังก์ชั่นค่าใช้จ่ายเฉพาะเพื่อรับข้อผิดพลาดการทำนายที่มีความหมาย อย่างไรก็ตามฉันไม่รู้เลยว่าฟังก์ชั่นค่าใช้จ่ายใดเหมาะสมfamily = poissonและการค้นหาโดย Google ที่กว้างขวางไม่ได้ให้ผลลัพธ์ที่เฉพาะเจาะจง คำถามของฉันคือทุกคนมีแสงที่จะหลั่งซึ่งฟังก์ชันต้นทุนเหมาะสมสำหรับcv.glmกรณีของ poisson glm

2
ฉันจะตั้งค่าปัวส์ซองแบบไม่ต้องพองได้ใน JAGS ได้อย่างไร
ฉันกำลังพยายามตั้งค่าโมเดลปัวซองที่ไม่ทำให้พองใน R และ JAGS ฉันยังใหม่กับ JAGS และฉันต้องการคำแนะนำเกี่ยวกับวิธีการทำเช่นนั้น ฉันได้ลองทำสิ่งต่อไปนี้โดยที่ y [i] เป็นตัวแปรที่สังเกตได้ model { for (i in 1:I) { y.null[i] <- 0 y.pois[i] ~ dpois(mu[i]) pro[i] <- ilogit(theta[i]) x[i] ~ dbern(pro[i]) y[i] <- step(2*x[i]-1)*y.pois[i] + (1-step(2*x[i]-1))*y.null[i] log(mu[i]) <- bla + bla +bla + .... theta[i] <- bla + bla + bla …

1
การถดถอยโลจิสติกสำหรับข้อมูลจากการแจกแจงปัวซอง
จากบันทึกการเรียนรู้ของเครื่องบางส่วนที่พูดถึงวิธีการจำแนกจำแนกประเภทโดยเฉพาะอย่างยิ่งการถดถอยโลจิสติกโดยที่ y คือเลเบลคลาส (0 หรือ 1) และ x เป็นข้อมูลกล่าวกันว่า: ถ้าและx | y = 1 \ sim \ mathrm {Poisson} (λ_1)ดังนั้นp (y | x)จะเป็นโลจิสติกx|y=0∼Poisson(λ0)x|y=0∼Poisson(λ0)x|y = 0 \sim \mathrm{Poisson}(λ_0)x|y=1∼Poisson(λ1)x|y=1∼Poisson(λ1)x|y = 1 \sim \mathrm{Poisson}(λ_1)p(y|x)p(y|x)p(y|x) ทำไมเรื่องนี้ถึงเป็นจริง?

3
ฉันควรใช้การชดเชยสำหรับ Poisson GLM ของฉันหรือไม่
ฉันกำลังทำการวิจัยเพื่อดูความแตกต่างของความหนาแน่นของปลาและความร่ำรวยของสายพันธุ์ปลาเมื่อใช้วิธีการสำรวจสำมะโนประชากรด้วยภาพใต้น้ำสองวิธี เดิมข้อมูลของฉันถูกนับข้อมูล แต่โดยทั่วไปแล้วนี่จะเปลี่ยนเป็นความหนาแน่นของปลา แต่ฉันยังคงตัดสินใจใช้ Poisson GLM ซึ่งฉันหวังว่าถูกต้อง model1 <- glm(g_den ~ method + site + depth, poisson) ตัวแปรทำนาย 3 ตัวของฉันคือวิธีเว็บไซต์และความลึกซึ่งฉันสั่งเป็นปัจจัยเมื่อฉันป้อนพวกเขา ตัวแปรการตอบสนองของฉันคือความอุดมสมบูรณ์ของปลากะรัง, ความหนาแน่นของปลาเก๋าและเหมือนกันสำหรับกลุ่มปลาอื่น ๆ ฉันทราบว่าความหนาแน่นไม่ใช่จำนวนเต็มและเป็นข้อมูลตัวเลขเช่น 1.34849 ตอนนี้ฉันได้รับข้อผิดพลาดนี้: In dpois(y, mu, log = TRUE) : non-integer x = 0.037500 ฉันอ่านมาแล้วหลายคนแนะนำให้ใช้การชดเชยนี่เป็นสิ่งที่แนะนำให้ทำมากที่สุดหรือไม่?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.