คำถามติดแท็ก poisson-distribution

การกระจายแบบไม่ต่อเนื่องที่กำหนดไว้ในจำนวนเต็มไม่เป็นลบที่มีคุณสมบัติที่ค่าเฉลี่ยเท่ากับความแปรปรวน

2
การประมาณแบบง่ายของการแจกแจงแบบปัวซองในหางยาว?
ฉันต้องการตัดสินใจความจุของตารางเพื่อให้มีราคาต่อรองเหลือน้อยกว่าเพื่อล้นสำหรับโดยสมมติว่าจำนวนรายการตามกฎหมายปัวซองที่กำหนด ความคาดหวังใน{12}]2 - พีพี∈ [ 40 ... 120 ] E ∈ [ 10 3 ... 10 12 ]คCC2- หน้า2−p2^{-p}p ∈ [ 40 … 120 ]p∈[40…120]p\in[40\dots 120]E∈ [ 103… 1012]E∈[103…1012]E\in[10^3\dots 10^{12}] เป็นการดีที่ฉันต้องการจำนวนเต็มต่ำสุดCเช่นที่1-CDF[PoissonDistribution[E],C] < 2^-pได้รับpและE; แต่ฉันพอใจกับบางอย่างที่Cสูงกว่านั้นเล็กน้อย Mathematica นั้นใช้ได้กับการคำนวณแบบแมนนวล แต่ฉันต้องการคำนวณCจากpและEณ เวลารวบรวมซึ่ง จำกัด ฉันเป็นเลขจำนวนเต็ม 64 บิต ปรับปรุง: ใน Mathematica (รุ่น 7) e = 1000; …

1
คุณใช้อัลกอริธึม EM ในการคำนวณ MLEs สำหรับสูตรตัวแปรแฝงของโมเดลปัวซองที่มีค่าศูนย์ได้อย่างไร
แบบจำลองการถดถอยปัวซงแบบ zero zero ถูกกำหนดไว้สำหรับตัวอย่างโดย และจะถือว่าพารามิเตอร์และไปY i = { 0 ด้วยความน่าจะเป็นp i + ( 1 - p i ) e - λ i k ด้วยความน่าจะเป็น( 1 - p i ) e - λ ฉัน λ k i / k ! λ = ( λ 1 , … , λ n ) …

2
แปลงการแจกแจงปัวซองเป็นการแจกแจงแบบปกติ
ฉันมีพื้นฐานด้านวิทยาศาสตร์คอมพิวเตอร์เป็นหลัก แต่ตอนนี้ฉันพยายามสอนตัวเองเกี่ยวกับสถิติพื้นฐาน ฉันมีข้อมูลบางอย่างที่ฉันคิดว่ามีการแจกแจงแบบปัวซอง ฉันมีสองคำถาม: นี่คือการแจกแจงปัวซองหรือไม่ ประการที่สองเป็นไปได้ไหมที่จะแปลงเป็นการแจกแจงแบบปกติ ความช่วยเหลือใด ๆ ที่จะได้รับการชื่นชม ขอบคุณมาก

2
ไม่ว่าจะใช้การชดเชยในการถดถอยปัวซองเมื่อทำนายเป้าหมายการทำงานทั้งหมดที่ผู้เล่นฮอกกี้ทำคะแนน
ฉันมีคำถามเกี่ยวกับสิ่งที่ดีกว่าหรือไม่ใช้การชดเชย สมมติว่าเป็นโมเดลที่ง่ายมากที่คุณต้องการอธิบายจำนวนเป้าหมาย (โดยรวม) ในฮอกกี้ ดังนั้นคุณมีเป้าหมายจำนวนเกมที่เล่นและตัวแปรดัมมี่ "กองหน้า" ซึ่งเท่ากับ 1 หากผู้เล่นเป็นกองหน้าและ 0 อย่างอื่น ดังนั้นรุ่นใดต่อไปนี้ที่ระบุไว้ถูกต้อง? เป้าหมาย = เกม + กองหน้าหรือ เป้าหมาย = ชดเชย (เกม) + กองหน้า อีกครั้งเป้าหมายคือเป้าหมายโดยรวมและจำนวนเกมเป็นเกมโดยรวมสำหรับผู้เล่นคนเดียว ตัวอย่างเช่นอาจมีผู้เล่นที่หยิบขึ้นมาที่มี 50 เป้าหมายใน 100 เกมและผู้เล่นอีกคนที่มี 20 เป้าหมายใน 50 เกมเป็นต้น ฉันควรทำอย่างไรเมื่อฉันต้องการประเมินจำนวนเป้าหมาย จำเป็นหรือไม่ที่จะใช้การชดเชยตรงนี้ อ้างอิง: ดูคำถามก่อนหน้านี้ที่พูดถึงเมื่อใช้ offsets ในการถดถอยปัวซองโดยทั่วไป

1
ช่วยตีความการนับข้อมูล GLMM โดยใช้ lme4 glmer และ glmer.nb - ทวินามลบกับปัวซอง
ฉันมีคำถามบางอย่างเกี่ยวกับข้อกำหนดและการตีความของ GLMM มี 3 คำถามที่แน่นอนทางสถิติและอีก 2 คำถามเกี่ยวกับอาร์ฉันกำลังโพสต์ที่นี่เพราะท้ายที่สุดฉันคิดว่าปัญหาคือการตีความผลลัพธ์ของ GLMM ฉันกำลังพยายามที่จะติดตั้ง GLMM ฉันใช้ข้อมูลการสำรวจสำมะโนประชากรสหรัฐจากฐานข้อมูลระบบทางเดินยาว ข้อสังเกตของฉันคือการสำรวจสำมะโนประชากร ตัวแปรตามของฉันคือจำนวนหน่วยที่พักอาศัยที่ว่างและฉันสนใจในความสัมพันธ์ระหว่างตำแหน่งว่างและตัวแปรทางเศรษฐกิจและสังคม ตัวอย่างที่นี่นั้นง่ายเพียงแค่ใช้เอฟเฟ็กต์คงที่สองตัวเลือก: เปอร์เซ็นต์ของประชากรที่ไม่ใช่คนผิวขาว ฉันต้องการรวมเอฟเฟกต์แบบซ้อนสองแบบไว้ด้วยกัน: ผืนผ้าภายในทศวรรษและทศวรรษเช่น (ทศวรรษ / ผืน) ฉันกำลังพิจารณาแบบสุ่มเหล่านี้ในความพยายามที่จะควบคุมพื้นที่ (เช่นระหว่างผืน) และชั่วขณะ (เช่นระหว่างทศวรรษ) autocorrelation อย่างไรก็ตามฉันสนใจทศวรรษที่ผ่านมาเป็นผลกระทบคงที่ดังนั้นฉันจึงรวมมันเป็นปัจจัยคงที่เช่นกัน เนื่องจากตัวแปรอิสระของฉันคือตัวแปรนับจำนวนเต็มที่ไม่เป็นลบฉันจึงพยายามใส่ปัวซองและลบทวินาม GLMM ฉันใช้บันทึกของหน่วยที่อยู่อาศัยทั้งหมดเพื่อชดเชย ซึ่งหมายความว่าค่าสัมประสิทธิ์ถูกตีความว่าเป็นผลกระทบต่ออัตราตำแหน่งที่ว่างไม่ใช่จำนวนบ้านที่ว่างทั้งหมด ฉันกำลังมีผลสำหรับ Poisson และลบทวินาม GLMM ประมาณโดยใช้ glmer และ glmer.nb จากlme4 การตีความค่าสัมประสิทธิ์ทำให้ฉันรู้สึกว่าขึ้นอยู่กับความรู้ของฉันของข้อมูลและพื้นที่การศึกษา ถ้าคุณต้องการให้ข้อมูลและสคริปต์พวกเขาอยู่ในของฉันGithub สคริปต์นี้มีการสืบสวนเชิงพรรณนามากกว่าที่ฉันเคยทำก่อนสร้างแบบจำลอง นี่คือผลลัพธ์ของฉัน: โมเดลปัวซอง Generalized linear mixed model fit by …

2
GAMM ที่มีข้อมูลที่ไม่เป็นศูนย์
เป็นไปได้หรือไม่ที่จะพอดีกับ GAMM (โมเดลผสมแบบผสมทั่วไป) สำหรับข้อมูลที่ไม่พองในศูนย์ใน R? ถ้าไม่เป็นไปได้หรือไม่ที่จะพอดีกับ GAM (โมเดลเสริมทั่วไป) สำหรับข้อมูลที่ไม่มีการขยายศูนย์ด้วยการแจกแจงแบบทวินามลบหรือกึ่งปัวซองเสมือนใน R? (ฉันพบCOZIGAM :: zigamและmgcv: ziPสำหรับการแจกแจงปัวซอง)

1
ความน่าจะเป็นของกระบวนการปัวซองอิสระขบวนอื่น
ฉันเคยถามคำถามนี้มาก่อนในรูปแบบอื่นบนสแต็คแลกเปลี่ยนอื่น ๆ ดังนั้นขออภัยสำหรับ repost ที่ค่อนข้าง ฉันถามอาจารย์และนักศึกษาปริญญาเอกสองคนถึงเรื่องนี้โดยไม่มีคำตอบที่ชัดเจน ฉันจะระบุปัญหาก่อนจากนั้นวิธีแก้ปัญหาที่เป็นไปได้ของฉันและปัญหาเกี่ยวกับวิธีแก้ปัญหาของฉันดังนั้นขอโทษสำหรับกำแพงข้อความ ปัญหา: สมมติสองอิสระ Poisson กระบวนการและกับและสำหรับช่วงเวลาเดียวกันอาจมีการ\ความน่าจะเป็นว่าที่จุดใด ๆ ในเวลาเป็นเวลาที่มีแนวโน้มที่จะอินฟินิตี้ที่การส่งออกรวมของกระบวนการคืออะไรมีขนาดใหญ่กว่าการส่งออกรวมของกระบวนการบวกคือD) หากต้องการแสดงตัวอย่างให้สมมติว่ามีสองสะพานและโดยเฉลี่ยแล้วรถและขับผ่านสะพานและMMMRRRλRλR\lambda_RλMλM \lambda_MλR>λMλR>λM\lambda_R>\lambda_MMMMRRRDDDP(M>R+D)P(M>R+D)P(M>R+D)RRRMMMλRλR\lambda_RλMλM\lambda_MRRRMMMตามลำดับต่อช่วงเวลาและ\รถยนต์ได้ขับแล้วข้ามสะพานเป็นสิ่งที่น่าจะเป็นที่ที่จุดใด ๆ ในเวลารถยนต์เพิ่มเติมทั้งหมดได้ขับข้ามสะพานกว่าRλR>λMλR>λM\lambda_R>\lambda_MDDDRRRMMMRRR วิธีแก้ไขปัญหานี้ของฉัน: ครั้งแรกที่เรากำหนดกระบวนการปัวซงสองกระบวนการ: M(I)∼Poisson(μM⋅I)R(I)∼Poisson(μR⋅I)M(I)∼Poisson⁡(μM⋅I)R(I)∼Poisson⁡(μR⋅I)M(I) \sim \operatorname{Poisson}(\mu_M\cdot I ) \\ R(I) \sim \operatorname{Poisson}(\mu_R\cdot I ) \\ ขั้นตอนต่อไปคือการค้นหาฟังก์ชั่นที่อธิบายหลังจากช่วงเวลากำหนด นี้จะเกิดขึ้นในกรณีเงื่อนไขในการส่งออกของสำหรับทุกค่าที่ไม่ใช่เชิงลบของkเพื่อแสดงให้เห็นว่าการส่งออกรวมของคือแล้วการส่งออกรวมของจะต้องมีขนาดใหญ่กว่า D ดังแสดงด้านล่างP(M>R+D)P(M>R+D)P(M>R+D)IIIM(I)>k+DM(I)>k+DM(I)>k+DR(I)=kR(I)=kR(I)=kkkkRRRXXXMMMX+DX+DX+D P(M(I))>R(I)+D)=∑k=0n[P(M(I)>k+D∪R(I)=k)]P(M(I))>R(I)+D)=∑k=0n[P(M(I)>k+D∪R(I)=k)]P(M(I))>R(I)+D)=\sum_{k=0}^n \bigg [P(M(I) >k+D\cup R(I)=k) \bigg] n→∞n→∞n\rightarrow \infty เนื่องจากความเป็นอิสระนี้สามารถเขียนใหม่เป็นผลิตภัณฑ์ของสององค์ประกอบที่องค์ประกอบแรกคือ 1-CDF ของการกระจาย Poisson และองค์ประกอบที่สองคือ Poisson PMF: …

2
ตัวประมาณค่าแบบเป็นกลางของพารามิเตอร์ปัวซอง
จำนวนอุบัติเหตุต่อวันคือตัวแปรแบบสุ่มของปัวซองด้วยพารามิเตอร์ใน 10 วันที่เลือกแบบสุ่มจำนวนการเกิดอุบัติเหตุถูกสังเกตว่าเป็น 1,0,1,1,2,0,2,0,2,0,0,1 อะไรจะเกิดขึ้น เป็นผู้ประมาณค่าที่เป็นกลางของหรือไม่λλ\lambdaeλeλe^{\lambda} ผมพยายามที่จะพยายามในลักษณะนี้: เรารู้ว่าแต่แลมบ์ดา} ถ้าเช่นนั้นจะใช้ตัวประมาณค่าที่เป็นกลางE(x¯)=λ=0.8E(x¯)=λ=0.8E(\bar{x})=\lambda=0.8E(ex¯)≠ eλE(ex¯)≠ eλE(e^{\bar{x}})\neq\ e^{\lambda}

5
การทดสอบสมมติฐานปัวซองสำหรับสองพารามิเตอร์
ดังนั้นเพื่อความสนุกฉันกำลังรับข้อมูลการโทรจาก call center ที่ฉันทำงานและพยายามทำการทดสอบสมมติฐานกับพวกเขาโดยเฉพาะจำนวนการโทรที่ได้รับในหนึ่งสัปดาห์และใช้การกระจาย Poisson เพื่อให้เหมาะสม เนื่องจากหัวข้อของงานของฉันมีสองประเภทของสัปดาห์ให้เรียกหนึ่งของพวกเขาในสัปดาห์ที่ฉันตั้งสมมติฐานว่ามีการโทรมากขึ้นและนอกสัปดาห์ที่ฉันตั้งสมมติฐานมีน้อย ฉันมีทฤษฎีที่จากเมื่อสัปดาห์ที่แล้ว (เรียกมันว่า ) มีขนาดใหญ่กว่าของหนึ่งในช่วงนอกสัปดาห์ (เรียกว่า )λλ\lambdaλ1λ1\lambda_1λ2λ2\lambda_2 สมมติฐานที่ฉันต้องการทดสอบคือH0:λ1>λ2,H1:λ1≤λ2H0:λ1>λ2,H1:λ1≤λ2H_0: \lambda_1 > \lambda_2, H_1: \lambda_1 \leq \lambda_2 ฉันรู้วิธีทดสอบพารามิเตอร์หนึ่งตัว (เช่น ) แต่ก็ไม่แน่ใจว่าจะทำอย่างไร 2 เมื่อได้รับชุดข้อมูล สมมติว่าฉันใช้ข้อมูลสองสัปดาห์จากแต่ละและสำหรับนอกสัปดาห์และและสำหรับสัปดาห์ มีใครช่วยฉันหน่อยได้ไหมว่ารุ่นที่ง่ายกว่านี้ซึ่งฉันสามารถนำไปใช้กับชุดข้อมูลที่ใหญ่กว่าได้ ความช่วยเหลือใด ๆ ที่ชื่นชมขอบคุณH0:λ1> 1 ,H1:λ1≤ 1H0:λ1>1,H1:λ1≤1H_0: \lambda_1 > 1, H_1: \lambda_1 \leq 1 X1= 2X1=2X_1 = 2X2= 3X2=3X_2 = 3Y1= 2Y1=2Y_1 …

1
glmnet จัดการกับการกระจายเกินขนาดได้อย่างไร
ฉันมีคำถามเกี่ยวกับวิธีจำลองข้อความเหนือข้อมูลการนับโดยเฉพาะฉันจะใช้lassoเทคนิคเพื่อลดคุณลักษณะได้อย่างไร สมมติว่าฉันมีบทความออนไลน์ N รายการและจำนวนการเปิดดูหน้าเว็บสำหรับแต่ละบทความ ฉันได้สกัด 1 กรัมและ 2 กรัมสำหรับแต่ละบทความแล้วและฉันต้องการเรียกใช้การถดถอยมากกว่า 1,2- กรัม เนื่องจากฟีเจอร์ (1,2-grams) นั้นมากกว่าวิธีการสังเกตจำนวนมาก Lasso จึงเป็นวิธีที่ดีในการลดจำนวนฟีเจอร์ นอกจากนี้ฉันพบว่าglmnetมันมีประโยชน์จริงๆในการรันการวิเคราะห์บ่วงบาศ อย่างไรก็ตามจำนวนการเปิดดูหน้าเว็บนั้นมีจำนวนมากเกินไป (แปรปรวน> หมายถึง) แต่glmnetไม่มีการเสนอquasipoisson(อย่างชัดเจน) หรือnegative binomialแต่poissonสำหรับการนับข้อมูล วิธีการแก้ปัญหาที่ฉันคิดคือlog transformการนับข้อมูล (วิธีที่ใช้กันทั่วไปในหมู่นักสังคมศาสตร์) และทำให้ตัวแปรตอบสนองคร่าว ๆ ตามการแจกแจงปกติ glmnetเป็นเช่นนี้ผมอาจจะรูปแบบข้อมูลกับครอบครัวของเกาส์โดยใช้ ดังนั้นคำถามของฉันคือ: เหมาะสมหรือไม่ หรือฉันจะใช้ปัวซองglmnetในกรณีglmnetด้ามจับquasipoisson? หรือมีแพ็คเกจ R อื่น ๆ จัดการกับสถานการณ์นี้หรือไม่? ขอบคุณมาก!

2
การบรรจบกันในการกระจาย \ CLT
ระบุว่า , distr แบบมีเงื่อนไข ของเป็น\ ไค ^ 2 (2n) Nมีความแตกต่างเล็กน้อย ของปัวซอง ( \ theta ), \ thetaเป็นค่าคงที่เป็นบวกN=nN=nN = nYYYχ2(2n)χ2(2n)\chi ^2(2n)NNNθθ\thetaθθ\theta แสดงว่าในขณะที่θ→∞θ→∞\theta \rightarrow \infty , (Y−E(Y))/Var(Y)−−−−−−√→N(0,1) (Y−E(Y))/Var⁡(Y)→N(0,1)\space \space (Y - E(Y))/ \sqrt{\operatorname{Var}(Y)} \rightarrow N(0,1)ในการกระจาย ใครสามารถแนะนำกลยุทธ์ในการแก้ปัญหานี้ ดูเหมือนว่าเราจำเป็นต้องใช้ CLT (Central Limit Theorem) แต่มันดูยากที่จะรับข้อมูลใด ๆ เกี่ยวกับYYYด้วยตัวเอง มี rv ที่สามารถแนะนำให้ใช้ตัวอย่างเพื่อสร้างYYYหรือไม่? นี่คือการบ้านดังนั้นคำแนะนำชื่นชม

2
การค้นหาความแปรปรวนของตัวประมาณค่าสำหรับโอกาสสูงสุดสำหรับการแจกแจงปัวซง
ถ้า K1, … ,KnK1,…,KnK_1, \dots, K_n คือการกระจาย iid Poisson พร้อมพารามิเตอร์ ββ\beta ฉันได้ทำงานแล้วว่าการประเมินความเป็นไปได้สูงสุด β^(k1, … ,kn) =1nΣi = 1nkผมβ^(k1,…,kn)=1n∑i=1nki\hat\beta (k_1, \dots, k_n) = \frac{1}{n} \sum_{i=1}^n k_i สำหรับข้อมูล k1, … ,knk1,…,knk_1, \dots, k_n. ดังนั้นเราสามารถกำหนดตัวประมาณที่สอดคล้องกันได้ T=1nΣi = 1nKผม.T=1n∑i=1nKi.T = \frac{1}{n} \sum_{i=1}^n K_i . คำถามของฉันคือคุณจะคำนวณความแปรปรวนของเครื่องมือประมาณนี้อย่างไร โดยเฉพาะอย่างยิ่งเช่นกัน KผมKiK_i ติดตามการแจกแจงปัวซองด้วยพารามิเตอร์ ββ\beta ฉันรู้ว่าจากคุณสมบัติของปัวซองว่าการกระจายตัว Σni = 1Kผม∑i=1nKi\sum_{i=1}^n K_i …

2
ความเหมาะสมของการกระจายแบบปัวซอง
การทดสอบทางสถิติที่รู้จักกันดีคืออะไรเพื่อวัดความดีของตัวแปรสุ่มที่สังเกตได้เพื่อการแจกแจงปัวซอง? ฉันรู้ว่าการทดสอบ Kolmogorov-Smirnov นั้นเป็นแบบนั้นมีคนอื่นอีกไหม?

1
ตามเงื่อนไขทั้งหมด, การกระจายตัวของทวินามลบคืออะไร
หากเป็น IID ทวินามลบแล้วสิ่งคือการกระจายของได้รับx1,x2,…,xnx1,x2,…,xnx_1, x_2, \ldots, x_n(x1,x2,…,xn)(x1,x2,…,xn)(x_1, x_2, \ldots, x_n) x1+x2+…+xn=Nx1+x2+…+xn=Nx_1 + x_2 + \ldots + x_n = N\quad ? NNNแก้ไข หากเป็นปัวซองดังนั้นเงื่อนไขโดยรวมเป็นมัลติโนเมียล ฉันไม่แน่ใจว่ามันเป็นเรื่องจริงสำหรับทวินามลบหรือไม่เพราะมันเป็นปัวซองผสมx1,x2,…,xnx1,x2,…,xnx_1, x_2, \ldots, x_n(x1,x2,…,xn)(x1,x2,…,xn)(x_1, x_2, \ldots, x_n) ในกรณีที่คุณอยากรู้นี่ไม่ใช่ปัญหาการบ้าน

3
เปรียบเทียบอัตราอุบัติการณ์
ฉันต้องการเปรียบเทียบกับอัตราการเกิดระหว่างสองกลุ่ม (กลุ่มที่ไม่มีโรคและอีกกลุ่มด้วย) ฉันวางแผนที่จะคำนวณอัตราส่วนอัตราอุบัติการณ์ (IRR) เช่นกลุ่มอัตราอุบัติการณ์กลุ่ม B / อัตราอุบัติการณ์ A แล้วทดสอบว่าอัตรานี้เท่ากับ 1 และสุดท้ายคำนวณช่วงเวลา 95% CI สำหรับ IRR ฉันพบวิธีการคำนวณ 95% CI ในหนังสือ ( ความรู้พื้นฐานด้านชีวสถิติของ Rosner ): ประสบการณ์[บันทึก( IRR ) ± 1.96( 1 /a1) + ( 1 /a2)------------√]ประสบการณ์⁡[เข้าสู่ระบบ⁡(IRR)±1.96(1/a1)+(1/a2)]\exp\left[\log(\text{IRR}) \pm 1.96\sqrt{(1/a_1)+(1/a_2)}\right] โดยที่และคือจำนวนของกิจกรรม แต่การประมาณนี้ใช้ได้กับขนาดตัวอย่างที่ใหญ่พอเท่านั้นและฉันคิดว่าจำนวนของเหตุการณ์ที่ฉันมีคือเล็ก (อาจใช้สำหรับการเปรียบเทียบทั้งหมดโดยรวมก็โอเค)a1a1a_1a2a2a_2 ดังนั้นฉันคิดว่าฉันควรใช้วิธีอื่น Im ใช้ R และexactcipoisson.test()แพคเกจและพบว่าฉันสามารถอาจจะใช้ แต่ฟังก์ชั่นนี้มี 3 วิธีในการกำหนดค่า p-sided ทั้งสอง: …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.