คำถามติดแท็ก negative-binomial

การแจกแจงแบบไม่ต่อเนื่องและไม่แปรตามจำนวน Bernoulli(p) การทดลองสำเร็จจนกระทั่งจำนวนความล้มเหลวที่ระบุเกิดขึ้น

4
พล็อตการวิเคราะห์สำหรับการนับถอยหลัง
แปลงวินิจฉัย (และการทดสอบอย่างเป็นทางการ) คุณพบว่าข้อมูลส่วนใหญ่สำหรับการถดถอยที่ผลเป็นตัวแปรนับ? ฉันสนใจเป็นพิเศษใน Poisson และแบบจำลอง Binomial เชิงลบเช่นเดียวกับ counterparts ที่สูงเกินจริงและกีดขวางของแต่ละ แหล่งที่มาส่วนใหญ่ที่ฉันได้พบเพียงแค่พล็อตส่วนที่เหลือเทียบกับค่าติดตั้งโดยไม่ต้องพูดคุยเกี่ยวกับสิ่งที่แปลงเหล่านี้ "ควร" ดูเหมือน ภูมิปัญญาและการอ้างอิงชื่นชมอย่างมาก เรื่องราวย้อนกลับไปในเหตุผลที่ผมถามนี้ถ้ามันมีความเกี่ยวข้องเป็นคำถามอื่น ๆ ของฉัน การอภิปรายที่เกี่ยวข้อง: การตีความแปลงการวินิจฉัยที่เหลือสำหรับรุ่น GLM? สมมติฐานของตัวแบบเชิงเส้นทั่วไป GLMs - การวินิจฉัยและครอบครัวใด

2
ปัวซองและการถดถอยทวินามลบเมื่อใดจะพอดีกับค่าสัมประสิทธิ์เดียวกัน
ฉันสังเกตเห็นว่าใน R, Poisson และการถดถอยแบบทวินามลบ (NB) ดูเหมือนจะเหมาะสมกับค่าสัมประสิทธิ์เดียวกันสำหรับการจัดหมวดหมู่ แต่ไม่ต่อเนื่องทำนาย ตัวอย่างเช่นนี่คือการถดถอยด้วยตัวพยากรณ์หมวดหมู่: data(warpbreaks) library(MASS) rs1 = glm(breaks ~ tension, data=warpbreaks, family="poisson") rs2 = glm.nb(breaks ~ tension, data=warpbreaks) #compare coefficients cbind("Poisson"=coef(rs1), "NB"=coef(rs2)) นี่คือตัวอย่างที่มีตัวทำนายอย่างต่อเนื่องโดยที่ปัวซองและ NB มีค่าสัมประสิทธิ์ต่างกัน: data(cars) rs1 = glm(dist ~ speed, data=cars, family="poisson") rs2 = glm.nb(dist ~ speed, data=cars) #compare coefficients cbind("Poisson"=coef(rs1), "NB"=coef(rs2)) (แน่นอนว่าสิ่งเหล่านี้จะไม่นับข้อมูลและตัวแบบนั้นไม่มีความหมาย ... …

2
ทำความเข้าใจกับพารามิเตอร์ภายในการแจกแจงแบบทวินามลบ
ฉันพยายามใส่ข้อมูลของฉันเป็นแบบจำลองต่างๆและคิดว่าfitdistrฟังก์ชั่นจากไลบรารี่MASSของRให้ฉันNegative Binomialเป็นแบบที่ดีที่สุด ตอนนี้จากหน้าwikiคำจำกัดความได้รับเป็น: การแจกแจง NegBin (r, p) อธิบายความน่าจะเป็นของความล้มเหลว k และความสำเร็จ r ในการทดลอง k + r Bernoulli (p) ด้วยความสำเร็จในการทดลองครั้งสุดท้าย ใช้Rในการดำเนินการรูปแบบที่เหมาะสมให้ฉันสองพารามิเตอร์และmean dispersion parameterฉันไม่เข้าใจวิธีตีความสิ่งเหล่านี้เพราะฉันไม่เห็นพารามิเตอร์เหล่านี้ในหน้าวิกิ ทั้งหมดที่ฉันเห็นคือสูตรต่อไปนี้: ที่เป็นจำนวนของการสังเกตและk r=0...nตอนนี้ฉันจะเชื่อมโยงสิ่งเหล่านี้กับพารามิเตอร์ที่กำหนดโดยได้Rอย่างไร ไฟล์ช่วยเหลือไม่ได้ให้ข้อมูลมากนัก นอกจากนี้เพื่อพูดคำสองสามคำเกี่ยวกับการทดสอบของฉัน: ในการทดลองทางสังคมที่ฉันกำลังทำอยู่ฉันพยายามนับจำนวนผู้ใช้ที่ผู้ใช้แต่ละคนติดต่อในระยะเวลา 10 วัน ขนาดประชากรคือ 100 สำหรับการทดสอบ ตอนนี้ถ้าแบบจำลองนั้นเหมาะกับเนกาทีฟทวินามลบฉันสามารถพูดได้ว่ามันเป็นไปตามการกระจายตัวนั้น แต่ฉันต้องการเข้าใจความหมายที่เข้าใจง่ายที่อยู่เบื้องหลังสิ่งนี้ หมายความว่าอย่างไรว่าจำนวนคนที่ได้รับการติดต่อจากการทดสอบของฉันนั้นมีการกระจายตัวแบบทวินามลบ มีใครช่วยอธิบายสิ่งนี้ได้ไหม

1
คำถามการถดถอยแบบทวินามเชิงลบ - เป็นแบบจำลองที่ไม่ดีหรือไม่?
ฉันกำลังอ่านบทความที่น่าสนใจโดยผู้ขายและ Shmueliเกี่ยวกับแบบจำลองการถดถอยสำหรับข้อมูลนับ ใกล้ถึงจุดเริ่มต้น (หน้า 944) พวกเขาอ้างถึงMcCullaugh และ Nelder (1989) ว่าการถดถอยเชิงลบแบบทวินามนั้นไม่เป็นที่นิยมและมีปัญหาการเชื่อมโยงที่เป็นที่ยอมรับ ฉันพบข้อความอ้างอิงแล้วและมันก็บอกว่า (หน้า 374 ของ M และ N) "ดูเหมือนว่าการใช้งานเล็กน้อยจะทำจากการแจกแจงลบทวินามในแอปพลิเคชันโดยเฉพาะการใช้ลิงก์แบบบัญญัติเป็นปัญหาเพราะมันทำให้ตัวทำนายเชิงเส้นเป็นฟังก์ชันของพารามิเตอร์ของฟังก์ชันความแปรปรวน" ในหน้าก่อนหน้าพวกเขาให้ฟังก์ชั่นการเชื่อมโยงเป็น η=log(α1+α)=log(μμ+k)η=log⁡(α1+α)=log⁡(μμ+k)\eta = \log\left(\frac{\alpha}{1 + \alpha} \right) = \log\left( \frac{\mu}{\mu + k}\right) และฟังก์ชันความแปรปรวน V=μ+μ2k.V=μ+μ2k.V = \mu + \frac{\mu^2}{k}. การกระจายจะได้รับเป็น Pr(Y=y;α,k)=(y+k−1)!y!(k−1)!αy(1+α)y=kPr(Y=y;α,k)=(y+k−1)!y!(k−1)!αy(1+α)y=kPr(Y = y; \alpha,k) = \frac{(y+k-1)!}{y!(k-1)!}\frac{\alpha^y}{(1+\alpha)^{y=k}} ฉันพบว่าการถดถอยของ NB มีการใช้กันอย่างแพร่หลาย (และแนะนำในหนังสือหลายเล่ม) การใช้และคำแนะนำทั้งหมดนี้มีข้อผิดพลาดหรือไม่? อะไรคือผลที่เกิดขึ้นจากลิงค์ที่เป็นปัญหานี้?

2
สมมติฐานของการถดถอยแบบทวินามเชิงลบคืออะไร?
ฉันทำงานกับชุดข้อมูลขนาดใหญ่ (เป็นความลับดังนั้นฉันจึงไม่สามารถแบ่งปันได้มากเกินไป) และมาถึงข้อสรุปการถดถอยเชิงลบแบบทวินามก็เป็นสิ่งที่จำเป็น ฉันไม่เคยทำการถดถอยแบบ glm มาก่อนและฉันไม่สามารถหาข้อมูลที่ชัดเจนเกี่ยวกับสมมติฐานได้ พวกเขาเหมือนกันสำหรับ MLR หรือไม่ ฉันสามารถแปลงตัวแปรในลักษณะเดียวกันได้หรือไม่ (ฉันได้ค้นพบแล้วว่าการเปลี่ยนตัวแปรตามคือการโทรที่ไม่ดีเนื่องจากต้องเป็นจำนวนธรรมชาติ) ฉันได้พิจารณาแล้วว่าการแจกแจงทวินามลบจะช่วยในการกระจายตัวมากเกินไปในข้อมูลของฉัน (ความแปรปรวนอยู่ที่ประมาณ 2000 ค่าเฉลี่ยคือ 48) ขอบคุณสำหรับความช่วยเหลือ !!

3
ทีต้าในการถดถอยแบบทวินามลบด้วย R คืออะไร?
ฉันมีคำถามเกี่ยวกับการถดถอยแบบทวินามลบ: สมมติว่าคุณมีคำสั่งต่อไปนี้: require(MASS) attach(cars) mod.NB<-glm.nb(dist~speed) summary(mod.NB) detach(cars) (โปรดทราบว่ารถยนต์เป็นชุดข้อมูลที่มีอยู่ใน R และฉันไม่สนใจว่ารุ่นนี้เหมาะสมหรือไม่) สิ่งที่ฉันอยากรู้คือฉันจะตีความตัวแปรได้อย่างไรtheta(ส่งคืนที่ด้านล่างของการเรียกไปยังsummary) นี่คือพารามิเตอร์รูปร่างของการแจกแจงแบบเนกกิ้นและเป็นไปได้หรือไม่ที่จะตีความว่าเป็นการวัดความเบ้

4
ความแตกต่างระหว่างทวินามลบทวินามและการถดถอยปัวซอง
ฉันกำลังมองหาข้อมูลบางอย่างเกี่ยวกับความแตกต่างระหว่างทวินามลบทวินามและปัวซองการถดถอยและสถานการณ์ที่เหมาะสมที่สุดสำหรับการถดถอยเหล่านี้ มีการทดสอบใดบ้างที่ฉันสามารถทำได้ใน SPSS ที่สามารถบอกได้ว่าการถดถอยแบบใดที่ดีที่สุดสำหรับสถานการณ์ของฉัน นอกจากนี้ฉันจะเรียกใช้ปัวซองหรือทวินามลบใน SPSS ได้อย่างไรเนื่องจากไม่มีตัวเลือกเช่นที่ฉันเห็นในส่วนการถดถอย หากคุณมีลิงค์ที่มีประโยชน์ฉันจะขอบคุณมันมาก

2
การวินิจฉัยรุ่นเชิงเส้น (แบบผสม) ทั่วไป (ส่วนที่เหลือโดยเฉพาะ)
ฉันกำลังดิ้นรนกับการหารูปแบบที่เหมาะสมสำหรับข้อมูลการนับยาก (ตัวแปรตาม) ฉันลองรุ่นที่แตกต่างหลากหลาย (โมเดลเอฟเฟ็กต์แบบผสมมีความจำเป็นสำหรับข้อมูลชนิดของฉัน) เช่นlmerและlme4(พร้อมการแปลงล็อก) รวมถึงโมเดลเอฟเฟกต์แบบผสมเชิงเส้นทั่วไปกับครอบครัวต่างๆเช่น Gaussian หรือ Binomial เชิงลบ อย่างไรก็ตามฉันค่อนข้างไม่แน่ใจในวิธีการวินิจฉัยอย่างถูกต้องเหมาะสมกับผลลัพธ์ ฉันพบความคิดเห็นที่แตกต่างกันมากมายในหัวข้อนั้นบนเว็บ ฉันคิดว่าการวินิจฉัยการถดถอยเชิงเส้น (แบบผสม) ค่อนข้างตรงไปตรงมา คุณสามารถไปข้างหน้าและวิเคราะห์ส่วนที่เหลือ (ปกติ) รวมทั้งศึกษา heteroscedasticity โดยการวางแผนค่าติดตั้งเปรียบเทียบกับส่วนที่เหลือ อย่างไรก็ตามคุณจะทำอย่างนั้นสำหรับรุ่นทั่วไปได้อย่างไร ให้เรามุ่งเน้นการถดถอยแบบทวินามลบ (แบบผสม) ในตอนนี้ ฉันเห็นข้อความคัดค้านที่เกี่ยวข้องกับสิ่งที่เหลืออยู่ที่นี่: ในการตรวจสอบค่าคงที่สำหรับค่าปกติในโมเดลเชิงเส้นทั่วไปมันจะถูกชี้ให้เห็นในคำตอบแรกว่าส่วนที่เหลือจะไม่แจกแจงแบบปกติสำหรับ GLM; ฉันคิดว่านี่ชัดเจน อย่างไรก็ตามมันก็ชี้ให้เห็นว่าเพียร์สันและส่วนเบี่ยงเบนเบี่ยงเบนก็ไม่ควรจะเป็นปกติ กระนั้นคำตอบที่สองระบุว่าควรแจกแจกส่วนเบี่ยงเบนปกติ (รวมกับการอ้างอิง) โดยปกติแล้วความเบี่ยงเบนที่เหลืออยู่นั้นควรจะมีการบอกกล่าวไว้ในเอกสารประกอบสำหรับ? glm.diag.plots (จากbootแพ็คเกจของ R ) ในบล็อกโพสต์นี้ผู้เขียนได้ทำการศึกษาเรื่องปกติของสิ่งที่ฉันคิดว่าเป็นของเพียร์สันสำหรับแบบจำลองการถดถอยแบบผสมผลกระทบ NB ตามที่คาดไว้ (ตามความเห็นของฉัน) เศษซากไม่ได้แสดงให้เห็นว่าเป็นเรื่องปกติและผู้เขียนสันนิษฐานว่าแบบจำลองนี้ไม่เหมาะสม อย่างไรก็ตามตามที่ระบุไว้ในความคิดเห็นที่เหลือควรกระจายตามการกระจายทวินามลบ ในความคิดของฉันสิ่งนี้ใกล้เคียงกับความจริงมากที่สุดเนื่องจากส่วนที่เหลือของ GLM สามารถมีการแจกแจงแบบอื่นที่ไม่ใช่แบบปกติ ถูกต้องหรือไม่ จะตรวจสอบสิ่งต่าง ๆ เช่น heteroscedasticity …

2
ลักษณะทั่วไปอย่างต่อเนื่องของการแจกแจงทวินามลบ
การแจกแจงลบทวินาม (NB)ถูกกำหนดในจำนวนเต็มไม่เป็นลบและมีฟังก์ชันมวลความน่าจะเป็นf(k;r,p)=(k+r−1k)pk(1−p)r.f(k;r,p)=(k+r−1k)pk(1−p)r.f(k;r,p)={\binom {k+r-1}{k}}p^{k}(1-p)^{r}.มันสมเหตุสมผลหรือไม่ที่จะต้องพิจารณาการกระจายอย่างต่อเนื่องบน reals ที่ไม่เป็นลบซึ่งกำหนดโดยสูตรเดียวกัน (แทนที่k∈N0k∈N0k\in \mathbb N_0โดยx∈R≥0x∈R≥0x\in\mathbb R_{\ge 0} )? ค่าสัมประสิทธิ์ทวินามสามารถเขียนเป็นผลิตภัณฑ์ของ(k+1)⋅…⋅(k+r−1)(k+1)⋅…⋅(k+r−1)(k+1)\cdot\ldots\cdot(k+r-1)ซึ่งเป็นที่ที่ดีที่กำหนดจริงใด ๆkkkkดังนั้นเราจะมี PDF f(x;r,p)∝∏i=1r−1(x+i)⋅px(1−p)r.f(x;r,p)∝∏i=1r−1(x+i)⋅px(1−p)r.f(x;r,p)\propto\prod_{i=1}^{r-1}(x+i)\cdot p^{x}(1-p)^{r}. โดยทั่วไปเราสามารถแทนที่ค่าสัมประสิทธิ์ทวินามด้วยฟังก์ชันแกมมาทำให้ค่าrไม่ใช่จำนวนเต็มrrr: f(x;r,p)∝Γ(x+r)Γ(x+1)Γ(r)⋅px(1−p)r.f(x;r,p)∝Γ(x+r)Γ(x+1)Γ(r)⋅px(1−p)r.f(x;r,p)\propto\frac{\Gamma(x+r)}{\Gamma(x+1)\Gamma(r)}\cdot p^{x}(1-p)^{r}. เป็นการกระจายที่ถูกต้องหรือไม่ มันมีชื่อหรือไม่? มันมีประโยชน์อะไรบ้าง? มันอาจจะเป็นสารประกอบหรือส่วนผสมบางอย่าง? มีสูตรปิดสำหรับค่าเฉลี่ยและความแปรปรวน (และค่าคงที่สัดส่วนใน PDF) หรือไม่ (ขณะนี้ฉันกำลังศึกษากระดาษที่ใช้แบบผสม NB (ที่มีค่าคงที่r=2r=2r=2 ) และเหมาะกับมันผ่านทาง EM อย่างไรก็ตามข้อมูลเป็นจำนวนเต็มหลังจากการทำให้เป็นมาตรฐานบางอย่างเช่นไม่ใช่จำนวนเต็มอย่างไรก็ตามผู้เขียนใช้สูตร NB มาตรฐานเพื่อคำนวณ ความเป็นไปได้และผลลัพธ์ที่สมเหตุสมผลดังนั้นทุกอย่างดูเหมือนจะใช้ได้ดีฉันพบว่ามันน่างงมากโปรดทราบว่าคำถามนี้ไม่เกี่ยวกับ NB GLM)

2
เปลี่ยนจากการทำแบบจำลองกระบวนการโดยใช้การกระจายแบบปัวซงเพื่อใช้การกระจายแบบลบแบบทวินาม?
\newcommand{\P}{\mathbb{P}}เรามีขั้นตอนการสุ่มที่อาจจะหรืออาจจะไม่เกิดขึ้นหลายครั้งในระยะเวลาที่กำหนดของเวลาTเรามีฟีดข้อมูลจากรูปแบบที่มีอยู่ก่อนของกระบวนการนี้ที่ให้ความน่าจะเป็นของจำนวนของเหตุการณ์ที่เกิดขึ้นในช่วงเวลาที่&lt;T โมเดลที่มีอยู่นี้เก่าและเราจำเป็นต้องเรียกใช้การตรวจสอบสดกับข้อมูลฟีดสำหรับข้อผิดพลาดในการประเมิน รุ่นเก่าผลิตข้อมูลฟีด (ซึ่งจะให้ความน่าจะเป็นของเหตุการณ์ที่เกิดขึ้นในเวลาที่เหลืออีก ) จะอยู่ที่ประมาณ Poisson กระจายTTT0≤t&lt;T0≤t&lt;T0 \leq t < Tnnnttt ดังนั้นเพื่อตรวจสอบความผิดปกติ / ข้อผิดพลาดเราปล่อยให้tttเป็นเวลาที่เหลืออยู่และXtXtX_tเป็นจำนวนรวมของเหตุการณ์ที่จะเกิดขึ้นในระยะเวลาที่เหลือทีtttรุ่นเก่าหมายถึงการประมาณการP(Xt≤c)P(Xt≤c)\P(X_t \leq c)ค) ดังนั้นภายใต้สมมติฐานของเราXt∼Poisson(λt)Xt∼Poisson⁡(λt)X_t\sim \operatorname{Poisson}(\lambda_{t})เรามี: P(Xt≤c)=e−λ∑k=0cλktk!.P(Xt≤c)=e−λ∑k=0cλtkk!. \P(X_t \leq c) = e^{-\lambda}\sum_{k=0}^c\frac{\lambda_t^k}{k!}\,. เพื่อให้ได้อัตราการจัดกิจกรรมของเราλtλt\lambda_tจากเอ้าท์พุทของโมเดลเก่า (การสังเกตytyty_{t} ) เราใช้วิธีพื้นที่ของรัฐและสร้างแบบจำลองความสัมพันธ์ของรัฐเป็น: yt=λt+εt(εt∼N(0,Ht)).yt=λt+εt(εt∼N(0,Ht)). y_t = \lambda_t + \varepsilon_t\quad (\varepsilon_t \sim N(0, H_t))\,. เรากรองการสังเกตจากแบบจำลองเก่าโดยใช้แบบจำลองพื้นที่รัฐ [การสลายตัวด้วยความเร็วคงที่] สำหรับการวิวัฒนาการของλtλt\lambda_tเพื่อรับสถานะการกรองE(λt|Yt)E(λt|Yt)E(\lambda_t|Y_t)และตั้งค่าสถานะความผิดปกติ / ความผิดพลาดในความถี่เหตุการณ์โดยประมาณจาก ที่ฟีดข้อมูลหากE(λt|Yt)&lt;ytE(λt|Yt)&lt;ytE(\lambda_t|Y_t) < y_t&lt;y_t วิธีการนี้ใช้งานได้ดีในการรับข้อผิดพลาดในเหตุการณ์ที่คาดการณ์นับในช่วงเวลาTเต็มรูปแบบTTTแต่ไม่ดีถ้าเราต้องการทำเช่นเดียวกันสำหรับช่วงเวลาอื่น0≤t&lt;σ0≤t&lt;σ0 \leq t …

3
แบบจำลองที่เหมาะสมสำหรับข้อมูลการนับที่น้อยเกินไปคืออะไร?
ฉันพยายามที่จะสร้างแบบจำลองข้อมูลนับใน R ที่เห็นได้ชัดว่าด้อยค่า (พารามิเตอร์การกระจายตัว ~ .40) นี่อาจเป็นสาเหตุที่รูปแบบแบบglmมีfamily = poissonหรือเชิงลบglm.nbมีความหมายไม่สำคัญ เมื่อฉันดูคำอธิบายข้อมูลของฉันฉันไม่มีข้อมูลการนับทั่วไปและส่วนที่เหลือในเงื่อนไขการทดลองทั้งสองของฉันก็เหมือนกันเช่นกัน ดังนั้นคำถามของฉันคือ: ฉันต้องใช้การวิเคราะห์การถดถอยแบบพิเศษสำหรับข้อมูลการนับของฉันหรือไม่หากข้อมูลการนับของฉันไม่ทำงานเหมือนข้อมูลการนับ บางครั้งฉันต้องเผชิญกับภาวะไม่ปกติ (โดยปกติจะเป็นเพราะความทรมาน) แต่ฉันใช้วิธีบูตสแตรปเปอร์เซ็นไทล์สำหรับการเปรียบเทียบวิธีการที่ถูกตัด (Wilcox, 2012) เพื่ออธิบายถึงความไม่เป็นมาตรฐาน วิธีการสำหรับการนับข้อมูลสามารถทดแทนด้วยวิธีการที่แข็งแกร่งใด ๆ ที่แนะนำโดย Wilcox และรับรู้ในแพ็คเกจ WRS หรือไม่ หากฉันต้องใช้การวิเคราะห์การถดถอยสำหรับข้อมูลนับฉันจะบัญชีสำหรับการกระจายต่ำกว่าได้อย่างไร ปัวซองและการกระจายตัวแบบลบลบถือว่าการกระจายตัวที่สูงขึ้นดังนั้นจึงไม่เหมาะสมใช่ไหม ฉันคิดว่าจะใช้การกระจายแบบกึ่ง - ปัวซองแต่โดยทั่วไปจะแนะนำให้กระจายตัวมากเกินไป ฉันอ่านเกี่ยวกับตัวแบบเบต้า - ทวินามซึ่งดูเหมือนว่าจะสามารถอธิบายได้มากกว่า - รวมถึงการด้อยค่าลงในVGAMชุดของ R ผู้เขียนดูเหมือนจะแนะนำการกระจาย Poisson tildedแต่ฉันไม่สามารถหาได้ในแพ็คเกจ . ใครบ้างที่สามารถแนะนำขั้นตอนการประมวลผลข้อมูลที่ด้อยคุณภาพและอาจมีตัวอย่างรหัส R ให้หรือไม่

3
การแจกแจงทวินามลบกับการแจกแจงทวินาม
อะไรคือความแตกต่างระหว่างการแจกแจงทวินามลบและการแจกแจงทวินาม ฉันลองอ่านออนไลน์และฉันพบว่าการแจกแจงทวินามลบเมื่อจุดข้อมูลไม่ต่อเนื่อง แต่ฉันคิดว่าแม้กระทั่งการแจกแจงทวินามก็สามารถใช้สำหรับจุดข้อมูลแบบแยก

1
เมื่อใดจึงจะใช้ปัวซองเทียบกับเรขาคณิตเทียบกับลบทวินาม GLMs สำหรับการนับข้อมูล?
ฉันพยายามจัดโครงร่างสำหรับตัวเองเมื่อเหมาะสมที่จะใช้ประเภทการถดถอย (เรขาคณิต, ปัวซอง, ลบทวินาม) กับข้อมูลการนับภายในกรอบการทำงาน GLM (ใช้การกระจายแบบ GLM เพียง 3 ใน 8 เท่านั้นสำหรับข้อมูลการนับ ฉันอ่านศูนย์รอบทวินามลบและการแจกแจงปัวซง) เมื่อใดจึงจะใช้ปัวซองเทียบกับเรขาคณิตเทียบกับลบทวินาม GLMs สำหรับการนับข้อมูล? จนถึงตอนนี้ฉันมีตรรกะดังต่อไปนี้: มันนับข้อมูลหรือไม่ ถ้าใช่ค่าเฉลี่ยและความแปรปรวนไม่เท่ากันหรือไม่? ถ้าใช่การถดถอยแบบทวินามลบ ถ้าไม่มีปัวซงถดถอย มีอัตราเงินเฟ้อเป็นศูนย์หรือไม่? ถ้าใช่ปัวซองกำลังพองศูนย์หรือทวินามลบพอง คำถามที่ 1ดูเหมือนจะไม่มีข้อบ่งชี้ที่ชัดเจนว่าจะใช้เมื่อใด มีบางอย่างที่ต้องแจ้งการตัดสินใจนั้นหรือไม่? จากสิ่งที่ฉันเข้าใจเมื่อคุณเปลี่ยนไปใช้ ZIP ความแปรปรวนเฉลี่ยที่เป็นสมมติฐานที่เท่าเทียมกันนั้นค่อนข้างผ่อนคลายดังนั้นมันจึงค่อนข้างคล้ายกับ NB อีกครั้ง คำถามที่ 2ตระกูลเรขาคณิตสอดคล้องกับเรื่องนี้หรือคำถามประเภทใดที่ฉันควรถามข้อมูลเมื่อตัดสินใจว่าจะใช้ตระกูลเรขาคณิตในการถดถอยของฉันหรือไม่ คำถามที่ 3ฉันเห็นผู้คนแลกเปลี่ยนการแจกแจงทวินามและปัวซงตลอดเวลา แต่ไม่ใช่เชิงเรขาคณิตดังนั้นฉันเดาว่ามีบางอย่างที่แตกต่างกันอย่างชัดเจนว่าจะใช้เมื่อไร ถ้าเป็นเช่นนั้นมันคืออะไร? ป.ล. ฉันได้ทำแผนภาพ (อาจจะเกินความจริง) จากความคิดเห็น) ( แก้ไขได้ ) ของความเข้าใจปัจจุบันของฉันหากผู้คนต้องการแสดงความคิดเห็น / ปรับแต่งเพื่อการอภิปราย

2
ทำไมตัวแปรสุ่ม“ ลบทวินาม” จึงเรียกว่า
ฉันไม่เข้าใจว่าทำไมตัวแปรสุ่ม "ลบทวินาม" จึงมีชื่อนั้น สิ่งที่เป็นลบเกี่ยวกับมัน? ทวินามเกี่ยวกับมันคืออะไร? อะไรคือลบ - ทวินามเกี่ยวกับมัน

1
ทำไม quasi-Poisson ใน GLM จึงไม่ถือว่าเป็นกรณีพิเศษของทวินามลบ
ฉันกำลังพยายามจัดวางโมเดลเชิงเส้นแบบทั่วไปกับชุดข้อมูลนับจำนวนหนึ่งที่อาจหรือไม่อาจใช้เกินขนาด การแจกแจงแบบบัญญัติทั้งสองที่ใช้ในที่นี้คือ Poisson และ Negative Binomial (Negbin) พร้อม EVและความแปรปรวนμμ\mu VRP= μVarP=μVar_P = \mu VRยังไม่มีข้อความB= μ + μ2θVarNB=μ+μ2θVar_{NB} = \mu + \frac{\mu^2}{\theta} ซึ่งสามารถติดตั้งในการใช้ R glm(..,family=poisson)และglm.nb(...)ตามลำดับ นอกจากนี้ยังมีquasipoissonครอบครัวซึ่งในความเข้าใจของฉันเป็นปัวซองปรับด้วย EV และความแปรปรวนเดียวกัน VRคิวพี= ϕ μVarQP=ϕμVar_{QP} = \phi\mu , เช่นตกบางแห่งระหว่าง Poisson และ Negbin ปัญหาหลักของครอบครัว quasipoisson คือไม่มีความเกี่ยวข้องกันดังนั้นจึงมีการทดสอบทางสถิติที่มีประโยชน์อย่างมากและใช้มาตรการที่เหมาะสม (AIC, LR etcetera) ถ้าคุณเปรียบเทียบ QP และ Negbin แปรปรวนคุณอาจสังเกตเห็นว่าคุณสามารถถือเอาพวกเขาโดยการวางtheta} ดำเนินการต่อในตรรกะนี้คุณสามารถลองแสดงการแจกแจง quasipoisson …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.