คำถามติดแท็ก zero-inflation

0 ที่มากเกินไปในตัวแปรเมื่อเทียบกับการแจกแจงอ้างอิงที่ระบุ แนวทางการถดถอย ได้แก่ แบบจำลองที่พองตัวเป็นศูนย์และแบบจำลองอุปสรรค (2 ส่วน) สำหรับข้อมูลการนับแบบจำลองที่เพิ่มขึ้นเป็นศูนย์และแบบอุปสรรค์ตามปัวซองหรือการแจกแจงทวินามลบเป็นเรื่องปกติ (ZIP / ZINB และ HP / HNB)

1
การวัด“ ความเบี่ยงเบน” สำหรับปัวซอง zero-inflated หรือทวินามลบพองศูนย์?
การเบี่ยงเบนสเกลที่กำหนดไว้เป็น D = 2 * (บันทึกความน่าจะเป็นของโมเดลอิ่มตัวลบบันทึกความน่าจะเป็นของโมเดลที่ติดตั้ง) มักใช้เป็นเครื่องวัดความดีพอดีในโมเดล GLM เปอร์เซ็นต์การเบี่ยงเบนที่อธิบายถูกกำหนดเป็น [D (โมเดลว่าง) - D (โมเดลที่พอดี)] / D (โมเดลว่าง) บางครั้งก็ใช้เป็น GLM อนาล็อกเพื่อการถดถอยเชิงเส้นของ R-squared นอกเหนือจากข้อเท็จจริงที่ว่าการแจกแจง ZIP และ ZINB ไม่ได้เป็นส่วนหนึ่งของตระกูลการแจกแจงแบบเลขชี้กำลังฉันกำลังมีปัญหาในการทำความเข้าใจว่าเหตุใดส่วนเบี่ยงเบนส่วนเบี่ยงเบนขนาดและเปอร์เซ็นต์เบี่ยงเบนที่อธิบายไม่ถูกนำมาใช้ ทุกคนสามารถแสดงความเห็นในเรื่องนี้หรือให้การอ้างอิงที่เป็นประโยชน์ ขอบคุณล่วงหน้า!

3
GLM ที่มีข้อมูลต่อเนื่องซ้อนกันเป็นศูนย์
ฉันพยายามใช้แบบจำลองเพื่อประเมินว่าโรคภัยพิบัติเช่นวัณโรคเอดส์ ฯลฯ ส่งผลกระทบต่อการใช้จ่ายในการเข้ารักษาตัวในโรงพยาบาล ฉันมี "ต้นทุนต่อการเข้ารักษาตัวในโรงพยาบาล" เป็นตัวแปรตามและเครื่องหมายของแต่ละบุคคลเป็นตัวแปรอิสระซึ่งเกือบทั้งหมดเป็นตัวอย่างเช่นเพศหัวหน้าครัวเรือนสถานะสถานะความยากจนและแน่นอนเป็นตัวแทนว่าคุณมีความเจ็บป่วยหรือไม่ และอายุกำลังสอง) และกลุ่มคำศัพท์โต้ตอบ ตามที่คาดไว้มีจำนวนมาก - และฉันหมายถึงข้อมูลจำนวนมากซ้อนกันที่ศูนย์ (กล่าวคือไม่มีค่าใช้จ่ายในการเข้ารักษาตัวในโรงพยาบาลในระยะเวลาอ้างอิง 12 เดือน) อะไรจะเป็นวิธีที่ดีที่สุดในการจัดการกับข้อมูลเช่นนี้ ณ ตอนนี้ฉันตัดสินใจที่จะแปลงค่าใช้จ่ายln(1+cost)เพื่อรวมการสังเกตทั้งหมดแล้วเรียกใช้โมเดลเชิงเส้น ฉันกำลังติดตามใช่ไหม?

2
แบบจำลองการนับศูนย์ที่ไม่พองใน R: ประโยชน์ที่แท้จริงคืออะไร
สำหรับการวิเคราะห์การนับนกศูนย์ที่สูงเกินจริงผมอยากจะใช้รุ่นนับเป็นศูนย์ที่สูงขึ้นโดยใช้แพคเกจ R pscl อย่างไรก็ตามเมื่อดูตัวอย่างที่ให้ไว้ในเอกสารสำหรับหนึ่งในฟังก์ชั่นหลัก ( ? zeroinfl ) ฉันเริ่มสงสัยว่าประโยชน์ที่แท้จริงของรุ่นเหล่านี้คืออะไร จากตัวอย่างโค้ดที่ให้ไว้ฉันคำนวณปัวซองมาตรฐาน, แบบกึ่งกลาง - ปัวซองและโมเดลไบโอโนเมียลบ, ปัวซองแบบ zero-inflated แบบง่าย, และแบบจำลองทวินามลบ, แบบปัวซองแบบพองตัวแบบศูนย์และแบบลบลบทวินาม จากนั้นฉันตรวจสอบฮิสโทแกรมของข้อมูลที่ตรวจพบและข้อมูลที่ติดตั้ง (นี่คือรหัสสำหรับการทำซ้ำ) library(pscl) data("bioChemists", package = "pscl") ## standard count data models fm_pois <- glm(art ~ ., data = bioChemists, family = poisson) fm_qpois <- glm(art ~ ., data = bioChemists, family …

2
สมมติฐานการถดถอยของปัวซองและวิธีทดสอบใน R
ฉันต้องการทดสอบว่าการถดถอยแบบใดที่เหมาะกับข้อมูลของฉันที่สุด ตัวแปรตามของฉันคือการนับและมีศูนย์จำนวนมาก และฉันต้องการความช่วยเหลือในการกำหนดรูปแบบและครอบครัวที่จะใช้ (ปัวซองหรือ quasipoisson หรือการถดถอยปัวซองปัวซอง) และวิธีทดสอบสมมติฐาน การถดถอยปัวซอง: เท่าที่ฉันเข้าใจสมมติฐานที่แข็งแกร่งคือความแปรปรวนเฉลี่ย = ความแปรปรวน คุณทดสอบสิ่งนี้อย่างไร พวกเขาต้องอยู่ใกล้กันแค่ไหน? มีการใช้ค่าเฉลี่ยและความแปรปรวนแบบไม่มีเงื่อนไขหรือมีเงื่อนไขหรือไม่ ฉันจะทำอย่างไรถ้าข้อสันนิษฐานนี้ไม่ได้ถืออยู่? ฉันอ่านว่าหากความแปรปรวนมากกว่าค่าเฉลี่ยเรามีการกระจายเกินความเร็วและวิธีที่เป็นไปได้ในการจัดการกับสิ่งนี้คือการรวมตัวแปรอิสระมากขึ้นหรือ family = quasipoisson การแจกจ่ายนี้มีข้อกำหนดหรือข้อสมมติฐานอื่น ๆ หรือไม่? ฉันจะใช้การทดสอบแบบใดเพื่อดูว่า (1) หรือ (2) เหมาะสมกว่าดีกว่าanova(m1,m2)หรือไม่? ฉันยังอ่านด้วยว่าการแจกแจงลบ - ทวินามสามารถใช้เมื่อการกระจายเกินปกติปรากฏขึ้น ฉันจะทำสิ่งนี้ใน R ได้อย่างไร ความแตกต่างของ quasipoisson คืออะไร? การถดถอยปัวซองที่ไม่ทำให้เป็นศูนย์: ฉันอ่านว่าการใช้การทดสอบ vuong จะตรวจสอบว่าแบบจำลองใดที่เหมาะสมกว่า > vuong (model.poisson, model.zero.poisson) ถูกต้องหรือไม่ การถดถอยแบบไม่มี Zero-สมมติฐานมีอะไรบ้าง? บริการด้านวิชาการของ UCLA กลุ่มให้คำปรึกษาทางสถิติมีส่วนเกี่ยวกับการถดถอยแบบปัวซองที่ไม่ทำให้เป็นศูนย์และทดสอบแบบจำลองเซโรพเลต …

1
ค่าเฉลี่ยและความแปรปรวนของการแจกแจงปัวซองแบบ zero-inflated
ทุกคนสามารถแสดงให้เห็นว่าค่าที่คาดหวังและความแปรปรวนของปัวซองที่สูงเกินศูนย์ด้วยฟังก์ชันความน่าจะเป็นเป็นอย่างไร f(y)={π+(1−π)e−λ,(1−π)λye−λy!,if y=0if y=1,2....f(y)={π+(1−π)e−λ,if y=0(1−π)λye−λy!,if y=1,2.... f(y) = \begin{cases} \pi+(1-\pi)e^{-\lambda}, & \text{if }y=0 \\ (1-\pi)\frac{\lambda^{y}e^{-\lambda}}{y!}, & \text{if }y=1,2.... \end{cases} ที่คือความน่าจะเป็นที่การสังเกตเป็นศูนย์โดยกระบวนการทวินามและλคือค่าเฉลี่ยของปัวซอง, ได้มา?ππ\piλλ\lambda ผลลัพธ์คือค่าที่คาดหวังและความแปรปรวนคือμ + πμ=(1−π)λμ=(1−π)λ\mu =(1-\pi)\lambda2μ+π1−πμ2μ+π1−πμ2\mu+ \frac{\pi}{1-\pi}\mu^{2} เพิ่ม: ฉันกำลังมองหากระบวนการ ตัวอย่างเช่นคุณสามารถใช้ฟังก์ชั่นสร้างช่วงเวลาได้หรือไม่? ในที่สุดฉันต้องการที่จะเห็นวิธีการทำเช่นนี้เพื่อทำความเข้าใจแกมมาที่สูงเกินจริงและอื่น ๆ เช่นกัน

2
การใช้งานและการตีความที่เหมาะสมของตัวแบบแกมม่าที่ไม่พองตัว
ข้อมูลประกอบ:ฉันเป็นนักชีวสถิติกำลังต่อสู้กับชุดข้อมูลของอัตราการแสดงออกของเซลล์ การศึกษาเปิดเผยโฮสต์ของเซลล์ที่รวบรวมในกลุ่มจากผู้บริจาคต่าง ๆ เพื่อเปปไทด์บางอย่าง เซลล์อาจแสดงตัวบ่งชี้ทางชีวภาพบางอย่างเพื่อตอบสนองหรือไม่ทำเช่นนั้น อัตราการตอบกลับจะถูกบันทึกไว้สำหรับผู้บริจาคแต่ละกลุ่ม อัตราการตอบสนอง (แสดงเป็นเปอร์เซ็นต์) เป็นผลลัพธ์ของดอกเบี้ยและการได้รับเปปไทด์เป็นตัวทำนาย โปรดสังเกตว่าการสังเกตนั้นมีการรวมกลุ่มกันภายในผู้บริจาค เนื่องจากฉันมีข้อมูลสรุปเท่านั้นฉันจึงยังคงรักษาอัตราการตอบกลับของผู้บริจาคให้เป็นข้อมูลต่อเนื่อง (อย่างน้อยตอนนี้) ภาวะแทรกซ้อนเกิดจากความจริงที่ว่าฉันมีเลขศูนย์ในข้อมูลของฉัน มากเกินไปที่จะเพิกเฉย ฉันกำลังพิจารณารูปแบบแกมม่าที่ไม่พองตัวเพื่อจัดการกับความจริงที่ว่าฉันได้บิดเบือนข้อมูลอย่างต่อเนื่องควบคู่กับการมีศูนย์รวมเกินศูนย์ ฉันได้พิจารณาแบบจำลอง Tobit ด้วยเช่นกัน แต่สิ่งนี้ดูด้อยกว่าเพราะถือว่าการเซ็นเซอร์ในขอบเขตที่ต่ำกว่าเมื่อเทียบกับศูนย์ของแท้ (นักเศรษฐศาสตร์อาจบอกว่า คำถาม:โดยทั่วไปแล้วการใช้แบบจำลองแกมม่าที่ไม่ต้องพองเมื่อใดจึงเหมาะสมที่จะใช้? นั่นคืออะไรคือสมมติฐาน? และคนเราตีความการอนุมานได้อย่างไร? ฉันจะขอบคุณสำหรับการเชื่อมโยงไปยังเอกสารที่กล่าวถึงเรื่องนี้ถ้าคุณมี ฉันได้พบลิงก์ใน SAS-Lซึ่ง Dale McLerran ให้รหัส NLMIXED สำหรับแบบจำลองแกมม่าที่ไม่มีการพองตัวดังนั้นมันจึงเป็นไปได้ อย่างไรก็ตามฉันจะเกลียดที่จะเรียกเก็บเงินจากคนตาบอด

2
GAMM ที่มีข้อมูลที่ไม่เป็นศูนย์
เป็นไปได้หรือไม่ที่จะพอดีกับ GAMM (โมเดลผสมแบบผสมทั่วไป) สำหรับข้อมูลที่ไม่พองในศูนย์ใน R? ถ้าไม่เป็นไปได้หรือไม่ที่จะพอดีกับ GAM (โมเดลเสริมทั่วไป) สำหรับข้อมูลที่ไม่มีการขยายศูนย์ด้วยการแจกแจงแบบทวินามลบหรือกึ่งปัวซองเสมือนใน R? (ฉันพบCOZIGAM :: zigamและmgcv: ziPสำหรับการแจกแจงปัวซอง)

2
ปัวซงที่ไม่มีการตัดทอนเป็นศูนย์และปัวซงพื้นฐานซ้อนกันหรือไม่ซ้อนกันหรือไม่
ฉันได้เห็นมากมายที่พูดถึงว่าการถดถอยปัวซองพื้นฐานเป็นเวอร์ชันซ้อนกันของการถดถอยปัวซองแบบไม่พอง ตัวอย่างเช่นไซต์นี้ระบุว่าเป็นเพราะหลังมีพารามิเตอร์พิเศษเพื่อจำลองศูนย์เพิ่มเติม แต่รวมถึงพารามิเตอร์การถดถอยปัวซองเช่นเดียวกับอดีตแม้ว่าหน้าจะมีการอ้างอิงที่ไม่เห็นด้วย สิ่งที่ฉันไม่สามารถหาข้อมูลเกี่ยวกับได้คือว่าปัวซงที่ถูกตัดทอนและศูนย์ปัวซงพื้นฐานซ้อนกันหรือไม่ ถ้าปัวซองที่ถูกตัดทอนเป็นศูนย์เป็นเพียงปัวซองที่มีสเปคพิเศษที่ความน่าจะเป็นของการนับศูนย์เป็นศูนย์แล้วฉันคิดว่ามันน่าจะเป็นไปได้ แต่ฉันหวังว่าจะได้คำตอบที่ชัดเจนยิ่งขึ้น เหตุผลที่ฉันสงสัยว่ามันจะส่งผลต่อว่าฉันควรใช้การทดสอบของ Vuong (สำหรับแบบจำลองที่ไม่ซ้อนกัน) หรือการทดสอบไคสแควร์ขั้นพื้นฐานมากขึ้นตามความแตกต่างของ loglikelihoods (สำหรับแบบจำลองแบบซ้อน) Wilson (2015)พูดถึงว่าการทดสอบ Vuong นั้นเหมาะสมสำหรับการเปรียบเทียบการถดถอยแบบ zero-inflated กับการทดสอบพื้นฐานหรือไม่ แต่ฉันไม่สามารถหาแหล่งที่มาซึ่งกล่าวถึงข้อมูลที่ไม่มีการตัดทอนได้

3
วิธีการทดสอบ / พิสูจน์ข้อมูลเป็นศูนย์ที่สูงเกินจริง?
ฉันมีปัญหาที่ฉันคิดว่าควรจะง่าย แต่ไม่สามารถเข้าใจได้ ฉันกำลังดูการผสมเกสรของเมล็ดฉันมีพืช (n = 36) ดอกไม้ที่อยู่ในกลุ่มฉันลองกลุ่มดอกไม้ 3 กลุ่มจากแต่ละต้นและฝัก 6 เมล็ดจากแต่ละกลุ่ม (18 ฝักทั้งหมดจากแต่ละต้น) ฝักสามารถมีได้ระหว่าง 0 ถึงมากที่สุด 4 เมล็ดเรณู ดังนั้นข้อมูลจะถูกนับด้วยขอบเขตบน ฉันกำลังหาค่าเฉลี่ยของเมล็ดประมาณ 10% ของเรณู แต่ที่ใดก็ได้ระหว่าง 1 - 30% ในพืชที่กำหนดดังนั้นมากกว่าข้อมูลที่กระจัดกระจายและแน่นอนว่ามีคลัสเตอร์ที่หายไป 4 ต้นใน 3 พืชดังนั้นจึงไม่สมมาตรอย่างสมบูรณ์ . คำถามที่ฉันถามคือถ้าข้อมูลนี้สนับสนุนความคิดที่โรงงานนี้ต้องการการถ่ายละอองเรณูสำหรับชุดเมล็ด ฉันพบว่าการกระจายของจำนวนเมล็ดในฝักดูเหมือนจะมีมากกว่า 0 ฝักเรณู (6-9 ฝักจาก 16) และอื่น ๆ 3 และ 4 พอดเรณูเมล็ด (2-4 สำหรับแต่ละ) กว่าจะ จะคาดหวังถ้าเมล็ดในประชากรเป็นเพียงการผสมเกสรแบบสุ่ม โดยพื้นฐานแล้วฉันคิดว่านี่เป็นตัวอย่างแบบคลาสสิกสำหรับข้อมูลที่สูงเกินจริงศูนย์แมลงตัวแรกทำอย่างใดอย่างหนึ่งหรือไม่ได้เยี่ยมชมดอกไม้เลย …

1
วิธีการรับข้อผิดพลาดมาตรฐานจากการถดถอยของการนับข้อมูลที่มีค่าศูนย์สูงเกินศูนย์จะทำอย่างไร [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามดังนั้นจึงเป็นหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน2 ปีที่ผ่านมา รหัสต่อไปนี้ PredictNew <- predict (glm.fit, newdata = Predict, X1 =X1, Y1= Y1, type = "response", se.fit = TRUE) สร้าง 3 คอลัมน์data.frame--PredictNew, ค่าติดตั้ง, ข้อผิดพลาดมาตรฐานและคำที่เหลือขนาด สมบูรณ์แบบ ... อย่างไรก็ตามการใช้โมเดลที่มีzeroinfl {pscl}: PredictNew <- predict (zeroinfl.fit, newdata = Predict, X1 =X1, Y1= Y1, type = "response", se.fit = …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.