คำถามติดแท็ก count-data

ข้อมูลนับเป็นจำนวนเต็มไม่เป็นลบ

1
ทำไมการแปลงสแควร์รูทจึงแนะนำสำหรับการนับข้อมูล
มันมักจะแนะนำให้ใช้รากที่สองเมื่อคุณมีข้อมูลนับ (สำหรับตัวอย่างบางส่วนใน CV ดู @ คำตอบ HarveyMotulsky ของที่นี่หรือคำตอบของ @ whuber ที่นี่ .) ในทางกลับกันเมื่อการปรับรูปแบบเชิงเส้นทั่วไปกับตัวแปรตอบสนองกระจายเป็น Poisson บันทึกคือการเชื่อมโยงที่เป็นที่ยอมรับ นี่เหมือนกับการแปลงบันทึกข้อมูลการตอบกลับของคุณ (แม้ว่าจะแม่นยำกว่านั้นคือทำการแปลงบันทึกของพารามิเตอร์ที่ควบคุมการกระจายการตอบสนอง) ดังนั้นจึงมีความตึงเครียดระหว่างสองสิ่งนี้ λλ\lambda คุณจะปรับความคลาดเคลื่อน (ชัดเจน) นี้อย่างไร ทำไมสแควร์รูทถึงดีกว่าลอการิทึม

5
เหตุใดการถดถอยของปัวซองจึงใช้สำหรับนับข้อมูล
ฉันเข้าใจว่าสำหรับชุดข้อมูลบางอย่างเช่นการลงคะแนนจะทำงานได้ดีขึ้น เหตุใดการถดถอยของปัวซองจึงใช้กับการถดถอยเชิงเส้นปกติหรือการถดถอยโลจิสติก แรงจูงใจทางคณิตศาสตร์สำหรับมันคืออะไร?

1
ข้อผิดพลาดของตัวชี้วัดสำหรับโมเดลพัวซองที่ผ่านการตรวจสอบความถูกต้อง
ฉันข้ามการตรวจสอบรูปแบบที่พยายามทำนายการนับ หากนี่เป็นปัญหาการจำแนกเลขฐานสองฉันจะคำนวณ AUC แบบพับได้และถ้านี่เป็นปัญหาการถดถอยฉันจะคำนวณ RMSE หรือ Mae แบบ out-of-fold สำหรับโมเดลปัวซงฉันสามารถใช้เมตริกข้อผิดพลาดใดในการประเมิน "ความถูกต้อง" ของการคาดการณ์ที่ไม่อยู่ในกลุ่มตัวอย่าง มีส่วนขยายของปัวซองของ AUC ที่ดูว่าการทำนายลำดับค่าที่แท้จริงดีเพียงใด ดูเหมือนว่าการแข่งขัน Kaggle จำนวนมากสำหรับการนับ (เช่นจำนวนคะแนนโหวตที่เป็นประโยชน์ที่รีวิวร้องเอ๋งจะได้รับหรือจำนวนวันที่ผู้ป่วยจะใช้จ่ายในโรงพยาบาล) ใช้ข้อผิดพลาดรากหมายถึงบันทึกกำลังสองหรือ RMLSE / แก้ไข: สิ่งหนึ่งที่ฉันได้ทำคือการคำนวณ deciles ของค่าที่คาดการณ์ไว้และจากนั้นดูที่การนับจริงโดย binned by decile ถ้า decile 1 อยู่ในระดับต่ำ decile 10 จะสูงและ decile ในระหว่างนั้นเพิ่มขึ้นอย่างเคร่งครัดฉันได้เรียกโมเดล "ดี" แต่ฉันประสบปัญหาในการหาจำนวนกระบวนการนี้และฉันเชื่อว่ามันดีกว่า เข้าใกล้ / แก้ไข 2: ฉันกำลังมองหาสูตรที่ใช้ค่าที่คาดการณ์และตามจริงและส่งกลับเมตริก "ข้อผิดพลาด" หรือ "ความแม่นยำ" บางส่วน แผนของฉันคือการคำนวณฟังก์ชั่นนี้เกี่ยวกับข้อมูลที่อยู่นอกกรอบในระหว่างการตรวจสอบความถูกต้องและจากนั้นใช้เพื่อเปรียบเทียบแบบจำลองที่หลากหลาย …

3
“ รุ่นรั้วกระโดดข้าม” เป็นแบบจำลองเดียวจริง ๆ หรือไม่ หรือเพียงแค่สองรุ่นแยกตามลำดับ?
พิจารณาตัวแบบอุปสรรค์ที่ทำนายข้อมูลนับyจากตัวทำนายปกติx: set.seed(1839) # simulate poisson with many zeros x <- rnorm(100) e <- rnorm(100) y <- rpois(100, exp(-1.5 + x + e)) # how many zeroes? table(y == 0) FALSE TRUE 31 69 ในกรณีนี้ฉันมีข้อมูลนับด้วย 69 ศูนย์และจำนวนบวก 31 รายการ ไม่เป็นไรตอนนี้โดยนิยามของกระบวนการสร้างข้อมูลเป็นกระบวนการปัวซองเพราะคำถามของฉันเกี่ยวกับแบบจำลองอุปสรรค์ สมมติว่าฉันต้องการจัดการค่าศูนย์ส่วนเกินเหล่านี้ด้วยแบบจำลองอุปสรรค์ จากการอ่านของฉันเกี่ยวกับพวกเขาดูเหมือนว่าแบบจำลองอุปสรรค์ไม่ใช่แบบจำลองที่แท้จริงต่อพวกเขากำลังทำการวิเคราะห์สองแบบที่ต่างกันตามลำดับ ก่อนอื่นการถดถอยแบบลอจิสติกจะทำนายว่าค่านั้นเป็นค่าบวกกับศูนย์หรือไม่ ประการที่สองการถดถอยปัวซองที่ไม่มีการตัดทอนด้วยการรวมกรณีที่ไม่เป็นศูนย์เท่านั้น ขั้นตอนที่สองนี้รู้สึกผิดกับฉันเพราะเป็น (ก) ทิ้งข้อมูลที่ดีอย่างสมบูรณ์แบบซึ่ง (b) อาจนำไปสู่ปัญหาด้านพลังงานเนื่องจากข้อมูลส่วนใหญ่เป็นศูนย์และ (c) ไม่ใช่ …

2
การวินิจฉัยรุ่นเชิงเส้น (แบบผสม) ทั่วไป (ส่วนที่เหลือโดยเฉพาะ)
ฉันกำลังดิ้นรนกับการหารูปแบบที่เหมาะสมสำหรับข้อมูลการนับยาก (ตัวแปรตาม) ฉันลองรุ่นที่แตกต่างหลากหลาย (โมเดลเอฟเฟ็กต์แบบผสมมีความจำเป็นสำหรับข้อมูลชนิดของฉัน) เช่นlmerและlme4(พร้อมการแปลงล็อก) รวมถึงโมเดลเอฟเฟกต์แบบผสมเชิงเส้นทั่วไปกับครอบครัวต่างๆเช่น Gaussian หรือ Binomial เชิงลบ อย่างไรก็ตามฉันค่อนข้างไม่แน่ใจในวิธีการวินิจฉัยอย่างถูกต้องเหมาะสมกับผลลัพธ์ ฉันพบความคิดเห็นที่แตกต่างกันมากมายในหัวข้อนั้นบนเว็บ ฉันคิดว่าการวินิจฉัยการถดถอยเชิงเส้น (แบบผสม) ค่อนข้างตรงไปตรงมา คุณสามารถไปข้างหน้าและวิเคราะห์ส่วนที่เหลือ (ปกติ) รวมทั้งศึกษา heteroscedasticity โดยการวางแผนค่าติดตั้งเปรียบเทียบกับส่วนที่เหลือ อย่างไรก็ตามคุณจะทำอย่างนั้นสำหรับรุ่นทั่วไปได้อย่างไร ให้เรามุ่งเน้นการถดถอยแบบทวินามลบ (แบบผสม) ในตอนนี้ ฉันเห็นข้อความคัดค้านที่เกี่ยวข้องกับสิ่งที่เหลืออยู่ที่นี่: ในการตรวจสอบค่าคงที่สำหรับค่าปกติในโมเดลเชิงเส้นทั่วไปมันจะถูกชี้ให้เห็นในคำตอบแรกว่าส่วนที่เหลือจะไม่แจกแจงแบบปกติสำหรับ GLM; ฉันคิดว่านี่ชัดเจน อย่างไรก็ตามมันก็ชี้ให้เห็นว่าเพียร์สันและส่วนเบี่ยงเบนเบี่ยงเบนก็ไม่ควรจะเป็นปกติ กระนั้นคำตอบที่สองระบุว่าควรแจกแจกส่วนเบี่ยงเบนปกติ (รวมกับการอ้างอิง) โดยปกติแล้วความเบี่ยงเบนที่เหลืออยู่นั้นควรจะมีการบอกกล่าวไว้ในเอกสารประกอบสำหรับ? glm.diag.plots (จากbootแพ็คเกจของ R ) ในบล็อกโพสต์นี้ผู้เขียนได้ทำการศึกษาเรื่องปกติของสิ่งที่ฉันคิดว่าเป็นของเพียร์สันสำหรับแบบจำลองการถดถอยแบบผสมผลกระทบ NB ตามที่คาดไว้ (ตามความเห็นของฉัน) เศษซากไม่ได้แสดงให้เห็นว่าเป็นเรื่องปกติและผู้เขียนสันนิษฐานว่าแบบจำลองนี้ไม่เหมาะสม อย่างไรก็ตามตามที่ระบุไว้ในความคิดเห็นที่เหลือควรกระจายตามการกระจายทวินามลบ ในความคิดของฉันสิ่งนี้ใกล้เคียงกับความจริงมากที่สุดเนื่องจากส่วนที่เหลือของ GLM สามารถมีการแจกแจงแบบอื่นที่ไม่ใช่แบบปกติ ถูกต้องหรือไม่ จะตรวจสอบสิ่งต่าง ๆ เช่น heteroscedasticity …

2
ลักษณะทั่วไปอย่างต่อเนื่องของการแจกแจงทวินามลบ
การแจกแจงลบทวินาม (NB)ถูกกำหนดในจำนวนเต็มไม่เป็นลบและมีฟังก์ชันมวลความน่าจะเป็นf(k;r,p)=(k+r−1k)pk(1−p)r.f(k;r,p)=(k+r−1k)pk(1−p)r.f(k;r,p)={\binom {k+r-1}{k}}p^{k}(1-p)^{r}.มันสมเหตุสมผลหรือไม่ที่จะต้องพิจารณาการกระจายอย่างต่อเนื่องบน reals ที่ไม่เป็นลบซึ่งกำหนดโดยสูตรเดียวกัน (แทนที่k∈N0k∈N0k\in \mathbb N_0โดยx∈R≥0x∈R≥0x\in\mathbb R_{\ge 0} )? ค่าสัมประสิทธิ์ทวินามสามารถเขียนเป็นผลิตภัณฑ์ของ(k+1)⋅…⋅(k+r−1)(k+1)⋅…⋅(k+r−1)(k+1)\cdot\ldots\cdot(k+r-1)ซึ่งเป็นที่ที่ดีที่กำหนดจริงใด ๆkkkkดังนั้นเราจะมี PDF f(x;r,p)∝∏i=1r−1(x+i)⋅px(1−p)r.f(x;r,p)∝∏i=1r−1(x+i)⋅px(1−p)r.f(x;r,p)\propto\prod_{i=1}^{r-1}(x+i)\cdot p^{x}(1-p)^{r}. โดยทั่วไปเราสามารถแทนที่ค่าสัมประสิทธิ์ทวินามด้วยฟังก์ชันแกมมาทำให้ค่าrไม่ใช่จำนวนเต็มrrr: f(x;r,p)∝Γ(x+r)Γ(x+1)Γ(r)⋅px(1−p)r.f(x;r,p)∝Γ(x+r)Γ(x+1)Γ(r)⋅px(1−p)r.f(x;r,p)\propto\frac{\Gamma(x+r)}{\Gamma(x+1)\Gamma(r)}\cdot p^{x}(1-p)^{r}. เป็นการกระจายที่ถูกต้องหรือไม่ มันมีชื่อหรือไม่? มันมีประโยชน์อะไรบ้าง? มันอาจจะเป็นสารประกอบหรือส่วนผสมบางอย่าง? มีสูตรปิดสำหรับค่าเฉลี่ยและความแปรปรวน (และค่าคงที่สัดส่วนใน PDF) หรือไม่ (ขณะนี้ฉันกำลังศึกษากระดาษที่ใช้แบบผสม NB (ที่มีค่าคงที่r=2r=2r=2 ) และเหมาะกับมันผ่านทาง EM อย่างไรก็ตามข้อมูลเป็นจำนวนเต็มหลังจากการทำให้เป็นมาตรฐานบางอย่างเช่นไม่ใช่จำนวนเต็มอย่างไรก็ตามผู้เขียนใช้สูตร NB มาตรฐานเพื่อคำนวณ ความเป็นไปได้และผลลัพธ์ที่สมเหตุสมผลดังนั้นทุกอย่างดูเหมือนจะใช้ได้ดีฉันพบว่ามันน่างงมากโปรดทราบว่าคำถามนี้ไม่เกี่ยวกับ NB GLM)

4
นี่เป็นวิธีที่เหมาะสมในการทดสอบผลกระทบตามฤดูกาลในข้อมูลการนับการฆ่าตัวตายหรือไม่?
ฉันมีข้อมูลใบรับรองการเสียชีวิต 17 ปี (1995 ถึง 2011) ที่เกี่ยวข้องกับการฆ่าตัวตายของรัฐในสหรัฐอเมริกามีตำนานมากมายเกี่ยวกับการฆ่าตัวตายและเดือน / ฤดูกาลจำนวนมากที่ขัดแย้งกันและวรรณกรรมที่ฉัน ' ที่ผ่านมาฉันไม่เข้าใจวิธีการที่ใช้หรือความมั่นใจในผลลัพธ์ ดังนั้นฉันจึงออกเดินทางเพื่อดูว่าฉันสามารถตัดสินได้หรือไม่ว่าการฆ่าตัวตายมีแนวโน้มที่จะเกิดขึ้นมากหรือน้อยในเดือนใดก็ตามภายในชุดข้อมูลของฉัน การวิเคราะห์ทั้งหมดของฉันเสร็จสิ้นใน R จำนวนการฆ่าตัวตายทั้งหมดในข้อมูลคือ 13,909 หากคุณดูปีที่มีการฆ่าตัวตายน้อยที่สุดพวกเขาจะเกิดขึ้นใน 309/365 วัน (85%) หากคุณดูปีที่มีการฆ่าตัวตายมากที่สุดพวกเขาจะเกิดขึ้นใน 339/365 วัน (93%) ดังนั้นจึงมีจำนวนวันที่ยุติธรรมในแต่ละปีโดยไม่มีการฆ่าตัวตาย อย่างไรก็ตามเมื่อรวมกันตลอดทั้ง 17 ปีมีการฆ่าตัวตายในทุกวันของปีรวมถึงวันที่ 29 กุมภาพันธ์ (แม้ว่าจะเพียง 5 เมื่อเฉลี่ย 38) เพียงแค่เพิ่มจำนวนการฆ่าตัวตายในแต่ละวันของปีไม่ได้บ่งบอกถึงฤดูกาลที่ชัดเจน (ในสายตาของฉัน) เมื่อรวมกันในระดับรายเดือนการฆ่าตัวตายเฉลี่ยต่อเดือนมีตั้งแต่: (m = 65, sd = 7.4, ถึง m = 72, sd = 11.1) …

9
อนุกรมเวลาสำหรับข้อมูลการนับด้วยการนับ <20
ฉันเพิ่งเริ่มทำงานกับคลินิกวัณโรค เราพบกันเป็นระยะเพื่อพูดคุยเกี่ยวกับจำนวนของผู้ป่วยวัณโรคที่เรากำลังรักษาจำนวนการทดสอบที่ดำเนินการ ฯลฯ ฉันต้องการเริ่มการสร้างแบบจำลองการนับเหล่านี้เพื่อที่เราจะไม่เพียงแค่เดาว่ามีบางอย่างผิดปกติหรือไม่ น่าเสียดายที่ฉันมีการฝึกอบรมน้อยมากในอนุกรมเวลาและการเปิดเผยส่วนใหญ่ของฉันคือการสร้างแบบจำลองสำหรับข้อมูลที่ต่อเนื่องมาก (ราคาหุ้น) หรือการนับจำนวนมาก (ไข้หวัดใหญ่) แต่เราจัดการกับ 0-18 กรณีต่อเดือน (เฉลี่ย 6.68, ค่ามัธยฐาน 7, ค่า 12.3) ซึ่งกระจายอยู่เช่นนี้: [ภาพหายไปจากหมอกแห่งกาลเวลา] [ภาพที่กินโดย Grue] ฉันได้พบบทความเล็ก ๆ น้อย ๆ ที่กล่าวถึงแบบจำลองนี้ แต่ฉันก็ยินดีอย่างยิ่งที่จะได้ยินคำแนะนำจากคุณ - ทั้งแนวทางและแพคเกจ R ที่ฉันสามารถใช้เพื่อใช้แนวทางเหล่านั้น แก้ไข: คำตอบของ mbq ​​ทำให้ฉันต้องคิดอย่างรอบคอบมากขึ้นเกี่ยวกับสิ่งที่ฉันถามที่นี่ ฉันแขวนสายเกินไปเมื่อนับรายเดือนและไม่ได้โฟกัสที่แท้จริงของคำถาม สิ่งที่ฉันอยากรู้คือ: ลดลง (มองเห็นได้ค่อนข้าง) จาก, 2008 เป็นต้นไปสะท้อนให้เห็นถึงแนวโน้มลดลงในจำนวนรวมของคดี? ฉันดูเหมือนว่าจำนวนผู้ป่วยรายเดือนระหว่างปี 2544-2550 สะท้อนให้เห็นถึงกระบวนการที่มีเสถียรภาพ อาจมีบางฤดูกาล แต่โดยรวมมีเสถียรภาพ จากปี 2008 จนถึงปัจจุบันดูเหมือนว่ากระบวนการนั้นกำลังเปลี่ยนแปลงไป: …

1
เมื่อใดจึงจะใช้ปัวซองเทียบกับเรขาคณิตเทียบกับลบทวินาม GLMs สำหรับการนับข้อมูล?
ฉันพยายามจัดโครงร่างสำหรับตัวเองเมื่อเหมาะสมที่จะใช้ประเภทการถดถอย (เรขาคณิต, ปัวซอง, ลบทวินาม) กับข้อมูลการนับภายในกรอบการทำงาน GLM (ใช้การกระจายแบบ GLM เพียง 3 ใน 8 เท่านั้นสำหรับข้อมูลการนับ ฉันอ่านศูนย์รอบทวินามลบและการแจกแจงปัวซง) เมื่อใดจึงจะใช้ปัวซองเทียบกับเรขาคณิตเทียบกับลบทวินาม GLMs สำหรับการนับข้อมูล? จนถึงตอนนี้ฉันมีตรรกะดังต่อไปนี้: มันนับข้อมูลหรือไม่ ถ้าใช่ค่าเฉลี่ยและความแปรปรวนไม่เท่ากันหรือไม่? ถ้าใช่การถดถอยแบบทวินามลบ ถ้าไม่มีปัวซงถดถอย มีอัตราเงินเฟ้อเป็นศูนย์หรือไม่? ถ้าใช่ปัวซองกำลังพองศูนย์หรือทวินามลบพอง คำถามที่ 1ดูเหมือนจะไม่มีข้อบ่งชี้ที่ชัดเจนว่าจะใช้เมื่อใด มีบางอย่างที่ต้องแจ้งการตัดสินใจนั้นหรือไม่? จากสิ่งที่ฉันเข้าใจเมื่อคุณเปลี่ยนไปใช้ ZIP ความแปรปรวนเฉลี่ยที่เป็นสมมติฐานที่เท่าเทียมกันนั้นค่อนข้างผ่อนคลายดังนั้นมันจึงค่อนข้างคล้ายกับ NB อีกครั้ง คำถามที่ 2ตระกูลเรขาคณิตสอดคล้องกับเรื่องนี้หรือคำถามประเภทใดที่ฉันควรถามข้อมูลเมื่อตัดสินใจว่าจะใช้ตระกูลเรขาคณิตในการถดถอยของฉันหรือไม่ คำถามที่ 3ฉันเห็นผู้คนแลกเปลี่ยนการแจกแจงทวินามและปัวซงตลอดเวลา แต่ไม่ใช่เชิงเรขาคณิตดังนั้นฉันเดาว่ามีบางอย่างที่แตกต่างกันอย่างชัดเจนว่าจะใช้เมื่อไร ถ้าเป็นเช่นนั้นมันคืออะไร? ป.ล. ฉันได้ทำแผนภาพ (อาจจะเกินความจริง) จากความคิดเห็น) ( แก้ไขได้ ) ของความเข้าใจปัจจุบันของฉันหากผู้คนต้องการแสดงความคิดเห็น / ปรับแต่งเพื่อการอภิปราย

1
ตรวจจับค่าผิดปกติในข้อมูลการนับ
ฉันมีสิ่งที่ฉันคิดอย่างไร้เดียงสาว่าเป็นปัญหาที่ค่อนข้างตรงไปตรงมาซึ่งเกี่ยวข้องกับการตรวจจับนอกขอบเขตสำหรับชุดข้อมูลนับที่แตกต่างกันจำนวนมาก โดยเฉพาะฉันต้องการตรวจสอบว่าหนึ่งหรือมากกว่าหนึ่งค่าในชุดข้อมูลการนับจะสูงกว่าหรือต่ำกว่าที่คาดไว้เมื่อเทียบกับการนับที่เหลือในการแจกแจง ปัจจัยที่ทำให้สับสนคือฉันต้องทำสิ่งนี้สำหรับการแจกแจง 3,500 ครั้งและมีโอกาสที่พวกเขาบางคนจะพอดีกับปัวซองที่มีสัญญาณเกินศูนย์ที่สูงเกินจริงในขณะที่คนอื่น ๆ ด้วยเหตุนี้คะแนน Z แบบง่ายหรือการวางแผนการแจกแจงจึงไม่เหมาะสมกับชุดข้อมูลจำนวนมาก นี่คือตัวอย่างของข้อมูลการนับที่ฉันต้องการตรวจจับค่าผิดปกติ counts1=[1 1 1 0 2 1 1 0 0 1 1 1 1 1 0 0 0 0 1 2 1 1 2 1 1 1 1 0 0 1 0 1 1 1 1 0 0 0 0 0 …

3
แบบจำลองผลกระทบผสมทวินามลบที่ไม่พองศูนย์ใน R
มีแพ็คเกจดังกล่าวที่ให้การประมาณค่าแบบจำลองผลกระทบผสมทวินามลบศูนย์ใน R หรือไม่? โดยที่ฉันหมายถึง: Zero-inflation ที่คุณสามารถระบุรูปแบบทวินามสำหรับศูนย์เงินเฟ้อเช่นในฟังก์ชัน zeroinfl ในแพ็คเกจ pscl: zeroinfl (y ~ X | Z, dist = "negbin") โดยที่ Z คือสูตรสำหรับตัวแบบเงินเฟ้อศูนย์ การแจกแจงทวินามลบสำหรับส่วนการนับของโมเดล เอฟเฟกต์สุ่มที่ระบุคล้ายกับฟังก์ชัน lmer ของแพ็คเกจ lme4 ฉันเข้าใจว่า glmmADMB สามารถทำสิ่งนั้นได้ทั้งหมดยกเว้นสูตรสำหรับอัตราเงินเฟ้อที่เป็นศูนย์ไม่สามารถระบุได้ (เป็นเพียงการสกัดกั้นนั่นคือ Z คือเพียง 1) แต่มีแพ็คเกจอื่นที่สามารถทำได้ทั้งหมดหรือไม่ ฉันจะขอบคุณมากสำหรับความช่วยเหลือของคุณ!

2
ปัวซองหรือปัวซองกึ่งในการถดถอยด้วยการนับข้อมูลและการกระจายเกินพิกัด?
ฉันมีข้อมูลนับจำนวน (การวิเคราะห์อุปสงค์ / ข้อเสนอพร้อมจำนวนการนับลูกค้าขึ้นอยู่กับปัจจัยหลายอย่าง) ฉันลองการถดถอยเชิงเส้นโดยมีข้อผิดพลาดปกติ แต่ QQ-plot ของฉันไม่ค่อยดี ฉันพยายามบันทึกการเปลี่ยนแปลงของคำตอบ: อีกครั้งแผนการดี QQ ดังนั้นตอนนี้ฉันกำลังลองถดถอยด้วยข้อผิดพลาดปัวซอง ด้วยโมเดลที่มีตัวแปรสำคัญทั้งหมดฉันจะได้รับ: Null deviance: 12593.2 on 53 degrees of freedom Residual deviance: 1161.3 on 37 degrees of freedom AIC: 1573.7 Number of Fisher Scoring iterations: 5 การเบี่ยงเบนส่วนที่เหลือมีขนาดใหญ่กว่าองศาอิสระที่เหลืออยู่ฉันมีการกระจายเกินกำหนด ฉันจะรู้ได้อย่างไรว่าฉันต้องใช้ quasipoisson? เป้าหมายของ quasipoisson ในกรณีนี้คืออะไร? ฉันอ่านคำแนะนำนี้ใน "The R Book" โดย Crawley แต่ฉันไม่เห็นประเด็นหรือการปรับปรุงขนาดใหญ่ในกรณีของฉัน

1
ความสำคัญของความแตกต่างระหว่างการนับสองครั้ง
มีวิธีการตรวจสอบหรือไม่ว่าความแตกต่างระหว่างการนับอุบัติเหตุทางถนน ณ เวลา 1 นั้นแตกต่างจากการนับครั้งที่ 2 หรือไม่? ฉันได้พบวิธีการที่แตกต่างกันในการกำหนดความแตกต่างระหว่างกลุ่มการสังเกตในเวลาที่ต่างกัน (เช่นการเปรียบเทียบปัวซองหมายถึง) แต่ไม่ใช่สำหรับการเปรียบเทียบการนับเพียงสองครั้ง หรือจะลองใช้ไม่ได้? คำแนะนำหรือทิศทางใด ๆ ที่จะได้รับการชื่นชม ฉันมีความสุขที่จะนำไปสู่การติดตามตัวเอง

2
การใช้ข้อมูลนับเป็นตัวแปรอิสระละเมิดสมมติฐาน GLM ใด ๆ หรือไม่
ฉันต้องการใช้ข้อมูลนับเป็น covariates ในขณะที่เหมาะสมกับรูปแบบการถดถอยโลจิสติก คำถามของฉันคือ: ฉันจะละเมิดสมมติฐานใด ๆ ของโมเดลโลจิสติกส์ (และโดยทั่วไปของโมเดลเชิงเส้นทั่วไป) โดยใช้การนับตัวแปรที่ไม่เป็นลบจำนวนเต็มเป็นตัวแปรอิสระหรือไม่? ฉันพบการอ้างอิงจำนวนมากในวรรณคดีที่เกี่ยวกับการใช้ข้อมูลนับร้อนเป็นผลลัพธ์ แต่ไม่เป็น covariates ดูตัวอย่างกระดาษที่ชัดเจนมาก: "NE Breslow (1996) โมเดลเชิงเส้นทั่วไป: การตรวจสอบข้อสรุปและการเสริมสร้างข้อสรุป, Congresso Nazionale Societa Italianeta di Biometria, Cortona มิถุนายน 1995", มีอยู่ที่ http://biostat.georgiahealth.edu/~dryu /course/stat9110spring12/land16_ref.pdf พูดอย่างหลวม ๆ ดูเหมือนว่าสมมติฐาน GLM อาจแสดงได้ดังนี้: iid ส่วนที่เหลือ; ฟังก์ชั่นลิงค์จะต้องแสดงความสัมพันธ์ระหว่างตัวแปรอิสระและตัวแปรอิสระอย่างถูกต้อง กรณีที่ไม่มีค่าผิดปกติ ทุกคนทราบหรือไม่ว่ามีข้อสันนิษฐานอื่น ๆ / ปัญหาทางเทคนิคที่อาจแนะนำให้ใช้รูปแบบอื่น ๆ เพื่อจัดการกับ covariates นับหรือไม่? ท้ายที่สุดโปรดสังเกตว่าข้อมูลของฉันมีตัวอย่างค่อนข้างน้อย (&lt;100) และช่วงการนับตัวแปรอาจแตกต่างกันภายใน …

2
ข้อผิดพลาดมาตรฐานของการนับ
ฉันมีชุดข้อมูลของเหตุการณ์ที่เกิดขึ้นตามฤดูกาลของโรคที่หายาก ตัวอย่างเช่นสมมติว่ามี 180 กรณีในฤดูใบไม้ผลิ 90 ในฤดูร้อน 45 ในฤดูใบไม้ร่วงและ 210 ในฤดูหนาว ฉันกำลังดิ้นรนกับว่ามันเหมาะสมที่จะแนบข้อผิดพลาดมาตรฐานกับตัวเลขเหล่านี้ เป้าหมายการวิจัยมีความสำคัญในแง่ที่ว่าเรากำลังมองหารูปแบบตามฤดูกาลในการเกิดโรคที่อาจเกิดขึ้นอีกในอนาคต ดังนั้นจึงรู้สึกอย่างสังหรณ์ใจว่าควรเป็นไปได้ที่จะแนบการวัดความไม่แน่นอนกับผลรวม อย่างไรก็ตามฉันไม่แน่ใจว่าจะคำนวณข้อผิดพลาดมาตรฐานในกรณีนี้อย่างไรเนื่องจากเรากำลังจัดการกับการนับง่าย ๆ แทนที่จะเป็นเช่นวิธีการหรือสัดส่วน ท้ายที่สุดคำตอบนั้นขึ้นอยู่กับว่าข้อมูลแสดงถึงจำนวนผู้ป่วย (ทุกกรณีที่เคยเกิดขึ้น) หรือสุ่มตัวอย่างหรือไม่? หากฉันไม่ผิดพลาดโดยทั่วไปไม่เหมาะสมที่จะแสดงข้อผิดพลาดมาตรฐานกับสถิติประชากรเนื่องจากไม่มีการอนุมาน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.