คำถามติดแท็ก count-data

ข้อมูลนับเป็นจำนวนเต็มไม่เป็นลบ

4
แพ็กเกจ R / Stata สำหรับ GEE ลบทวินามลบศูนย์ที่ถูกตัดทอน?
นี่คือโพสต์แรกของฉัน ฉันขอบคุณสำหรับชุมชนนี้อย่างแท้จริง ฉันพยายามวิเคราะห์ข้อมูลการนับตามยาวที่ไม่มีการตัดทอน (ความน่าจะเป็นที่ตัวแปรตอบสนอง = 0 คือ 0) และค่าเฉลี่ย! = ความแปรปรวนดังนั้นการกระจายแบบทวินามลบจึงถูกเลือกผ่านปัวซอง ฟังก์ชั่น / คำสั่งที่ฉันได้ตัดออก: R ฟังก์ชั่น gee () ใน R ไม่ได้เป็นศูนย์สำหรับการตัดทอนหรือการแจกแจงแบบทวินามเชิงลบ (แม้จะไม่ได้โหลดแพ็คเกจ MASS) glm.nb () ใน R ไม่อนุญาตสำหรับโครงสร้างความสัมพันธ์ที่แตกต่างกัน vglm () จากแพ็คเกจ VGAM สามารถใช้ประโยชน์จากตระกูล posnegbinomial แต่มีปัญหาเช่นเดียวกับคำสั่ง ztnb ของ Stata (ดูด้านล่าง) ซึ่งฉันไม่สามารถปรับรูปแบบใหม่โดยใช้โครงสร้างความสัมพันธ์ที่ไม่ขึ้นกับอิสระ Stata หากข้อมูลไม่ยาวฉันสามารถใช้แพ็คเกจ Stata ztnb เพื่อทำการวิเคราะห์ของฉันได้ แต่คำสั่งนั้นจะถือว่าการสังเกตของฉันเป็นอิสระ ฉันได้จัดการ GLMM ด้วยเหตุผลด้านระเบียบวิธี / …

1
ค่าสัมประสิทธิ์ที่เหมือนกันประมาณในรูปแบบปัวซอง vs ควอซี - ปัวซอง
ในการสร้างแบบจำลองข้อมูลการนับการเรียกร้องในสภาพแวดล้อมการประกันภัยฉันเริ่มต้นด้วย Poisson แต่แล้วสังเกตเห็นการทับซ้อนกัน Quasi-Poisson เป็นแบบอย่างที่ดีกว่าความสัมพันธ์แปรปรวนที่ดีกว่า Poisson พื้นฐาน แต่ฉันสังเกตเห็นว่าสัมประสิทธิ์เป็นเหมือนกันทั้งใน Poisson และ Quasi-Poisson หากนี่ไม่ใช่ข้อผิดพลาดเหตุใดจึงเป็นเช่นนี้ การใช้ Quasi-Poisson บน Poisson มีประโยชน์อย่างไร สิ่งที่ควรทราบ: การสูญเสียที่อยู่ภายใต้พื้นฐานส่วนเกินซึ่ง (ฉันเชื่อว่า) ป้องกัน Tweedie จากการทำงาน - แต่มันเป็นการกระจายครั้งแรกที่ฉันพยายาม ฉันยังตรวจสอบรุ่นของ NB, ZIP, ZINB และ Hurdle แต่ก็ยังพบว่า Quasi-Poisson นั้นเหมาะสมที่สุด ฉันทดสอบการกระจายตัวเกินขนาดผ่านการทดสอบการกระจายในแพ็คเกจ AER พารามิเตอร์การกระจายของฉันอยู่ที่ประมาณ 8.4 โดยมีค่า p อยู่ที่ขนาด 10 ^ -16 ฉันกำลังใช้ glm () กับ family = …

1
ปัญหาในการหาแบบจำลองที่ดีเหมาะสำหรับการนับข้อมูลด้วยเอฟเฟกต์แบบผสม - ZINB หรืออย่างอื่นใช่ไหม
ฉันมีชุดข้อมูลขนาดเล็กมากที่มีผึ้งมากมายโดดเดี่ยวที่ฉันมีปัญหาในการวิเคราะห์ มันคือข้อมูลนับและจำนวนเกือบทั้งหมดอยู่ในการรักษาหนึ่งโดยมีศูนย์ส่วนใหญ่ในการรักษาอื่น นอกจากนี้ยังมีค่าสูงสองสามค่า (ค่าละหนึ่งในสองแห่งในหกแห่ง) ดังนั้นการแจกแจงค่าจะมีหางที่ยาวมาก ฉันทำงานในอาร์ฉันใช้แพ็คเกจที่แตกต่างกันสองแบบ: lme4 และ glmmADMB รูปแบบผสมปัวซองไม่เหมาะสม: แบบจำลองมีการกระจายตัวมากเกินไปเมื่อเอฟเฟกต์แบบสุ่มไม่เหมาะสม (แบบจำลอง GLM) และแบบจำลองที่น้อยเกินไปเมื่อติดตั้งเอฟเฟกต์แบบสุ่ม (รุ่น glmer) ฉันไม่เข้าใจว่าทำไมถึงเป็นเช่นนี้ การออกแบบการทดลองเรียกร้องให้มีเอฟเฟกต์แบบซ้อนกันดังนั้นฉันจึงจำเป็นต้องรวมไว้ด้วย การกระจายข้อผิดพลาดของปัวซอง lognormal ไม่ได้ปรับปรุงให้พอดี ฉันลองใช้การแจกแจงข้อผิดพลาดแบบทวินามลบโดยใช้ glmer.nb และไม่สามารถทำให้พอดี - ถึงขีด จำกัด การวนซ้ำแม้ว่าจะเปลี่ยนความอดทนโดยใช้ glmerControl (tolPwrss = 1e-3) เนื่องจากเลขศูนย์จำนวนมากจะเกิดจากความจริงที่ว่าฉันไม่เห็นผึ้ง (พวกมันมักจะเป็นสิ่งดำเล็ก ๆ ) ฉันจึงลองแบบจำลองที่ไม่มีการพอง ZIP ไม่พอดี ZINB เป็นแบบจำลองที่ดีที่สุดจนถึงตอนนี้ แต่ฉันก็ยังไม่ค่อยมีความสุขกับแบบจำลอง ฉันตกอยู่ในความสูญเสียว่าจะลองทำอะไรต่อไป ฉันลองใช้แบบจำลองอุปสรรค์ แต่ไม่สามารถกระจายการตัดทอนไปยังผลลัพธ์ที่ไม่เป็นศูนย์ได้ - ฉันคิดว่าเนื่องจากศูนย์จำนวนมากอยู่ในการควบคุมการรักษา (ข้อความแสดงข้อผิดพลาดคือ“ ข้อผิดพลาดใน model.frame.default” …

3
การทำนายข้อมูลนับด้วยฟอเรสต์แบบสุ่ม
ป่าสุ่มสามารถถูกฝึกให้ทำนายข้อมูลนับได้อย่างเหมาะสมหรือไม่? สิ่งนี้จะดำเนินการอย่างไร ฉันมีค่าค่อนข้างหลากหลายดังนั้นการจัดหมวดหมู่จึงไม่สมเหตุสมผล ถ้าฉันจะใช้การถดถอยฉันจะตัดทอนผลลัพธ์หรือไม่? ฉันหลงทางไปแล้ว ความคิดใด ๆ

3
การเลือกทางเลือกในการถดถอยแบบปัวซองสำหรับข้อมูลการนับจำนวนมาก
ขณะนี้ฉันกำลังวิเคราะห์ข้อมูลจากชุดการทดลองเชิงพฤติกรรมที่ทุกคนใช้มาตรการต่อไปนี้ ผู้เข้าร่วมในการทดลองนี้ถูกขอให้เลือกเบาะแสที่ผู้อื่นสามารถใช้เพื่อช่วยแก้ปัญหา 10 ชุด ผู้เข้าร่วมจะถูกนำไปสู่การเชื่อว่าคนอื่น ๆ เหล่านี้จะได้รับหรือสูญเสียเงินขึ้นอยู่กับประสิทธิภาพของพวกเขาในการแก้ anagrams เบาะแสแตกต่างกันไปในการช่วยเหลือพวกเขา ตัวอย่างเช่นสำหรับแอนนาแกรม NUNGRIN แอนนาแกรมของ RUNNING อาจมีสามปม: ย้ายอย่างรวดเร็ว (ไม่ช่วยเหลือ) สิ่งที่คุณทำในการแข่งขันมาราธอน (มีประโยชน์) ไม่ได้เป็นงานอดิเรกที่ดีต่อสุขภาพเสมอไป (ไม่ช่วยเหลือ) ในการจัดทำมาตรการฉันนับจำนวนครั้ง (จาก 10) ที่ผู้เข้าร่วมเลือกเบาะแสที่ไม่ช่วยเหลือคนอื่น ในการทดลองฉันใช้ความหลากหลายที่แตกต่างกันเพื่อส่งผลต่อความช่วยเหลือของเบาะแสที่ผู้คนเลือก เนื่องจากการวัดความเอื้ออาทรและความช่วยเหลือไม่ดีค่อนข้างเบาบางลงอย่างมาก (คนส่วนใหญ่เลือกเบาะแสที่เป็นประโยชน์ 10 ข้อ) และเนื่องจากการวัดเป็นตัวแปรนับฉันจึงใช้ Poisson Generalized Linear Model เพื่อวิเคราะห์ข้อมูลเหล่านี้ อย่างไรก็ตามเมื่อฉันอ่านเพิ่มเติมเกี่ยวกับการถดถอยของปัวซองฉันพบว่าเนื่องจากปัวซงถดถอยไม่ได้ประเมินค่าเฉลี่ยและความแปรปรวนของการแจกแจงอย่างอิสระมันมักประเมินค่าความแปรปรวนในชุดข้อมูลต่ำกว่า ฉันเริ่มตรวจสอบทางเลือกในการถดถอยของปัวซองเช่นการถดถอยแบบ quasipoisson หรือการถดถอยแบบทวินามลบ อย่างไรก็ตามฉันยอมรับว่าฉันค่อนข้างใหม่สำหรับโมเดลเหล่านี้ดังนั้นฉันมาที่นี่เพื่อขอคำแนะนำ ใครบ้างมีคำแนะนำเกี่ยวกับรูปแบบที่จะใช้สำหรับข้อมูลประเภทนี้? มีข้อควรพิจารณาอื่น ๆ อีกหรือไม่ที่ฉันควรระวัง (เช่นเป็นรุ่นหนึ่งที่มีประสิทธิภาพมากกว่าอีกรุ่นหนึ่งหรือไม่) ฉันควรพิจารณาการวินิจฉัยประเภทใดเพื่อพิจารณาว่ารูปแบบที่ฉันเลือกจัดการข้อมูลของฉันอย่างเหมาะสมหรือไม่

2
แบบจำลองพารามิเตอร์ของความแปรปรวนของข้อมูลการนับ
ฉันกำลังมองหาแบบจำลองข้อมูลบางอย่าง แต่ฉันไม่แน่ใจว่าแบบจำลองชนิดใดที่ฉันสามารถใช้ได้ ฉันมีข้อมูลนับและฉันต้องการรูปแบบที่จะให้การประมาณค่าพารามิเตอร์ของทั้งค่าเฉลี่ยและความแปรปรวนของข้อมูล นั่นคือฉันมีปัจจัยการทำนายที่หลากหลายและฉันต้องการตรวจสอบว่ามีปัจจัยใดที่ส่งผลต่อความแปรปรวน (ไม่ใช่แค่ค่าเฉลี่ยของกลุ่ม) ฉันรู้ว่าการถดถอยของปัวซองจะไม่ทำงานเพราะความแปรปรวนเท่ากับค่าเฉลี่ย สมมติฐานนี้ไม่ถูกต้องในกรณีของฉันดังนั้นฉันรู้ว่ามีการกระจายเกินจริง อย่างไรก็ตามโมเดลทวินามลบเชิงลบจะสร้างพารามิเตอร์ overdispersion เดียวเท่านั้นไม่ใช่แบบจำลองฟังก์ชันของตัวทำนายในโมเดล รูปแบบใดที่สามารถทำได้ นอกจากนี้การอ้างอิงถึงหนังสือหรือกระดาษที่กล่าวถึงรูปแบบและ / หรือแพคเกจ R ซึ่งใช้รูปแบบจะได้รับการชื่นชม


4
การถดถอยปัวซองมีข้อดีอะไรบ้างในกรณีนี้การถดถอยเชิงเส้น
ฉันได้รับชุดข้อมูลที่มีจำนวนรางวัลที่นักเรียนได้รับจากโรงเรียนมัธยมแห่งหนึ่งซึ่งผู้ทำนายจำนวนรางวัลที่ได้รับนั้นรวมถึงประเภทของโปรแกรมที่นักเรียนลงทะเบียนและคะแนนสอบปลายภาคในวิชาคณิตศาสตร์ ฉันสงสัยว่าถ้าใครสามารถบอกฉันได้ว่าทำไมแบบจำลองการถดถอยเชิงเส้นอาจไม่เหมาะสมในตัวอย่างนี้และทำไมมันจะดีกว่าถ้าใช้การถดถอยแบบปัวซอง ขอบคุณ

2
สมมติฐานการถดถอยของปัวซองและวิธีทดสอบใน R
ฉันต้องการทดสอบว่าการถดถอยแบบใดที่เหมาะกับข้อมูลของฉันที่สุด ตัวแปรตามของฉันคือการนับและมีศูนย์จำนวนมาก และฉันต้องการความช่วยเหลือในการกำหนดรูปแบบและครอบครัวที่จะใช้ (ปัวซองหรือ quasipoisson หรือการถดถอยปัวซองปัวซอง) และวิธีทดสอบสมมติฐาน การถดถอยปัวซอง: เท่าที่ฉันเข้าใจสมมติฐานที่แข็งแกร่งคือความแปรปรวนเฉลี่ย = ความแปรปรวน คุณทดสอบสิ่งนี้อย่างไร พวกเขาต้องอยู่ใกล้กันแค่ไหน? มีการใช้ค่าเฉลี่ยและความแปรปรวนแบบไม่มีเงื่อนไขหรือมีเงื่อนไขหรือไม่ ฉันจะทำอย่างไรถ้าข้อสันนิษฐานนี้ไม่ได้ถืออยู่? ฉันอ่านว่าหากความแปรปรวนมากกว่าค่าเฉลี่ยเรามีการกระจายเกินความเร็วและวิธีที่เป็นไปได้ในการจัดการกับสิ่งนี้คือการรวมตัวแปรอิสระมากขึ้นหรือ family = quasipoisson การแจกจ่ายนี้มีข้อกำหนดหรือข้อสมมติฐานอื่น ๆ หรือไม่? ฉันจะใช้การทดสอบแบบใดเพื่อดูว่า (1) หรือ (2) เหมาะสมกว่าดีกว่าanova(m1,m2)หรือไม่? ฉันยังอ่านด้วยว่าการแจกแจงลบ - ทวินามสามารถใช้เมื่อการกระจายเกินปกติปรากฏขึ้น ฉันจะทำสิ่งนี้ใน R ได้อย่างไร ความแตกต่างของ quasipoisson คืออะไร? การถดถอยปัวซองที่ไม่ทำให้เป็นศูนย์: ฉันอ่านว่าการใช้การทดสอบ vuong จะตรวจสอบว่าแบบจำลองใดที่เหมาะสมกว่า > vuong (model.poisson, model.zero.poisson) ถูกต้องหรือไม่ การถดถอยแบบไม่มี Zero-สมมติฐานมีอะไรบ้าง? บริการด้านวิชาการของ UCLA กลุ่มให้คำปรึกษาทางสถิติมีส่วนเกี่ยวกับการถดถอยแบบปัวซองที่ไม่ทำให้เป็นศูนย์และทดสอบแบบจำลองเซโรพเลต …

3
การเปรียบเทียบตัวแบบการถดถอยกับข้อมูลการนับ
ฉันเพิ่งพอดีแบบจำลองการถดถอย 4 แบบสำหรับข้อมูลตัวทำนาย / ตอบกลับเดียวกัน รุ่นที่ฉันพอดีกับการถดถอยของปัวซอง model.pois <- glm(Response ~ P1 + P2 +...+ P5, family=poisson(), ...) model.pois.inter <- glm(Response ~ (P1 + P2 +...+ P5)^2, family=poisson(), ...) แบบจำลองสองแบบที่ฉันพอดีกับการถดถอยแบบทวินาม library(MASS) model.nb <- glm.nb(Response ~ P1 + P2 +...+ P5, ...) model.nb.inter <- glm.nb(Response ~ (P1 + P2 +...+ P5)^2, ...) …

2
การจัดกลุ่มข้อมูลที่เบ้มากนับจำนวน: คำแนะนำใด ๆ ที่จะดำเนินการ (แปลง ฯลฯ )
ปัญหาพื้นฐาน นี่คือปัญหาพื้นฐานของฉัน: ฉันกำลังพยายามจัดกลุ่มชุดข้อมูลที่มีตัวแปรที่เบ้อย่างมากพร้อมจำนวน ตัวแปรประกอบด้วยศูนย์จำนวนมากและดังนั้นจึงไม่ค่อยมีข้อมูลสำหรับขั้นตอนการจัดกลุ่มของฉัน - ซึ่งน่าจะเป็นอัลกอริทึม k-mean คุณพูดได้แค่แปลงตัวแปรโดยใช้สแควร์รูทบ็อกซ์คอกซ์หรือลอการิทึม แต่เนื่องจากตัวแปรของฉันขึ้นอยู่กับตัวแปรเด็ดขาดฉันกลัวว่าฉันอาจแนะนำอคติโดยจัดการกับตัวแปร (ขึ้นอยู่กับค่าหนึ่งของตัวแปรเด็ดขาด) ในขณะที่ปล่อยให้ผู้อื่น (ขึ้นอยู่กับค่าอื่น ๆ ของตัวแปรเด็ดขาด) ในแบบที่พวกเขาเป็น . ลองดูรายละเอียดเพิ่มเติม ชุดข้อมูล ชุดข้อมูลของฉันแสดงถึงการซื้อสินค้า รายการมีหมวดหมู่ต่างกันเช่นสี: น้ำเงินแดงและเขียว การซื้อจะถูกจัดกลุ่มเข้าด้วยกันเช่นจากลูกค้า ลูกค้าเหล่านี้แต่ละคนมีชุดข้อมูลหนึ่งแถวของฉันดังนั้นฉันจึงต้องรวมการซื้อกับลูกค้า วิธีที่ฉันทำคือการนับจำนวนการซื้อโดยที่รายการนั้นมีสีที่แน่นอน ดังนั้นแทนที่จะตัวแปรเดียวcolorผมจบลงด้วยสามตัวแปรcount_red, และcount_bluecount_green นี่คือตัวอย่างสำหรับภาพประกอบ: ----------------------------------------------------------- customer | count_red | count_blue | count_green | ----------------------------------------------------------- c0 | 12 | 5 | 0 | ----------------------------------------------------------- c1 | 3 | …

3
ตัวแบบการถดถอยแบบใดที่เหมาะสมที่สุดที่จะใช้กับข้อมูลการนับ
ฉันกำลังพยายามหาสถิติเล็กน้อย แต่ฉันติดอยู่กับบางสิ่ง ข้อมูลของฉันมีดังนี้: Year Number_of_genes 1990 1 1991 1 1993 3 1995 4 ตอนนี้ฉันต้องการสร้างแบบจำลองการถดถอยเพื่อให้สามารถทำนายจำนวนยีนสำหรับปีใดก็ตามโดยอ้างอิงจากข้อมูล ฉันทำมันด้วยการถดถอยเชิงเส้นจนกระทั่งตอนนี้ แต่ฉันได้อ่านมาแล้วและดูเหมือนจะไม่เป็นทางเลือกที่ดีที่สุดสำหรับข้อมูลประเภทนี้ ฉันได้อ่านว่าการถดถอยของปัวซองอาจมีประโยชน์ แต่ฉันไม่แน่ใจว่าจะใช้อะไร ดังนั้นคำถามของฉันคือ: มีรูปแบบการถดถอยทั่วไปสำหรับข้อมูลประเภทนี้หรือไม่? ถ้าไม่ฉันต้องทำอย่างไรเพื่อค้นหาว่าวิธีใดเหมาะสมที่สุดที่จะใช้ (ในแง่ของสิ่งที่ฉันต้องค้นหาเกี่ยวกับข้อมูล)

2
ปรับสเกลตัวแปรเป็นข้อมูลนับ - ถูกต้องหรือไม่?
ในบทความนี้ (ใช้ได้อย่างอิสระผ่าน PubMed กลาง) ผู้เขียนใช้การถดถอยแบบทวินามเชิงลบเพื่อทำแบบจำลองคะแนนในเครื่องมือคัดกรอง 10 ข้อที่มีคะแนน 0-40 ขั้นตอนนี้จะถือว่าข้อมูลมีการนับซึ่งเห็นได้ชัดว่าไม่ใช่ในกรณีนี้ ฉันต้องการความคิดเห็นของคุณว่าวิธีนี้เป็นที่ยอมรับหรือไม่เพราะบางครั้งฉันใช้เครื่องมือเดียวกันหรือวิธีที่คล้ายกันในการทำงานของฉัน ถ้าไม่ฉันต้องการทราบว่ามีทางเลือกที่ยอมรับได้หรือไม่ รายละเอียดเพิ่มเติมด้านล่าง: มาตราส่วนที่ใช้คือแบบทดสอบความผิดปกติในการใช้แอลกอฮอล์ (AUDIT) ซึ่งเป็นแบบสอบถาม 10 ข้อที่ออกแบบมาเป็นเครื่องมือคัดกรองสำหรับความผิดปกติในการใช้แอลกอฮอล์และการดื่มสุรา / เป็นอันตราย เครื่องมือนี้ทำคะแนนจาก 0 ถึง 40 และโดยทั่วไปแล้วผลลัพธ์จะเอียงไปทางซ้ายอย่างมาก เพื่อความเข้าใจของฉันการใช้ข้อมูลนับถือว่าค่าทั้งหมดที่ "นับ" เป็นอิสระจากกัน - ผู้ป่วยที่มาถึงแผนกฉุกเฉินในแต่ละวันจำนวนผู้เสียชีวิตในบางกลุ่มและอื่น ๆ ทั้งหมดเป็นอิสระจากกัน แม้ว่าจะขึ้นอยู่กับตัวแปรพื้นฐาน นอกจากนี้ฉันคิดว่าไม่สามารถนับจำนวนสูงสุดที่อนุญาตเมื่อใช้ข้อมูลนับได้ แต่ฉันคิดว่าสมมติฐานนี้สามารถผ่อนคลายได้เมื่อค่าสูงสุดทางทฤษฎีสูงมากเมื่อเปรียบเทียบกับค่าสูงสุดที่สังเกตได้ในข้อมูล? เมื่อใช้ระดับ AUDIT เราไม่ได้นับจริง เรามี 10 รายการที่มีคะแนนรวมสูงสุด 40 ถึงแม้ว่าคะแนนสูงสุดนั้นจะไม่ค่อยเห็นในทางปฏิบัติ คะแนนในรายการมีความสัมพันธ์กันตามธรรมชาติ สมมติฐานที่จำเป็นต้องใช้ข้อมูลนับจึงถูกละเมิด แต่นี่ยังเป็นวิธีที่ยอมรับได้หรือไม่? การละเมิดสมมติฐานมีความร้ายแรงเพียงใด? มีสถานการณ์บางอย่างที่วิธีนี้สามารถยอมรับได้มากกว่าหรือไม่? มีทางเลือกอื่นสำหรับวิธีการนี้ที่ไม่ได้เกี่ยวข้องกับการลดขนาดตัวแปรเป็นหมวดหมู่หรือไม่?

2
ไม่ว่าจะใช้การชดเชยในการถดถอยปัวซองเมื่อทำนายเป้าหมายการทำงานทั้งหมดที่ผู้เล่นฮอกกี้ทำคะแนน
ฉันมีคำถามเกี่ยวกับสิ่งที่ดีกว่าหรือไม่ใช้การชดเชย สมมติว่าเป็นโมเดลที่ง่ายมากที่คุณต้องการอธิบายจำนวนเป้าหมาย (โดยรวม) ในฮอกกี้ ดังนั้นคุณมีเป้าหมายจำนวนเกมที่เล่นและตัวแปรดัมมี่ "กองหน้า" ซึ่งเท่ากับ 1 หากผู้เล่นเป็นกองหน้าและ 0 อย่างอื่น ดังนั้นรุ่นใดต่อไปนี้ที่ระบุไว้ถูกต้อง? เป้าหมาย = เกม + กองหน้าหรือ เป้าหมาย = ชดเชย (เกม) + กองหน้า อีกครั้งเป้าหมายคือเป้าหมายโดยรวมและจำนวนเกมเป็นเกมโดยรวมสำหรับผู้เล่นคนเดียว ตัวอย่างเช่นอาจมีผู้เล่นที่หยิบขึ้นมาที่มี 50 เป้าหมายใน 100 เกมและผู้เล่นอีกคนที่มี 20 เป้าหมายใน 50 เกมเป็นต้น ฉันควรทำอย่างไรเมื่อฉันต้องการประเมินจำนวนเป้าหมาย จำเป็นหรือไม่ที่จะใช้การชดเชยตรงนี้ อ้างอิง: ดูคำถามก่อนหน้านี้ที่พูดถึงเมื่อใช้ offsets ในการถดถอยปัวซองโดยทั่วไป

3
การสร้างแบบจำลองข้อมูลนับที่ตัวแปรออฟเซ็ตเป็น 0 สำหรับการสังเกตบางอย่าง
ฉันพยายามช่วยนักเรียนของเพื่อนร่วมงาน นักเรียนสังเกตและนับพฤติกรรมของนก (จำนวนสาย) ในชุดทดลอง จำนวนการโทรที่เกี่ยวข้องกับนกที่สังเกตได้เฉพาะในระหว่างการทดสอบแต่ละครั้งไม่สามารถระบุได้ แต่สามารถนับจำนวนนกที่สนับสนุนการบันทึกการโทรได้ ดังนั้นข้อเสนอแนะครั้งแรกของฉันคือการใส่หมายเลขของนกเป็นระยะชดเชยในรูปแบบ Poisson GLM เพราะฉะนั้นเราจะกระชับจำนวนที่คาดหวังของสายต่อนก ปัญหานี้คือว่าในช่วงเวลาที่สังเกตหลายครั้งไม่มีนก (และดังนั้นจึงไม่มีสาย) ถูกสังเกต ซอฟแวร์ (R ในกรณีนี้) บ่นเพราะ (R บ่นเกี่ยวกับการที่มีข้อมูล แต่ที่เป็นอย่างหมดจดผลมาจากการถูก)เข้าสู่ระบบ( 0 ) = - infเข้าสู่ระบบ⁡(0)=-INF\log(0) = -\infy-Infoffset(log(nbirds))-Inf ฉันสงสัยว่าจริง ๆ แล้วเราจำเป็นต้องมีแบบจำลองอุปสรรค์ (หรือคล้ายกัน) ที่เรามีรูปแบบทวินามแยกต่างหากสำหรับ "การสังเกตการโทร" (หรือไม่) และแบบจำลองการนับที่ถูกตัดทอนสำหรับจำนวนการโทร (ต่อนก) ในสถานการณ์ที่มีการโทรโดยที่เรารวมคำศัพท์ชดเชยเฉพาะในส่วนการนับของแบบจำลอง ต้องลองสิ่งนี้โดยใช้แพ็คเกจpsclใน R แต่ฉันยังคงได้รับข้อผิดพลาดเดิม: mod1 <- hurdle(NumberCallsCOPO ~ Condition * MoonVis + offset(log(NumberCOPO)) | …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.