คำถามติดแท็ก poisson-regression

การถดถอยปัวซองเป็นหนึ่งในจำนวนของแบบจำลองการถดถอยสำหรับตัวแปรตามที่มีการนับ (จำนวนเต็มไม่ใช่ลบ) แบบจำลองทั่วไปเพิ่มเติมคือการถดถอยแบบทวินาม ทั้งสองมีหลายสายพันธุ์

2
การทดสอบการกระจายตัวใน GLMs * มีประโยชน์ * จริงหรือไม่
ปรากฏการณ์ของ 'การกระจายตัวมากเกินไป' ใน GLM เกิดขึ้นเมื่อใดก็ตามที่เราใช้แบบจำลองที่จำกัดความแปรปรวนของตัวแปรการตอบสนองและข้อมูลจะแสดงความแปรปรวนมากกว่าแบบ จำกัด ที่อนุญาต สิ่งนี้มักเกิดขึ้นเมื่อการสร้างแบบจำลองนับข้อมูลโดยใช้ Poisson GLM และสามารถวินิจฉัยได้จากการทดสอบที่รู้จักกันดี หากการทดสอบแสดงให้เห็นว่ามีหลักฐานนัยสำคัญทางสถิติของการกระจายตัวเกินเรามักจะสรุปโมเดลโดยใช้ตระกูลการแจกแจงที่กว้างขึ้นที่ทำให้พารามิเตอร์ความแปรปรวนจากข้อ จำกัด ที่เกิดขึ้นภายใต้โมเดลดั้งเดิม ในกรณีของ Poisson GLM มันเป็นเรื่องธรรมดาที่จะพูดคุยทั่วไปทั้งในเชิงลบ - ทวินามหรือกึ่ง - Poisson GLM สถานการณ์นี้กำลังตั้งท้องพร้อมกับคัดค้านอย่างชัดเจน ทำไมเริ่มต้นด้วย Poisson GLM เลยเหรอ? หนึ่งสามารถเริ่มต้นโดยตรงกับรูปแบบการกระจายที่กว้างขึ้นซึ่งมีพารามิเตอร์แปรปรวนอิสระ (ค่อนข้าง) และอนุญาตให้พารามิเตอร์แปรปรวนจะพอดีกับข้อมูลละเว้นการทดสอบการกระจายตัวเกินอย่างสมบูรณ์ ในสถานการณ์อื่น ๆ เมื่อเราทำการวิเคราะห์ข้อมูลเรามักจะใช้แบบฟอร์มการกระจายสินค้าที่อนุญาตให้มีอิสระอย่างน้อยสองครั้งแรกดังนั้นทำไมต้องมีข้อยกเว้นที่นี่ คำถามของฉัน:มีเหตุผลที่ดีที่เริ่มต้นด้วยการแจกแจงที่แก้ไขความแปรปรวน (เช่นการแจกแจงปัวซง) แล้วทำการทดสอบการกระจายตัวเกินหรือไม่? ขั้นตอนนี้เปรียบเทียบกับการกระโดดข้ามแบบฝึกหัดนี้ได้อย่างสมบูรณ์และตรงไปยังแบบจำลองทั่วไปที่มากขึ้น (เช่นลบ - ทวินาม, กึ่ง - ปัวซอง ฯลฯ )? กล่าวอีกนัยหนึ่งทำไมไม่ใช้การแจกแจงที่มีพารามิเตอร์ผลต่างอิสระเสมอไป

1
การถดถอยปัวซองที่ไม่ทำให้เป็นศูนย์
สมมติว่ามีความเป็นอิสระและY=(Y1,…,Yn)′Y=(Y1,…,Yn)′ \textbf{Y} = (Y_1, \dots, Y_n)' Yi=0Yi=kwith probability pi+(1−pi)e−λiwith probability (1−pi)e−λiλki/k!Yi=0with probability pi+(1−pi)e−λiYi=kwith probability (1−pi)e−λiλik/k!\eqalign{ Y_i = 0 & \text{with probability} \ p_i+(1-p_i)e^{-\lambda_i}\\ Y_i = k & \text{with probability} \ (1-p_i)e^{-\lambda_i} \lambda_{i}^{k}/k! } นอกจากนี้ยังคิดว่าพารามิเตอร์และP = ( P 1 , ... , P n )ความพึงพอใจλ=(λ1,…,λn)′λ=(λ1,…,λn)′\mathbf{\lambda} = (\lambda_1, \dots, \lambda_n)'p=(p1,…,pn)p=(p1,…,pn)\textbf{p} = (p_1, …

2
วิธีตีความการประมาณค่าพารามิเตอร์ในผลลัพธ์ Poisson GLM [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน5 ปีที่ผ่านมา Call: glm(formula = darters ~ river + pH + temp, family = poisson, data = darterData) Deviance Residuals: Min 1Q Median 3Q Max -3.7422 -1.0257 0.0027 0.7169 3.5347 Coefficients: Estimate Std.Error z value Pr(>|z|) (Intercept) 3.144257 0.218646 14.381 < 2e-16 *** riverWatauga -0.049016 …

1
Poisson Regression มีข้อผิดพลาดหรือไม่?
ฉันแค่สงสัยว่าปัวซงถดถอยนั้นมีข้อผิดพลาดหรือไม่? การถดถอยของปัวซองนั้นมีผลแบบสุ่มและมีข้อผิดพลาดหรือไม่? ฉันสับสนเกี่ยวกับประเด็นนี้ ในการถดถอยโลจิสติกไม่มีคำผิดพลาดเพราะตัวแปรผลลัพธ์ของคุณเป็นไบนารี นั่นเป็นรุ่น glm เดียวที่ไม่มีเทอมหรือเปล่า?

1
แพคเกจ GBM กับ Caret ใช้ GBM
ฉันเคยใช้การจูนโมเดลcaretแต่แล้วก็รันโมเดลอีกครั้งโดยใช้gbmแพ็คเกจ ฉันเข้าใจว่าcaretแพ็กเกจที่ใช้gbmและเอาต์พุตควรเหมือนกัน อย่างไรก็ตามการทดสอบการทำงานอย่างรวดเร็วโดยใช้data(iris)แสดงความแตกต่างในรูปแบบประมาณ 5% โดยใช้ RMSE และ R ^ 2 เป็นตัวชี้วัดการประเมินผล ฉันต้องการค้นหาประสิทธิภาพของแบบจำลองที่ดีที่สุดโดยใช้caretแต่เรียกใช้อีกครั้งgbmเพื่อใช้ประโยชน์จากแผนการพึ่งพาบางส่วน รหัสด้านล่างสำหรับการทำซ้ำ คำถามของฉันจะเป็น: 1) เหตุใดฉันจึงเห็นความแตกต่างระหว่างแพ็คเกจทั้งสองนี้ถึงแม้ว่าพวกเขาจะเหมือนกัน (ฉันเข้าใจว่าพวกมันสุ่ม แต่ 5% ค่อนข้างแตกต่างกันมากโดยเฉพาะอย่างยิ่งเมื่อฉันไม่ได้ใช้ชุดข้อมูลที่ดีirisสำหรับการสร้างแบบจำลองของฉัน) . 2) มีข้อดีหรือข้อเสียในการใช้ทั้งสองแพคเกจหรือไม่ 3) ไม่เกี่ยวข้อง: การใช้irisชุดข้อมูลที่ดีที่สุดinteraction.depthคือ 5 แต่สูงกว่าที่ฉันได้อ่านควรจะใช้สูงสุดfloor(sqrt(ncol(iris)))ซึ่งควรจะเป็น 2 นี่เป็นกฎง่ายๆหรือเข้มงวดหรือไม่? library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric …

2
เป็นไปได้หรือไม่ที่ AIC และ BIC ให้การเลือกรุ่นที่แตกต่างกันโดยสิ้นเชิง?
ฉันกำลังแสดงแบบจำลองการถดถอยปัวซองด้วย 1 ตัวแปรการตอบสนองและ 6 ตัวแปร การเลือกแบบจำลองโดยใช้ผลลัพธ์ AIC ในแบบจำลองที่มี covariates ทั้งหมดรวมถึง 6 เงื่อนไขการโต้ตอบ อย่างไรก็ตาม BIC ส่งผลให้แบบจำลองมี covariates เพียง 2 ตัวและไม่มีเงื่อนไขการโต้ตอบ เป็นไปได้หรือไม่ที่ทั้งสองเกณฑ์นั้นดูคล้ายกันมากให้ผลการเลือกแบบจำลองต่างกันโดยสิ้นเชิง?

1
จะจัดการกับ overdispersion ในการถดถอยของปัวซองได้อย่างไร: ความเป็นไปได้เสมือน, GLM ทวินามลบ, หรือเอฟเฟกต์แบบสุ่มระดับหัวเรื่อง?
ฉันได้พบกับข้อเสนอสามข้อเพื่อจัดการกับการกระจายเกินพิกัดในตัวแปรตอบกลับของปัวซองและโมเดลเริ่มต้นที่มีเอฟเฟกต์ถาวรทั้งหมด: ใช้แบบจำลองเสมือน; ใช้ GLM ลบแบบทวินาม ใช้โมเดลผสมกับเอฟเฟกต์แบบสุ่มระดับหัวเรื่อง แต่สิ่งที่จะเลือกจริงและทำไม? มีเกณฑ์ใดบ้างในกลุ่มนี้?

2
ข้อดีข้อเสียของการเชื่อมโยงเข้าสู่ระบบและการเชื่อมโยงข้อมูลประจำตัวสำหรับการถดถอยปัวซอง
ฉันกำลังดำเนินการถดถอยปัวซองกับเป้าหมายสุดท้ายของการเปรียบเทียบ (และการแตกต่างของ) ในขณะที่ถือตัวแปรรุ่นอื่น ๆ (ซึ่งเป็นไบนารีทั้งหมด ) คงที่ ฉันสงสัยว่าถ้าใครสามารถให้คำแนะนำที่เป็นประโยชน์เกี่ยวกับเวลาที่จะใช้ลิงค์บันทึกกับลิงก์ประจำตัว อะไรคือข้อดีข้อเสียของฟังก์ชั่นลิงค์สองแบบนี้ในการถดถอยแบบปัวซองโดยมีเป้าหมายในการเปรียบเทียบความแตกต่างμ^1−μ^2μ^1−μ^2\hat{\mu}_1-\hat{\mu}_2 ฉันมีเป้าหมายเดียวกันในใจสำหรับการถดถอยโลจิสติกส์ / ทวินาม (เพื่อใช้ลิงค์ logit หรือลิงค์ตัวตน) เพื่อเปรียบเทียบความแตกต่างของสัดส่วนระหว่างสองระดับปัจจัยและต้องการคำแนะนำที่คล้ายกัน ฉันได้อ่านบางส่วนของโพสต์ที่สัมผัสกับปัญหานี้ แต่ดูเหมือนจะไม่มีใครอธิบายว่าทำไมหรือเมื่อมีใครอาจเลือกลิงค์หนึ่งมากกว่าอีกลิงค์และข้อดี / ข้อเสียอาจจะ ขอบคุณล่วงหน้าสำหรับความช่วยเหลือของ! UPDATE: ฉันยังตระหนักว่าจุดประสงค์หลักของการใช้ฟังก์ชั่นลิงก์บางอย่างคือเพื่อ จำกัด ช่วงของค่าทำนายที่เป็นไปได้ที่จะอยู่ในช่วงของการตอบสนองเฉลี่ย (เช่นสำหรับโลจิสติกส์ช่วงถูก จำกัด ให้อยู่ระหว่าง 0 ถึง 1 และล็อก ลิงก์การคาดคะเนถูก จำกัด ให้เป็นจำนวนบวก) ดังนั้นฉันเดาว่าสิ่งที่ฉันถามคือถ้าฉันใช้ลิงค์ประจำตัวเพื่อพูดการถดถอยโลจิสติก / ทวินามและผลลัพธ์ของฉันอยู่ในช่วง (0,1) มีความต้องการใช้ฟังก์ชั่นการเชื่อมโยงโลจิสติกหรือ ฉันจะทำให้การใช้ลิงก์การระบุตัวตนทำได้ง่ายขึ้นหรือไม่

1
ค่าสัมประสิทธิ์ที่เหมือนกันประมาณในรูปแบบปัวซอง vs ควอซี - ปัวซอง
ในการสร้างแบบจำลองข้อมูลการนับการเรียกร้องในสภาพแวดล้อมการประกันภัยฉันเริ่มต้นด้วย Poisson แต่แล้วสังเกตเห็นการทับซ้อนกัน Quasi-Poisson เป็นแบบอย่างที่ดีกว่าความสัมพันธ์แปรปรวนที่ดีกว่า Poisson พื้นฐาน แต่ฉันสังเกตเห็นว่าสัมประสิทธิ์เป็นเหมือนกันทั้งใน Poisson และ Quasi-Poisson หากนี่ไม่ใช่ข้อผิดพลาดเหตุใดจึงเป็นเช่นนี้ การใช้ Quasi-Poisson บน Poisson มีประโยชน์อย่างไร สิ่งที่ควรทราบ: การสูญเสียที่อยู่ภายใต้พื้นฐานส่วนเกินซึ่ง (ฉันเชื่อว่า) ป้องกัน Tweedie จากการทำงาน - แต่มันเป็นการกระจายครั้งแรกที่ฉันพยายาม ฉันยังตรวจสอบรุ่นของ NB, ZIP, ZINB และ Hurdle แต่ก็ยังพบว่า Quasi-Poisson นั้นเหมาะสมที่สุด ฉันทดสอบการกระจายตัวเกินขนาดผ่านการทดสอบการกระจายในแพ็คเกจ AER พารามิเตอร์การกระจายของฉันอยู่ที่ประมาณ 8.4 โดยมีค่า p อยู่ที่ขนาด 10 ^ -16 ฉันกำลังใช้ glm () กับ family = …

1
การใช้มากเกินไปและการสร้างแบบจำลองทางเลือกในโมเดลเอฟเฟกต์แบบปัวซองที่มีออฟเซ็ต
ฉันพบคำถามเชิงปฏิบัติจำนวนมากเมื่อสร้างแบบจำลองนับข้อมูลจากการวิจัยเชิงทดลองโดยใช้การทดสอบภายในเรื่อง ฉันอธิบายการทดลองข้อมูลและสิ่งที่ฉันได้ทำไปแล้วตามด้วยคำถามของฉัน มีการฉายภาพยนตร์สี่เรื่องที่แตกต่างกันตามตัวอย่างของผู้ตอบแบบสอบถาม หลังจากภาพยนตร์แต่ละเรื่องทำการสัมภาษณ์กันซึ่งเราได้นับจำนวนการปรากฏของข้อความบางอย่างที่น่าสนใจสำหรับ RQ (ตัวแปรการนับที่คาดการณ์) นอกจากนี้เรายังบันทึกจำนวนสูงสุดของเหตุการณ์ที่เป็นไปได้ (หน่วยการเข้ารหัสตัวแปรออฟเซ็ต) นอกจากนี้ยังมีการวัดคุณลักษณะหลายอย่างของภาพยนตร์ในระดับต่อเนื่องซึ่งสำหรับหนึ่งเรามีสมมติฐานเชิงสาเหตุของผลกระทบของคุณลักษณะภาพยนตร์ที่มีต่อการนับข้อความในขณะที่คุณสมบัติอื่น ๆ เป็นตัวควบคุม (ตัวทำนาย) กลยุทธ์การสร้างแบบจำลองที่นำมาใช้จนถึงมีดังนี้: ประมาณค่าแบบจำลองเอฟเฟกต์ปัวซงโดยใช้ตัวแปรสาเหตุเป็นตัวแปรร่วมและตัวแปรอื่น ๆ เป็นตัวแปรควบคุม รุ่นนี้มีการชดเชยเท่ากับ 'บันทึก (หน่วย)' (หน่วยการเข้ารหัส) เอฟเฟกต์แบบสุ่มจะถูกนำไปใช้กับตัวแบบ (จำนวนเฉพาะของภาพยนตร์นั้นซ้อนอยู่ในตัวแบบ) เราพบว่าสมมติฐานเชิงสาเหตุได้รับการยืนยัน (sig. สัมประสิทธิ์ของตัวแปรเชิงสาเหตุ) ในการประมาณค่าเราใช้แพ็คเกจ lme4 ใน R โดยเฉพาะฟังก์ชัน glmer ตอนนี้ฉันมีคำถามต่อไปนี้ ปัญหาที่พบบ่อยในการถดถอยปัวซองคือ ฉันรู้ว่าสิ่งนี้สามารถทดสอบได้โดยใช้การถดถอยแบบทวินามลบและประเมินว่าพารามิเตอร์การกระจายของมันช่วยปรับปรุงแบบจำลองของปัวซองแบบง่าย ๆ หรือไม่ อย่างไรก็ตามฉันไม่รู้ว่าจะทำอย่างไรในบริบทของเอฟเฟกต์แบบสุ่ม ฉันควรทดสอบ overispersion ในสถานการณ์ของฉันอย่างไร ฉันทดสอบการกระจายตัวมากเกินไปในปัวซอง / การถดถอยแบบทวินามเชิงลบอย่างง่าย (ที่ไม่มีเอฟเฟกต์แบบสุ่ม) ที่ฉันรู้ว่าจะพอดีได้อย่างไร การทดสอบแสดงให้เห็นการปรากฏตัวของ overdispersion อย่างไรก็ตามเนื่องจากรุ่นเหล่านี้ไม่ได้พิจารณาการจัดกลุ่มฉันจึงคิดว่าการทดสอบนี้ไม่ถูกต้อง นอกจากนี้ฉันไม่แน่ใจเกี่ยวกับบทบาทของออฟเซ็ตสำหรับการทดสอบการเกินขนาด มีแบบจำลองการถดถอยเอฟเฟกต์แบบสุ่มแบบลบทวินามแบบลบหรือไม่และฉันควรใส่ใน …

2
สมมติฐานการถดถอยของปัวซองและวิธีทดสอบใน R
ฉันต้องการทดสอบว่าการถดถอยแบบใดที่เหมาะกับข้อมูลของฉันที่สุด ตัวแปรตามของฉันคือการนับและมีศูนย์จำนวนมาก และฉันต้องการความช่วยเหลือในการกำหนดรูปแบบและครอบครัวที่จะใช้ (ปัวซองหรือ quasipoisson หรือการถดถอยปัวซองปัวซอง) และวิธีทดสอบสมมติฐาน การถดถอยปัวซอง: เท่าที่ฉันเข้าใจสมมติฐานที่แข็งแกร่งคือความแปรปรวนเฉลี่ย = ความแปรปรวน คุณทดสอบสิ่งนี้อย่างไร พวกเขาต้องอยู่ใกล้กันแค่ไหน? มีการใช้ค่าเฉลี่ยและความแปรปรวนแบบไม่มีเงื่อนไขหรือมีเงื่อนไขหรือไม่ ฉันจะทำอย่างไรถ้าข้อสันนิษฐานนี้ไม่ได้ถืออยู่? ฉันอ่านว่าหากความแปรปรวนมากกว่าค่าเฉลี่ยเรามีการกระจายเกินความเร็วและวิธีที่เป็นไปได้ในการจัดการกับสิ่งนี้คือการรวมตัวแปรอิสระมากขึ้นหรือ family = quasipoisson การแจกจ่ายนี้มีข้อกำหนดหรือข้อสมมติฐานอื่น ๆ หรือไม่? ฉันจะใช้การทดสอบแบบใดเพื่อดูว่า (1) หรือ (2) เหมาะสมกว่าดีกว่าanova(m1,m2)หรือไม่? ฉันยังอ่านด้วยว่าการแจกแจงลบ - ทวินามสามารถใช้เมื่อการกระจายเกินปกติปรากฏขึ้น ฉันจะทำสิ่งนี้ใน R ได้อย่างไร ความแตกต่างของ quasipoisson คืออะไร? การถดถอยปัวซองที่ไม่ทำให้เป็นศูนย์: ฉันอ่านว่าการใช้การทดสอบ vuong จะตรวจสอบว่าแบบจำลองใดที่เหมาะสมกว่า > vuong (model.poisson, model.zero.poisson) ถูกต้องหรือไม่ การถดถอยแบบไม่มี Zero-สมมติฐานมีอะไรบ้าง? บริการด้านวิชาการของ UCLA กลุ่มให้คำปรึกษาทางสถิติมีส่วนเกี่ยวกับการถดถอยแบบปัวซองที่ไม่ทำให้เป็นศูนย์และทดสอบแบบจำลองเซโรพเลต …

1
R / mgcv: เพราะเหตุใดผลิตภัณฑ์ te () และ ti () เทนเซอร์จึงให้พื้นผิวที่แตกต่างกัน
mgcvแพคเกจสำหรับการRมีสองฟังก์ชั่นสำหรับการปฏิสัมพันธ์กระชับเมตริกซ์ผลิตภัณฑ์: และte() ti()ฉันเข้าใจการแบ่งขั้นพื้นฐานของการใช้แรงงานระหว่างคนทั้งสอง (ปรับให้เหมาะสมกับการทำงานแบบไม่เป็นเชิงเส้นเปรียบเทียบกับการย่อยสลายการโต้ตอบนี้เป็นผลกระทบหลักและการโต้ตอบ) สิ่งที่ฉันไม่เข้าใจคือสาเหตุte(x1, x2)และti(x1) + ti(x2) + ti(x1, x2)อาจให้ผลลัพธ์ที่แตกต่าง (เล็กน้อย) MWE (ดัดแปลงมาจาก?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

3
ตัวแบบการถดถอยแบบใดที่เหมาะสมที่สุดที่จะใช้กับข้อมูลการนับ
ฉันกำลังพยายามหาสถิติเล็กน้อย แต่ฉันติดอยู่กับบางสิ่ง ข้อมูลของฉันมีดังนี้: Year Number_of_genes 1990 1 1991 1 1993 3 1995 4 ตอนนี้ฉันต้องการสร้างแบบจำลองการถดถอยเพื่อให้สามารถทำนายจำนวนยีนสำหรับปีใดก็ตามโดยอ้างอิงจากข้อมูล ฉันทำมันด้วยการถดถอยเชิงเส้นจนกระทั่งตอนนี้ แต่ฉันได้อ่านมาแล้วและดูเหมือนจะไม่เป็นทางเลือกที่ดีที่สุดสำหรับข้อมูลประเภทนี้ ฉันได้อ่านว่าการถดถอยของปัวซองอาจมีประโยชน์ แต่ฉันไม่แน่ใจว่าจะใช้อะไร ดังนั้นคำถามของฉันคือ: มีรูปแบบการถดถอยทั่วไปสำหรับข้อมูลประเภทนี้หรือไม่? ถ้าไม่ฉันต้องทำอย่างไรเพื่อค้นหาว่าวิธีใดเหมาะสมที่สุดที่จะใช้ (ในแง่ของสิ่งที่ฉันต้องค้นหาเกี่ยวกับข้อมูล)

1
ทำไม Anova () และ drop1 () จึงให้คำตอบที่แตกต่างกันสำหรับ GLMM
ฉันมีแบบฟอร์ม GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) เมื่อฉันใช้drop1(model, test="Chi")ฉันได้รับผลลัพธ์ที่แตกต่างกว่าถ้าผมใช้จากแพคเกจรถหรือAnova(model, type="III") summary(model)สองหลังนี้ให้คำตอบเดียวกัน จากการใช้ข้อมูลที่ประดิษฐ์ขึ้นมาฉันพบว่าทั้งสองวิธีปกติไม่แตกต่างกัน พวกเขาให้คำตอบเดียวกันสำหรับแบบจำลองเชิงเส้นที่มีความสมดุลแบบจำลองเชิงเส้นที่ไม่สมดุล (ซึ่งไม่เท่ากันในกลุ่มต่าง ๆ ) และสำหรับแบบจำลองเชิงเส้นที่สมดุลแบบทั่วไป ดังนั้นจึงปรากฏว่าเฉพาะในกรณีที่มีการรวมปัจจัยแบบสุ่มเข้าด้วยกัน ทำไมจึงมีความคลาดเคลื่อนระหว่างสองวิธีนี้? เมื่อใช้ GLMM ควรAnova()หรือdrop1()จะใช้งานอย่างไร ความแตกต่างระหว่างสองสิ่งนี้ค่อนข้างเล็กน้อยอย่างน้อยสำหรับข้อมูลของฉัน มันมีความสำคัญต่อการใช้งานหรือไม่?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
lsmeans รายงานอะไรสำหรับโมเดลเชิงเส้นแบบทั่วไปเช่นโมเดลปัวซองแบบผสม (พอดีกับ glmer)
ฉันกำลังวิเคราะห์ข้อมูลการติดตามด้วยตาจากการทดสอบที่ออกแบบมา ข้อมูลรุ่นที่เรียบง่ายของฉันจะมีลักษณะดังนี้ (คุณสามารถรับข้อมูล dput () ได้ที่นี่ ) head(lookDATA) participant fixationImage fixationCount 1 9 Automobile 81 2 9 Bird 63 3 9 Chair 82 4 9 Dog 64 5 9 Face 90 6 9 Plant 75 โดยที่ผู้เข้าร่วมเป็นตัวระบุที่ไม่ซ้ำกันสำหรับแต่ละเรื่อง fixationImage คือประเภทของรูปภาพที่พวกเขาจับจ้องอยู่และ fixationCount คือจำนวนครั้งที่พวกเขาได้รับการแก้ไขในหมวดหมู่รูปภาพนั้น ฉันพอดีกับรูปแบบ Poisson ข้อมูลโดยใช้ glmer () จากแพคเกจ lme4 model<-glmer(fixationCount ~ fixationImage …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.