ฉันทำงานกับชุดข้อมูลขนาดใหญ่ (เป็นความลับดังนั้นฉันจึงไม่สามารถแชร์ได้มากเกินไป)
อาจเป็นไปได้ที่จะสร้างชุดข้อมูลขนาดเล็กที่มีคุณสมบัติทั่วไปบางอย่างของข้อมูลจริงโดยไม่มีชื่อตัวแปรหรือค่าจริงใด ๆ
และมาถึงข้อสรุปการถดถอยเชิงลบแบบทวินามก็เป็นสิ่งจำเป็น ฉันไม่เคยทำการถดถอยแบบ glm มาก่อนและฉันไม่สามารถหาข้อมูลที่ชัดเจนเกี่ยวกับสมมติฐานได้ พวกเขาเหมือนกันสำหรับ MLR หรือไม่
ไม่ชัดเจน! คุณรู้อยู่แล้วว่าคุณคิดว่าการตอบสนองเป็นแบบทวินามเชิงลบแบบมีเงื่อนไขไม่ใช่เงื่อนไขปกติ ( สมมติฐานบางอย่างมีการแบ่งปันความเป็นอิสระเช่น)
ให้ฉันพูดเกี่ยวกับ GLMs โดยทั่วไปก่อน
GLM รวมถึงการถดถอยหลายครั้ง แต่พูดคุยในหลายวิธี:
1) การแจกแจงแบบมีเงื่อนไขของการตอบสนอง (ตัวแปรตาม) มาจากตระกูลเลขชี้กำลังซึ่งรวมถึงปัวซอง, ทวินาม, แกมมา, การแจกแจงแบบปกติและอื่น ๆ อีกมากมาย
2) การตอบสนองหมายถึงมีความเกี่ยวข้องกับการพยากรณ์ (ตัวแปรอิสระ) ผ่านฟังก์ชั่นการเชื่อมโยง ครอบครัวของดิแต่ละคนมีความเกี่ยวข้องเชื่อมโยงที่ยอมรับฟังก์ชั่น - ตัวอย่างเช่นในกรณีของ Poisson ที่เชื่อมโยงเป็นที่ยอมรับเข้าสู่ระบบ ลิงก์แบบบัญญัติเป็นค่าเริ่มต้นเกือบทุกครั้ง แต่โดยทั่วไปแล้วซอฟต์แวร์ส่วนใหญ่คุณมีตัวเลือกหลายอย่างในแต่ละตัวเลือกการแจกจ่าย สำหรับทวินามการเชื่อมโยงแบบบัญญัติคือ logit (ตัวทำนายเชิงเส้นคือการสร้างแบบจำลองอัตราต่อรองของความสำเร็จหรือ "1") และสำหรับแกมม่าตามบัญญัติ link เป็นสิ่งที่ตรงกันข้าม - แต่ในทั้งสองกรณีมักจะใช้ฟังก์ชั่นลิงค์อื่น ๆlog(p1−p)
ดังนั้นหากคำตอบของคุณคือและตัวทำนายของคุณคือและโดยการถดถอยของปัวซองด้วยลิงก์บันทึกคุณอาจมีคำอธิบายว่าค่าเฉลี่ยของนั้นเกี่ยวข้องกับ :YX1X2YX
E(Yi)=μi
logμi=ηi (เรียกว่า 'ตัวทำนายเชิงเส้น' และฟังก์ชั่นลิงค์นี้คือสัญลักษณ์มักใช้เพื่อเป็นตัวแทนของฟังก์ชันลิงก์)ηlogg
ηi=β0+β1x1i+β2x2i
3) ความแปรปรวนของการตอบสนองไม่คงที่ แต่ดำเนินการผ่านฟังก์ชั่นความแปรปรวน (ฟังก์ชันของค่าเฉลี่ยอาจเป็นพารามิเตอร์การปรับสเกลครั้ง) ตัวอย่างเช่นความแปรปรวนของปัวซองเท่ากับค่าเฉลี่ยในขณะที่แกมม่ามันเป็นสัดส่วนกับกำลังสองของค่าเฉลี่ย (การกระจายแบบกึ่งจำลองช่วยให้ระดับของการแยกฟังก์ชันฟังก์ชันแปรปรวนจากการแจกแจงแบบสันนิษฐาน)
-
ดังนั้นสมมติฐานอะไรที่เหมือนกันกับสิ่งที่คุณจำได้จาก MLR
อิสรภาพยังคงอยู่ที่นั่น
Homoskedasticity ไม่ได้ถูกสันนิษฐานอีกต่อไป ความแปรปรวนเป็นหน้าที่ของค่าเฉลี่ยและโดยทั่วไปจะแตกต่างกันไปตามตัวทำนาย (ดังนั้นในขณะที่แบบจำลองโดยทั่วไปคือ heteroskedastic
ลิเนียริตี้: โมเดลยังคงเป็นแบบเส้นตรงในพารามิเตอร์ (เช่นตัวทำนายเชิงเส้นคือ ) แต่การตอบสนองที่คาดหวังจะไม่เกี่ยวข้องกับพวกมันในเชิงเส้นตรง (เว้นแต่คุณจะใช้ฟังก์ชั่นลิงค์ตัวตน!)Xβ
การกระจายของการตอบสนองเป็นเรื่องทั่วไปมากขึ้น
การตีความผลลัพธ์มีหลายวิธีที่คล้ายคลึงกัน คุณยังสามารถดูค่าสัมประสิทธิ์โดยประมาณหารด้วยข้อผิดพลาดมาตรฐานของพวกเขาและตีความพวกเขาในทำนองเดียวกัน (พวกมันเป็นอาการปกติ - การทดสอบ Wald z-test) แต่ผู้คนยังคงเรียกพวกเขาว่าอัตราส่วน t แม้ว่าจะไม่มีทฤษฎี พวกเขา -distributed ทั่วไป)t
การเปรียบเทียบระหว่างโมเดลที่ซ้อนกัน (ผ่าน 'anova-table' เช่นการตั้งค่า) จะแตกต่างกันเล็กน้อย แต่คล้ายกัน (เกี่ยวข้องกับการทดสอบไคสแควร์แบบ asymptotic) หากคุณพอใจกับ AIC และ BIC สามารถคำนวณได้
โดยทั่วไปจะใช้จอแสดงผลการวินิจฉัยประเภทเดียวกัน แต่อาจตีความได้ยากกว่า
สัญชาตญาณการถดถอยเชิงเส้นหลายแบบของคุณจะถูกนำไปใช้หากคุณนึกถึงความแตกต่าง
นี่คือตัวอย่างของสิ่งที่คุณสามารถทำได้ด้วย glm ที่คุณไม่สามารถทำได้ด้วยการถดถอยเชิงเส้น (จริง ๆ แล้วคนส่วนใหญ่จะใช้การถดถอยแบบไม่เชิงเส้นสำหรับเรื่องนี้ แต่ GLM ง่ายกว่าและดีกว่า) ในกรณีปกติ -เป็นเรื่องปกติ ซึ่งจำลองเป็นฟังก์ชันของ :Yx
E(Y)=exp(η)=exp(Xβ)=exp(β0+β1x) (นั่นคือล็อกลิงก์)
Var(Y)=σ2
นั่นคืออย่างน้อยสี่เหลี่ยมพอดีของความสัมพันธ์ระหว่างชี้แจงและxYx
ฉันสามารถแปลงตัวแปรในลักษณะเดียวกันได้หรือไม่ (ฉันได้ค้นพบแล้วว่าการเปลี่ยนตัวแปรตามคือการโทรที่ไม่ดีเนื่องจากต้องเป็นจำนวนธรรมชาติ)
คุณ (โดยปกติ) ไม่ต้องการแปลงการตอบสนอง (DV) บางครั้งคุณอาจต้องการเปลี่ยนเครื่องทำนาย (IVs) เพื่อให้ได้เส้นตรงของเครื่องทำนายแนว
ฉันได้พิจารณาแล้วว่าการแจกแจงทวินามลบจะช่วยในการกระจายตัวมากเกินไปในข้อมูลของฉัน (ความแปรปรวนอยู่ที่ประมาณ 2000 ค่าเฉลี่ยคือ 48)
ใช่มันสามารถจัดการกับ overdispersion แต่ดูแลไม่ให้เกิดความสับสนเงื่อนไขการกระจายกับที่ไม่มีเงื่อนไขการกระจายตัว
อีกวิธีที่ใช้กันทั่วไป - ถ้า kludgy มากขึ้นและค่อนข้างพอใจน้อยกว่าในใจของฉัน - คือการถดถอยกึ่งปัวซอง (การถดถอยปัวซองปรกติ)
ด้วยทวินามลบมันอยู่ในตระกูลเอ็กซ์โพเนนเชียลหากคุณระบุพารามิเตอร์หนึ่งอย่างใดอย่างหนึ่ง (วิธีที่มันมักจะถูกกำหนดค่าพารามิเตอร์ใหม่สำหรับ GLMS อย่างน้อย) บางแพ็กเกจจะพอดีถ้าคุณระบุพารามิเตอร์ส่วนอื่น ๆ จะห่อค่าประมาณ ML ของพารามิเตอร์นั้น (พูดผ่านความเป็นไปได้ของโปรไฟล์) รอบ ๆ GLM รูทีนโดยอัตโนมัติกระบวนการ บางคนจะ จำกัด ให้คุณกระจายชุดเล็กลง คุณไม่ได้พูดถึงซอฟต์แวร์ที่คุณใช้ดังนั้นมันจึงยากที่จะพูดมากกว่านั้น
ฉันคิดว่าโดยปกติแล้ว log-link มีแนวโน้มที่จะใช้กับการถดถอยแบบทวินามลบ
มีเอกสารระดับเบื้องต้นจำนวนหนึ่ง (พบได้อย่างง่ายดายผ่าน google) ที่นำไปสู่บาง Poisson GLM ขั้นพื้นฐานและการวิเคราะห์ข้อมูลแบบทวินามลบ GLM แต่คุณอาจต้องการดูหนังสือเกี่ยวกับ GLM และอาจจะทำการถดถอยแบบปัวซองเล็กน้อย เพียงเพื่อรับใช้ที่