สมมติฐานของการถดถอยแบบทวินามเชิงลบคืออะไร?


30

ฉันทำงานกับชุดข้อมูลขนาดใหญ่ (เป็นความลับดังนั้นฉันจึงไม่สามารถแบ่งปันได้มากเกินไป) และมาถึงข้อสรุปการถดถอยเชิงลบแบบทวินามก็เป็นสิ่งที่จำเป็น ฉันไม่เคยทำการถดถอยแบบ glm มาก่อนและฉันไม่สามารถหาข้อมูลที่ชัดเจนเกี่ยวกับสมมติฐานได้ พวกเขาเหมือนกันสำหรับ MLR หรือไม่

ฉันสามารถแปลงตัวแปรในลักษณะเดียวกันได้หรือไม่ (ฉันได้ค้นพบแล้วว่าการเปลี่ยนตัวแปรตามคือการโทรที่ไม่ดีเนื่องจากต้องเป็นจำนวนธรรมชาติ) ฉันได้พิจารณาแล้วว่าการแจกแจงทวินามลบจะช่วยในการกระจายตัวมากเกินไปในข้อมูลของฉัน (ความแปรปรวนอยู่ที่ประมาณ 2000 ค่าเฉลี่ยคือ 48)

ขอบคุณสำหรับความช่วยเหลือ !!

คำตอบ:


42

ฉันทำงานกับชุดข้อมูลขนาดใหญ่ (เป็นความลับดังนั้นฉันจึงไม่สามารถแชร์ได้มากเกินไป)

อาจเป็นไปได้ที่จะสร้างชุดข้อมูลขนาดเล็กที่มีคุณสมบัติทั่วไปบางอย่างของข้อมูลจริงโดยไม่มีชื่อตัวแปรหรือค่าจริงใด ๆ

และมาถึงข้อสรุปการถดถอยเชิงลบแบบทวินามก็เป็นสิ่งจำเป็น ฉันไม่เคยทำการถดถอยแบบ glm มาก่อนและฉันไม่สามารถหาข้อมูลที่ชัดเจนเกี่ยวกับสมมติฐานได้ พวกเขาเหมือนกันสำหรับ MLR หรือไม่

ไม่ชัดเจน! คุณรู้อยู่แล้วว่าคุณคิดว่าการตอบสนองเป็นแบบทวินามเชิงลบแบบมีเงื่อนไขไม่ใช่เงื่อนไขปกติ ( สมมติฐานบางอย่างมีการแบ่งปันความเป็นอิสระเช่น)

ให้ฉันพูดเกี่ยวกับ GLMs โดยทั่วไปก่อน

GLM รวมถึงการถดถอยหลายครั้ง แต่พูดคุยในหลายวิธี:

1) การแจกแจงแบบมีเงื่อนไขของการตอบสนอง (ตัวแปรตาม) มาจากตระกูลเลขชี้กำลังซึ่งรวมถึงปัวซอง, ทวินาม, แกมมา, การแจกแจงแบบปกติและอื่น ๆ อีกมากมาย

2) การตอบสนองหมายถึงมีความเกี่ยวข้องกับการพยากรณ์ (ตัวแปรอิสระ) ผ่านฟังก์ชั่นการเชื่อมโยง ครอบครัวของดิแต่ละคนมีความเกี่ยวข้องเชื่อมโยงที่ยอมรับฟังก์ชั่น - ตัวอย่างเช่นในกรณีของ Poisson ที่เชื่อมโยงเป็นที่ยอมรับเข้าสู่ระบบ ลิงก์แบบบัญญัติเป็นค่าเริ่มต้นเกือบทุกครั้ง แต่โดยทั่วไปแล้วซอฟต์แวร์ส่วนใหญ่คุณมีตัวเลือกหลายอย่างในแต่ละตัวเลือกการแจกจ่าย สำหรับทวินามการเชื่อมโยงแบบบัญญัติคือ logit (ตัวทำนายเชิงเส้นคือการสร้างแบบจำลองอัตราต่อรองของความสำเร็จหรือ "1") และสำหรับแกมม่าตามบัญญัติ link เป็นสิ่งที่ตรงกันข้าม - แต่ในทั้งสองกรณีมักจะใช้ฟังก์ชั่นลิงค์อื่น ๆlog(p1p)

ดังนั้นหากคำตอบของคุณคือและตัวทำนายของคุณคือและโดยการถดถอยของปัวซองด้วยลิงก์บันทึกคุณอาจมีคำอธิบายว่าค่าเฉลี่ยของนั้นเกี่ยวข้องกับ :YX1X2YX

E(Yi)=μi

logμi=ηi (เรียกว่า 'ตัวทำนายเชิงเส้น' และฟังก์ชั่นลิงค์นี้คือสัญลักษณ์มักใช้เพื่อเป็นตัวแทนของฟังก์ชันลิงก์)ηlogg

ηi=β0+β1x1i+β2x2i

3) ความแปรปรวนของการตอบสนองไม่คงที่ แต่ดำเนินการผ่านฟังก์ชั่นความแปรปรวน (ฟังก์ชันของค่าเฉลี่ยอาจเป็นพารามิเตอร์การปรับสเกลครั้ง) ตัวอย่างเช่นความแปรปรวนของปัวซองเท่ากับค่าเฉลี่ยในขณะที่แกมม่ามันเป็นสัดส่วนกับกำลังสองของค่าเฉลี่ย (การกระจายแบบกึ่งจำลองช่วยให้ระดับของการแยกฟังก์ชันฟังก์ชันแปรปรวนจากการแจกแจงแบบสันนิษฐาน)

-

ดังนั้นสมมติฐานอะไรที่เหมือนกันกับสิ่งที่คุณจำได้จาก MLR

  • อิสรภาพยังคงอยู่ที่นั่น

  • Homoskedasticity ไม่ได้ถูกสันนิษฐานอีกต่อไป ความแปรปรวนเป็นหน้าที่ของค่าเฉลี่ยและโดยทั่วไปจะแตกต่างกันไปตามตัวทำนาย (ดังนั้นในขณะที่แบบจำลองโดยทั่วไปคือ heteroskedastic

  • ลิเนียริตี้: โมเดลยังคงเป็นแบบเส้นตรงในพารามิเตอร์ (เช่นตัวทำนายเชิงเส้นคือ ) แต่การตอบสนองที่คาดหวังจะไม่เกี่ยวข้องกับพวกมันในเชิงเส้นตรง (เว้นแต่คุณจะใช้ฟังก์ชั่นลิงค์ตัวตน!)Xβ

  • การกระจายของการตอบสนองเป็นเรื่องทั่วไปมากขึ้น

การตีความผลลัพธ์มีหลายวิธีที่คล้ายคลึงกัน คุณยังสามารถดูค่าสัมประสิทธิ์โดยประมาณหารด้วยข้อผิดพลาดมาตรฐานของพวกเขาและตีความพวกเขาในทำนองเดียวกัน (พวกมันเป็นอาการปกติ - การทดสอบ Wald z-test) แต่ผู้คนยังคงเรียกพวกเขาว่าอัตราส่วน t แม้ว่าจะไม่มีทฤษฎี พวกเขา -distributed ทั่วไป)t

การเปรียบเทียบระหว่างโมเดลที่ซ้อนกัน (ผ่าน 'anova-table' เช่นการตั้งค่า) จะแตกต่างกันเล็กน้อย แต่คล้ายกัน (เกี่ยวข้องกับการทดสอบไคสแควร์แบบ asymptotic) หากคุณพอใจกับ AIC และ BIC สามารถคำนวณได้

โดยทั่วไปจะใช้จอแสดงผลการวินิจฉัยประเภทเดียวกัน แต่อาจตีความได้ยากกว่า

สัญชาตญาณการถดถอยเชิงเส้นหลายแบบของคุณจะถูกนำไปใช้หากคุณนึกถึงความแตกต่าง

นี่คือตัวอย่างของสิ่งที่คุณสามารถทำได้ด้วย glm ที่คุณไม่สามารถทำได้ด้วยการถดถอยเชิงเส้น (จริง ๆ แล้วคนส่วนใหญ่จะใช้การถดถอยแบบไม่เชิงเส้นสำหรับเรื่องนี้ แต่ GLM ง่ายกว่าและดีกว่า) ในกรณีปกติ -เป็นเรื่องปกติ ซึ่งจำลองเป็นฟังก์ชันของ :Yx

E(Y)=exp(η)=exp(Xβ)=exp(β0+β1x) (นั่นคือล็อกลิงก์)

Var(Y)=σ2

นั่นคืออย่างน้อยสี่เหลี่ยมพอดีของความสัมพันธ์ระหว่างชี้แจงและxYx

ฉันสามารถแปลงตัวแปรในลักษณะเดียวกันได้หรือไม่ (ฉันได้ค้นพบแล้วว่าการเปลี่ยนตัวแปรตามคือการโทรที่ไม่ดีเนื่องจากต้องเป็นจำนวนธรรมชาติ)

คุณ (โดยปกติ) ไม่ต้องการแปลงการตอบสนอง (DV) บางครั้งคุณอาจต้องการเปลี่ยนเครื่องทำนาย (IVs) เพื่อให้ได้เส้นตรงของเครื่องทำนายแนว

ฉันได้พิจารณาแล้วว่าการแจกแจงทวินามลบจะช่วยในการกระจายตัวมากเกินไปในข้อมูลของฉัน (ความแปรปรวนอยู่ที่ประมาณ 2000 ค่าเฉลี่ยคือ 48)

ใช่มันสามารถจัดการกับ overdispersion แต่ดูแลไม่ให้เกิดความสับสนเงื่อนไขการกระจายกับที่ไม่มีเงื่อนไขการกระจายตัว

อีกวิธีที่ใช้กันทั่วไป - ถ้า kludgy มากขึ้นและค่อนข้างพอใจน้อยกว่าในใจของฉัน - คือการถดถอยกึ่งปัวซอง (การถดถอยปัวซองปรกติ)

ด้วยทวินามลบมันอยู่ในตระกูลเอ็กซ์โพเนนเชียลหากคุณระบุพารามิเตอร์หนึ่งอย่างใดอย่างหนึ่ง (วิธีที่มันมักจะถูกกำหนดค่าพารามิเตอร์ใหม่สำหรับ GLMS อย่างน้อย) บางแพ็กเกจจะพอดีถ้าคุณระบุพารามิเตอร์ส่วนอื่น ๆ จะห่อค่าประมาณ ML ของพารามิเตอร์นั้น (พูดผ่านความเป็นไปได้ของโปรไฟล์) รอบ ๆ GLM รูทีนโดยอัตโนมัติกระบวนการ บางคนจะ จำกัด ให้คุณกระจายชุดเล็กลง คุณไม่ได้พูดถึงซอฟต์แวร์ที่คุณใช้ดังนั้นมันจึงยากที่จะพูดมากกว่านั้น

ฉันคิดว่าโดยปกติแล้ว log-link มีแนวโน้มที่จะใช้กับการถดถอยแบบทวินามลบ

มีเอกสารระดับเบื้องต้นจำนวนหนึ่ง (พบได้อย่างง่ายดายผ่าน google) ที่นำไปสู่บาง Poisson GLM ขั้นพื้นฐานและการวิเคราะห์ข้อมูลแบบทวินามลบ GLM แต่คุณอาจต้องการดูหนังสือเกี่ยวกับ GLM และอาจจะทำการถดถอยแบบปัวซองเล็กน้อย เพียงเพื่อรับใช้ที่


1
+1 ฉันเห็นด้วยกับ COOLSerdash ข้อมูลที่ดีมากมายที่นี่! นอกเหนือจากการค้นหาของ Google ที่แนะนำแล้วฉันขอแนะนำตำราเรียนที่เรียกว่าเศรษฐมิติโดยตัวอย่างโดยคุชราต บทที่ 12 ครอบคลุมรูปแบบการถดถอยปัวซงและแบบจำลองการถดถอยเชิงลบ - ทวินาม ตามชื่อหนังสือแนะนำมีตัวอย่าง ข้อมูลที่ใช้ในหนังสือเล่มนี้มีให้จากเว็บไซต์สหายของหนังสือและบทสรุปของบทที่ 12เอง ฉันขอแนะนำให้ OP ตรวจสอบสิ่งนี้
แกรมวอลช์

ฉันไปงานปาร์ตี้สาย ... แต่คำตอบนี้ช่วยให้ฉันเข้าใจแบบจำลองเชิงเส้นทั่วไปดีกว่าหนังสือทั้งเล่มที่ห้องสมุด
haff

0

การอ้างอิงบางอย่างที่ฉันพบว่ามีประโยชน์ในการวิเคราะห์ข้อมูลด้วยการแจกแจงแบบทวินามลบโดยเฉพาะ

เบตส์, DM, B. Machler, B. Bolker และ S. Walker 2015. แบบจำลองผลกระทบเชิงเส้นแบบผสมที่เหมาะสมโดยใช้ lme4 J. สถิติ ซอฟต์แวร์ 67: 1-48

Bolker, BM, ME Brooks, CJ Clark, SW Geange, JR Poulsen, MHH Stevens และ J. White โมเดลผสมเชิงเส้นทั่วไป: คู่มือปฏิบัติสำหรับนิเวศวิทยาและวิวัฒนาการ แนวโน้มด้านนิเวศวิทยาและวิวัฒนาการ /.

Zeileis A. , C. Keleiber C, และ S. Jackman 2008. แบบจำลองการถดถอยสำหรับข้อมูลนับใน RJ Stat ซอฟต์แวร์. 27: 1-25

Zuur AF, EN Iene, N. Walker, AA Saveliev และ GM Smith 2552. รูปแบบเอฟเฟกต์ผสมและส่วนขยายทางนิเวศวิทยากับ R. Springer, NY, USA

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.