ตัวแบบการถดถอยแบบใดที่เหมาะสมที่สุดที่จะใช้กับข้อมูลการนับ


10

ฉันกำลังพยายามหาสถิติเล็กน้อย แต่ฉันติดอยู่กับบางสิ่ง ข้อมูลของฉันมีดังนี้:

Year   Number_of_genes
1990          1
1991          1
1993          3
1995          4

ตอนนี้ฉันต้องการสร้างแบบจำลองการถดถอยเพื่อให้สามารถทำนายจำนวนยีนสำหรับปีใดก็ตามโดยอ้างอิงจากข้อมูล ฉันทำมันด้วยการถดถอยเชิงเส้นจนกระทั่งตอนนี้ แต่ฉันได้อ่านมาแล้วและดูเหมือนจะไม่เป็นทางเลือกที่ดีที่สุดสำหรับข้อมูลประเภทนี้ ฉันได้อ่านว่าการถดถอยของปัวซองอาจมีประโยชน์ แต่ฉันไม่แน่ใจว่าจะใช้อะไร ดังนั้นคำถามของฉันคือ:

มีรูปแบบการถดถอยทั่วไปสำหรับข้อมูลประเภทนี้หรือไม่? ถ้าไม่ฉันต้องทำอย่างไรเพื่อค้นหาว่าวิธีใดเหมาะสมที่สุดที่จะใช้ (ในแง่ของสิ่งที่ฉันต้องค้นหาเกี่ยวกับข้อมูล)


คำตอบของฉันที่นี่: stats.stackexchange.com/questions/142338/… มีความเกี่ยวข้องมาก
kjetil b halvorsen

2
นี่เป็นข้อมูลเกี่ยวกับอนุกรมเวลาหรือไม่
Michael M

คำตอบ:


22

ไม่ไม่มีรูปแบบการถดถอยข้อมูลนับทั่วไป

(เช่นเดียวกับที่ไม่มีรูปแบบการถดถอยทั่วไปสำหรับข้อมูลต่อเนื่องแบบจำลองเชิงเส้นที่มีการกระจายสัญญาณแบบโฮโมเคเดสติกเป็นปกติโดยทั่วไปและติดตั้งโดยใช้สแควร์ธรรมดาน้อยที่สุดอย่างไรก็ตามการถดถอยแบบแกมม่าหรือการถดถอยแบบเอกซ์โปเนนเชียล หรือโมเดล heteroskedasticity ที่มีเงื่อนไขเช่น ARCH หรือ GARCH ในบริบทอนุกรมเวลาเพื่อจัดการกับเสียง heteroskedastic)

โมเดลทั่วไปรวมถึงตามที่คุณเขียนหรือการถดถอยแบบทวินามเชิงลบ โมเดลเหล่านี้แพร่หลายอย่างกว้างขวางในการค้นหาซอฟต์แวร์แบบฝึกหัดหรือหนังสือเรียนทุกประเภท ผมชอบโดยเฉพาะHilbe ของเชิงลบทวินามถดถอย คำถามก่อนหน้านี้กล่าวถึงวิธีการเลือกรูปแบบข้อมูลการนับที่แตกต่างกัน

หากคุณมีศูนย์ "จำนวนมาก" ในข้อมูลของคุณและโดยเฉพาะอย่างยิ่งถ้าคุณสงสัยว่าศูนย์อาจถูกขับเคลื่อนด้วยกระบวนการสร้างข้อมูลที่แตกต่างจากศูนย์ที่ไม่ใช่ศูนย์ (หรือศูนย์บางศูนย์มาจาก DGP หนึ่งศูนย์และศูนย์อื่นและศูนย์ที่ไม่ใช่ศูนย์มา จาก DGP อื่น) แบบจำลองอาจมีประโยชน์ สิ่งที่พบบ่อยที่สุดคือการถดถอยปัวซอง (ZIP)

นอกจากนี้คุณยังสามารถอ่านผ่านก่อนหน้าของเราคำถามที่ติดแท็กทั้ง "ถดถอย" และ "นับข้อมูล"


แก้ไข: @MichaelM เพิ่มจุดดี นี้จะมีลักษณะเหมือนอนุกรมเวลาของข้อมูลนับ (และข้อมูลที่หายไปสำหรับปี 1992 และ 1994 แนะนำให้ฉันว่าควรมีศูนย์ในแต่ละปีเหล่านี้ถ้าเป็นเช่นนั้นให้รวมไว้ด้วย Zero เป็นตัวเลขที่ถูกต้องและมันนำข้อมูลมา) 'd ยังแนะนำให้มองผ่านคำถามก่อนหน้าของเราที่ติดแท็กทั้ง 'อนุกรมเวลา' และ 'นับข้อมูล'


4
ดี แต่สแควร์ธรรมดาน้อยเป็นขั้นตอนการประมาณค่าไม่ใช่โมเดล คุณรู้ว่า แต่มันเป็นความสับสนทั่วไปดังนั้นเราไม่ควรเขียนมัน
Nick Cox

@ NickCox: จุดดี ฉันแก้ไขโพสต์ของฉัน
Stephan Kolassa

11

"การเริ่มต้น" ที่ใช้กันมากที่สุดและอธิบายการจัดจำหน่ายของทางเลือกสำหรับข้อมูลนับเป็นการกระจาย Poisson ส่วนใหญ่มักจะแสดงให้เห็นโดยใช้ตัวอย่างของการใช้งานจริงครั้งแรก:

การใช้งานจริงของการแจกจ่ายนี้ทำโดย Ladislaus Bortkiewicz ในปี 1898 เมื่อเขาได้รับมอบหมายให้ตรวจสอบจำนวนทหารในกองทัพปรัสเซียนที่ถูกฆ่าโดยบังเอิญโดยการเตะม้า การทดลองนี้นำเสนอการกระจายปัวซงไปยังสาขาวิศวกรรมความน่าเชื่อถือ

การกระจายตัวของปัวซองนั้นถูกกำหนดด้วยอัตราต่อช่วงเวลาที่กำหนด (คือค่าเฉลี่ยและความแปรปรวน) ในกรณีของการถดถอยเราสามารถใช้การแจกแจงปัวซงในโมเดลเชิงเส้นทั่วไปพร้อมฟังก์ชันลิงค์เชิงเส้นλλλ

E(Y|X,β)=λ=ประสบการณ์(β0+β1X1++βkXk)

นั่นเรียกว่าการถดถอยปัวซองเนื่องจากเราสามารถสันนิษฐานได้ว่าคืออัตราการกระจายปัวซอง อย่างไรก็ตามโปรดสังเกตว่าสำหรับการถดถอยแบบบันทึกเชิงเส้นคุณไม่จำเป็นต้องใช้สมมติฐานดังกล่าวและใช้GLM พร้อมลิงค์บันทึกข้อมูลที่ไม่นับ เมื่อตีความพารามิเตอร์ที่คุณต้องจำไว้ว่าเนื่องจากการใช้การแปลงบันทึกการเปลี่ยนแปลงในตัวแปรอิสระส่งผลให้เกิดการเปลี่ยนแปลงหลายหลากในการนับที่คาดการณ์ไว้λ

ปัญหาของการใช้การแจกแจงปัวซงสำหรับข้อมูลในชีวิตจริงคือมันถือว่าค่าเฉลี่ยเท่ากับความแปรปรวน การละเมิดสมมติฐานนี้เรียกว่าการใช้เกินขีดจำกัด ในกรณีเช่นนี้คุณสามารถใช้แบบจำลองกึ่ง - ปัวซองรูปแบบบันทึกเชิงเส้นที่ไม่ใช่ปัวซอง (สำหรับจำนวนมากปัวซงสามารถประมาณได้โดยการแจกแจงแบบปกติ), การถดถอยแบบทวินามเชิงลบ (เกี่ยวข้องกับปัวซอง; รุ่นอื่น ๆ ตามที่อธิบายไว้โดยสเตฟาน Kolassa

สำหรับการแนะนำการถดถอยแบบปัวซองอย่างเป็นมิตรคุณสามารถตรวจสอบเอกสารโดย Lavery (2010) หรือ Coxe, West และ Aiken (2009)


Lavery, R. (2010) คู่มือภาพเคลื่อนไหว: บทนำสู่การถดถอยของปัวซอง กระดาษ NESUG, sa04

Coxe, S. , West, SG, & Aiken, LS (2009) การวิเคราะห์ข้อมูลการนับ: การแนะนำอย่างอ่อนโยนสำหรับการถดถอยปัวซองและทางเลือกอื่น วารสารการประเมินบุคลิกภาพ, 91 (2), 121-136

Berk, R. , & MacDonald, JM (2008) การถดถอยมากเกินไปและการถดถอยปัวซอง วารสารวิทยาเชิงปริมาณ, 24 (3), 269-284


2
คุณปรับการกระจายแบบปัวซงให้เหมาะสมด้วยการใช้การถดถอยแบบปัวซอง ไม่ใช่ข้อกำหนดที่แน่นอนสำหรับการถดถอยของปัวซองว่าการตอบสนองนั้นมีการแจกแจงปัวซอง การถดถอยปัวซองทำงานได้ดีสำหรับการตอบสนองเชิงบวกที่หลากหลายรวมถึงตัวแปรที่วัดได้ด้วย เป็นความคิดที่ดีที่จะระมัดระวังเกี่ยวกับข้อผิดพลาดมาตรฐานสำหรับการอนุมาน ดูเช่นblog.stata.com/2011/08/22/…
Nick Cox

@NickCox ถูกต้อง แต่คำถามนั้นเกี่ยวกับข้อมูลการนับอย่างเคร่งครัดดังนั้นจึงไม่มีความจำเป็นที่จะต้องลงรายละเอียดเกี่ยวกับการใช้งานอื่น ๆ ของการถดถอยปัวซอง
ทิม

3
ไม่จำเป็นต้องไปลงรายละเอียดตกลง แต่เหตุผลที่จะผลักดันปัวซองถดถอยเล็กน้อย ยูทิลิตี้มันเป็นที่รู้จักกันน้อยอย่างน่าอัศจรรย์; มันสมควรที่จะอยู่ในตำรากลางอื่น ๆ อีกมากมายอย่างน้อย นอกจากนี้และที่สำคัญฉันไม่เห็นด้วยเลยว่าเมื่อความแปรปรวนไม่เท่ากับค่าเฉลี่ยคุณควรใช้รุ่นอื่น สิ่งนี้ทำให้เกิดปัญหาที่แตกต่างกันสองอย่าง
Nick Cox

ยิ่งไปกว่านั้นความจริงที่ว่าปัวซงถดถอยสามารถใช้กับตัวแปรที่วัดได้นั้นมีความเกี่ยวข้องเช่นในกรณีดังกล่าวว่าค่าเฉลี่ยความแปรปรวนไม่ได้มีความหมายเพราะมีมิติที่แตกต่างกัน กรณีดังกล่าวจึงเน้นย้ำว่าความต้องการไม่มีสิ่งนั้น
Nick Cox

3
ประสบการณ์(X)

0

ปัวซองหรือทวินามลบเป็นสองรุ่นที่ใช้กันอย่างแพร่หลายสำหรับข้อมูลนับ ฉันเลือกใช้ทวินามลบเพราะมีสมมติฐานที่ดีกว่าสำหรับความแปรปรวน


3
คุณหมายถึงอะไร "ดีกว่า"?
ทิม

2
ตามที่กล่าวมานี่เป็นความคิดเห็นมากกว่าคำตอบ คุณคิดว่าคุณสามารถขยายมันได้หรือไม่? คุณควรคิดถึงความคิดเห็นของทิม - คำว่า "ดีกว่า" นั้นคลุมเครือมาก
Silverfish

โมเดลลบทวินาม (NB) จัดการกับข้อมูลการนับจำนวนมาก (OD) โดยสมมติว่ามันเกิดจากการรวมกลุ่ม จากนั้นใช้โมเดลการสกัดกั้นแบบสุ่มที่มีโครงสร้างปัวซองกระจาย 'ภายใน' และแกมม่ากระจาย 'ระหว่าง' โครงสร้าง ซึ่งจะดีกว่าขึ้นอยู่กับสมมติฐานของคุณสำหรับ OD หากคุณถือว่าระดับ OD แตกต่างกันไปตามขนาดของคลัสเตอร์ NB อาจช่วยได้ ถ้าคุณสมมติว่าคุณถือว่า OD เป็นสัดส่วนกับขนาดของคลัสเตอร์ quasi-poisson มีสมมติฐานนี้ ประมาณการ NB จะมีอคติถ้า OD เป็นเพียงเสียงเกาส์เซียน ปัวซองจะมีอคติน้อยลง แต่ข้อผิดพลาดมาตรฐานอาจน้อยเกินไปเมื่อใช้ OD
Mainard
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.