การถดถอยเชิงเส้นไม่ใช่ทางเลือกที่เหมาะสมสำหรับผลลัพธ์ของคุณเนื่องจาก:
- ตัวแปรผลลัพธ์จะไม่กระจายตามปกติ
- ตัวแปรผลลัพธ์ถูก จำกัด ในค่าที่สามารถรับได้ (ข้อมูลนับหมายความว่าค่าที่คาดการณ์ไม่สามารถเป็นค่าลบ)
- สิ่งที่ดูเหมือนจะมีความถี่สูงของกรณีที่มีการเข้าชม 0 ครั้ง
แบบจำลองตัวแปรตามที่ จำกัด สำหรับข้อมูลนับ
กลยุทธ์การประเมินที่คุณสามารถเลือกได้นั้นถูกกำหนดโดย "โครงสร้าง" ของตัวแปรผลลัพธ์ของคุณ นั่นคือถ้าตัวแปรผลลัพธ์ของคุณถูก จำกัด ในค่าที่สามารถดำเนินการได้ (เช่นถ้าเป็นตัวแปรที่ จำกัด ขึ้นอยู่กับ ) คุณต้องเลือกแบบจำลองที่ค่าที่ทำนายไว้จะอยู่ในช่วงที่เป็นไปได้สำหรับผลลัพธ์ของคุณ ในขณะที่บางครั้งการถดถอยเชิงเส้นเป็นการประมาณที่ดีสำหรับตัวแปรที่ จำกัด (เช่นในกรณีของไบนารี logit / probit) ซึ่งมักจะไม่ ใส่รุ่นเชิงเส้นทั่วไป ในกรณีของคุณเนื่องจากตัวแปรผลลัพธ์เป็นข้อมูลนับคุณมีหลายทางเลือก:
- โมเดลปัวซอง
- แบบจำลองทวินามลบ
- แบบจำลอง Zero Inflated Poisson (ZIP)
- แบบจำลอง Binomial ลบ (ZINB) Zero Inflated
ตัวเลือกมักจะถูกกำหนดโดยสังเกตุ ฉันจะพูดคุยสั้น ๆ เกี่ยวกับการเลือกระหว่างตัวเลือกเหล่านี้ด้านล่าง
ปัวซองกับลบชื่อทวินาม
โดยทั่วไป Poisson เป็นโมเดล "workhorse ทั่วไป" แบบ go-to ของโมเดลข้อมูลจำนวน 4 รายการที่ฉันได้กล่าวถึงข้างต้น ข้อ จำกัด ของตัวแบบคือการสันนิษฐานว่าความแปรปรวนแบบมีเงื่อนไข = ค่าเฉลี่ยแบบมีเงื่อนไขซึ่งอาจไม่เป็นจริงเสมอไป หากแบบจำลองของคุณมีการกระจายตัวมากเกินไป (ความแปรปรวนแบบมีเงื่อนไข> หมายถึงแบบมีเงื่อนไข) คุณจะต้องใช้แบบจำลองเชิงลบแบบทวินามแทน โชคดีที่เมื่อคุณเรียกใช้ Negative Binomial เอาต์พุตมักจะมีการทดสอบทางสถิติสำหรับพารามิเตอร์การกระจาย (R เรียกพารามิเตอร์การกระจายตัวนี้ว่า "theta ( )" ซึ่งเรียกว่า "alpha" ในแพ็คเกจอื่น ๆ สมมติฐานในการเลือกระหว่าง Poisson กับเชิงลบทวินามคือในขณะที่สมมติฐานทางเลือกคือ 0θH0: θ = 0H1: θ ≠ 0θมีความสำคัญมีหลักฐานว่ามีการกระจายตัวเกินขนาดในแบบจำลองและคุณจะเลือกลบแบบทวินามมากกว่าปัวซอง หากค่าสัมประสิทธิ์ไม่มีนัยสำคัญทางสถิติให้ผลลัพธ์ปัวซอง
ZIP เทียบกับ ZINB
สิ่งหนึ่งที่อาจเป็นไปได้คือภาวะเงินเฟ้อเป็นศูนย์ซึ่งอาจเป็นปัญหาที่นี่ นี่คือที่มาของ ZIP และ ZINB ที่มีรูปแบบเป็นศูนย์โดยใช้แบบจำลองเหล่านี้คุณคิดว่ากระบวนการสร้างค่าศูนย์จะแยกจากกระบวนการที่สร้างค่าอื่นที่ไม่ใช่ศูนย์ เช่นเดียวกับก่อนหน้า ZINB มีความเหมาะสมเมื่อผลลัพธ์มีเลขศูนย์มากเกินไปและเกินขนาดในขณะที่ ZIP มีความเหมาะสมเมื่อผลลัพธ์มีเลขศูนย์มากเกินไป แต่มีเงื่อนไขหมายถึง = ความแปรปรวนตามเงื่อนไข สำหรับโมเดลที่ไม่มีการเติมลมนอกเหนือจากโมเดล covariates ที่คุณได้ระบุไว้ข้างต้นคุณจะต้องคิดถึงตัวแปรที่อาจสร้างศูนย์ส่วนเกินที่คุณเห็นในผลลัพธ์ อีกครั้งมีการทดสอบทางสถิติที่มาพร้อมกับผลลัพธ์ของรุ่นเหล่านี้ (บางครั้งคุณอาจต้องระบุเมื่อคุณรันคำสั่ง) ที่จะช่วยให้คุณสังเกตุรูปแบบที่ดีที่สุดสำหรับข้อมูลของคุณ มีการทดสอบที่น่าสนใจสองแบบ: แบบแรกคือการทดสอบสัมประสิทธิ์ของพารามิเตอร์การกระจายตัวและสิ่งที่สองคือสิ่งที่เรียกว่าการทดสอบ Vuong ซึ่งจะบอกคุณว่าเลขศูนย์ส่วนเกินนั้นถูกสร้างขึ้นโดยกระบวนการแยกต่างหากหรือไม่ คือผลลัพธ์ที่แท้จริงคือเงินเฟ้อศูนย์)θ
ในการเปรียบเทียบตัวเลือกระหว่าง ZIP และ ZINB คุณจะดูการทดสอบพารามิเตอร์การกระจายอีกครั้ง อีกครั้ง (ZIP นั้นเหมาะกว่า) และ (ZINB เหมาะกว่า) การทดสอบ Vuong ช่วยให้คุณสามารถตัดสินใจระหว่าง Poisson กับ ZIP หรือ NB กับ ZINB สำหรับการทดสอบ Vuong, (Poisson / NB เป็นแบบที่ดีกว่า) และ (ZIP / ZINB เป็นแบบที่ดีกว่า)θH0: θ = 0H1:θ≠0H0:Excess zeroes is not a result of a separate processซีอีR o E s ฉันs R E s U ลิตรT o ฉs อีพีR ทีอีพีR o C E s sH1:Excess zeroes is a result of a separate process
ผู้ใช้รายอื่นสามารถแสดงความคิดเห็นในเวิร์กโฟลว์ "ปกติ" แต่วิธีการของฉันคือการแสดงข้อมูลและไปจากที่นั่น ในกรณีของคุณฉันอาจเริ่มต้นด้วย ZINB และรันทั้งการทดสอบค่าสัมประสิทธิ์บนและการทดสอบ Vuong เนื่องจากเป็นการทดสอบค่าสัมประสิทธิ์บนจะบอกคุณว่าอันไหนดีกว่าระหว่าง ZIP และ ZINB และ การทดสอบ Vuong จะบอกคุณว่าคุณควรใช้แบบจำลองที่มีค่าเป็นศูนย์หรือไม่ θθθ
สุดท้ายฉันไม่ได้ใช้ R แต่หน้าตัวอย่างการวิเคราะห์ข้อมูล IDRE ที่ UCLAสามารถแนะนำคุณในการปรับรุ่นเหล่านี้ให้เหมาะสม
[แก้ไขโดยผู้ใช้คนอื่นที่ไม่มีชื่อเสียงพอที่จะแสดงความคิดเห็น: บทความนี้อธิบายถึงสาเหตุที่คุณไม่ควรใช้การทดสอบ Vuong เพื่อเปรียบเทียบแบบจำลองอัตราเงินเฟ้อเป็นศูนย์และให้ทางเลือกอื่น
P. Wilson“ การทดสอบ Vuong ในทางที่ผิดสำหรับแบบจำลองที่ไม่ซ้อนเพื่อทดสอบ Zero-Inflation” จดหมายเศรษฐศาสตร์, ปี 2015, ฉบับที่ 127, ปัญหา C, 51-53 ]