การถดถอยปัวซองที่ไม่ทำให้เป็นศูนย์


14

สมมติว่ามีความเป็นอิสระและY=(Y1,,Yn)

Yi=0with probability pi+(1pi)eλiYi=kwith probability (1pi)eλiλik/k!

นอกจากนี้ยังคิดว่าพารามิเตอร์และP = ( P 1 , ... , P n )ความพึงพอใจλ=(λ1,,λn)p=(p1,,pn)

log(λ)=Bβlogit(p)=log(p/(1p))=Gλ.

หากค่าความแปรปรวนร่วมเดียวกันมีผลต่อและpดังนั้นB = Gแล้วเหตุใดการถดถอยแบบปัวซองที่ไม่พองตัวจึงต้องมีพารามิเตอร์สองเท่าของการถดถอยแบบปัวซองλpB=G


2
คุณยังมีการประเมินและλ BและGเป็นเมทริกซ์การออกแบบ (ข้อมูล) ดังนั้นค่าเท่ากันจะไม่ลดขนาดของพื้นที่พารามิเตอร์ βλBG
แมโคร

@Macro: ถ้าเป็นคอลัมน์ของคนแล้วทำไมเราต้องใช้พารามิเตอร์อีก 1 พารามิเตอร์เพื่อประมาณกว่าการถดถอยแบบปัวซอง? G
Damien

ดีที่คุณจะต้องประเมิน (ที่ "ตัด" ในส่วนของรูปแบบโลจิสติก) และλ ฉัน (ที่ "ตัด" ในส่วนของรูปแบบ Poisson) เพื่อมี 2 พารามิเตอร์แทน 1.piλi
มาโคร

1
@Robby เพื่อลดจำนวนพารามิเตอร์ที่คุณจะต้องสร้างข้อ จำกัด ตัวอย่างเช่นแม้ว่าจะไม่มีเหตุผลที่จะคิดว่าสิ่งนี้สมเหตุสมผล - โดยเฉพาะอย่างยิ่งเนื่องจากฟังก์ชั่นลิงก์แตกต่างกัน λ=β
Macro

3
@MichaelChernick - มันถูกเรียกว่าปัวซอง zero-inflated เพราะคุณมักจะ "พอง" ความน่าจะเป็นที่จะเห็นค่าศูนย์จากค่าปัวซงในขณะที่ยังคงความน่าจะเป็นสัมพัทธ์แบบเดียวกันของการเห็นค่าที่ไม่เป็นศูนย์เหมือนปัวซอง
jbowman

คำตอบ:


2

ในกรณี Poisson ศูนย์ที่สูงขึ้นถ้าแล้วβและλทั้งสองมีความยาวเดียวกันซึ่งเป็นจำนวนคอลัมน์ของBหรือG ดังนั้นจำนวนของพารามิเตอร์จึงเป็นสองเท่าของจำนวนคอลัมน์ของเมทริกซ์การออกแบบนั่นคือสองเท่าของจำนวนตัวแปรอธิบายรวมถึงการสกัดกั้นB=GβλBG

ในการถดถอยปัวซองตรงไม่มีเวกเตอร์กังวลเกี่ยวกับการไม่จำเป็นต้องประเมินλ ดังนั้นจำนวนของพารามิเตอร์เป็นเพียงความยาวของβนั่นคือครึ่งหนึ่งของจำนวนพารามิเตอร์ในกรณีที่ไม่พองpλβ

ตอนนี้ไม่มีเหตุผลใดที่ทำให้ต้องเท่ากับGแต่โดยทั่วไปแล้วสมเหตุสมผล แต่หนึ่งสามารถจินตนาการเป็นกระบวนการที่ก่อให้เกิดข้อมูลที่โอกาสของการมีเหตุการณ์ใด ๆ ที่ถูกสร้างขึ้นโดยกระบวนการหนึ่งG λและกระบวนการที่แตกต่างอย่างสิ้นเชิงB βไดรฟ์ว่าหลายเหตุการณ์ที่เกิดขึ้นมีให้ไม่ใช่ศูนย์เหตุการณ์ เป็นตัวอย่างที่วางแผนไว้ฉันเลือกห้องเรียนตามคะแนนสอบประวัติของพวกเขาเพื่อเล่นเกมที่ไม่เกี่ยวข้องแล้วสังเกตจำนวนเป้าหมายที่พวกเขาทำคะแนน ในกรณีนี้ Bอาจจะค่อนข้างแตกต่างกับG (ถ้าคะแนนการสอบประวัติการขับขี่สิ่งต่าง ๆ กับประสิทธิภาพการขับขี่ในเกม) และβและλBGGλBβBGβλอาจมีความยาวแตกต่างกัน อาจมีคอลัมน์มากกว่าBหรือน้อยกว่า ดังนั้นโมเดลปัวซอง zero-พองตัวในกรณีนั้นจะมีพารามิเตอร์มากกว่าแบบปัวซองแบบง่ายGB

ในทางปฏิบัติทั่วไปฉันคิดว่าส่วนใหญ่G=B

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.