การแจกแจงปัวซงทำงานอย่างไรเมื่อสร้างแบบจำลองข้อมูลต่อเนื่องและทำให้ข้อมูลสูญหาย


20

เพื่อนร่วมงานกำลังวิเคราะห์ข้อมูลทางชีววิทยาบางอย่างเพื่อทำวิทยานิพนธ์ของเธอด้วย Heteroscedasticity ที่น่ารังเกียจ (ดังรูปด้านล่าง) เธอวิเคราะห์ด้วยโมเดลผสม แต่ยังคงมีปัญหากับส่วนที่เหลือ

การเปลี่ยนบันทึกการตอบสนองตัวแปรการทำความสะอาดสิ่งต่าง ๆ ขึ้นอยู่กับความคิดเห็นของคำถามนี้ดูเหมือนจะเป็นวิธีการที่เหมาะสม อย่างไรก็ตามในขั้นต้นเราคิดว่ามีปัญหาในการใช้ตัวแปรที่แปลงแล้วกับตัวแบบผสม ปรากฎว่าเราตีความคำแถลงผิด ๆ ในSASของ Littell & Milliken (2006) สำหรับแบบจำลองผสมซึ่งชี้ให้เห็นว่าเหตุใดจึงไม่เหมาะสมในการแปลงข้อมูลการนับและวิเคราะห์ด้วยแบบจำลองเชิงเส้นเชิงเส้นปกติ(ใบเสนอราคาเต็มด้านล่าง) .

วิธีการที่ปรับปรุงส่วนที่เหลือคือการใช้โมเดลเชิงเส้นทั่วไปกับการแจกแจงปัวซอง ฉันได้อ่านแล้วว่าการแจกแจงปัวซงสามารถใช้สำหรับการสร้างแบบจำลองข้อมูลต่อเนื่อง (เช่นที่กล่าวถึงในโพสต์นี้) และแพคเกจสถิติอนุญาต แต่ฉันไม่เข้าใจว่าเกิดอะไรขึ้นเมื่อแบบจำลองนั้นพอดี

เพื่อจุดประสงค์ในการทำความเข้าใจวิธีการคำนวณที่แฝงอยู่คำถามของฉันคือ: เมื่อคุณใส่การแจกแจงแบบปัวซงเป็นข้อมูลแบบต่อเนื่อง1)ข้อมูลจะถูกปัดเศษเป็นจำนวนเต็มที่ใกล้ที่สุด2) หรือไม่3)เมื่อใดควรใช้แบบจำลองปัวซองสำหรับข้อมูลต่อเนื่องหรือไม่

Littel & Milliken 2006, pg 529 "การแปลงข้อมูล [count] อาจเป็นการต่อต้านตัวอย่างเช่นการแปลงสามารถบิดเบือนการแจกแจงของเอฟเฟกต์แบบสุ่มหรือความเป็นเชิงเส้นของโมเดลที่สำคัญกว่าการแปลงข้อมูลยังคงเปิดโอกาส ของจำนวนที่คาดการณ์เชิงลบดังนั้นการอนุมานจากตัวแบบผสมที่ใช้ข้อมูลที่แปลงแล้วเป็นที่น่าสงสัยอย่างมาก "

ป้อนคำอธิบายรูปภาพที่นี่


1
เช่น @Tomas ฉันรู้ว่าไม่มีเหตุผลที่คุณไม่ควรแปลงตัวแปรต่อหน้าโมเดลผสมและฉันได้อ่านหัวข้อนี้ค่อนข้างน้อย ฉันมีหนังสือ Ramon และ Littel .... คุณกำลังอ้างอิงหน้าใดอยู่
Peter Flom - Reinstate Monica

ปรากฎว่าเราตีความคำสั่งผิดพลาดในหน้า pg 529
N Brouwer

คำตอบ:


22

ฉันได้ประเมินผลลัพธ์เชิงบวกอย่างต่อเนื่องการถดถอยของปัวซองด้วยตัวประมาณค่าเชิงเส้นของฮิว / ขาว / แซนวิชเชิงเส้นของความแปรปรวนค่อนข้างบ่อย อย่างไรก็ตามนั่นไม่ใช่เหตุผลที่ดีที่จะทำสิ่งใดดังนั้นนี่คือข้อมูลอ้างอิงจริง

จากทางด้านทฤษฎีไม่ไม่จำเป็นต้องเป็นจำนวนเต็มสำหรับสำหรับประมาณการตามฟังก์ชั่นความน่าจะเป็น Poisson เพื่อให้สอดคล้อง สิ่งนี้แสดงใน Gourieroux, Monfort และ Trognon (1984) สิ่งนี้เรียกว่า Poisson PMLE หรือ QMLE สำหรับความน่าจะเป็น Pseudo / Quasi สูงสุด y

นอกจากนี้ยังมีหลักฐานการจำลองสถานการณ์ที่น่าดึงดูดใจจากSantos Silva และ Tenreyro (2006)ซึ่ง Poisson มาแสดงได้ดีที่สุด นอกจากนี้ยังไม่ดีในการจำลองที่มีจำนวนมากของศูนย์ในผล คุณสามารถจำลองสถานการณ์ของคุณเองได้อย่างง่ายดายเพื่อโน้มน้าวตัวเองว่าสิ่งนี้ใช้ได้ในกรณีเกล็ดหิมะของคุณ

สุดท้ายคุณยังสามารถใช้ GLM กับฟังก์ชั่นลิงค์ลิงค์และตระกูลปัวซอง สิ่งนี้ให้ผลลัพธ์ที่เหมือนกันและปิดปากปฏิกิริยาการกระตุกเข่านับข้อมูลเท่านั้น

การอ้างอิงที่ไม่มีลิงก์ที่ไม่ได้ทำการบันทึก:

Gourieroux, C. , A. Monfort และ A. Trognon (1984) “ วิธีหลอกความเป็นไปได้สูงสุด: การประยุกต์ใช้กับแบบจำลองปัวซอง,” เศรษฐมิติ , 52, 701-720


2
ดูรายการบล็อกที่ดีนี้ในบล็อก Stata ที่เขียนโดย Bill Gould - blog.stata.com/2011/08/22/ …
boscovich

1
คุณพูดว่า: "...ไม่จำเป็นต้องเป็นจำนวนเต็มสำหรับตัวประมาณตามฟังก์ชันความน่าจะเป็นปัวซองเพื่อให้สอดคล้องกันข้อมูลไม่จำเป็นต้องเป็นปัวซองด้วยซ้ำ" --- จุดทั้งสองนั้นดูเหมือนจะขัดแย้งกัน คำแรกควรรวมคำว่า " ไม่ " ระหว่าง "ไม่" และ "ต้องการ" หรือไม่? y
Glen_b -Reinstate Monica

มีการโพสต์ที่เกี่ยวข้องบนบล็อก Stata ว่าข้อเสนอหลักฐานจำลองเพิ่มเติม
Dimitriy V. Masterov

6

การกระจายปัวซองนั้นใช้สำหรับการนับข้อมูลเท่านั้นการพยายามป้อนด้วยข้อมูลต่อเนื่องเป็นสิ่งที่น่ารังเกียจและฉันเชื่อว่าไม่ควรทำ หนึ่งในเหตุผลคือคุณไม่ทราบวิธีการปรับขนาดตัวแปรต่อเนื่องของคุณ และปัวซองก็ขึ้นอยู่กับขนาดของมันมาก! ฉันพยายามที่จะอธิบายด้วยตัวอย่างง่ายๆที่นี่ ดังนั้นด้วยเหตุผลนี้เพียงอย่างเดียวฉันไม่ได้ใช้ปัวซองสำหรับสิ่งอื่นนอกจากการนับข้อมูล

ยังจำได้ว่า GLM ทำ 2 สิ่ง - ฟังก์ชั่นลิงก์ (เปลี่ยน var การตอบกลับเข้าสู่ระบบในกรณี Poisson) และส่วนที่เหลือ (การกระจาย Poisson ในกรณีนี้) คิดถึงงานทางชีวภาพเกี่ยวกับสิ่งตกค้างจากนั้นเลือกวิธีการที่เหมาะสม บางครั้งก็เหมาะสมที่จะใช้การแปลงบันทึก แต่อยู่กับสารตกค้างกระจายตามปกติ

"แต่ดูเหมือนว่าภูมิปัญญาดั้งเดิมคือคุณไม่ควรแปลงข้อมูลที่เข้าสู่รูปแบบผสม"

ฉันได้ยินครั้งแรก! ไม่สมเหตุสมผลเลยสำหรับฉันเลย แบบผสมสามารถเป็นแบบจำลองเชิงเส้นปกติได้เช่นเดียวกับเอฟเฟกต์แบบสุ่ม คุณช่วยอ้างอิงที่นี่ได้ไหม? ในความคิดของฉันถ้าบันทึกการเปลี่ยนแปลงล้างสิ่งต่าง ๆ เพียงใช้


ขอบคุณสำหรับความช่วยเหลือ สิ่งที่ฉันคิดว่าเป็น "ภูมิปัญญาดั้งเดิม" คือการอ่านผิดของ Littel และ Milliken ฉันได้แก้ไขคำถามของฉันและเพิ่มใบเสนอราคาจาก L & M 2006 แล้ว
N Brouwer

@NBrouwer: ใช่ดูเหมือนว่าคุณตีความมันผิดจริง ๆ การแปลงข้อมูลการนับเป็นเรื่องที่น่ารังเกียจและเป็นเรื่องที่น่ารังเกียจยิ่งกว่าที่จะแปลงข้อมูลอย่างต่อเนื่องเพื่อนับจำนวนข้อมูลและพยายามให้พอดีกับปัวซอง นั่นคือสิ่งที่ฉันพยายามอธิบายให้คุณ อย่าทำมัน เพียงแค่บันทึกการแปลงข้อมูลอย่างต่อเนื่องตามที่คุณต้องการ นี่เป็นเรื่องธรรมดามากในสถิติไม่จำเป็นต้องกังวล
อยากรู้อยากเห็น

5

ต่อไปนี้เป็นอีกการอภิปรายที่ยอดเยี่ยมเกี่ยวกับวิธีการใช้โมเดลปัวซองเพื่อให้สอดคล้องกับบันทึกการถดถอย: http://blog.stata.com/2011/08/22/use-poisson-rather-than-regress-tell-a-friend/ (ฉันบอกเพื่อนเช่นเดียวกับรายการบล็อกแนะนำ) แรงผลักดันขั้นพื้นฐานคือเราจะใช้เฉพาะส่วนของโมเดลปัวซงนั่นคือล็อกลิงค์ ส่วนที่ต้องการความแปรปรวนให้เท่ากับค่าเฉลี่ยสามารถถูกแทนที่ด้วยการประมาณค่าความแปรปรวนแบบแซนด์วิช นี่คือทั้งหมดสำหรับข้อมูล iid; ส่วนขยายคลัสเตอร์ / ผสมรูปแบบได้รับการอ้างอิงอย่างถูกต้องโดย Dimitriy Masterov


1

หากปัญหาคือการปรับความแปรปรวนด้วยค่าเฉลี่ย แต่คุณมีข้อมูลต่อเนื่องคุณเคยคิดที่จะใช้การแจกแจงแบบต่อเนื่องที่สามารถรองรับปัญหาที่คุณมีอยู่ได้หรือไม่ บางทีแกมม่า? ความแปรปรวนจะมีความสัมพันธ์แบบสมการกำลังสองกับค่าเฉลี่ย - เหมือนกับทวินามลบ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.