ใช้การถดถอยปัวซองสำหรับข้อมูลอย่างต่อเนื่อง?


11

การแจกแจงปัวซงสามารถใช้ในการวิเคราะห์ข้อมูลแบบต่อเนื่องและข้อมูลแบบแยก

ฉันมีชุดข้อมูลสองสามชุดที่ตัวแปรตอบสนองต่อเนื่อง แต่มีลักษณะคล้ายกับการแจกแจงปัวซองแทนการแจกแจงแบบปกติ อย่างไรก็ตามการแจกแจงปัวซงเป็นการกระจายแบบไม่ต่อเนื่องและมักเกี่ยวข้องกับตัวเลขหรือจำนวน


การแจกแจงเชิงประจักษ์ของคุณแตกต่างจาก Gamma Variations อย่างไร?
whuber

1
ฉันใช้การแจกแจงแกมม่าสำหรับข้อมูลเหล่านี้ ถ้าคุณใช้การแจกแจงแกมม่ากับลิงค์บันทึกคุณจะได้ผลลัพธ์ที่ใกล้เคียงกับที่คุณได้รับจากแบบจำลองปัวซองที่กระจายตัวอยู่อย่างไรก็ตามในแพคเกจสถิติส่วนใหญ่ที่ฉันคุ้นเคยกับการถดถอยปัวซองนั้นง่ายกว่าและยืดหยุ่นกว่ามาก
user3136

จะมีการแจกแจงอื่น ๆ ที่ดีกว่าเช่นคำแนะนำของ whuber เกี่ยวกับแกมม่าหรือไม่
Peter Flom

1
@ PeterFlom - ฉันสงสัยว่าปัญหานี้เกิดขึ้นมากเพราะแพ็คเกจ glmnet ใน R ไม่รองรับทั้งครอบครัว Gamma หรือตระกูล Gaussian ที่มีฟังก์ชั่นบันทึกลิงค์ อย่างไรก็ตามเนื่องจาก glmnet ใช้เป็นแพคเกจการสร้างแบบจำลองการคาดการณ์ (ผู้ใช้จึงสนใจเฉพาะค่าสัมประสิทธิ์ของโมเดลเท่านั้นไม่ใช่ coeff. stnd error) และเนื่องจาก Poisson dbn ผลิต coeff ที่สอดคล้องกัน ประมาณการสำหรับแบบจำลองของรูปแบบ ln [E (y)] = beta0 + beta * X พร้อมการตอบสนองอย่างต่อเนื่องโดยไม่คำนึงถึงการแจกจ่ายฉันคาดว่าผู้เขียนของ glmnet จะไม่รำคาญรวมถึงครอบครัวเพิ่มเติมเหล่านี้
RobertF

คำตอบ:


12

สมมติฐานหลักของโมเดลเชิงเส้นทั่วไปที่เกี่ยวข้องที่นี่คือความสัมพันธ์ระหว่างความแปรปรวนและค่าเฉลี่ยของการตอบสนองที่กำหนดค่าของตัวทำนาย เมื่อคุณระบุการแจกแจงปัวซองสิ่งนี้หมายความว่าคุณกำลังสมมติว่าความแปรปรวนแบบมีเงื่อนไขเท่ากับค่าเฉลี่ยตามเงื่อนไข * รูปร่างที่แท้จริงของการแจกแจงไม่สำคัญมาก: อาจเป็นปัวซองหรือแกมม่าหรือปกติ หรือสิ่งอื่นใดตราบเท่าที่ความสัมพันธ์แปรปรวนนั้นมีอยู่

* คุณสามารถผ่อนคลายสมมติฐานที่ว่าค่าความแปรปรวนเท่ากับค่าเฉลี่ยของสัดส่วนและยังคงได้รับผลลัพธ์ที่ดี


9

หากคุณกำลังพูดถึงการใช้การตอบสนองแบบปัวซองในโมเดลเชิงเส้นแบบทั่วไปแล้วใช่ถ้าคุณยินดีที่จะตั้งสมมติฐานว่าความแปรปรวนของการสังเกตแต่ละครั้งจะเท่ากับค่าเฉลี่ย

หากคุณไม่ต้องการทำเช่นนั้นทางเลือกอื่นอาจเปลี่ยนการตอบสนอง (เช่นจดบันทึก)


ผมคิดว่านอกเหนือจากการจุดของคุณแม้ว่า @ user3136 ไม่เต็มใจที่จะทำให้ข้อสันนิษฐานของค่าเฉลี่ย = แปรปรวนเขา / เธอสามารถใช้ในครอบครัวquasipoisson glm
suncoolsu

2
แต่ปัญหาของฉันคือทำไมคุณต้องการแปลงข้อมูลอย่างต่อเนื่องเพื่อแยก มันสูญเสียข้อมูลเป็นหลัก นอกจากนี้เมื่อการlogแปลงแบบเรียบง่ายใช้งานได้ทำไมต้องแยกข้อมูลของคุณออก การใช้glmผลงาน แต่ผล
ลัพท์ที่ได้

@suncoolsu: 1) quasipoisson ทำให้สมมติฐานของสัดส่วนเฉลี่ยกับความแปรปรวน 2) ฉันไม่ได้หมายถึงการแปลงแบบไม่ต่อเนื่องฉันหมายถึงการแปลง (รักษาความต่อเนื่อง) เพื่อให้คุณสามารถใช้แบบจำลองที่แตกต่าง
Simon Byrne

ใช่ - ฉันเข้าใจเห็นด้วยกับคุณ ขออภัยฉันกำลังพูดถึงคำถาม เสมือนปัวซอง, คำนึงถึงผู้ใช้เกินขนาดจริงไหม? (ถ้าฉันจำได้ถูกต้อง cf Faraway 2006)
suncoolsu

ในกรณีพิเศษนี้ฉันไม่พอใจกับการเปลี่ยนแปลงใด ๆ ที่ฉันได้ลอง (log, sqrt, box-cox) ให้การประมาณที่ดีกับความเป็นมาตรฐาน อนึ่งถ้าฉันใช้วิธีการแปลงคะแนนปกติฉันก็สามารถแปลงข้อมูลส่วนใหญ่ให้อยู่ในเกณฑ์ปกติที่สวยงามได้ แต่ฉันไม่เคยเห็นการเปลี่ยนแปลงที่ใช้กันอย่างแพร่หลายดังนั้นฉันคิดว่ามีการเปลี่ยนแปลง (ยากที่จะแปลงกลับ)
user3136
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.