ในโมเดลปัวซองความแตกต่างระหว่างการใช้เวลาในรูปของ covariate หรือออฟเซ็ตคืออะไร


18

ฉันเพิ่งค้นพบวิธีจำลองแบบการเปิดเผยเมื่อเวลาผ่านไปโดยใช้บันทึกเวลา (เช่น) เป็นการชดเชยในการถดถอยของปัวซอง

ฉันเข้าใจว่าออฟเซ็ตสอดคล้องกับการมีเวลาเป็น covariate กับสัมประสิทธิ์ 1

ฉันต้องการเข้าใจความแตกต่างระหว่างการใช้เวลาเป็นออฟเซ็ตหรือ covariate ปกติดีกว่า (ดังนั้นการประมาณค่าสัมประสิทธิ์) ฉันควรใช้วิธีใดวิธีหนึ่งในสถานการณ์ใด

การอัปเกรด: ฉันไม่รู้ว่ามันน่าสนใจหรือไม่ แต่ฉันรันการตรวจสอบความถูกต้องของสองวิธีโดยใช้ข้อมูลแยกแบบสุ่มซ้ำ 500 ครั้งและฉันสังเกตเห็นว่าการใช้วิธีการชดเชยทำให้เกิดข้อผิดพลาดในการทดสอบที่มากขึ้น

คำตอบ:


25

ออฟเซ็ตสามารถใช้ในรูปแบบการถดถอยใด ๆ แต่เป็นเรื่องธรรมดามากเมื่อทำงานกับข้อมูลนับสำหรับตัวแปรตอบกลับของคุณ อ็อฟเซ็ตเป็นเพียงตัวแปรที่ถูกบังคับให้มีค่าสัมประสิทธิ์เท่ากับ1ในโมเดล (โปรดดูหัวข้อ CV ที่ยอดเยี่ยมเช่นนี้: ควรใช้การชดเชยในการถดถอยแบบปัวซองเมื่อใด )

เมื่อนำมาใช้อย่างถูกต้องกับข้อมูลนับนี้จะช่วยให้คุณสร้างแบบจำลองอัตราแทนการนับ หากสิ่งนั้นเป็นสิ่งที่น่าสนใจ ดังนั้นนี่คือบริบทที่มีการใช้งานออฟเซ็ตบ่อยที่สุด ลองพิจารณา Poisson GLiM พร้อมลิงค์บันทึก (ซึ่งก็คือลิงก์แบบบัญญัติ)

ln(λ)=β0+β1X(counts)ln(λtime)=β0+β1X(rates)ln(λ)ln(time)=β0+β1Xln(λ)=β0+β1X+1×ln(time)(still rates)ln(λ)=β0+β1X+β2×ln(time)when β21(counts again)

(อย่างที่คุณเห็นกุญแจสำคัญในการใช้การชดเชยอย่างถูกต้องคือการสร้างชดเชยไม่ t ฉันm .) ln(time)time

เมื่อสัมประสิทธิ์ไม่ใช่1คุณจะไม่ได้ทำแบบจำลองอีกต่อไป แต่เนื่องจากβ 2( - , 1 ) ( 1 , )มอบความยืดหยุ่นที่มากขึ้นเพื่อให้พอดีกับข้อมูลรุ่นที่ไม่ใช้ln ( t i m e )เนื่องจากการชดเชยจะเหมาะสมกว่า (แม้ว่าพวกเขาอาจ ยังพอดีมากเกินไป) ln(time)1β2(,1)(1,)ln(time)


ไม่ว่าคุณควรจะนับจำนวนรูปแบบหรืออัตราจริง ๆ ขึ้นอยู่กับคำถามที่แท้จริงของคุณ คุณควรสร้างแบบจำลองที่สอดคล้องกับสิ่งที่คุณต้องการรู้

เท่าที่ความหมายสำหรับไม่ใช่1ให้พิจารณาตัวอย่างที่เวลาไม่ใช่ตัวแปรที่เป็นปัญหา ลองนึกภาพการศึกษาจำนวนของภาวะแทรกซ้อนการผ่าตัดในโรงพยาบาลต่างๆ โรงพยาบาลแห่งหนึ่งมีรายงานภาวะแทรกซ้อนจากการผ่าตัดอีกหลายแห่ง แต่พวกเขาอาจอ้างว่าการเปรียบเทียบนั้นไม่ยุติธรรมเพราะพวกเขาทำการผ่าตัดอีกหลายครั้ง ดังนั้นคุณตัดสินใจที่จะลองควบคุมสิ่งนี้ คุณสามารถใช้บันทึกจำนวนการทำศัลยกรรมเป็นค่าชดเชยซึ่งจะช่วยให้คุณศึกษาอัตราการเกิดภาวะแทรกซ้อนต่อการผ่าตัด นอกจากนี้คุณยังสามารถใช้บันทึกจำนวนการผ่าตัดเป็นตัวแปรร่วมอื่นได้ สมมุติว่าสัมประสิทธิ์แตกต่างจาก1อย่างมาก ถ้าβ 2 > 1β211β2>1แล้วโรงพยาบาลที่ทำศัลยกรรมมากกว่าจะมีอัตราแทรกซ้อนสูงกว่า (อาจเป็นเพราะพวกเขากำลังรีบหางานให้ทำมากขึ้น) หากโรงพยาบาลที่ทำมากที่สุดมีภาวะแทรกซ้อนน้อยกว่าต่อการผ่าตัด (บางทีพวกเขาอาจมีแพทย์ที่ดีที่สุดและทำมากขึ้นและทำดีกว่า) β2<1

มาดูกันว่ามันจะเกิดอะไรขึ้นถ้าตัวแปรที่เป็นปัญหานั้นมีเวลาซับซ้อนกว่าเล็กน้อย การแจกแจงปัวซงเกิดขึ้นจากกระบวนการปัวซองซึ่งเวลาระหว่างเหตุการณ์ถูกแจกแจงแบบยกกำลังและด้วยเหตุนี้มีการเชื่อมต่อตามธรรมชาติกับการวิเคราะห์การอยู่รอด ในการวิเคราะห์การเอาตัวรอดเวลาในเหตุการณ์มักไม่ถูกแจกแจงแบบเอกซ์โปเนนเชียล แต่ความอันตรายพื้นฐานอาจมากหรือน้อยกว่าเมื่อเวลาผ่านไป ดังนั้นให้พิจารณากรณีที่คุณกำลังสร้างแบบจำลองจำนวนเหตุการณ์ที่เกิดขึ้นตามจุดเริ่มต้นที่เป็นธรรมชาติ ถ้านั่นหมายถึงอัตราของเหตุการณ์เร่งขึ้นในขณะที่ถ้าβ 2 < 1β2>1β2<1นั่นหมายถึงอัตราของเหตุการณ์กำลังช้าลง

สำหรับตัวอย่างที่เป็นรูปธรรมในอดีตลองจินตนาการถึงการสแกนที่นับจำนวนเซลล์มะเร็งเป็นระยะเวลาหนึ่งหลังจากที่เนื้องอกเริ่มต้นถูกกำจัดออกไป สำหรับผู้ป่วยบางรายเวลาผ่านไปมากขึ้นตั้งแต่การผ่าตัดและคุณต้องการคำนึงถึงเรื่องนี้ เนื่องจากเมื่อมะเร็งฟื้นกลับมาตั้งหลักแล้วมันจะเริ่มเติบโตอย่างทวีคูณอัตราจะเพิ่มขึ้นตลอดเวลาตั้งแต่การผ่าตัดโดยไม่ต้องรักษาเพิ่มเติม

สำหรับตัวอย่างที่เป็นรูปธรรมของสิ่งหลังให้พิจารณาจำนวนคนที่ตายจากโรคระบาดที่เราไม่ได้รับการรักษา ในตอนแรกผู้คนจำนวนมากตายเพราะพวกเขามีความเสี่ยงต่อโรคนั้นมากขึ้นหรือมีระบบภูมิคุ้มกันที่ได้รับอันตรายอยู่แล้วเป็นต้นเมื่อเวลาผ่านไปเนื่องจากจำนวนประชากรของผู้คนที่เหลืออยู่มีความไวต่อโรคลดลง (ขออภัยตัวอย่างนี้เป็นโรคมาก)


y=timeexp(1pβpXp+const)y=timeβtimeexp(1pβpXp+const)

1
เหตุใดจึงควรสมมติว่าความสัมพันธ์ระหว่างเวลาและเหตุการณ์ต่าง ๆ เป็นเส้นตรงและเติบโต จะไม่ดีกว่าที่จะประเมินรูปร่างของความสัมพันธ์ดังกล่าวในทุกกรณีหรือไม่ ฉันมีคำถามอีกสองข้อ: 1. การใช้เวลาที่ไม่ได้แปลงสภาพเป็น covariate หมายถึงอะไร 2. (บางทีฉันควรแก้ไขคำถามหรือถามคำถามใหม่สำหรับเรื่องนี้) ฉันอ่านว่าแบบจำลองปัวซองสามารถใช้งานได้จริงด้วยจำนวนเต็มไม่ใช่ y ดังนั้นฉันสามารถเขียนใน R: glm (I (y / เวลา) ~ cov.1 + ... + cov.n, poisson) และมีผลลัพธ์เดียวกันกับที่ฉันใช้ offset (log (เวลา)) ฉันลองสิ่งนี้ แต่ฉันได้ค่าสัมประสิทธิ์ที่แตกต่างกัน
Bakaburg

Poisson dist ใช้สำหรับจำนวนเต็มเท่านั้น คุณไม่ควรป้อนเศษส่วนใน LHS การไม่ใช้การแปลงบันทึกหมายถึงการสร้างแบบจำลองของเหตุการณ์ต่อหน่วยเวลาแบบเอ็กซ์โพเนนเชียลซึ่งอาจจะไม่สมเหตุสมผลในโลกแห่งความเป็นจริง
gung - Reinstate Monica

1
@Bakaburg เวลาอาจมีความสัมพันธ์กับพวกเขา นั่นไม่ได้แตกต่างจากสถานการณ์การสร้างแบบจำลองการถดถอยอื่น ๆ ฉันไม่เห็นปัญหาที่นี่ คุณมีความสนใจในการสร้างแบบจำลองอัตราเฉลี่ยหรือคุณไม่ได้
gung - Reinstate Monica

1
@tatami ถ้าคุณจะใช้เวลาเป็น covariate (แทนที่จะเป็น offset) คุณไม่จำเป็นต้องบันทึกเวลา อย่างไรก็ตามหากคุณต้องการเปรียบเทียบผลลัพธ์ของคุณกับออฟเซ็ตคุณจะต้องใช้บันทึกเพื่อให้สามารถเปรียบเทียบได้
gung - Reinstate Monica

7

มักจะสามารถดูการชดเชยเวลาในขณะที่แบบจำลองของคุณประเมินอัตราเหตุการณ์ที่เกิดขึ้นต่อหน่วยเวลาโดยมีการควบคุมออฟเซ็ตสำหรับระยะเวลาที่คุณสังเกตเห็นวัตถุต่าง ๆ

ในแบบจำลองปัวซองคุณมักจะประมาณอัตราที่สิ่งที่เกิดขึ้น แต่คุณไม่เคยสังเกตอัตรานี้โดยตรง คุณจะได้รับที่จะสังเกตเห็นจำนวนครั้งที่ว่าเหตุการณ์ที่เกิดขึ้นในช่วงระยะเวลาบางส่วน ออฟเซ็ตทำให้การเชื่อมต่อระหว่างสองแนวคิด

ตัวอย่างเช่นคุณสังเกตเห็นวัตถุที่ถ่ายภาพตะกร้าสำหรับระยะเวลาที่แตกต่างกันและคุณนับจำนวนตะกร้าสำเร็จสำหรับแต่ละเรื่อง สิ่งที่คุณสนใจจริง ๆว่าแต่ละเรื่องเก็บตะกร้าอย่างไรเช่นจำนวนตะกร้าที่ประสบความสำเร็จแต่ละเรื่องคาดว่าจะจมในแต่ละนาทีเนื่องจากเป็นการวัดทักษะของพวกเขา จำนวนตะกร้าที่คุณสังเกตเห็นว่าจมลงจริงจะเป็นอัตราที่ประเมินนี้คูณด้วยระยะเวลาที่คุณสังเกตเห็นความพยายามของวัตถุ ดังนั้นคุณสามารถคิดในแง่ของหน่วยการตอบสนองจำนวนตะกร้าต่อนาทีต่อนาที

มันยากที่จะคิดถึงสถานการณ์ที่คุณจะใช้เวลาที่สังเกตว่าเป็นค่าความแปรปรวนร่วมในการถดถอยแบบปัวซองเนื่องจากโดยธรรมชาติแล้วคุณกำลังประเมินอัตรา

ตัวอย่างเช่นหากฉันต้องการประเมินผลกระทบของการเป็นอเมริกันกับยุโรป (ตัวอย่างที่โง่มาก) กับจำนวนตะกร้าการเพิ่มเวลาเป็น covariate จะช่วยให้ฉันประเมินผล "อิสระ" จากช่วงเวลาที่ผ่านการยิงไม่ใช่ มัน? ยิ่งไปกว่านั้นมันจะให้ฉันประเมินผลของเวลาต่อผลลัพธ์

นี่คือตัวอย่างที่หวังว่าจะเน้นถึงอันตรายของสิ่งนี้ สมมติว่าในความเป็นจริงชาวอเมริกันและชาวยุโรปนั้นมีจำนวนตะกร้าเท่ากันทุกนาที แต่บอกว่าเราได้สังเกตดูชาวยุโรปแต่ละคนนานเป็นสองเท่าของชาวอเมริกันแต่ละคนดังนั้นโดยเฉลี่ยแล้วเราได้สังเกตกระเช้าสองใบสำหรับแต่ละคนในยุโรป

หากเราตั้งค่ารุ่นรวมถึงพารามิเตอร์สำหรับทั้งเวลาที่สังเกตและตัวบ่งชี้สำหรับ "is European" โมเดลทั้งสองนี้จะอธิบายข้อมูล:

E(baskets)=2ct+0xEropean
E(baskets)=0t+2cxEropean

c

ในฐานะนักสถิติเราต้องการแบบจำลองของเราเพื่อแจ้งให้เราทราบว่าไม่มีความแตกต่างทางสถิติระหว่างอัตราที่ยุโรปทำตะกร้าและอัตราที่ชาวอเมริกันทำตะกร้า แต่แบบจำลองของเราล้มเหลวและเราก็สับสน

ปัญหาคือเรารู้สิ่งที่แบบจำลองของเราไม่ทราบ นั่นคือเรารู้ว่าถ้าเราสังเกตบุคคลเดียวกันสองครั้งมากเท่าที่คาดหวังพวกเขาจะทำตะกร้าสองเท่า เนื่องจากเรารู้สิ่งนี้เราต้องบอกโมเดลของเราเกี่ยวกับเรื่องนี้ นี่คือสิ่งที่ชดเชยประสบความสำเร็จ

อาจใช้วิธีการชดเชยที่เหมาะสมเมื่อเรารู้ว่าเหตุการณ์เกิดขึ้นอย่างสม่ำเสมอตลอดเวลา!

ใช่ แต่นี้เป็นข้อสันนิษฐานของรูปแบบ Poisson ตัวเอง จากหน้าวิกิพีเดียในการกระจายปัวซอง

การแจกแจงปัวซงตั้งชื่อตามนักคณิตศาสตร์ชาวฝรั่งเศสSiméon Denis Poisson เป็นการแจกแจงความน่าจะเป็นแบบแยกซึ่งแสดงถึงความน่าจะเป็นของจำนวนเหตุการณ์ที่เกิดขึ้นในช่วงเวลาคงที่และ / หรือพื้นที่ถ้าเหตุการณ์เหล่านี้เกิดขึ้น นับตั้งแต่เหตุการณ์ที่ผ่านมา


2
ขอบคุณสำหรับคำตอบ. แต่การใช้เวลาในฐานะเพื่อนร่วมงานจะไม่ให้คำตอบเดียวกันได้หรือ ตัวอย่างเช่นถ้าฉันต้องการประเมินผลของการเป็นอเมริกันกับยุโรป (ตัวอย่างที่โง่มาก) กับจำนวนของตะกร้าการเพิ่มเวลาเป็น covariate จะช่วยให้ฉันประเมินผล "อิสระ" จากเวลาที่ผ่านการยิงไม่ใช่ มัน? ยิ่งไปกว่านั้นมันจะให้ฉันประเมินผลของเวลาต่อผลลัพธ์ บางครั้งเวลาไม่สำคัญเสมอไปที่ตัวแปรนับตัวอย่างเช่นเมื่อเหตุการณ์เกิดขึ้นทั้งหมดในช่วงเริ่มต้นของระยะเวลาการสังเกต
Bakaburg

อาจใช้วิธีการชดเชยที่เหมาะสมเมื่อเรารู้ว่าเหตุการณ์เกิดขึ้นอย่างสม่ำเสมอตลอดเวลา!
Bakaburg

1
@Bakaburg ฉันได้เพิ่มการตอบกลับที่พยายาม ฉันหวังว่ามันจะช่วย!
Matthew Drury
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.