คำถามพื้นฐานเกี่ยวกับการวิเคราะห์การเอาชีวิตรอดแบบไม่ต่อเนื่อง


18

ฉันพยายามวิเคราะห์การรอดชีวิตแบบไม่ต่อเนื่องโดยใช้แบบจำลองการถดถอยแบบโลจิสติกส์และฉันไม่แน่ใจว่าฉันเข้าใจกระบวนการทั้งหมดอย่างสมบูรณ์ ฉันขอขอบคุณสำหรับความช่วยเหลืออย่างมากกับคำถามพื้นฐานสองสามข้อ

นี่คือการตั้งค่า:

ฉันกำลังดูสมาชิกในกลุ่มภายในหน้าต่างเวลาห้าปี สมาชิกแต่ละคนมีบันทึกการเป็นสมาชิกรายเดือนสำหรับแต่ละเดือนที่สมาชิกอยู่ในกลุ่ม ฉันกำลังพิจารณาสมาชิกทั้งหมดที่สมาชิกเริ่มขึ้นในช่วงห้าปี (เพื่อหลีกเลี่ยงปัญหา "การเซ็นเซอร์ซ้าย" กับสมาชิกที่เข้าร่วมก่อนหน้านี้) แต่ละเร็กคอร์ดจะถูกทำดัชนีตามเวลาโดยเวลาหนึ่งคือเดือนที่สมาชิกเข้าร่วม ดังนั้นสมาชิกที่อยู่สองปีครึ่งจะมีบันทึกรายเดือนสามสิบหมายเลขจากหนึ่งถึงสามสิบ แต่ละเร็กคอร์ดจะได้รับตัวแปรไบนารีซึ่งจะมีค่าหนึ่งสำหรับเดือนสุดท้ายของการเป็นสมาชิกและเป็นศูนย์มิฉะนั้น ค่าหนึ่งสำหรับตัวแปรไบนารีทำเครื่องหมายเหตุการณ์ที่สมาชิกออกจากกลุ่ม สำหรับสมาชิกแต่ละคนที่ยังคงเป็นสมาชิกเกินกว่าหน้าต่างการวิเคราะห์ห้าปี

ดังนั้นรูปแบบการถดถอยโลจิสติกถูกสร้างขึ้นเพื่อทำนายค่าของตัวแปรเหตุการณ์ไบนารี จนถึงตอนนี้ดีมาก หนึ่งในวิธีทั่วไปในการประเมินรูปแบบการทำนายแบบไบนารี่คือการวัดการยกของตัวอย่างโฮลด์ สำหรับโมเดลการถดถอยโลจิสติกที่ฉันสร้างขึ้นเพื่อทำนายเหตุการณ์สิ้นสุดการเป็นสมาชิกฉันได้คำนวณการยกชุดข้อมูลที่เก็บไว้พร้อมกับอัตราส่วนห้าต่อหนึ่งของการไม่เกิดเหตุการณ์ต่อเหตุการณ์ ฉันจัดอันดับค่าที่ทำนายไว้เป็น deciles ช่วงทศวรรษที่มีค่าที่คาดการณ์ไว้สูงที่สุดนั้นมีค่าเจ็ดสิบเปอร์เซ็นต์ decile สองตัวแรกรวมกันมีหกสิบห้าเปอร์เซ็นต์ของทั้งหมดใน holdout ในบริบทบางอย่างนี้จะถือว่าเป็นรูปแบบการทำนายที่ค่อนข้างดี แต่ฉันสงสัยว่ามันดีพอที่จะทำการวิเคราะห์การอยู่รอด

Let h[j,k]เป็นฟังก์ชั่นอันตรายสำหรับบุคคลjในเดือนkและให้S[j,k]จะเป็นไปได้ว่าบุคคลjรอดผ่านเดือนkk

นี่คือคำถามพื้นฐานของฉัน:

  1. ฟังก์ชั่นอันตรายแบบไม่ต่อเนื่อง, h[j,k] , ความน่าจะเป็นแบบมีเงื่อนไขของการไม่รอด (ออกจากกลุ่ม) ในแต่ละเดือนหรือไม่?

  2. ค่าที่ทำนายจากการประมาณค่าแบบจำลองการถดถอยโลจิสติกส์ของฟังก์ชันอันตรายหรือไม่? (กล่าวคือเท่ากับแบบจำลองที่ทำนายค่าสำหรับjแต่ละตัวในเดือนkหรือทำอะไรมากกว่านี้ที่ต้องทำเพื่อให้ได้ค่าประมาณฟังก์ชันอันตราย?)h[j,k]jk

  3. ความน่าจะเป็นของการอยู่รอดถึงเดือน q สำหรับแต่ละเท่ากับผลิตภัณฑ์ของหนึ่งลบฟังก์ชันอันตรายจากเดือนหนึ่งถึงqนั่นคือ S [ j , q ] = ( 1 - h [ j , 1 ] ) ( 1 - h [ j , 2 ] ) ( 1 - h [ j , q ] ) ?jqS[j,q]=(1h[j,1])(1h[j,2])(1h[j,q])

  4. ค่าเฉลี่ยของเหนือบุคคลทุกคนjสำหรับแต่ละครั้งที่kโดยประมาณที่สมเหตุสมผลของจำนวนประชากรโดยรวมหมายถึงโอกาสในการอยู่รอดS[j,k]jk

  5. พล็อตของประชากรโดยรวมควรหมายถึงความน่าจะอยู่รอดในแต่ละเดือนซึ่งคล้ายกับกราฟรายเดือนของแคปแลน - ไมเออร์หรือไม่?

หากคำตอบของคำถามเหล่านี้ไม่ใช่ฉันก็มีความเข้าใจผิดอย่างรุนแรงและสามารถใช้ความช่วยเหลือ / คำอธิบายได้ นอกจากนี้ยังมีกฎง่ายๆสำหรับแบบจำลองการทำนายแบบไบนารีที่ดีแค่ไหนเพื่อที่จะสร้างโปรไฟล์การอยู่รอดที่ถูกต้อง?


บางทีนี่อาจช่วยคุณได้ในบางคำถาม
jujae

คำตอบ:


7

สมมติว่าKเป็นค่าที่ใหญ่ที่สุดของk (เช่นเดือน / งวดที่ใหญ่ที่สุดที่สังเกตได้ในข้อมูลของคุณ)

  1. นี่คือฟังก์ชั่นความเป็นอันตรายที่มีการ จำกัด เวลาแบบไม่ต่อเนื่องเต็มรูปแบบและมีเวกเตอร์ของพารามิเตอร์Bเวกเตอร์ของตัวแปรปรับสภาพX : hj,k=eαk+BX1+eαk+BX X ฟังก์ชั่นความเป็นอันตรายอาจถูกสร้างขึ้นรอบ ๆ การกำหนดพารามิเตอร์ทางเลือกของเวลา (เช่นรวมถึงkหรือฟังก์ชั่นของมันเป็นตัวแปรในรูปแบบ) หรือรอบไฮบริดของทั้งคู่

    พื้นฐานฟังก์ชั่นอันตราย logit อธิบายความน่าจะเป็นของการเกิดเหตุการณ์ในเวลาk , เงื่อนไขหลังจากรอดชีวิตเวลาk k การเพิ่มตัวทำนาย ( X ) ให้กับโมเดล จำกัด เงื่อนไขนี้อีก

  2. ไม่มีการประมาณการการถดถอยโลจิสติก α^1 , , α K , B ) จะไม่ได้ฟังก์ชั่นอันตรายตัวเอง แบบจำลองการถดถอยโลจิสติก: logit ( h j , k ) = α k + B Xและคุณจำเป็นต้องทำการแปลง anti-logit ใน (1) ด้านบนเพื่อรับการประมาณอันตรายα^KB^(hj,k)=αk+BX

  3. ใช่. ถึงแม้ว่าผมจะ notate มันS J , Q = Π Q ฉัน= 1 ( 1 - เอชเจ, ฉัน ) ฟังก์ชั่นการอยู่รอดน่าจะเป็นของไม่พบเหตุการณ์ตามเวลาที่kและแน่นอนอาจจะมีการปรับอากาศในXS^j,q=i=1q(1hj,i)kX

  4. นี่เป็นคำถามที่ละเอียดอ่อนไม่แน่ใจว่าฉันมีคำตอบ ฉันมีคำถาม แต่ :) ขนาดตัวอย่างในแต่ละช่วงเวลาลดลงเมื่อเวลาผ่านไปเนื่องจากการตรวจสอบที่ถูกต้องและเนื่องจากเหตุการณ์ที่เกิดขึ้น: คุณจะคำนึงถึงสิ่งนี้ในการคำนวณเวลารอดเฉลี่ยหรือไม่ อย่างไร? คุณหมายถึงอะไร "ประชากร" บุคคลใดบ้างที่ได้รับคัดเลือกเข้าสู่การศึกษาของคุณที่สรุปโดยทั่วไป? หรือคุณหมายถึงแนวคิด "ประชากร super" ทางสถิติ? อนุมานเป็นใหญ่ความท้าทายในรูปแบบเหล่านี้เพราะเราประเมินβและข้อผิดพลาดมาตรฐานของพวกเขา แต่จำเป็นที่จะต้องทำเดลต้าวิธีการพลิกกลับจะได้รับข้อผิดพลาดมาตรฐานเอช J , K , และ (จากการทำงานของตัวเอง) อันเกิดมาตรฐานที่ถูกต้อง ข้อผิดพลาดสำหรับS Jh^j,kS^j,kทำงานเฉพาะบนกระดาษ (ฉันไม่สามารถได้รับความคุ้มครอง CI ที่ถูกต้องสำหรับ S J , Kในรูปแบบเงื่อนไข)S^j,k

  5. คุณสามารถใช้กราฟขั้นตอนฟังก์ชั่นคล้ายกับ Kaplan-Meier และคุณยังสามารถใช้กราฟเส้นตรง (เช่นเชื่อมต่อจุดระหว่างช่วงเวลากับบรรทัด) คุณควรใช้ตัวพิมพ์หลังเฉพาะเมื่อแนวคิดของ "เวลาไม่ต่อเนื่อง" ยอมรับความเป็นไปได้ของช่วงเวลาที่ถูกแบ่งย่อย นอกจากนี้คุณยังสามารถแปลง / สื่อสารประมาณการของอุบัติการณ์สะสม (ซึ่งเป็น1Sj,k . ... อย่างน้อยระบาดวิทยามักจะกำหนด "อุบัติการณ์สะสม" วิธีนี้เป็นคำที่ใช้แตกต่างกันในการแข่งขันรุ่นความเสี่ยงในระยะการดูดซึมอาจ ใช้ที่นี่.)


ฉันคิดว่าในคำถามที่ 2 OP ถามเกี่ยวกับค่าที่ทำนายจากตัวแบบลอจิสติกไม่ใช่ค่าประมาณของสัมประสิทธิ์การถดถอย สิ่งนี้อาจเกี่ยวข้อง
jujae

h^(t)

ypred=exp(βTx)/(1+exp(βTx))

Back to the original question 2, the OP asked: "Are the predicted values from the logistic regression model estimates of the hazard function?" I would say yes (if my understanding of predicted value is correct). And you are saying no and give the argument that the estimated coefficients are not the same as hazard estimation. I agree with your statement, they are correct but it is not what OP asked from my understanding.
jujae

And for questions 4, I think OP is asking about the survival probability at each interval k and the average of the estimated S^j(k) is indeed a reasonable estimator for S(k). In your answer, you are first referring to mean survival time which is confusing to me as a reader. Meanwhile, I also believe that the estimator we are discussing is essentially Kaplan-meier, and (for instance) Greenwood's variance estimator for KM can be directly used and I fail to appreciate the difficulties you stated above about the calculation of the variances.
jujae
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.