ปรีชาสำหรับฟังก์ชันอันตรายสะสม (การวิเคราะห์การอยู่รอด)


17

ฉันกำลังพยายามที่จะรับสัญชาติญาณสำหรับแต่ละหน้าที่หลักในวิทยาศาสตร์คณิตศาสตร์ประกันภัย (โดยเฉพาะสำหรับ Cox Proportional Hazards Model) นี่คือสิ่งที่ฉันมี:

  • (x) : เริ่มตั้งแต่เวลาเริ่มต้นการกระจายความน่าจะเป็นของเวลาที่คุณจะตาย
  • F(x) : แค่การแจกแจงสะสม ในช่วงเวลาประชากร% ใดที่จะตาย?T
  • S(x) :(x) ในช่วงเวลา % ของประชากรจะมีชีวิตอยู่เท่าไหร่?1F(x)T
  • h(x) : ฟังก์ชั่นอันตราย ในช่วงเวลาที่กำหนดของผู้คนยังมีชีวิตอยู่สิ่งนี้สามารถใช้เพื่อประเมินว่ามีกี่คนที่จะตายในช่วงเวลาถัดไปหรือถ้าช่วงเวลา -> 0, ความน่าจะเป็นของการเสียชีวิตแบบ 'ทันที'T
  • H(x) : อันตรายที่สะสม ไม่มีความเห็น.

แนวคิดเบื้องหลังการรวมค่าอันตรายโดยเฉพาะเมื่อต่อเนื่องคืออะไร หากเราใช้ตัวอย่างแบบไม่ต่อเนื่องที่มีอัตราการตายตลอดสี่ฤดูกาลและฟังก์ชั่นอันตรายมีดังนี้:

  • เริ่มต้นที่ Spring ทุกคนยังมีชีวิตอยู่และ 20% จะตาย
  • ตอนนี้ในฤดูร้อนของเหลือ 50% จะตาย
  • ตอนนี้ในฤดูใบไม้ร่วงของที่เหลืออยู่ 75% จะตาย
  • ฤดูกาลสุดท้ายคือฤดูหนาว ของที่เหลืออยู่ 100% จะตาย

จากนั้นอันตรายสะสมคือ 20%, 70%, 145%, 245% ?? หมายความว่าอย่างไรและทำไมจึงมีประโยชน์


1
คุณT 's ควรจะx ' s หรือในทางกลับกัน
Glen_b -Reinstate Monica

5
เกี่ยวกับคุณมีข้อผิดพลาด (แม้ว่าจะเป็นความสับสนทั่วไป) คุณเขียน "ช่วงเวลา -> 0, ความน่าจะเป็นในการเสียชีวิต 'ทันที' ข้อความที่ถูกต้องจะเป็น ' อัตราการตายทันที' นี้ไม่สามารถใช้ความน่าจะเป็นเพราะมันเป็นความน่าจะเป็นโดยแบ่งตัน ; ยิ่งไปกว่านั้นมันอาจเป็น> 1 h(x)dt
gung - Reinstate Monica

คำตอบ:


6

การรวมสัดส่วนที่กำลังจะตายในขณะที่คุณไม่ได้ทำให้คุณมีอันตรายสะสม อัตราอันตรายในเวลาต่อเนื่องคือความน่าจะเป็นแบบมีเงื่อนไขซึ่งในช่วงเวลาสั้น ๆ เหตุการณ์จะเกิดขึ้น:

h(t)=limΔt0P(t<Tt+Δt|T>t)Δt

ความเป็นอันตรายสะสมกำลังรวมอัตราความเป็นอันตรายทันทีทันใด มันก็เหมือนกับการสรุปความน่าจะเป็น แต่เนื่องจากมีขนาดเล็กมากความน่าจะเป็นเหล่านี้ก็มีจำนวนน้อยเช่นกัน อัตราอันตรายเป็นเงื่อนไขที่ไม่เคยมีประสบการณ์มาก่อนtดังนั้นสำหรับประชากรที่อาจรวมมากกว่า 1Δtt

คุณอาจตารางค้นหามนุษย์ชีวิตการตายบางคนถึงแม้นี่จะเป็นสูตรต่อเนื่องทางเวลาและพยายามที่จะสะสม xmx

หากคุณใช้ R นี่คือตัวอย่างเล็กน้อยของการประมาณฟังก์ชั่นเหล่านี้จากจำนวนผู้เสียชีวิตในแต่ละช่วงอายุ 1 ปี:

dx <-  c(3184L, 268L, 145L, 81L, 64L, 81L, 101L, 50L, 72L, 76L, 50L, 
         62L, 65L, 95L, 86L, 120L, 86L, 110L, 144L, 147L, 206L, 244L, 
         175L, 227L, 182L, 227L, 205L, 196L, 202L, 154L, 218L, 279L, 193L, 
         223L, 227L, 300L, 226L, 256L, 259L, 282L, 303L, 373L, 412L, 297L, 
         436L, 402L, 356L, 485L, 495L, 597L, 645L, 535L, 646L, 851L, 689L, 
         823L, 927L, 878L, 1036L, 1070L, 971L, 1225L, 1298L, 1539L, 1544L, 
         1673L, 1700L, 1909L, 2253L, 2388L, 2578L, 2353L, 2824L, 2909L, 
         2994L, 2970L, 2929L, 3401L, 3267L, 3411L, 3532L, 3090L, 3163L, 
         3060L, 2870L, 2650L, 2405L, 2143L, 1872L, 1601L, 1340L, 1095L, 
         872L, 677L, 512L, 376L, 268L, 186L, 125L, 81L, 51L, 31L, 18L, 
         11L, 6L, 3L, 2L)

x <- 0:(length(dx)-1) # age vector

plot((dx/sum(dx))/(1-cumsum(dx/sum(dx))), t="l", xlab="age", ylab="h(t)", 
     main="h(t)", log="y")
plot(cumsum((dx/sum(dx))/(1-cumsum(dx/sum(dx)))), t="l", xlab="age", ylab="H(t)", 
     main="H(t)")

หวังว่านี่จะช่วยได้


ถูกต้องหรือไม่ที่จะบอกว่า h (t) * dt คือความน่าจะเป็นของเหตุการณ์ที่เกิดขึ้นในช่วงเวลาความยาว dt ประมาณ t หรือไม่ ดังนั้นค่า h (t) คือความน่าจะเป็นของเหตุการณ์ที่เกิดขึ้นภายใน 1 หน่วยของเวลาที่อยู่กึ่งกลางรอบ t นี่จะเป็นกรณีเฉพาะถ้า h (t) <= 1
อีกา

10

หนังสือ "การวิเคราะห์การเอาตัวรอดเบื้องต้นโดยใช้ Stata" (ฉบับที่ 2) โดย Mario Cleves มีบทที่ดีในหัวข้อนั้น

คุณสามารถหาบทในหนังสือ google , p. 13-15 แต่ฉันอยากจะแนะนำให้อ่านบททั้งหมด 2

นี่คือรูปแบบย่อ:

  • "มันวัดจำนวนความเสี่ยงทั้งหมดที่สะสมได้ถึงเวลา t" (หน้า 8)
  • นับข้อมูลตีความ: "มันให้จำนวนครั้งที่เราคาดหวัง (ทางคณิตศาสตร์) เพื่อสังเกตความล้มเหลว [หรือเหตุการณ์อื่น ๆ ] ในช่วงเวลาที่กำหนดหากเหตุการณ์ความล้มเหลวเท่านั้นที่สามารถทำซ้ำได้" (หน้า 13)

5

ฉันต้องการอันตรายเดาว่ามันเป็นที่น่าสังเกตเนื่องจากการใช้งานในแปลงวินิจฉัย:

h(x)=eβTzh0(x)βzh0(x)logH(x)=βTz+H0(x)logH^(x)x

h(x)=αθ(xθ)α1θαlogH(x)=αlogxαlogθlogH^(x)logxα^α^logθ^หากสมมติฐาน Weibull ถูกต้อง และแน่นอนความชันที่อยู่ใกล้กับ 1 แนะนำว่าแบบจำลองเลขชี้กำลังอาจเหมาะสม

H(x)x


3

ในการถอดความสิ่งที่ @Scortchi กำลังพูดอยู่ฉันจะเน้นย้ำว่าฟังก์ชั่นอันตรายที่สะสมไม่ได้มีการตีความที่ดีและดังนั้นฉันจะไม่พยายามใช้มันเป็นวิธีตีความผลลัพธ์ การบอกนักวิจัยที่ไม่ใช่เชิงสถิติว่าอันตรายที่สะสมแตกต่างกันมากที่สุดน่าจะส่งผลให้ได้คำตอบ "mm-hm" จากนั้นพวกเขาจะไม่ถามเกี่ยวกับเรื่องนี้อีกครั้งและไม่ใช่ในทางที่ดี

อย่างไรก็ตามฟังก์ชั่นอันตรายที่สะสมจะกลายเป็นประโยชน์ทางคณิตศาสตร์เช่นวิธีทั่วไปในการเชื่อมโยงฟังก์ชั่นอันตรายและฟังก์ชั่นการอยู่รอด ดังนั้นสิ่งสำคัญคือต้องรู้ว่าอันตรายสะสมคืออะไรและสามารถนำไปใช้ในวิธีการทางสถิติแบบต่างๆได้อย่างไร แต่โดยทั่วไปฉันไม่คิดว่าเป็นประโยชน์อย่างยิ่งที่จะคิดเกี่ยวกับข้อมูลจริงในแง่ของอันตรายสะสม

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.