คำถามติดแท็ก survival

การวิเคราะห์การเอาตัวรอดแบบจำลองเวลากับข้อมูลเหตุการณ์โดยทั่วไปแล้วเวลาถึงตายหรือเวลาที่ล้มเหลว ข้อมูลที่ถูกเซ็นเซอร์เป็นปัญหาทั่วไปสำหรับการวิเคราะห์เพื่อความอยู่รอด

8
สร้างตัวแปรสุ่มที่มีความสัมพันธ์ที่กำหนดไว้กับตัวแปรที่มีอยู่
สำหรับการศึกษาการจำลองฉันต้องสร้างตัวแปรสุ่มที่แสดง prefined (ประชากร) ความสัมพันธ์กับตัวแปรที่มีอยู่YYYY ฉันดูในRแพ็คเกจcopulaและCDVineสามารถสร้างการแจกแจงหลายตัวแปรแบบสุ่มด้วยโครงสร้างการพึ่งพาที่กำหนด อย่างไรก็ตามเป็นไปไม่ได้ที่จะแก้ไขหนึ่งในตัวแปรที่เป็นผลลัพธ์ของตัวแปรที่มีอยู่ ความคิดและลิงก์ไปยังฟังก์ชั่นที่มีอยู่นั้นได้รับการชื่นชม! สรุป: คำตอบที่ถูกต้องสองคำขึ้นมาพร้อมกับโซลูชันที่แตกต่าง: R สคริปต์โดย Caracal ซึ่งจะคำนวณตัวแปรสุ่มกับที่แน่นอน (ตัวอย่าง) ความสัมพันธ์กับตัวแปรที่กำหนดไว้ล่วงหน้า R ฟังก์ชั่นฉันพบตัวเองซึ่งจะคำนวณตัวแปรสุ่มที่มีการกำหนดประชากรความสัมพันธ์กับตัวแปรที่กำหนดไว้ล่วงหน้า [@ttnphns 'นอกจากนี้: ฉันใช้เสรีภาพในการขยายชื่อคำถามจากกรณีตัวแปรคงที่เดียวเป็นจำนวนคงที่ของตัวแปรคงที่; เช่นวิธีการสร้างตัวแปรที่มีคอร์เรชั่นที่กำหนดไว้ล่วงหน้าพร้อมกับตัวแปรคงที่บางตัวที่มีอยู่]

8
จะบอกความน่าจะเป็นของความล้มเหลวได้อย่างไรถ้าไม่มีความล้มเหลว?
ฉันสงสัยว่ามีวิธีที่จะบอกความน่าจะเป็นของสิ่งที่ล้มเหลว (ผลิตภัณฑ์) ถ้าเรามีผลิตภัณฑ์ 100,000 รายการในเขตข้อมูลเป็นเวลา 1 ปีและไม่มีความล้มเหลวหรือไม่? ความน่าจะเป็นที่ผลิตภัณฑ์หนึ่งใน 10,000 รายการที่ขายไปนั้นล้มเหลวคืออะไร

7
เครื่องมือวิเคราะห์การอยู่รอดใน Python [ปิด]
ฉันสงสัยว่ามีแพ็กเกจสำหรับไพ ธ อนที่สามารถทำการวิเคราะห์การอยู่รอดได้หรือไม่ ฉันใช้แพ็คเกจการเอาตัวรอดใน R แต่ฉันต้องการย้ายงานของฉันไปที่ python
46 survival  python 

5
การทำนายในการถดถอยแบบค็อกซ์
ฉันกำลังทำการถดถอยหลายตัวแปร Cox ฉันมีตัวแปรอิสระที่สำคัญและค่าเบต้า รูปแบบเหมาะสมกับข้อมูลของฉันได้เป็นอย่างดี ตอนนี้ฉันต้องการใช้แบบจำลองของฉันและทำนายความอยู่รอดของการสังเกตใหม่ ฉันไม่ชัดเจนว่าจะทำอย่างไรกับโมเดล Cox ในการถดถอยเชิงเส้นหรือแบบลอจิสติกมันจะง่ายเพียงแค่ใส่ค่าของการสังเกตใหม่ลงในการถดถอยและทวีคูณพวกมันด้วยเบตาดังนั้นผมจึงมีการทำนายผล ฉันจะตัดสินอันตรายพื้นฐานของฉันได้อย่างไร ฉันต้องการมันนอกเหนือจากการคำนวณการทำนาย สิ่งนี้ทำในรูปแบบ Cox ได้อย่างไร?

10
ทำไมเวลาการเอาชีวิตรอดจึงมีการกระจายอย่างทวีคูณ
ฉันกำลังเรียนรู้การวิเคราะห์ความอยู่รอดจากบทความนี้ใน UCLA IDREและได้ดีดตัวขึ้นที่หัวข้อ 1.2.1 บทช่วยสอนบอกว่า: ... ถ้าเวลารอดชีวิตนั้นมีการแจกแจงแบบเลขชี้กำลังแล้วความน่าจะเป็นในการสังเกตเวลาการอยู่รอด ... ทำไมเวลาการเอาชีวิตรอดจึงมีการกระจายอย่างทวีคูณ ดูเหมือนว่าฉันผิดธรรมชาติมาก ทำไมไม่กระจายตามปกติ? สมมติว่าเรากำลังตรวจสอบช่วงชีวิตของสิ่งมีชีวิตบางอย่างภายใต้เงื่อนไขบางประการ (พูดจำนวนวัน) ควรจะอยู่ตรงกลางรอบจำนวนที่มีการเปลี่ยนแปลงบ้างหรือไม่ (พูด 100 วันกับความแปรปรวน 3 วัน)? หากเราต้องการให้เวลาเป็นบวกอย่างเคร่งครัดทำไมไม่แจกแจงแบบปกติด้วยค่าเฉลี่ยที่สูงขึ้นและความแปรปรวนน้อยมาก (แทบจะไม่มีโอกาสได้จำนวนลบ)

14
การอ้างอิงสำหรับการวิเคราะห์การอยู่รอด
ฉันกำลังมองหาหนังสือ / บทช่วยสอนที่ดีเพื่อเรียนรู้เกี่ยวกับการวิเคราะห์ความอยู่รอด ฉันยังสนใจในการอ้างอิงในการทำการวิเคราะห์การอยู่รอดในอาร์
33 r  survival  references 

3
ข้อมูลของฉันมีการกระจายแบบใด
ให้เราบอกว่าฉันมีส่วนประกอบ 1,000 รายการและฉันได้รวบรวมข้อมูลเกี่ยวกับความล้มเหลวของบันทึกเหล่านี้กี่ครั้งและทุกครั้งที่พวกเขาบันทึกความล้มเหลวฉันยังติดตามว่าทีมของฉันใช้เวลานานแค่ไหนในการแก้ไขปัญหา ในระยะสั้นฉันได้รับการบันทึกเวลาในการซ่อมแซม (ในไม่กี่วินาที) สำหรับแต่ละองค์ประกอบ 1,000 เหล่านี้ ข้อมูลจะได้รับเมื่อสิ้นสุดคำถามนี้ ฉันเอาค่าเหล่านี้ทั้งหมดแล้วดึงกราฟ Cullen และ Frey เป็น R โดยใช้descdistจากfitdistrplusแพ็คเกจ ความหวังของฉันคือการเข้าใจว่าเวลาในการซ่อมแซมเป็นไปตามการแจกจ่ายเฉพาะ นี่คือพล็อตที่มีboot=500เพื่อรับค่า bootstrapped: ฉันเห็นว่าพล็อตนี้กำลังบอกฉันว่าการสังเกตตกอยู่ในการแจกแจงเบต้า (หรืออาจจะไม่ในกรณีนี้มันคืออะไรเปิดเผย) ตอนนี้เมื่อพิจารณาว่าฉันเป็นสถาปนิกระบบและไม่ใช่สถิติสถิติพล็อตนี้เปิดเผยอะไร ? (ฉันกำลังมองหาสัญชาตญาณในโลกแห่งความเป็นจริงที่อยู่เบื้องหลังผลการค้นหาเหล่านี้) แก้ไข: QQplot โดยใช้ฟังก์ชั่นในแพคเกจqqPlot carฉันก่อนประมาณพารามิเตอร์รูปร่างและขนาดโดยใช้fitdistrฟังก์ชั่น > fitdistr(Data$Duration, "weibull") shape scale 3.783365e-01 5.273310e+03 (6.657644e-03) (3.396456e+02) จากนั้นฉันทำสิ่งนี้: qqPlot(LB$Duration, distribution="weibull", shape=3.783365e-01, scale=5.273310e+03) แก้ไข 2: การอัพเดตด้วย QQplot lognormal นี่คือข้อมูลของฉัน: c(1528L, 285L, …

5
วิธีจัดการกับข้อมูลแบบลำดับชั้น / ซ้อนในการเรียนรู้ของเครื่อง
ฉันจะอธิบายปัญหาด้วยตัวอย่าง สมมติว่าคุณต้องการที่จะทำนายรายได้ของแต่ละบุคคลที่มีคุณลักษณะบางอย่าง: {อายุ, เพศ, ประเทศ, ภูมิภาค, เมือง} คุณมีชุดข้อมูลการฝึกอบรมเช่นนั้น train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
องศาอิสระเป็นหมายเลขที่ไม่ใช่จำนวนเต็มหรือไม่
เมื่อฉันใช้ GAM มันให้ DF ที่เหลือกับฉันคือ (บรรทัดสุดท้ายในรหัส) นั่นหมายความว่าอย่างไร? นอกเหนือไปจากตัวอย่างของ GAM โดยทั่วไปแล้วจำนวนองศาความเป็นอิสระจะเป็นจำนวนที่ไม่ใช่จำนวนเต็มหรือไม่26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

2
ในการวิเคราะห์ความอยู่รอดทำไมเราถึงใช้โมเดลกึ่งพารามิเตอร์ (Cox ที่เป็นอันตรายตามสัดส่วน) แทนที่จะเป็นโมเดลพาราเมตริกแบบเต็ม?
คำถามนี้ถูกย้ายจาก Mathematics Stack Exchange เพราะสามารถตอบได้ในการตรวจสอบข้าม อพยพ 6 ปีที่แล้ว ฉันได้ศึกษาโมเดลอันตรายของ Cox Proportional แล้วและคำถามนี้ได้ถูกคัดสรรมาเป็นส่วนใหญ่ Cox เสนอการปรับค่าสัมประสิทธิ์ของฟังก์ชั่น Hazard โดยใช้วิธีความน่าจะเป็นบางส่วน แต่ทำไมไม่เพียงแค่ปรับสัมประสิทธิ์ของฟังก์ชั่น Parametric Survival โดยใช้วิธีโอกาสสูงสุดและแบบจำลองเชิงเส้น? ในกรณีใด ๆ ที่คุณมีข้อมูลเซ็นเซอร์คุณสามารถหาพื้นที่ใต้เส้นโค้ง ตัวอย่างเช่นหากค่าประมาณของคุณคือ 380 โดยมีค่าเบี่ยงเบนมาตรฐานเท่ากับ 80 และตัวอย่างถูกเซ็นเซอร์> 300 ดังนั้นความน่าจะเป็น 84% สำหรับตัวอย่างนั้นในการคำนวณความน่าจะเป็นเป็นข้อผิดพลาดปกติ

2
การวิเคราะห์การอยู่รอดแบบเบย์: โปรดเขียนก่อนสำหรับ Kaplan Meier!
พิจารณาข้อสังเกตขวาตรวจสอบกับเหตุการณ์ที่เกิดขึ้นครั้ง ... จำนวนบุคคลที่อ่อนแอในช่วงเวลาที่ฉันเป็นn ฉันและจำนวนของเหตุการณ์ที่เกิดขึ้นในเวลาที่ฉันเป็นdฉันt1,t2,…t1,t2,…t_1, t_2, \dotsiiininin_iiiididid_i Kaplan-Meier หรือประมาณการผลิตภัณฑ์ที่เกิดขึ้นตามธรรมชาติเป็น MLE เมื่อฟังก์ชั่นการอยู่รอดเป็นฟังก์ชั่นขั้นตอนฉัน ความน่าจะเป็นแล้ว L ( α ) = Πฉัน ( 1 - α ฉัน) d ฉัน α n ฉัน - d ฉันฉัน และ MLE คือαฉัน = 1 - d ฉันS(t)=∏i:ti&lt;tαiS(t)=∏i:ti&lt;tαiS(t) = \prod_{i : t_i < t} \alpha_iL(α)=∏i(1−αi)diαni−diiL(α)=∏i(1−αi)diαini−di L(\alpha) = \prod_i (1-\alpha_i)^{d_i} \alpha_i^{n_i-d_i} …

4
ค่าที่ถูกต้องสำหรับความแม่นยำและการเรียกคืนในกรณีขอบคืออะไร?
ความแม่นยำหมายถึง: p = true positives / (true positives + false positives) มันถูกต้องหรือไม่ที่ในฐานะtrue positivesและfalse positivesวิธีที่ 0 ความแม่นยำเข้าใกล้ 1? คำถามเดียวกันสำหรับการเรียกคืน: r = true positives / (true positives + false negatives) ขณะนี้ฉันกำลังใช้การทดสอบทางสถิติที่ฉันต้องการคำนวณค่าเหล่านี้และบางครั้งมันก็เกิดขึ้นที่ตัวส่วนเป็น 0 และฉันสงสัยว่าจะคืนค่าใดให้กับกรณีนี้ PS: ขอโทษแท็กที่ไม่เหมาะสมผมอยากจะใช้recall, precisionและlimitแต่ฉันไม่สามารถสร้างแท็กใหม่ ๆ
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

4
การวิเคราะห์การอยู่รอด: เวลาต่อเนื่องเทียบกับไม่ต่อเนื่อง
ฉันสับสนเกี่ยวกับวิธีการตัดสินใจว่าจะรักษาเวลาอย่างต่อเนื่องหรือไม่ต่อเนื่องในการวิเคราะห์การอยู่รอด โดยเฉพาะฉันต้องการใช้การวิเคราะห์การอยู่รอดเพื่อระบุตัวแปรระดับเด็กและครัวเรือนที่มีความคลาดเคลื่อนมากที่สุดในผลกระทบต่อการอยู่รอดของเด็กผู้ชายกับเด็กผู้หญิง (อายุไม่เกิน 5 ปี) ฉันมีชุดข้อมูลของอายุเด็ก (เป็นเดือน) พร้อมตัวบ่งชี้ว่าเด็กยังมีชีวิตอยู่อายุที่ตาย (เป็นเดือน) และตัวแปรระดับเด็กและครัวเรือนอื่น ๆ เนื่องจากเวลาถูกบันทึกไว้ในเดือนและเด็กทุกคนอายุต่ำกว่า 5 ปีจึงมีเวลาอยู่รอดหลายครั้ง (มักจะอยู่ในช่วงครึ่งปี: 0mos, 6mos, 12mos ฯลฯ ) จากสิ่งที่ฉันได้อ่านเกี่ยวกับการวิเคราะห์การอยู่รอดการมีเวลารอดหลายครั้งทำให้ฉันคิดว่าฉันควรจะรักษาเวลาโดยไม่ต่อเนื่อง อย่างไรก็ตามฉันได้อ่านการศึกษาอื่น ๆ หลายครั้งที่มีเวลาอยู่รอดเช่นบุคคลปี (และแน่นอนว่ามีเวลารอดชีวิตผูก) และวิธีการต่อเนื่องเช่น Cox สัดส่วนอันตรายที่ใช้ ฉันควรใช้เกณฑ์อะไรในการตัดสินใจว่าจะรักษาเวลาเป็นแบบต่อเนื่องหรือไม่ต่อเนื่อง สำหรับข้อมูลและคำถามของฉันการใช้แบบจำลองเวลาต่อเนื่อง (Cox, Weibull และอื่น ๆ ) ทำให้เข้าใจได้ง่ายสำหรับฉัน แต่ลักษณะที่ไม่ต่อเนื่องของข้อมูลของฉัน
20 survival  ties 

2
อะไรคือค่า“
อะไรคือค่า ให้ไว้ในบทสรุปของโมเดล coxph ใน R ตัวอย่างเช่น,R2R2R^2 Rsquare= 0.186 (max possible= 0.991 ) ฉันรวมบทความต้นฉบับอย่างโง่เขลาเป็นค่าและผู้ตรวจสอบเพิ่มขึ้นโดยบอกว่าเขาไม่ได้ตระหนักถึงอนาล็อกของ สถิติจากการถดถอยเชิงเส้นแบบคลาสสิกที่พัฒนาขึ้นสำหรับโมเดล Cox และหากมีสิ่งใดสิ่งหนึ่งโปรด ให้การอ้างอิง ความช่วยเหลือใด ๆ จะดีมาก!R 2R2R2R^2R2R2R^2

3
การใส่ร้ายก่อนหรือหลังแยกออกเป็นรถไฟและทดสอบ?
ฉันมีชุดข้อมูลที่มี N ~ 5,000 และประมาณ 1/2 หายไปกับตัวแปรสำคัญอย่างน้อยหนึ่งตัว วิธีการวิเคราะห์หลักจะเป็นอันตรายตามสัดส่วนของคอคส์ ฉันวางแผนที่จะใช้การใส่หลายแบบ ฉันจะแยกเป็นชุดรถไฟและชุดทดสอบ ฉันควรแยกข้อมูลแล้วใส่ข้อมูลแยกต่างหากหรือใส่ร้ายแล้วแยก? ถ้ามันเป็นเรื่องสำคัญผมจะใช้ในPROC MISAS

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.