วิธีการทางสถิติสำหรับข้อมูลที่ทราบเพียงค่าต่ำสุด / สูงสุด


29

มีสาขาของสถิติที่เกี่ยวข้องกับข้อมูลที่ไม่ทราบค่าที่แน่นอนแต่สำหรับแต่ละคนเรารู้ว่าค่าสูงสุดหรือต่ำสุดผูกกับค่าหรือไม่

ฉันสงสัยว่าปัญหาของฉันส่วนใหญ่มาจากความจริงที่ว่าฉันพยายามดิ้นรนเพื่อให้ชัดเจนในแง่สถิติ แต่หวังว่าตัวอย่างจะช่วยชี้แจง:

สมมติว่ามีประชากรที่เชื่อมต่อกันสองคนคือและซึ่งในบางจุดสมาชิกของอาจ "เปลี่ยน" เป็นแต่กลับไม่ได้ ช่วงเวลาของการเปลี่ยนแปลงเป็นตัวแปร แต่ไม่ใช่แบบสุ่ม ตัวอย่างเช่นอาจเป็น "บุคคลที่ไม่มีลูกหลาน" และ "บุคคลที่มีลูกหลานอย่างน้อยหนึ่งคน" ฉันสนใจในอายุที่ความก้าวหน้านี้เกิดขึ้น แต่ฉันมีข้อมูลตัดขวางเท่านั้น สำหรับบุคคลใดก็ตามฉันสามารถค้นหาว่าพวกเขาเป็นสมาชิกของหรือหรือไม่ ฉันยังรู้อายุของบุคคลเหล่านี้ สำหรับแต่ละคนในประชากรB A B A B A B A BABABABABAฉันรู้ว่าอายุที่ผ่านการเปลี่ยนแปลงจะยิ่งใหญ่กว่าอายุปัจจุบันของพวกเขา ในทำนองเดียวกันสำหรับสมาชิกฉันรู้ว่าอายุการเปลี่ยนผ่านน้อยกว่าอายุปัจจุบันของพวกเขา แต่ฉันไม่รู้ค่าที่แน่นอนB

ว่าฉันมีปัจจัยอื่นที่ฉันต้องการเปรียบเทียบกับอายุของการเปลี่ยนแปลง ตัวอย่างเช่นฉันต้องการทราบว่าชนิดย่อยของบุคคลหรือขนาดร่างกายมีผลต่ออายุของลูกหลานคนแรกหรือไม่ ฉันมีข้อมูลที่เป็นประโยชน์บางอย่างที่ควรแจ้งคำถามเหล่านั้น: โดยเฉลี่ยของบุคคลในบุคคลที่มีอายุมากกว่าจะได้รับการเปลี่ยนแปลงในภายหลัง แต่ข้อมูลไม่สมบูรณ์โดยเฉพาะอย่างยิ่งสำหรับคนอายุน้อยกว่า และในทางกลับกันสำหรับประชากรBBAB

มีวิธีการที่กำหนดขึ้นเพื่อจัดการกับข้อมูลประเภทนี้หรือไม่? ฉันไม่จำเป็นต้องใช้วิธีการอย่างเต็มรูปแบบในการวิเคราะห์เช่นนี้เพียงแค่ข้อความค้นหาหรือแหล่งข้อมูลที่มีประโยชน์เพื่อเริ่มฉันในที่ที่เหมาะสม!

คำเตือน: ฉันทำสมมติฐานลดความซับซ้อนของการเปลี่ยนแปลงจากที่เพื่อเป็นทันที ฉันพร้อมที่จะสมมติว่าคนส่วนใหญ่จะก้าวหน้าไปที่จุดโดยสมมติว่าพวกเขามีชีวิตอยู่นานพอ และฉันรู้ว่าข้อมูลตามยาวจะมีประโยชน์มาก แต่สมมติว่าไม่มีในกรณีนี้B BABB

ขอโทษถ้าสิ่งนี้ซ้ำซ้อนอย่างที่ฉันบอกไปส่วนหนึ่งของปัญหาของฉันคือฉันไม่รู้ว่าควรจะค้นหาอะไร ด้วยเหตุผลเดียวกันโปรดเพิ่มแท็กอื่น ๆ ตามความเหมาะสม

ชุดตัวอย่าง: Ssp บ่งชี้ว่าหนึ่งในสองชนิดย่อยหรือYลูกหลานบ่งชี้ว่าไม่มีลูกหลาน ( ) หรือลูกหลานอย่างน้อยหนึ่งคน ( )Y A BXYAB

 age ssp offsp
  21   Y     A
  20   Y     B
  26   X     B
  33   X     B
  33   X     A
  24   X     B
  34   Y     B
  22   Y     B
  10   Y     B
  20   Y     A
  44   X     B
  18   Y     A
  11   Y     B
  27   X     A
  31   X     B
  14   Y     B
  41   X     B
  15   Y     A
  33   X     B
  24   X     B
  11   Y     A
  28   X     A
  22   X     B
  16   Y     A
  16   Y     B
  24   Y     B
  20   Y     B
  18   X     B
  21   Y     B
  16   Y     B
  24   Y     A
  39   X     B
  13   Y     A
  10   Y     B
  18   Y     A
  16   Y     A
  21   X     A
  26   X     B
  11   Y     A
  40   X     B
   8   Y     A
  41   X     B
  29   X     B
  53   X     B
  34   X     B
  34   X     B
  15   Y     A
  40   X     B
  30   X     A
  40   X     B

แก้ไข: ชุดข้อมูลตัวอย่างเปลี่ยนไปเนื่องจากไม่ได้เป็นตัวแทนมากนัก


2
นี่เป็นสถานการณ์ที่น่าสนใจ คุณสามารถให้ข้อมูลของคุณ?
gung - Reinstate Monica

1
ฉันจะไม่สามารถโพสต์ชุดข้อมูลแบบเต็ม แต่อาจให้ชุดตัวอย่าง
user2390246

คำตอบ:


26

นี้จะเรียกว่าเป็นข้อมูลสถานะปัจจุบัน คุณได้รับมุมมองแบบตัดขวางของข้อมูลและเกี่ยวกับการตอบสนองสิ่งที่คุณรู้คือเมื่ออายุที่สังเกตของแต่ละเรื่องเหตุการณ์ (ในกรณีของคุณ: การเปลี่ยนจาก A เป็น B) เกิดขึ้นหรือไม่ นี้เป็นกรณีพิเศษของเซ็นเซอร์ช่วงเวลา

อย่างเป็นทางการกำหนดให้เป็น (สังเกต) เวลาเหตุการณ์จริงสำหรับเรื่องฉันให้เวลาการตรวจสอบสำหรับหัวเรื่อง (ในกรณีของคุณ: อายุขณะตรวจสอบ) หากข้อมูลจะถูกตรวจสอบอย่างถูกต้อง มิฉะนั้นข้อมูลที่มีการตรวจสอบทางด้านซ้าย เรามีความน่าสนใจในการสร้างแบบจำลองการกระจายตัวของTสำหรับรูปแบบการถดถอยเรามีความสนใจในการสร้างแบบจำลองวิธีการที่มีการเปลี่ยนแปลงการกระจายกับชุดของตัวแปรXฉันC ฉันฉันC ฉัน < T ฉัน T XTiiCiiCi<TiTX

ในการวิเคราะห์วิธีนี้โดยใช้วิธีการเซ็นเซอร์ช่วงเวลาคุณต้องการใส่ข้อมูลของคุณในรูปแบบการเซ็นเซอร์ช่วงเวลาทั่วไป นั่นคือสำหรับแต่ละวิชาเรามีช่วงเวลาซึ่งแสดงถึงช่วงเวลาที่เรารู้ว่ามีอยู่ ดังนั้นถ้าเรื่องจะตรวจสอบที่ถูกต้องในการตรวจสอบเวลาเราจะเขียนinfty) หากมีการตรวจสอบที่เหลือเราจะแสดงเป็นC_i)T ฉันฉันc ฉัน ( c ฉัน , ) c ฉัน ( 0 , c i )(li,ri)Tiici(ci,)ci(0,ci)

ปลั๊กไร้ยางอาย: หากคุณต้องการใช้โมเดลการถดถอยเพื่อวิเคราะห์ข้อมูลของคุณสามารถทำได้โดยใช้ R icenReg (ฉันเป็นผู้เขียน) ในความเป็นจริงในคำถามที่คล้ายกันเกี่ยวกับข้อมูลสถานะปัจจุบันสหกรณ์วางตัวอย่างที่ดีของการใช้ icenReg เขาเริ่มต้นด้วยการแสดงให้เห็นว่าการเพิกเฉยต่อส่วนการเซ็นเซอร์และการใช้การถดถอยโลจิสติกนำไปสู่การมีอคติ (หมายเหตุสำคัญ: เขาหมายถึงการใช้การถดถอยโลจิสติกโดยไม่ต้องปรับตามอายุเพิ่มเติมในภายหลัง)

อีกหนึ่งแพ็คเกจที่ยอดเยี่ยมคือintervalซึ่งมีการทดสอบสถิติระดับล็อกในหมู่เครื่องมืออื่น ๆ

แก้ไข:

@EdM แนะนำให้ใช้ logistic regression เพื่อตอบปัญหา ฉันถูกไล่ออกอย่างไม่เป็นธรรมโดยบอกว่าคุณจะต้องกังวลเกี่ยวกับรูปแบบการทำงานของเวลา ในขณะที่ฉันยืนอยู่ข้างหลังคำแถลงว่าคุณควรกังวลเกี่ยวกับรูปแบบการทำงานของเวลาฉันรู้ว่ามีการเปลี่ยนแปลงที่สมเหตุสมผลมากซึ่งนำไปสู่การประมาณค่าพารามิเตอร์ที่สมเหตุสมผล

โดยเฉพาะอย่างยิ่งถ้าเราใช้ log (เวลา) เป็น covariate ในแบบจำลองของเราด้วยการถดถอยโลจิสติกเราจะจบลงด้วยโมเดลอัตราต่อรองแบบสัดส่วนกับฐาน log-logistic

หากต้องการดูสิ่งนี้ก่อนอื่นให้พิจารณาว่าตัวแบบการถดถอยอัตราต่อรองแบบสัดส่วนถูกกำหนดเป็น

Odds(t|X,β)=eXTβOddso(t)

ที่เป็นอัตราต่อรองพื้นฐานของการอยู่รอดในช่วงเวลาทีโปรดทราบว่าผลกระทบการถดถอยจะเหมือนกับการถดถอยโลจิสติก ดังนั้นสิ่งที่เราต้องทำตอนนี้ก็คือแสดงว่าการกระจายพื้นฐานเป็น log-logistictOddso(t)t

ในตอนนี้ให้พิจารณาการถดถอยแบบโลจิสติกด้วยบันทึก (เวลา) เป็นตัวแปร เรานั้นมี

P(Y=1|T=t)=exp(β0+β1log(t))1+exp(β0+β1log(t))

ด้วยการทำงานเพียงเล็กน้อยคุณสามารถเห็นสิ่งนี้ว่าเป็น CDF ของโมเดลบันทึกการใช้งานโลจิคัล (พร้อมการแปลงพารามิเตอร์ที่ไม่ใช่เชิงเส้น)

การสาธิต R ที่พอดีจะเทียบเท่า:

> library(icenReg)
> data(miceData)
> 
> ## miceData contains current status data about presence 
> ## of tumors at sacrifice in two groups
> ## in interval censored format: 
> ## l = lower end of interval, u = upper end
> ## first three mice all left censored
> 
> head(miceData, 3)
  l   u grp
1 0 381  ce
2 0 477  ce
3 0 485  ce
> 
> ## To fit this with logistic regression, 
> ## we need to extract age at sacrifice
> ## if the observation is left censored, 
> ## this is the upper end of the interval
> ## if right censored, is the lower end of interval
> 
> age <- numeric()
> isLeftCensored <- miceData$l == 0
> age[isLeftCensored] <- miceData$u[isLeftCensored]
> age[!isLeftCensored] <- miceData$l[!isLeftCensored]
> 
> log_age <- log(age)
> resp <- !isLeftCensored
> 
> 
> ## Fitting logistic regression model
> logReg_fit <- glm(resp ~ log_age + grp, 
+                     data = miceData, family = binomial)
> 
> ## Fitting proportional odds regression model with log-logistic baseline
> ## interval censored model
> ic_fit <- ic_par(cbind(l,u) ~ grp, 
+            model = 'po', dist = 'loglogistic', data = miceData)
> 
> summary(logReg_fit)

Call:
glm(formula = resp ~ log_age + grp, family = binomial, data = miceData)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.1413  -0.8052   0.5712   0.8778   1.8767  

Coefficients:
             Estimate Std. Error z value Pr(>|z|)   
(Intercept)  18.3526     6.7149   2.733  0.00627 **
log_age      -2.7203     1.0414  -2.612  0.00900 **
grpge        -1.1721     0.4713  -2.487  0.01288 * 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 196.84  on 143  degrees of freedom
Residual deviance: 160.61  on 141  degrees of freedom
AIC: 166.61

Number of Fisher Scoring iterations: 5

> summary(ic_fit)

Model:  Proportional Odds
Baseline:  loglogistic 
Call: ic_par(formula = cbind(l, u) ~ grp, data = miceData, model = "po", 
    dist = "loglogistic")

          Estimate Exp(Est) Std.Error z-value        p
log_alpha    6.603 737.2000   0.07747  85.240 0.000000
log_beta     1.001   2.7200   0.38280   2.614 0.008943
grpge       -1.172   0.3097   0.47130  -2.487 0.012880

final llk =  -80.30575 
Iterations =  10 
> 
> ## Comparing loglikelihoods
> logReg_fit$deviance/(-2) - ic_fit$llk
[1] 2.643219e-12

โปรดทราบว่าผลของgrpการเหมือนกันในแต่ละรุ่นและการบันทึกโอกาสสุดท้ายแตกต่างกันโดยเฉพาะข้อผิดพลาดที่เป็นตัวเลข พารามิเตอร์พื้นฐาน (เช่นการสกัดกั้นและ log_age สำหรับการถดถอยโลจิสติก, อัลฟาและเบต้าสำหรับรูปแบบการเซ็นเซอร์ช่วงเวลา) เป็นพารามิเตอร์ที่แตกต่างกันดังนั้นพวกเขาจึงไม่เท่ากัน

ดังนั้นคุณมีมัน: ใช้การถดถอยโลจิสติกเทียบเท่ากับอัตราต่อรองที่เหมาะสมกับการกระจายพื้นฐาน log-logistic หากคุณโอเคกับโมเดลพาราเมตริกนี้การปรับโลจิสติกส์นั้นค่อนข้างสมเหตุสมผล ฉันจะระมัดระวังว่ามีข้อมูลช่วงเวลาการตรวจสอบรูปแบบกึ่งพารามักจะได้รับการสนับสนุนเนื่องจากความยากลำบากของการประเมินรูปแบบพอดีแต่icenRegถ้าผมคิดว่าอย่างแท้จริงมีสถานที่สำหรับรุ่นเต็มพาราฉันจะไม่ได้รวมไว้ในไม่มี


มันดูมีประโยชน์มาก ฉันจะดูทรัพยากรที่คุณชี้ไปและเล่นกับแพ็คเกจ icenReg ฉันพยายามที่จะเข้าใจว่าทำไมการถดถอยโลจิสติกจึงไม่เหมาะสม - ข้อเสนอแนะของ @EdM จะปรากฏบนพื้นผิวราวกับว่ามันควรจะทำงาน ความเอนเอียงเกิดขึ้นเพราะ "เหตุการณ์" - ที่นี่การมีลูกหลาน - อาจมีผลต่อการอยู่รอดหรือไม่? ดังนั้นหากมันลดการเอาชีวิตรอดเราจะพบว่าในแต่ละช่วงอายุที่กำหนดผู้ที่ไม่ได้ทำซ้ำจะมีตัวแทนมากเกินไป?
user2390246

1
@ user2390246: คุณสามารถใช้การถดถอยแบบลอจิสติกสำหรับข้อมูลสถานะปัจจุบัน แต่คุณต้องทำงานมากเพื่อให้ได้รูปแบบการทำงานตามอายุและการมีปฏิสัมพันธ์กับตัวแปรอื่น ๆ ถูกต้อง นี่เป็นเรื่องไม่สำคัญมาก ด้วยโมเดลจากการเอาตัวรอดคุณสามารถใช้แบบกึ่งพารามิเตอร์พื้นฐาน ( ic_spในicenReg) และไม่ต้องกังวลเลย นอกจากนี้การดูเส้นโค้งการอยู่รอดสำหรับทั้งสองกลุ่มจะตอบคำถามของคุณอย่างถูกต้อง ความพยายามที่จะสร้างสิ่งนี้ขึ้นมาจากความสามารถในการโลจิสติกส์สามารถทำได้ แต่อีกครั้งทำงานได้ดีกว่าการใช้แบบจำลองการเอาตัวรอด
หน้าผา AB

ฉันเห็นด้วยกับ @CliffAB เกี่ยวกับเรื่องนี้ ฉันลังเลที่จะแนะนำการถดถอยทางโลจิสติกส์โดยเฉพาะเนื่องจากความยากลำบากในการรับแบบฟอร์มการทำงานที่เหมาะสมสำหรับการพึ่งพาอายุ ฉันไม่เคยมีประสบการณ์กับการวิเคราะห์ข้อมูลสถานะปัจจุบัน การไม่ต้องพึ่งพารูปแบบของการพึ่งพาอายุนั้นเป็นข้อได้เปรียบที่ยิ่งใหญ่ของเทคนิคนั้น ฉันจะให้คำตอบของฉัน แต่เพื่อให้ผู้ที่ตรวจสอบหัวข้อนี้ในภายหลังจะเข้าใจวิธีการเล่นออก
EdM

สำหรับฉันแล้วความคิดเห็นของคุณที่นี่เป็นประเด็นสำคัญของเรื่องนี้ มันจะช่วยถ้าคุณสามารถพัฒนามันในคำตอบของคุณ ตัวอย่างเช่นหากคุณสามารถใช้ข้อมูลตัวอย่างของ OP เพื่อสร้างแบบจำลอง LR และรูปแบบการอยู่รอดที่ถูกเซ็นเซอร์ในช่วงเวลาและแสดงให้เห็นว่าภายหลังตอบคำถามการวิจัยของ OP ได้ง่ายขึ้นอย่างไร
gung - Reinstate Monica

1
@ gung: อันที่จริงฉันมีท่าทางนุ่มนวลเกี่ยวกับการถดถอยโลจิสติก ฉันแก้ไขคำตอบเพื่อสะท้อนสิ่งนี้
หน้าผา AB

4

f(x)F(x)xiif(xi)yi1F(yi)ziF(zi)(yi,zi]F(zi)F(yi)


1
f(x)F(yi)F(yi+)

4

ปัญหานี้ดูเหมือนว่าจะจัดการได้ดีโดยการถดถอยโลจิสติก

คุณมีสองสถานะคือ A และ B และต้องการตรวจสอบความน่าจะเป็นของบุคคลใดบุคคลหนึ่งที่เปลี่ยนกลับไม่ได้จากสถานะ A ไปเป็นสถานะ B ตัวแปรตัวทำนายพื้นฐานหนึ่งตัวจะมีอายุในช่วงเวลาของการสังเกต ปัจจัยอื่น ๆ หรือปัจจัยที่น่าสนใจจะเป็นตัวแปรทำนายเพิ่มเติม

โมเดลการขนส่งของคุณจะใช้การสังเกตการณ์จริงของสถานะ A / B อายุและปัจจัยอื่น ๆ เพื่อประเมินความน่าจะเป็นที่จะอยู่ในสถานะ B เป็นฟังก์ชันของตัวทำนายเหล่านั้น อายุที่ความน่าจะเป็นนั้นผ่าน 0.5 สามารถใช้เป็นค่าประมาณของช่วงการเปลี่ยนภาพจากนั้นคุณจะตรวจสอบอิทธิพลของปัจจัยอื่น ๆ ที่มีต่อช่วงเวลาการเปลี่ยนภาพที่คาดการณ์ไว้

เพิ่มการตอบสนองต่อการสนทนา:

เช่นเดียวกับตัวแบบเชิงเส้นใด ๆ คุณต้องแน่ใจว่าตัวทำนายของคุณเปลี่ยนไปในลักษณะที่พวกมันมีความสัมพันธ์เชิงเส้นกับตัวแปรผลลัพธ์ในกรณีนี้อัตราต่อรองของความน่าจะเป็นที่จะถูกย้ายไปที่สถานะ B นั่นไม่จำเป็น ปัญหาเล็กน้อย คำตอบโดย @CliffAB แสดงให้เห็นว่าการเปลี่ยนแปลงการบันทึกของตัวแปรอายุอาจจะใช้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.