วิธีการเปรียบเทียบการอยู่รอดเฉลี่ยระหว่างกลุ่ม?


12

ฉันกำลังดูความอยู่รอดของคนไข้โดยใช้ Kaplan-Meier ในรัฐต่าง ๆ สำหรับโรคมะเร็ง มีความแตกต่างค่อนข้างมากระหว่างรัฐ ฉันจะเปรียบเทียบความอยู่รอดของค่ามัธยฐานระหว่างรัฐทั้งหมดและตัดสินว่ารัฐใดมีความแตกต่างอย่างมีนัยสำคัญจากค่าเฉลี่ยการอยู่รอดเฉลี่ยทั่วประเทศ?


คุณช่วยกรุณาบอกบางอย่างเกี่ยวกับขนาดตัวอย่างกรอบเวลาการอยู่รอด% ฯลฯ เพื่อให้เราได้แนวคิดการออกแบบการเรียนที่ดีขึ้นของคุณหรือไม่
chl

มีการตรวจสอบค่าในข้อมูล - นอกเหนือจากค่าที่ใหญ่ที่สุด?
ronaf

มีค่าการเซ็นเซอร์ที่แน่นอนในข้อมูลและประชากรทั้งหมดประมาณ 1500, การอยู่รอดโดยรวมเฉลี่ยอยู่ที่ 18 เดือน (ช่วง 300-600 วัน) ... กรอบเวลาคือรอบระยะเวลา 2000-2007
Misha

คำตอบ:


6

สิ่งหนึ่งที่ต้องเก็บไว้ในใจกับเส้นโค้งการอยู่รอดของ Kaplan-Meier ก็คือว่ามันเป็นพื้นพรรณนาและไม่เชิงอนุมาน มันเป็นเพียงฟังก์ชั่นของข้อมูลที่มีรูปแบบที่ยืดหยุ่นอย่างไม่น่าเชื่อที่อยู่ด้านหลัง นี่คือจุดแข็งเพราะสิ่งนี้หมายความว่าแทบจะไม่มีข้อสันนิษฐานใด ๆ ที่อาจแตกหัก แต่จุดอ่อนเพราะมันยากที่จะพูดคุยและมันเหมาะกับ "เสียง" และ "สัญญาณ" หากคุณต้องการทำการอนุมานคุณจะต้องแนะนำสิ่งที่ไม่รู้จักที่คุณอยากรู้

ตอนนี้วิธีหนึ่งในการเปรียบเทียบเวลาเฉลี่ยของการเอาตัวรอดคือการทำสมมติฐานต่อไปนี้:

  1. ฉันมีการประมาณการของเวลาการอยู่รอดเฉลี่ยสำหรับแต่ละรัฐกำหนดโดยเส้นโค้ง Kaplan Meierฉันtii
  2. ฉันคาดว่าเวลาเฉลี่ยของการอยู่รอดที่แท้จริงจะเท่ากับค่าประมาณนี้ E ( T i | t i ) = t iTiE(Ti|ti)=ti
  3. ฉันมั่นใจ 100% ว่าเวลาการอยู่รอดที่แท้จริงเป็นค่าบวก Pr(Ti>0)=1

ทีนี้วิธีที่ "อนุรักษ์นิยมที่สุด" ในการใช้สมมติฐานเหล่านี้คือหลักการของเอนโทรปีสูงสุดดังนั้นคุณจะได้รับ:

p(Ti|ti)=Kexp(λTi)

ที่ไหนและได้รับการแต่งตั้งดังกล่าวว่ารูปแบบไฟล์ PDF ให้เป็นมาตรฐานและความคุ้มค่าที่คาดว่าจะเป็น{i} ตอนนี้เรามี:λ t ฉันKλti

= K [ - อีเอ็กซ์พี( - λ T ฉัน )

1=0p(Ti|ti)dTi=K0exp(λTi)dTi
E ( T i ) = 1
=K[exp(λTi)λ]Ti=0Ti==KλK=λ
และตอนนี้เรามีE(Ti)=1λλ=ti1

คุณมีชุดของการแจกแจงความน่าจะเป็นสำหรับแต่ละรัฐ

p(Ti|ti)=1tiexp(Titi)(i=1,,N)

ซึ่งให้การกระจายความน่าจะเป็นร่วมของ:

p(T1,T2,,TN|t1,t2,,tN)=i=1N1tiexp(Titi)

ตอนนี้ดูเหมือนว่าคุณต้องการทดสอบสมมติฐานโดยที่เป็นเวลาเฉลี่ยของการรอดชีวิตเฉลี่ย สมมติฐานทางเลือกที่รุนแรงในการทดสอบคือ "ทุกรัฐเป็นเกล็ดหิมะที่มีเอกลักษณ์และสวยงาม"เพราะนี่คือ ทางเลือกที่เป็นไปได้มากที่สุดและแสดงถึงข้อมูลที่หายไปในการย้ายไปสู่สมมติฐานที่ง่ายกว่า (การทดสอบ "minimax") การวัดหลักฐานเทียบกับสมมติฐานที่ง่ายกว่านั้นกำหนดโดยอัตราต่อรอง:H0:T1=T2==TN=t¯t¯=1Ni=1NtiHA:T1=t1,,TN=tN

O(HA|H0)=p(T1=t1,T2=t2,,TN=tN|t1,t2,,tN)p(T1=t¯,T2=t¯,,TN=t¯|t1,t2,,tN)
=[i=1N1ti]exp(i=1Ntiti)[i=1N1ti]exp(i=1Nt¯ti)=exp(N[t¯tharm1])

ที่ไหน

tharm=[1Ni=1Nti1]1t¯

คือค่าเฉลี่ยฮาร์มอนิก โปรดทราบว่าอัตราต่อรองจะเหมาะอย่างสมบูรณ์แบบเสมอ แต่ไม่มากถ้าเวลาอยู่รอดเฉลี่ยอยู่ใกล้พอสมควร นอกจากนี้ยังช่วยให้คุณสามารถระบุหลักฐานของการทดสอบสมมติฐานนี้โดยเฉพาะ:

สมมติฐานที่ 1-3 ให้อัตราต่อรองสูงสุดของ เทียบกับค่ามัธยฐานการมีชีวิตอยู่รอดที่เท่าเทียมกันในทุกรัฐO(HA|H0):1

รวมสิ่งนี้เข้ากับกฏการตัดสินใจ, ฟังก์ชั่นการสูญเสีย, ฟังก์ชั่นยูทิลิตี้ ฯลฯ ซึ่งบอกว่ามันมีประโยชน์อย่างไรที่จะยอมรับสมมติฐานที่ง่ายกว่าและคุณจะได้ข้อสรุป!

ไม่มีการ จำกัด จำนวนของสมมติฐานที่คุณสามารถทดสอบได้และให้อัตราต่อรองที่คล้ายกัน เพียงแค่เปลี่ยนเพื่อระบุชุดที่เป็นไปได้ "ค่าจริง" ที่เป็นไปได้ คุณสามารถทำ "การทดสอบนัยสำคัญ" โดยเลือกสมมติฐานดังนี้:H0

HS,i:Ti=ti,Tj=T=t¯(i)=1N1jitj

ดังนั้นสมมติฐานนี้จึงเป็นคำพูด "รัฐมีอัตราการรอดชีวิตเฉลี่ยที่แตกต่างกัน แต่รัฐอื่น ๆ ทั้งหมดเหมือนกัน" จากนั้นทำการคำนวณอัตราต่อรองที่ฉันทำไว้อีกครั้ง แม้ว่าคุณควรระมัดระวังเกี่ยวกับสมมติฐานทางเลือกคืออะไร สำหรับข้อใดข้อหนึ่งด้านล่างนี้ "สมเหตุสมผล" ในแง่ที่ว่าพวกเขาอาจเป็นคำถามที่คุณสนใจที่จะตอบ (และโดยทั่วไปแล้วพวกเขาจะมีคำตอบที่แตกต่างกัน)i

  • ฉันที่กำหนดไว้ข้างต้น - วิธีการที่เลวร้ายมากจะเมื่อเทียบกับแบบที่สมบูรณ์แบบ? H S , iHAHS,i
  • ฉันกำหนดไว้ด้านบน - วิธีที่ดีมากที่จะเมื่อเทียบกับแบบเฉลี่ย? H S , iH0HS,i
  • ต่างกัน- รัฐ "แตกต่างกันมาก" เมื่อเทียบกับ state ? k iHS,kki

ทีนี้สิ่งหนึ่งที่มองข้ามนี่คือความสัมพันธ์ระหว่างรัฐ - โครงสร้างนี้สันนิษฐานว่าการรู้อัตราการรอดชีวิตเฉลี่ยในรัฐหนึ่งจะไม่บอกอะไรคุณเกี่ยวกับอัตราการรอดชีวิตเฉลี่ยในอีกรัฐหนึ่ง แม้ว่าสิ่งนี้อาจดูเหมือน "ไม่ดี" แต่ก็ไม่ยากที่จะปรับปรุงและการคำนวณข้างต้นเป็นผลลัพธ์เริ่มต้นที่ดีซึ่งง่ายต่อการคำนวณ

การเพิ่มการเชื่อมต่อระหว่างรัฐจะเปลี่ยนโมเดลความน่าจะเป็นและคุณจะเห็น "การรวม" บางอย่างของเวลาการอยู่รอดเฉลี่ย วิธีหนึ่งที่จะรวมความสัมพันธ์เข้ากับการวิเคราะห์คือการแยกเวลาการเอาชีวิตรอดที่แท้จริงออกเป็นสองส่วนคือ "ส่วนทั่วไป" หรือ "แนวโน้ม" และ "ส่วนบุคคล":

Ti=T+Ui

จากนั้น จำกัด แต่ละส่วนให้มีค่าเฉลี่ยเป็นศูนย์เหนือหน่วยทั้งหมดและความแปรปรวนที่ไม่รู้จักที่จะรวมเข้าด้วยกันโดยใช้ก่อนอธิบายความรู้ที่คุณมีของความแปรปรวนของแต่ละบุคคลก่อนที่จะสังเกตข้อมูล (หรือ jeffreys ก่อนถ้าคุณ ไม่ต้องรู้อะไรเลยและครึ่งนึงถ้า jeffreys ทำให้เกิดปัญหา) σUiσ


(+1) น่าสนใจมาก โพสต์ของคุณทำให้ฉันใส่ความคิดเห็นในคำตอบของฉันด้วย
GaBorgulya

บางทีฉันอาจจะพลาด แต่กำหนดไว้ที่ไหน? M1
พระคาร์ดินัล

@cardinal ขอโทษด้วย - มันเป็นคำผิด จะถูกลบออก
ความน่าจะเป็นทาง

ไม่จำเป็นต้องขอโทษ แค่ไม่แน่ใจว่าฉันได้ข้ามมันไปแล้วหรือไม่
พระคาร์ดินัล

4

คิดว่าฉันเพิ่งเพิ่มหัวข้อนี้ที่คุณอาจสนใจในการถดถอยเชิงปริมาณด้วยการเซ็นเซอร์ Bottai & Zhang 2010เสนอ "Laplace ถดถอย" ที่สามารถทำเพียงแค่งานนี้คุณสามารถหารูปแบบไฟล์ PDF เกี่ยวกับเรื่องนี้ที่นี่ มีแพ็กเกจสำหรับ Stata สำหรับสิ่งนี้ แต่ยังไม่ได้รับการแปลเป็น R แม้ว่าแพ็คเกจ quantreg ใน R มีฟังก์ชั่นสำหรับการตรวจสอบการถดถอยแบบควอไทล์ crqซึ่งอาจเป็นตัวเลือก

ฉันคิดว่าวิธีการนี้น่าสนใจมากและอาจจะง่ายกว่าสำหรับผู้ป่วยที่มีอัตราส่วนอันตราย เช่นทราบว่า 50% ของยาเสพติดอยู่รอด 2 เดือนมากกว่ายาที่ไม่ใช้ยาและผลข้างเคียงทำให้คุณต้องอยู่ที่โรงพยาบาล 1-2 เดือนอาจทำให้การเลือกการรักษาง่ายขึ้นมาก


ฉันไม่รู้ "Laplace Regression" แต่เกี่ยวกับย่อหน้าที่ 2 ของคุณฉันสงสัยว่าฉันเข้าใจถูกต้องหรือไม่ โดยปกติแล้วในการวิเคราะห์การเอาชีวิตรอด (คิดในแง่ของเวลาที่ล้มเหลวเร่ง) เราจะพูดบางอย่างเช่น 'เปอร์เซ็นไทล์ที่ 50 สำหรับกลุ่มยาเสพติดมา 2 เดือนหลังจากนั้น 50% สำหรับกลุ่มควบคุม นั่นคือสิ่งที่คุณหมายถึงหรือเอาท์พุทของ LR จ่ายการตีความที่แตกต่างกัน?
gung - Reinstate Monica

@gung: ฉันคิดว่าคุณถูกต้องในการตีความของคุณ - เปลี่ยนข้อความได้ดีขึ้น? ฉันไม่ได้ใช้แบบจำลองการถดถอยด้วยตัวเองแม้ว่าฉันจะได้พบพวกเขาในหลักสูตรเมื่อเร็ว ๆ นี้ Tt เป็นทางเลือกที่น่าสนใจสำหรับโมเดล Cox ทั่วไปที่ฉันใช้บ่อยมาก แม้ว่าฉันอาจต้องใช้เวลาย่อยความคิดที่ฉันรู้สึกว่ามันอาจจะง่ายขึ้นสำหรับฉันที่จะอธิบายให้ผู้ป่วยของฉันเพราะฉันมักจะใช้เส้นโค้ง KM เมื่ออธิบายกับผู้ป่วยของฉัน ฝ่ายทรัพยากรบุคคลต้องการให้คุณเข้าใจความแตกต่างระหว่างความเสี่ยงและความเสี่ยงที่แน่นอน - แนวคิดที่อาจต้องใช้เวลาในการอธิบาย ...
Max Gordon


ขอบคุณ @Misha สำหรับลิงค์ ผู้เขียนมีการตอบกลับที่นี่: onlinelibrary.wiley.com/doi/10.1002/bimj.201100103/abstract
Max Gordon

3

ก่อนอื่นฉันจะเห็นภาพข้อมูล: คำนวณช่วงความเชื่อมั่นและข้อผิดพลาดมาตรฐานสำหรับผู้รอดชีวิตเฉลี่ยในแต่ละรัฐและแสดง CIs บนผืนป่าป่าไม้ค่ามัธยฐานและ SE ของพวกเขาโดยใช้ช่องทาง

“ ค่าเฉลี่ยมัธยฐานการมีชีวิตอยู่ทั่วประเทศ” เป็นปริมาณที่ประเมินจากข้อมูลจึงมีความไม่แน่นอนดังนั้นคุณไม่สามารถใช้มันเป็นค่าอ้างอิงที่คมชัดในระหว่างการทดสอบที่สำคัญ ปัญหาอื่น ๆ เกี่ยวกับค่าเฉลี่ยของวิธีการทั้งหมดคือเมื่อคุณเปรียบเทียบค่ามัธยฐานของรัฐกับมันคุณกำลังเปรียบเทียบค่ามัธยฐานกับปริมาณที่รวมปริมาณนั้นเป็นส่วนประกอบอยู่แล้ว ดังนั้นจึงเป็นการง่ายกว่าที่จะเปรียบเทียบแต่ละรัฐกับรัฐอื่น ๆทั้งหมดรวมกัน ซึ่งสามารถทำได้โดยการทดสอบการจัดอันดับบันทึก (หรือทางเลือก) สำหรับแต่ละรัฐ
(แก้ไขหลังจากอ่านคำตอบของความน่าจะเป็นเชิงตรรกะ: การทดสอบระดับล็อกจะเปรียบเทียบการเอาตัวรอดในกลุ่มสองกลุ่ม (หรือมากกว่า) แต่ก็ไม่ได้เป็นค่ามัธยฐานที่เปรียบเทียบโดยเด็ดขาดหากคุณแน่ใจว่าเป็นค่ามัธยฐานที่คุณต้องการเปรียบเทียบ คุณอาจพึ่งพาสมการของเขาหรือใช้การสุ่มใหม่ที่นี่เช่นกัน)

คุณระบุคำถามของคุณ [เปรียบเทียบหลายรายการ] ดังนั้นฉันจึงคิดว่าคุณต้องการที่จะปรับ (เพิ่ม) ค่า p ของคุณด้วยวิธีที่ถ้าคุณเห็นค่า p ที่ปรับอย่างน้อยหนึ่งค่าน้อยกว่า 5% คุณสามารถสรุปได้ว่า ไม่เท่ากัน” ที่ระดับนัยสำคัญ 5% คุณอาจใช้วิธีทั่วไปและอนุรักษ์นิยมมากเกินไปเช่น Bonferroni แต่รูปแบบการแก้ไขที่ดีที่สุดจะนำความสัมพันธ์ของค่า p มาพิจารณาด้วย ฉันคิดว่าคุณไม่ต้องการที่จะสร้างความรู้เบื้องต้นในรูปแบบการแก้ไขดังนั้นฉันจะหารือเกี่ยวกับรูปแบบที่การปรับจะถูกคูณค่า p แต่ละค่าด้วยค่าคงตัว C เดียวกัน

เนื่องจากฉันไม่รู้ว่าจะได้รับสูตรอย่างไรเพื่อให้ได้ตัวคูณ C ที่ดีที่สุดฉันจะใช้การสุ่มใหม่ ภายใต้สมมติฐานว่างว่าลักษณะการเอาชีวิตรอดนั้นเหมือนกันในทุกรัฐดังนั้นคุณสามารถเปลี่ยนสถานะฉลากของกรณีมะเร็งและคำนวณค่ามัธยฐาน หลังจากได้รับเวกเตอร์ resampled จำนวนมากของค่าสถานะ p ฉันจะหาตัวเลขตัวคูณ C ด้านล่างซึ่งน้อยกว่า 95% ของเวกเตอร์รวมถึงไม่มีค่า p ที่สำคัญและสูงกว่าซึ่งมากกว่า 95% ในขณะที่ช่วงดูกว้างฉันจะเพิ่มจำนวนชิ้นตัวอย่างซ้ำตามลำดับความสำคัญ


คำแนะนำที่ดีเกี่ยวกับการแสดงข้อมูล (+1)
ความน่าจะเป็นทาง

@probabilityislogic ขอบคุณ! ฉันยินดีต้อนรับการวิจารณ์โดยเฉพาะอย่างยิ่งถ้าสร้างสรรค์
GaBorgulya

คำวิจารณ์เดียวที่ฉันมีคือการใช้ค่า p แต่นี่เป็น "ชิปบนไหล่ของฉัน" มากกว่าคำตอบของคุณ - ดูเหมือนว่าคุณจะใช้ค่า p แล้วสิ่งที่คุณแนะนำนั้นดี ฉันไม่คิดว่าการใช้ค่า p เป็นสิ่งที่ดี ดูที่นี่สำหรับการแลกเปลี่ยนกับ @eduardo ในความคิดเห็นเกี่ยวกับค่า p
ความน่าจะเป็นทาง
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.