การทำนายเงื่อนไขทางการแพทย์ต่อไปจากเงื่อนไขที่ผ่านมาในข้อมูลการเรียกร้อง


12

ฉันกำลังทำงานกับข้อมูลการเคลมประกันสุขภาพจำนวนมากซึ่งรวมถึงการอ้างสิทธิ์ในห้องปฏิบัติการและร้านขายยา อย่างไรก็ตามข้อมูลที่สอดคล้องกันมากที่สุดในชุดข้อมูลประกอบด้วยการวินิจฉัย (ICD-9CM) และรหัสขั้นตอน (CPT, HCSPCS, ICD-9CM)

เป้าหมายของฉันคือ:

  1. ระบุเงื่อนไขสารตั้งต้นที่มีอิทธิพลมากที่สุด (comorbidities) สำหรับเงื่อนไขทางการแพทย์เช่นโรคไตเรื้อรัง
  2. ระบุโอกาส (หรือความน่าจะเป็น) ที่ผู้ป่วยจะพัฒนาเงื่อนไขทางการแพทย์ตามเงื่อนไขที่เคยมีในอดีต
  3. ทำเช่นเดียวกับ 1 และ 2 แต่มีขั้นตอนและ / หรือการวินิจฉัย
  4. โดยเฉพาะอย่างยิ่งผลลัพธ์จะถูกตีความโดยแพทย์

ฉันได้ดูสิ่งต่าง ๆ เช่นเอกสารไมล์สโตนเฮอริเทจและได้เรียนรู้อะไรมากมายจากพวกเขา แต่พวกเขามุ่งเน้นไปที่การทำนายการรักษาในโรงพยาบาล

ดังนั้นนี่คือคำถามของฉัน: วิธีใดที่คุณคิดว่าทำงานได้ดีสำหรับปัญหาเช่นนี้ และทรัพยากรใดจะมีประโยชน์มากที่สุดสำหรับการเรียนรู้เกี่ยวกับการประยุกต์ใช้วิทยาศาสตร์ข้อมูลและวิธีการที่เกี่ยวข้องกับการดูแลสุขภาพและการแพทย์คลินิก

แก้ไข # 2 เพื่อเพิ่มตารางธรรมดา:

CKD เป็นเงื่อนไขเป้าหมาย "โรคไตเรื้อรัง", ".any" แสดงว่าพวกเขาได้รับเงื่อนไขดังกล่าวได้ตลอดเวลา ". isbefore.ckd" หมายความว่าพวกเขามีอาการนั้นก่อนการวินิจฉัยโรค CKD ครั้งแรก ตัวย่ออื่น ๆ สอดคล้องกับเงื่อนไขอื่น ๆ ที่ระบุโดยการจัดกลุ่มรหัส ICD-9CM การจัดกลุ่มนี้เกิดขึ้นใน SQL ในระหว่างกระบวนการนำเข้า ตัวแปรแต่ละตัวมีข้อยกเว้นของ patient_age เป็นเลขฐานสอง


1
คุณสามารถให้ข้อมูลตัวอย่าง (เป็นภาษาอังกฤษธรรมดาไม่มีรหัส) หรือไม่?
แฟน

ฉันเพิ่มข้อมูลตัวอย่างลงในโพสต์ดั้งเดิมของฉัน ในรุ่นนี้แต่ละเงื่อนไขจะแสดงด้วยรหัสตัวอักษรสามตัว
Jamie

1
R เจ๋ง แต่ไม่สามารถอ่านได้มากนัก คุณช่วยกรุณาฟอร์แมตตัวอย่างข้อมูลของคุณเป็นตาราง (เช่นใช้รูปแบบ CSV หรือ TSV ได้ 5-6 คอลัมน์ไม่เป็นไร) นอกจากนี้คำอธิบายของตัวแปรบางอย่าง (สิ่งที่ "anx.any", "flu.isbefore.ckd" ฯลฯ หมายถึงอะไรจริง ๆ และสิ่งที่คาดการณ์) จะช่วยได้มาก
แฟน

1
คุณสามารถให้ข้อมูลเพิ่มเติมเกี่ยวกับพารามิเตอร์ที่ใช้ในชุดข้อมูลเพื่อให้เราสามารถเข้าใจได้หรือไม่ว่ามีความสัมพันธ์ใด ๆ ตัวย่อบางตัวที่คุณพูดถึงไม่ชัดเจนสำหรับฉัน มันจะดีมากถ้าคุณสามารถแบ่งปันรหัสอีเมลของคุณเพื่อให้เราร่วมมือกันออฟไลน์ ขอบคุณ!
JohnGalt

1
นี่เป็นเพียงความเกี่ยวข้องเล็กน้อย แต่ความท้าทายด้านวิทยาศาสตร์ข้อมูลล่าสุดของเราเกี่ยวข้องกับการทำนายการอ้างสิทธิ์จากการอ้างสิทธิ์อื่น ๆ cloudera.com/content/cloudera/en/training/certification/ccp-ds/… เมื่อโซลูชันออกมาอาจมีแนวคิดที่น่าสนใจอยู่บ้าง
Sean Owen

คำตอบ:


7

ฉันไม่เคยทำงานกับข้อมูลทางการแพทย์ แต่จากเหตุผลทั่วไปฉันบอกว่าความสัมพันธ์ระหว่างตัวแปรในการดูแลสุขภาพค่อนข้างซับซ้อน แบบจำลองที่แตกต่างกันเช่นป่าสุ่มการถดถอย ฯลฯ สามารถจับภาพความสัมพันธ์เพียงบางส่วนและไม่สนใจผู้อื่น ในกรณีดังกล่าวก็จะทำให้ความรู้สึกที่จะใช้ทั่วไปการสำรวจทางสถิติและการสร้างแบบจำลอง

ตัวอย่างเช่นสิ่งแรกที่ฉันจะทำคือการค้นหาความสัมพันธ์ระหว่างเงื่อนไขของสารตั้งต้นที่เป็นไปได้และการวินิจฉัย เช่นในสิ่งที่ร้อยละของผู้ป่วยโรคไตเรื้อรังนำหน้าด้วยไข้หวัดใหญ่ยาว? ถ้าสูงก็ไม่ได้หมายถึงเวรกรรมเสมอไป แต่ให้อาหารที่ดีสำหรับความคิดและช่วยให้เข้าใจความสัมพันธ์ระหว่างเงื่อนไขต่าง ๆ ได้ดีขึ้น

อีกขั้นตอนสำคัญคือการสร้างภาพข้อมูล CKD เกิดขึ้นในผู้ชายมากกว่าผู้หญิงหรือไม่? แล้วที่พำนักของพวกเขาล่ะ? การกระจายตัวของคดี CKD แยกตามอายุคืออะไร? เป็นการยากที่จะเข้าใจชุดข้อมูลขนาดใหญ่เป็นชุดของตัวเลขการวางแผนให้ง่ายขึ้น

เมื่อคุณมีความคิดว่าเกิดอะไรขึ้นให้ทำการทดสอบสมมติฐานเพื่อตรวจสอบสมมติฐานของคุณ หากคุณปฏิเสธสมมติฐานว่าง (สมมุติฐานพื้นฐาน) เพื่อแสดงความยินดีกับทางเลือกอื่นแสดงว่าคุณได้ทำอะไรที่เป็นของจริงขึ้นมา

สุดท้ายเมื่อคุณมีดีการทำความเข้าใจข้อมูลของคุณพยายามที่จะสร้างเสร็จรุ่น อาจเป็นสิ่งทั่วไปเช่นPGM (เช่นเครือข่าย Bayesian ที่สร้างขึ้นด้วยตนเอง) หรือบางอย่างที่เฉพาะเจาะจงมากขึ้นเช่นการถดถอยเชิงเส้นหรือSVMหรืออะไรก็ตาม แต่ในทางใดทางหนึ่งคุณจะรู้ว่าโมเดลนี้สอดคล้องกับข้อมูลของคุณอย่างไรและคุณสามารถวัดประสิทธิภาพได้อย่างไร


ในฐานะที่เป็นแหล่งข้อมูลเริ่มต้นที่ดีสำหรับการเรียนรู้วิธีการทางสถิติฉันขอแนะนำหลักสูตรIntro กับ Statisticsโดย Sebastian Thrun แม้ว่าจะค่อนข้างพื้นฐานและไม่รวมหัวข้อขั้นสูง แต่ก็อธิบายแนวคิดที่สำคัญที่สุดและให้ความเข้าใจอย่างเป็นระบบเกี่ยวกับทฤษฎีความน่าจะเป็นและสถิติ


ขอบคุณสำหรับสิ่งนี้! เป็นการยืนยันขั้นตอนบางอย่างที่ฉันได้ทำไปแล้ว (การวิเคราะห์เชิงสำรวจการทดสอบสมมติฐาน ฯลฯ )
เจมี่

7

ในขณะที่ฉันไม่ใช่นักวิทยาศาสตร์ด้านข้อมูล แต่ฉันเป็นนักระบาดวิทยาที่ทำงานในสถานพยาบาล คำถามการวิจัยของคุณไม่ได้ระบุช่วงเวลา (เช่นราคาของการพัฒนา CKD ใน 1 ปี, 10 ปี, ตลอดชีวิต?)

โดยทั่วไปฉันจะทำหลายขั้นตอนก่อนที่จะคิดเกี่ยวกับการสร้างแบบจำลอง (การวิเคราะห์แบบหลายตัวแปรการวิเคราะห์แบบไบวาเรีย อย่างไรก็ตามวิธีที่ใช้กันมากที่สุดสำหรับการพยายามทำนายเหตุการณ์ไบนารี (โดยใช้ตัวแปร OR ต่อเนื่องหรือไบนารี) คือการถดถอยโลจิสติก หากคุณต้องการดู CKD เป็นค่าห้องปฏิบัติการ (ปัสสาวะอัลบูมิน, eGFR) คุณจะใช้การถดถอยเชิงเส้น (ผลลัพธ์ต่อเนื่อง)

ในขณะที่วิธีการที่ใช้ควรได้รับการแจ้งจากข้อมูลและคำถามของคุณแพทย์จะใช้ในการดูอัตราส่วนอัตราต่อรองและอัตราส่วนความเสี่ยงซึ่งเป็นมาตรการที่สมาคมรายงานบ่อยที่สุดในวารสารทางการแพทย์เช่น NEJM และ JAMA

หากคุณกำลังทำงานกับปัญหานี้จากมุมมองด้านสุขภาพของมนุษย์ (ซึ่งต่างจาก Business Intelligence) โมเดลการทำนายผลทางคลินิกของ Steyerberg นี้เป็นแหล่งข้อมูลที่ดีเยี่ยม


1
ขอบคุณสำหรับคำแนะนำที่เป็นประโยชน์ ฉันจะตรวจสอบหนังสือเล่มนั้นอย่างแน่นอน! แม้ว่าฉันจะสามารถเข้าถึงค่าห้องปฏิบัติการได้ แต่ข้อมูลก็ไม่น่าเชื่อถือและเป็นระยะ ๆ ดังนั้นฉันจึงพยายามยึดข้อมูลที่ฉันได้รับจากการอ้างสิทธิ์ ตัวย่อตัวแปรคือกลุ่มซอฟต์แวร์จำแนกทางคลินิก AHRQ ของรหัสการวินิจฉัย
เจมี่

3

"ระบุเงื่อนไขสารตั้งต้นที่มีอิทธิพลมากที่สุด (comorbidities) สำหรับเงื่อนไขทางการแพทย์เช่นโรคไตเรื้อรัง"

ผมไม่แน่ใจว่ามันเป็นไปได้ที่จะ ID เงื่อนไขที่มีอิทธิพลมากที่สุด; ฉันคิดว่ามันจะขึ้นอยู่กับรุ่นที่คุณใช้ เมื่อวานนี้ฉันพอดีกับฟอเรสต์แบบสุ่มและต้นไม้การถดถอยที่เพิ่มขึ้นกับข้อมูลเดียวกันและลำดับและความสำคัญสัมพัทธ์ที่แต่ละรุ่นให้สำหรับตัวแปรนั้นแตกต่างกันมาก


ขอบคุณแอนดี้ คุณช่วยอธิบายหน่อยได้ไหม? เป็นเพราะตัวแปรไม่ได้รับรายละเอียดเพียงพอหรือไม่
Jamie

ฉันไม่รู้. ฉันเดาว่ามันขึ้นอยู่กับว่าแบบจำลองต่างๆทำงานอย่างไร
JenSCDC

คุณช่วยแนะนำวิธีแก้ปัญหาบางอย่างที่คุณได้ลองหรือพิจารณาแล้วได้ไหม
Jamie

จนถึงตอนนี้ฉันยังไม่ได้ทำเช่นนั้นดังนั้นจึงไม่มีความช่วยเหลือ ขอโทษ
JenSCDC

ตอนนี้ฉันกำลังจะไปพักผ่อนในช่วงสองสามสัปดาห์ข้างหน้า แต่เมื่อฉันกลับมาฉันจะมองมันเพราะมันทำให้ฉันสนใจ
JenSCDC
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.