เกณฑ์การจับคู่ขั้นต่ำอะไรที่แนะนำสำหรับการจับคู่ผู้ป่วยด้วยข้อมูลประชากรที่เชื่อถือได้


30

เมื่อจับคู่ผู้ป่วยตามข้อมูลประชากรมีคำแนะนำใด ๆ เกี่ยวกับเขตข้อมูลใดที่ควรจับคู่กับผู้ป่วยให้เป็น "ผู้ป่วยรายเดียวกัน"

ฉันรู้ว่าอัลกอริทึมจะแตกต่างกันสำหรับการใช้งานที่แตกต่างกันฉันแค่อยากรู้ว่ามีวิธีปฏิบัติที่ดีที่สุดหรือคำแนะนำเกี่ยวกับกระบวนการนี้

First Name
Last Name
Date of Birth
SSN
Address
City
State
Zip

etc?


4
อาจเป็นคำตอบสำหรับคำถามนี้อาจเปลี่ยนแปลงขึ้นอยู่กับประเทศที่เฉพาะเจาะจงหรือแม้กระทั่งในการพิจารณาเชื้อชาติและวัฒนธรรม เช่นชื่อของบุคคลอาจไม่ใช่ตัวบ่งชี้ผู้ป่วยที่ดีสำหรับชาวอะบอริจินออสเตรเลีย (หรือควรได้รับ "น้ำหนัก" ที่ต่ำกว่าในกรณีของพวกเขา) เนื่องจากพวกเขาอาจเปลี่ยนชื่อเมื่อเวลาผ่านไป ชาวพื้นเมืองออสเตรเลียที่มีชื่อเดียวกันกับผู้ที่เสียชีวิตจากการถูกทอดทิ้งเพราะพวกเขาคิดว่ามันเป็นเรื่องที่แย่มากที่จะใช้ชื่อเดียวกันกับคนที่เสียชีวิต สิ่งที่คล้ายกันเกิดขึ้นในวัฒนธรรมอื่น ๆ ชื่อของคนตายคือข้อห้าม ลิงก์

4
หรืออีกตัวอย่างหนึ่งจากการศึกษาที่ยังไม่ได้เผยแพร่: ในผู้อพยพชาวฟิลิปปินส์ไปยังสหรัฐอเมริกานามสกุลที่พบมากที่สุดสิบบัญชีคิดเป็นประมาณ 6% ของผู้คนทั้งหมด ผู้อพยพชาวเวียดนามคิดเป็น 60% ชื่อเป็นตัวบ่งชี้ที่ดีกว่าในฟิลิปปินส์มากกว่าชาวเวียดนาม ฉันจะโพสต์การศึกษานั้นอย่างแน่นอนเมื่อมันพร้อมใช้งาน

เพื่อชี้แจง: เป้าหมายหลักคือเพื่อให้ตรงกับสองชุดของบันทึก?

เมื่อพยายามจับคู่ระเบียนให้แน่ใจว่าได้แยกความแตกต่างระหว่างความแข็งแกร่งของการแข่งขัน ("Bob" คล้ายกับ "Bob") มากเมื่อเทียบกับจำนวนการแข่งขันที่เป็นไปได้ (มี Bobs จำนวนมาก) หากมีสองระเบียนที่มีชื่อเหมือนกันและไม่มีระเบียนอื่นที่มีชื่อนั้นมันอาจเป็นบุคคลเดียวกันแม้ว่าที่อยู่จะแตกต่างกัน สมมติว่าคุณมีคลังข้อมูลขนาดใหญ่แน่นอน
Jon of All Trades

คำตอบ:


20

มีเรียงความที่ยอดเยี่ยมนี้ (เป็นภาษาสเปน, ขอโทษ) เขียนโดย Pablo Pazos, CS Engineer จากอุรุกวัยที่ทำงานด้านการดูแลสุขภาพด้านไอทีมาตั้งแต่ปี 2549 และได้มีส่วนร่วมอย่างมากในการทำขั้นตอนนี้

คุณสามารถเรียกใช้บทความผ่านนักแปล แต่สรุปสาระสำคัญของบทความนี้คือข้อมูลพื้นฐานในการระบุตัวตนของบุคคลคือชื่อและนามสกุล (ทั้งจากพ่อและแม่) เพศและวันเดือนปีเกิด น่าสนใจพอเขาแยกหมายเลขประจำตัวเช่น SSN ออกจากอัลกอริทึมการจับคู่ข้อมูลเฉพาะตัวของเขาเนื่องจาก "ตัวระบุชนิดใด ๆ ไม่ได้เป็นส่วนหนึ่งของตัวตนของเขา" (ฉันเดาว่าประเด็นนี้อาจเป็นที่ถกเถียงกัน) นอกจากนี้เขายังแยกคุณลักษณะเช่นที่อยู่หมายเลขโทรศัพท์ ฯลฯ เนื่องจากพวกเขาไม่ได้เกี่ยวข้องกับตัวตนของใครบางคนพวกเขาไม่ได้เชื่อมโยงกับ "ใครบางคนเป็นจริง"

นอกจากนี้เขายังกำหนด "น้ำหนัก" ที่แตกต่างให้กับแอตทริบิวต์ก่อนหน้าแต่ละแบบดังนี้:

  • ชื่อ: 17.5%
  • ชื่อกลาง: 17.5%
  • ชื่อสกุล (พ่อ): 17.5%
  • ชื่อสกุล (แม่): 17.5%
  • เพศ: 10%
  • วันเกิด: 20%

ด้วยการจับคู่ที่พบในแอตทริบิวต์เหล่านี้ทุกตัวเขาจะอธิบายวิธีการที่จะได้รับ "ดัชนีการจับคู่ความสอดคล้อง" ซึ่งประกอบด้วยการเปรียบเทียบระหว่างบันทึกได้ นอกจากนี้ยังมี "บางส่วน" ตรงกับลักษณะชื่อที่เป็นไปได้โดยใช้ขั้นตอนวิธีการเช่นLevenshtein ระยะทางของ

อ่านดี IMO ขออภัยเป็นภาษาสเปน แต่ฉันหวังว่าฉันจะสามารถถ่ายทอดความคิดหลักของมันได้


2
ขอบคุณมาก +1 สำหรับการกล่าวถึงระยะทางเนื่องจากความผิดพลาดในการพิมพ์เป็นเรื่องธรรมดาโดยเฉพาะอย่างยิ่งในชุมชนที่มีภูมิหลังทางวัฒนธรรมที่หลากหลายเช่นในอเมริกาเหนือ ที่กล่าวว่ากรณีส่วนใหญ่ที่ฉันต้องดำเนินการตรงกับโดเมนของค่าที่เป็นไปได้ค่อนข้าง จำกัด ดังนั้นในกรณีเหล่านี้เกณฑ์ใด ๆ ที่เชื่อถือได้ (เช่นหมายเลขประกันสุขภาพ) ที่ส่งคืนการเข้าชมครั้งเดียวในฐานข้อมูลจะเพียงพอหากมีการส่งคืนหลายรายการฉันมักจะถามผู้ใช้ (ถ้ามี) หรือตัวกรองพร้อมเกณฑ์เพิ่มเติม

(... ต่อ) โปรดทราบว่ากรณีเหล่านี้ใช้ได้ดีกับการติดตั้ง EMR ในโรงพยาบาลหรือโรงพยาบาลหรือ RIS กับแผนก radio9logy ในกรณีเหล่านี้ลูกค้ามีการลงทะเบียนในคลินิกหรือโรงพยาบาลหรือไม่ ในกรณีของ MPI อย่างไรก็ตามนี่เป็นเกมลูกใหม่ทั้งหมด

13

ไม่มีอัลกอริทึมเวทมนต์เดี่ยวสำหรับการจับคู่ผู้ป่วยและฉันสงสัยว่าจะมี

สำหรับผู้เริ่มมีความแปรปรวนระดับภูมิภาค MMattoli ชี้ให้เห็นว่าอะไรทำงานได้ดีในโรงพยาบาลในเมืองสหรัฐอเมริกาอาจจะไม่เหมาะกับคลินิกในชนบทของออสเตรเลียที่รักษาชาวอะบอริจิน

นอกจากนี้ไซต์แต่ละแห่งยังมีมุมมองที่แตกต่างกันเกี่ยวกับการยอมรับข้อบกพร่อง หากคุณจับคู่เมื่อคุณมั่นใจจริงๆเท่านั้นคุณจะได้รับการจับคู่ที่ไม่ได้รับจำนวนมาก นี่เป็นสาเหตุของระเบียนผู้ป่วยที่ซ้ำกันซึ่งสร้างปัญหาชุดอื่นทั้งหมด เว็บไซต์ส่วนใหญ่ยินดีที่จะชำระให้แน่นอนแต่จะแน่ใจได้อย่างไรว่าเพียงพอหรือไม่ ถาม 10 คนและคุณจะได้รับคำตอบ 12 ข้อ

ดังนั้นอัลกอริทึม "ดีที่สุด" จะถูกกำหนดค่าเพื่อให้ลูกค้าของคุณสามารถปรับแต่งให้เหมาะกับความต้องการของพวกเขา

เมื่อพิจารณาการจับคู่เขตข้อมูลที่แตกต่างกันเสนอระดับความเชื่อมั่นที่แตกต่างกัน

ตัวบ่งชี้เฉพาะด้านการดูแลสุขภาพให้ความมั่นใจมากที่สุดเนื่องจากจุดประสงค์ทั้งหมดของพวกเขาคือการระบุตัวบุคคลในระบบสุขภาพ โรงพยาบาลมักจะปวดเพื่อให้แน่ใจว่าสิ่งเหล่านี้จะไม่ถูกทำซ้ำ

ตัวอย่าง:

  • รหัสสุขภาพแห่งชาติ (เช่นหมายเลข UK NHS)
  • หมายเลขเวชระเบียนที่โรงพยาบาลกำหนด

ตัวระบุผู้ป่วยรายอื่นอาจให้ความมั่นใจสูงเช่นกันขึ้นอยู่กับระบบ ตัวอย่างเช่นรหัสประจำตัวทหารอาจมีความเกี่ยวข้องมากในโรงพยาบาลทหาร

ตัวอย่าง:

  • บัตรประจำตัวทหาร
  • รหัสประกัน
  • หมายเลขประกันสังคม (ในสหรัฐอเมริกาหมายเลขประกันสังคมโดยทั่วไปจะไม่ถือว่าเป็นการแข่งขันที่มีความเชื่อมั่นสูงเนื่องจากการฉ้อโกงประกันภัยฉ้อโกง)

ในกรณีที่ไม่มีตัวระบุที่ไม่ซ้ำใครเราจะต้องหันไปใช้ข้อมูลประชากร เราไม่แนะนำให้จับคู่ในฟิลด์ใดฟิลด์หนึ่งแต่ยิ่งมีการจับคู่เขตข้อมูลประชากรมากขึ้นเท่านั้นยิ่งมีความมั่นใจมากขึ้น

สิ่งที่เกี่ยวกับคนที่ไม่ได้เปลี่ยนบ่อย ๆ เป็นสิ่งที่ดีสำหรับการจับคู่:

  • ชื่อ
  • เพศ
  • วันเกิด

แต่ข้อมูลที่ละเอียดอ่อนมากขึ้นสามารถนำมาพิจารณาในการแข่งขันเพื่อเพิ่มความมั่นใจ:

  • ที่อยู่
  • หมายเลขโทรศัพท์
  • ที่อยู่อีเมล

3
SSN ยังมีข้อ จำกัด ที่เข้มงวดมากเช่นในแคนาดามันผิดกฎหมายที่จะขอให้คุณเว้นเสียแต่ว่าคุณเป็นนายจ้างหรือธนาคาร ที่อื่น ๆ เช่นจีนพวกเขาใช้มันเกือบทุกอย่างแม้แต่ซื้อตั๋วรถไฟในช่วงวันหยุดที่มีคนหนาแน่น

การเปลี่ยนชื่อเป็นเรื่องธรรมดาถ้าคุณเป็นผู้หญิง และคนสองคนมักจะมีชื่อเดียวกันและแม้แต่อาศัยอยู่ในสถานที่เดียวกัน (พ่อกับลูกชายชื่อตามเขา)
HLGEM

@HLGEM: ถูกต้องทั้งหมดซึ่งเป็นสาเหตุที่ไม่ควรใช้เขตข้อมูลประชากรเดียวสำหรับการจับคู่ แต่เมื่อผู้คนต้องหันไปใช้ทุ่งนาที่คงที่ (ซึ่งบางครั้งก็เปลี่ยนไป) มีความน่าเชื่อถือมากกว่าทางเลือกอื่น แต่นั่นก็ไม่ได้ทำให้พวกเขาดี
ลินน์

7

นอกจากนี้ยังควรตรวจสอบนามสกุลก่อนหน้าเนื่องจากค่าเหล่านี้มักเปลี่ยนแปลง


+1 "บ่อยครั้ง" เป็นการพูดน้อย :) นี่อาจเป็นกรณีสำหรับผู้ป่วยที่ไม่สามารถระบุตัวตนหรือไม่มีชื่อทารกแรกเกิดการระบุอย่างไม่ถูกต้องและอื่น ๆ ชื่อนั้นยากกว่า แต่มีความหมายมากกว่าในสภาพแวดล้อมที่มีธุรกรรมจำนวนมาก

4

นอกเหนือจากชุดค่าผสมที่ชัดเจนของสามข้อต่อไปนี้ที่ให้ไว้ในคำถามของคุณ

First Name
Last Name
Date of Birth
City
State
ZIP/Pin Code

ฉันคิดว่าจะเพิ่มphone number (Home and/or Cell)ลงในรายการ วันนี้มันค่อนข้างบ่อยและทุกคนจะมีหมายเลขที่ไม่ซ้ำกันและแม้ว่าบางครั้งผู้คนเปลี่ยนหมายเลขโทรศัพท์ของพวกเขาคนส่วนใหญ่จะจำหมายเลขโทรศัพท์เก่าเพื่อให้สามารถมาสะดวก

เราพบว่าที่อยู่มักได้รับผลกระทบจากการสะกดหลายครั้งและการแสดงผลหลายวิธีโดยเฉพาะอย่างยิ่งในประเทศเช่นอินเดียซึ่งผู้คนใช้ภาษาท้องถิ่นและซอฟต์แวร์การจัดการผู้ป่วย 'ยัง' ใช้ภาษาอังกฤษ


3

ดูเหมือนว่าเพศในบันทึกมักจะมาจากชื่อจริง ฉันเห็นความแปรปรวนทางเพศที่เพิ่มขึ้นสำหรับชาวต่างชาติเมื่อเราไม่สามารถหาเพศจากชื่อ

ในเยอรมนีเรามีความแตกต่างเพิ่มเติมด้วยชื่อที่มี 'Umlaute' เช่น 'äöü' ซึ่งบางครั้งจะถูกแทนที่ด้วย 'ae oe ue'


1

ความคิดของฉันอยู่ในลำดับดังต่อไปนี้ 1) SSN, นามสกุลและ 5 ตัวอักษรแรกของชื่อ 2) SSN วันเกิดและ 5 ตัวอักษรแรกของชื่อ 3) SSN วันเกิดและนามสกุล 4) SSN, เพศ, วันเกิด 5) นามสกุล 5 ตัวแรกของชื่อเมืองและรหัสไปรษณีย์


1

นี่เป็นปัญหาที่ยากมากในสหรัฐอเมริกา ชื่อไม่ซ้ำกันและมักจะเปลี่ยนแปลงในช่วงชีวิตของบุคคลหรือมีการนำเสนอที่แตกต่างกัน (เช่น Rob กับ Robert) ดังนั้นพวกเขาจึงไม่สามารถใช้ในการระบุผู้ป่วยยกเว้นร่วมกับข้อมูลที่เป็นจริงมากขึ้น หมายเลขประกันสุขภาพและผู้ให้บริการมีการเปลี่ยนแปลงบ่อยกว่าและอาจเหมือนกันสำหรับสมาชิกหลายคนในครอบครัว SSN นั้นไม่เหมือนใคร แต่มีการฉ้อโกงอยู่รอบตัว เช่นเดียวกันกับหมายเลข liscense ของคนขับซึ่งแน่นอนว่าทุกคนจะไม่มี

โดยส่วนตัวแล้วฉันจะเริ่มต้นด้วยหมายเลขกรมธรรม์ประกันภัยและวันเดือนปีเกิดและชื่อรวมกันจากนั้นให้ระบุวันและวันเกิดและชื่อชุด ฉันจะตรวจสอบที่อยู่และโทรศัพท์เพื่อให้ความมั่นใจเพิ่มเติมเมื่อตรงกับที่พวกเขา แต่ไม่มากน้ำหนักถ้าพวกเขาไม่ นอกจากนี้ฉันจะใช้กรุ๊ปเลือดเป็นตัวตัดสินว่ามันเป็นที่รู้จักหรือไม่ (และเราทุกคนรู้ว่าแวมไพร์ของโรงพยาบาลจะทำการเก็บตัวอย่างเลือด) ซึ่งจะไม่เปลี่ยนแปลง การจับคู่ชื่อจะต้องมีการจับคู่ที่คลุมเครือเนื่องจากปัญหาการตั้งชื่อ โดยทั่วไปแล้วสิ่งอื่น ๆ ควรมองหาการจับคู่ที่ตรงกันก่อนอื่นการจับคู่แบบฟัซซี่ถ้าความเชื่อมั่นในชื่อนั้นสูงมาก (อาจเป็นตัวพิมพ์ที่ป้อน SSN)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.