ใช้อัลกอริทึม EM สำหรับการเชื่อมโยงบันทึก


9

ฉันสนใจในการเชื่อมโยงบันทึกข้าม 2 ชุดข้อมูลโดยชื่อนามสกุลและปีเกิด อาจเป็นไปได้ด้วยอัลกอริทึม EM และถ้าเป็นเช่นนั้นได้อย่างไร

ลองพิจารณาบันทึกต่อไปนี้ในตัวอย่างที่ 1: Carl McCarthy, 1967 ฉันจะค้นหาข้อมูลทั้งหมดในชุดข้อมูลชุดที่ 2 และกำหนดระยะทาง jaro-winkler ระหว่างชื่อที่ 1 และ Carl และระยะทาง jaro-winkler ระหว่างนามสกุลและ McCarthy ระยะทางเหล่านี้น่าจะเป็นเช่นเดียวกับระยะห่างระหว่างปีเกิด เรารวม 3 ความน่าจะเป็นเหล่านั้น (คูณด้วยค่าเฉลี่ย?) เป็น 1

ตอนนี้ส่วนกฎการตัดสินใจมา ให้เราจัดอันดับความน่าจะเป็นทั้งหมดจากมากไปหาน้อย ก่อนอื่นเราต้องการ P (การเข้าชมครั้งแรกคือการจับคู่)> = ธรณีประตู ประการที่สองเราต้องการ P (การเข้าชมครั้งแรกคือการจับคู่) / P (การเข้าชมครั้งที่สองคือการจับคู่)> = เกณฑ์ถ้า P (การเข้าชมครั้งที่สองเป็นการจับคู่) อยู่ ประการที่สามเราต้องการการโจมตีครั้งแรกในชุดข้อมูลที่สองนี้เพื่อจับคู่ไม่เกิน 1 คนในชุดข้อมูลที่ 1 กับ Carl McCarthy, 1967

เกณฑ์เหล่านี้จะถูกกำหนดได้อย่างไร?

ฉันชอบวิธีการใน Stata และ / หรือ Perl

ดูตัวอย่าง:

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1479910/pdf/amia2003_0259.pdf

(แม้ว่าจะเป็นเช่นนั้นฉันยังคงไม่ได้ติดตามอย่างเต็มที่ว่าทำไมหรืออย่างไรและสิ่งที่อินพุตและเอาต์พุตรวมถึงข้อสมมติฐานและความเข้มงวดของข้อ จำกัด )


คุณคิดจะใช้ reclink ใน Stata หรือไม่?
Dimitriy V. Masterov

คำตอบ:


4

แน่นอนว่าอัลกอริทึม EM นั้นใช้สำหรับการเชื่อมโยงที่น่าจะเป็น มีบทความจำนวนมากเกี่ยวกับเรื่องดังต่อไปนี้โดย Winkler อาจมีประโยชน์เกี่ยวกับรายละเอียดทางทฤษฎี:

http://www.census.gov.edgekey.net/srd/papers/pdf/rr2000-05.pdf

นอกจากนี้ยังมีซอฟต์แวร์เชื่อมโยงข้อมูลที่พัฒนาโดย Kevin Campbell มีอยู่แล้วที่นี่:

http://the-link-king.com/

สามารถดาวน์โหลดซอฟต์แวร์ได้อย่างอิสระ & Kevin Campbell ให้การสนับสนุนโดยเสียค่าธรรมเนียม รหัสนั้นเขียนด้วย SAS ดังนั้นคุณจะต้องใช้แพ็คเกจ SAS พื้นฐาน


ขอบคุณ! ฉันได้อ่านบทความ 2 เรื่องโดย Winkler แต่ไม่เข้าใจพวกเขาทั้งหมด ฉันรวบรวม EM จากกระดาษนั้น นอกจากนี้ฉันไม่รู้วิธีใช้ SAS ฉันรู้ว่า Perl มีโมดูล EM ซึ่งฉันจะใช้ แต่ฉันไม่แน่ใจว่าทำไม EM มีความเหมาะสมหรือวิธีใช้ ตามแนวคิดแล้ว EM จะตอบคำถามข้างต้นได้อย่างไร
user1690130

ความเข้าใจของฉันคือว่าอัลกอริทึม EM มีประโยชน์สำหรับการสร้างแบบจำลองความน่าจะเป็นของการจับคู่ในเชิงบวกเพราะคำนึงถึงความน่าจะเป็นที่ไม่รู้จัก (หรือ "แฝง") ของการเชื่อมโยงเร็กคอร์ดที่แตกต่างกันสองรายการ การประมาณความน่าจะเป็นเหล่านี้ได้รับการขัดเกลาในแต่ละขั้นตอนของอัลกอริทึมเพื่อเพิ่มฟังก์ชั่นความน่าจะเป็นสูงสุด
RobertF

ฉันจะให้อินพุตอะไร probes univariate และฉลาก? และมันจะพ่นคู่ที่เหมาะสมที่สุดออกมา?
user1690130

0

มีซอฟต์แวร์RELAISที่บันทึกการเชื่อมโยงกับ:

6) การเชื่อมโยงบันทึกความน่าจะเป็น (การประมาณค่าพารามิเตอร์โมเดล Fellegi และ Sunter ผ่าน EM (Expectation-Maximization)

RELAIS ถูกนำไปใช้ใน Java และ R และมีสถาปัตยกรรมฐานข้อมูล (MySQL)

มีบางเอกสารเพิ่มเติมเกี่ยวกับบันทึกการเชื่อมโยงที่มีอยู่จากที่มีโครงการ ESSnet บูรณาการข้อมูล

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.