2
ใช้อัลกอริทึม EM สำหรับการเชื่อมโยงบันทึก
ฉันสนใจในการเชื่อมโยงบันทึกข้าม 2 ชุดข้อมูลโดยชื่อนามสกุลและปีเกิด อาจเป็นไปได้ด้วยอัลกอริทึม EM และถ้าเป็นเช่นนั้นได้อย่างไร ลองพิจารณาบันทึกต่อไปนี้ในตัวอย่างที่ 1: Carl McCarthy, 1967 ฉันจะค้นหาข้อมูลทั้งหมดในชุดข้อมูลชุดที่ 2 และกำหนดระยะทาง jaro-winkler ระหว่างชื่อที่ 1 และ Carl และระยะทาง jaro-winkler ระหว่างนามสกุลและ McCarthy ระยะทางเหล่านี้น่าจะเป็นเช่นเดียวกับระยะห่างระหว่างปีเกิด เรารวม 3 ความน่าจะเป็นเหล่านั้น (คูณด้วยค่าเฉลี่ย?) เป็น 1 ตอนนี้ส่วนกฎการตัดสินใจมา ให้เราจัดอันดับความน่าจะเป็นทั้งหมดจากมากไปหาน้อย ก่อนอื่นเราต้องการ P (การเข้าชมครั้งแรกคือการจับคู่)> = ธรณีประตู ประการที่สองเราต้องการ P (การเข้าชมครั้งแรกคือการจับคู่) / P (การเข้าชมครั้งที่สองคือการจับคู่)> = เกณฑ์ถ้า P (การเข้าชมครั้งที่สองเป็นการจับคู่) อยู่ ประการที่สามเราต้องการการโจมตีครั้งแรกในชุดข้อมูลที่สองนี้เพื่อจับคู่ไม่เกิน 1 …