คำถามติดแท็ก record-linkage

1
สุดยอดการขจัดข้อมูลซ้ำซ้อน
วิธีการขจัดข้อมูลซ้ำซ้อนในบันทึกมีอะไรบ้าง? การคัดลอกซ้ำบางครั้งเรียกอีกอย่างว่า: การเชื่อมโยงเรคคอร์ด, การแก้ไขเอนทิตี, การแก้ไขเอกลักษณ์, ผสาน / ล้าง ฉันรู้ตัวอย่างเกี่ยวกับ CBLOCK [1] ฉันจะขอบคุณถ้าคำตอบรวมถึงการอ้างอิงถึงซอฟต์แวร์ที่มีอยู่ในการใช้วิธีการ ฉันรู้ว่าตัวอย่างที่ดำเนินการควาญช้างหลังคา-การจัดกลุ่ม นอกจากนี้ยังมีDukeที่ใช้ Lucene มีระบบการค้าซ้ำซ้อนมากมาย มันจะมีค่าที่จะรู้ว่าพวกเขาทำงานอย่างไรและมีประสิทธิภาพเพียงใด ฉันสนใจทั้งสองอย่างในการขจัดข้อมูลซ้ำซ้อนภายในชุดข้อมูลเดียวและเชื่อมโยงระหว่างชุดข้อมูลหลายชุดที่มาจากแหล่งข้อมูลที่แตกต่างกัน ประสิทธิภาพและความสามารถในการประมวลผลข้อมูลจำนวนมากก็มีความสำคัญเช่นกัน [1] CBLOCK: กลไกการบล็อกอัตโนมัติสำหรับงานซ้ำซ้อนขนาดใหญ่

2
ใช้อัลกอริทึม EM สำหรับการเชื่อมโยงบันทึก
ฉันสนใจในการเชื่อมโยงบันทึกข้าม 2 ชุดข้อมูลโดยชื่อนามสกุลและปีเกิด อาจเป็นไปได้ด้วยอัลกอริทึม EM และถ้าเป็นเช่นนั้นได้อย่างไร ลองพิจารณาบันทึกต่อไปนี้ในตัวอย่างที่ 1: Carl McCarthy, 1967 ฉันจะค้นหาข้อมูลทั้งหมดในชุดข้อมูลชุดที่ 2 และกำหนดระยะทาง jaro-winkler ระหว่างชื่อที่ 1 และ Carl และระยะทาง jaro-winkler ระหว่างนามสกุลและ McCarthy ระยะทางเหล่านี้น่าจะเป็นเช่นเดียวกับระยะห่างระหว่างปีเกิด เรารวม 3 ความน่าจะเป็นเหล่านั้น (คูณด้วยค่าเฉลี่ย?) เป็น 1 ตอนนี้ส่วนกฎการตัดสินใจมา ให้เราจัดอันดับความน่าจะเป็นทั้งหมดจากมากไปหาน้อย ก่อนอื่นเราต้องการ P (การเข้าชมครั้งแรกคือการจับคู่)> = ธรณีประตู ประการที่สองเราต้องการ P (การเข้าชมครั้งแรกคือการจับคู่) / P (การเข้าชมครั้งที่สองคือการจับคู่)> = เกณฑ์ถ้า P (การเข้าชมครั้งที่สองเป็นการจับคู่) อยู่ ประการที่สามเราต้องการการโจมตีครั้งแรกในชุดข้อมูลที่สองนี้เพื่อจับคู่ไม่เกิน 1 …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.