1
สุดยอดการขจัดข้อมูลซ้ำซ้อน
วิธีการขจัดข้อมูลซ้ำซ้อนในบันทึกมีอะไรบ้าง? การคัดลอกซ้ำบางครั้งเรียกอีกอย่างว่า: การเชื่อมโยงเรคคอร์ด, การแก้ไขเอนทิตี, การแก้ไขเอกลักษณ์, ผสาน / ล้าง ฉันรู้ตัวอย่างเกี่ยวกับ CBLOCK [1] ฉันจะขอบคุณถ้าคำตอบรวมถึงการอ้างอิงถึงซอฟต์แวร์ที่มีอยู่ในการใช้วิธีการ ฉันรู้ว่าตัวอย่างที่ดำเนินการควาญช้างหลังคา-การจัดกลุ่ม นอกจากนี้ยังมีDukeที่ใช้ Lucene มีระบบการค้าซ้ำซ้อนมากมาย มันจะมีค่าที่จะรู้ว่าพวกเขาทำงานอย่างไรและมีประสิทธิภาพเพียงใด ฉันสนใจทั้งสองอย่างในการขจัดข้อมูลซ้ำซ้อนภายในชุดข้อมูลเดียวและเชื่อมโยงระหว่างชุดข้อมูลหลายชุดที่มาจากแหล่งข้อมูลที่แตกต่างกัน ประสิทธิภาพและความสามารถในการประมวลผลข้อมูลจำนวนมากก็มีความสำคัญเช่นกัน [1] CBLOCK: กลไกการบล็อกอัตโนมัติสำหรับงานซ้ำซ้อนขนาดใหญ่