ฉันได้สืบทอดคลัสเตอร์การวิจัยที่มี ~ 40TB ของข้อมูลในระบบไฟล์ทั้งสาม ข้อมูลนั้นยืดเยื้อมาเกือบ 15 ปีและมีแนวโน้มที่จะเกิดการซ้ำซ้อนได้มากเนื่องจากนักวิจัยคัดลอกข้อมูลของแต่ละคนด้วยเหตุผลที่แตกต่างกัน
ฉันรู้เกี่ยวกับเครื่องมือกำจัดความผิดพลาดเช่น fdupes และ rmlint ฉันพยายามหาชุดที่ทำงานบนชุดข้อมูลขนาดใหญ่เช่นนั้น ฉันไม่สนใจว่าจะใช้เวลาหลายสัปดาห์ (หรืออาจเป็นเดือน) ในการรวบรวมข้อมูลทั้งหมด - ฉันอาจจะเร่งความเร็วเพื่อให้ง่ายต่อระบบไฟล์ แต่ฉันต้องการค้นหาเครื่องมือที่มีประสิทธิภาพสูงสุดกับ RAM หรือสามารถเก็บข้อมูลตัวกลางทั้งหมดที่ต้องการในไฟล์มากกว่า RAM ฉันสมมติว่า RAM ของฉัน (64GB) จะหมดลงหากฉันรวบรวมข้อมูลทั้งหมดนี้เป็นชุดเดียว
ฉันกำลังทดลองกับ fdupes บนต้นไม้ 900GB เป็น 25% ของวิธีการผ่านและการใช้ RAM ได้คืบคลานช้าตลอดเวลาตอนนี้มันอยู่ที่ 700MB
หรือมีวิธีที่จะนำกระบวนการไปใช้แรมที่ดิสก์แมปดังนั้นจึงมีให้ใช้มากขึ้นและไม่ใช้ RAM ระบบหรือไม่
ฉันใช้ CentOS 6