หากคุณยังไม่ได้ดำเนินการคุณอาจสามารถแก้ไขปัญหาของคุณได้ด้วยการยัด RAM ในเครื่องที่ใช้ตัวตรวจจับที่ซ้ำซ้อน (สมมติว่ามันยังไม่ได้ maxed ออก) คุณยังสามารถแก้ไขปัญหาของคุณโดยแยกไฟล์ที่เหลือออกเป็นชุดย่อยและสแกนคู่ของชุดย่อยเหล่านั้นจนกว่าคุณจะได้ลองทุกชุด อย่างไรก็ตามในระยะยาวสิ่งนี้อาจไม่เป็นปัญหาที่ดีที่สุดเมื่อใช้โปรแกรมตรวจจับที่ซ้ำกันซึ่งคุณต้องเรียกใช้เป็นระยะ
คุณควรมีลักษณะเป็นไฟล์เซิร์ฟเวอร์ที่มีการคัดลอกข้อมูล โดยสรุปแล้วสิ่งนี้จะจัดเก็บฟิสิคัล 1 ไฟล์ของแต่ละไฟล์โดยอัตโนมัติพร้อมกับ "คัดลอก" ฮาร์ดลิงก์ไปยังไฟล์ฟิสิคัลเดียว (บางระบบใช้การคัดลอกข้อมูลในระดับบล็อกมากกว่าการลดระดับไฟล์ซ้ำ แต่แนวคิดจะเหมือนกัน)
ระบบไฟล์ขั้นสูงที่ใหม่กว่าเช่นZFS , BTRFSและlessfsได้รับการสนับสนุนการลดการจัดเก็บข้อมูลเช่นเดียวกับระบบปฏิบัติการเซิร์ฟเวอร์OpenDedup fileserver ระบบไฟล์เหล่านั้นอย่างน้อยหนึ่งระบบอาจมีอยู่ในเซิร์ฟเวอร์ Linux ของคุณแล้ว Windows Storage Serverยังมีการขจัดข้อมูลซ้ำซ้อน หากคุณมีเงินเหลือพอที่จะแก้ไขปัญหาได้โซลูชัน SAN / NAS เชิงพาณิชย์บางตัวก็มีความสามารถในการขจัดข้อมูลซ้ำซ้อน
อย่างไรก็ตามโปรดทราบว่าการกำจัดข้อมูลซ้ำซ้อนนั้นไม่จำเป็นต้องช่วยด้วยไฟล์เล็ก ๆ ที่มีการดัดแปลงเล็กน้อย หากผู้คนทิ้งขยะเซิร์ฟเวอร์ของคุณด้วยไฟล์หลายรุ่นทั่วสถานที่คุณควรพยายามทำให้พวกเขาจัดการไฟล์ได้ดีขึ้นและใช้ระบบควบคุมเวอร์ชัน - ซึ่งบันทึกเฉพาะไฟล์ดั้งเดิมและความแตกต่างที่เพิ่มขึ้นเท่านั้น
ปรับปรุง:
64 GB ควรเพียงพอสำหรับการแคชรายการพา ธ ไฟล์การตรวจสอบอย่างน้อย 1 พันล้านรายการในหน่วยความจำกายภาพสมมติว่าไฟล์ตรวจสอบ 128 บิตและข้อมูลเมตาเฉลี่ย (เส้นทางระบบไฟล์ขนาดไฟล์วันที่และอื่น ๆ ) ไม่เกิน 52 ไบต์ แน่นอนว่าระบบปฏิบัติการจะเริ่มการเพจในบางจุด แต่โปรแกรมไม่ควรผิดพลาดนั่นคือสมมติว่าตัวค้นหาไฟล์ที่ซ้ำกันนั้นเป็นแอปพลิเคชัน 64 บิต
หากโปรแกรมค้นหาไฟล์ที่ซ้ำกันของคุณเป็นเพียงโปรแกรม 32- บิต (หรือถ้ามันเป็นสคริปต์ที่ทำงานบนล่าม 32- บิต) จำนวนไฟล์ที่คุณสามารถประมวลผลอาจน้อยลงอย่างมากหากไม่ได้เปิดใช้งาน PAE: เพิ่มเติมตามลำดับ 63 ล้าน (4 GB / (128 บิต + 52 ไบต์)) ภายใต้สมมติฐานเดียวกันเมื่อก่อน หากคุณมีไฟล์มากกว่า 63 ล้านไฟล์คุณจะใช้ checksum ที่มีขนาดใหญ่กว่าหรือถ้าเมตาดาต้าเฉลี่ยที่แคชไว้โดยโปรแกรมนั้นมีขนาดใหญ่กว่า 52 ไบต์คุณอาจต้องค้นหาตัวค้นหาไฟล์ซ้ำแบบ 64 บิต นอกจากโปรแกรม mgorven ที่แนะนำ (ซึ่งฉันคิดว่ามีให้ใช้แบบ 64 บิตหรืออย่างน้อยก็สามารถคอมไพล์ใหม่ได้ง่าย) มีDupFilesรุ่น 64 บิตสำหรับ Windows