สแกนไฟล์ซ้ำ


2

ฉันมีเครือข่ายเก็บข้อมูล 15TB และตอนนี้ฉันเหลือประมาณ 2.5TB (เนื่องจากมีการทำซ้ำจำนวนมาก) ฉันได้ลองสแกนเนอร์หลายตัว แต่ฉันประสบความสำเร็จเพียงเล็กน้อยในที่สุดพวกเขาก็พังเพราะข้อมูลจำนวนมหาศาล มีโปรแกรมใด ๆ ที่คุณรู้หรือไม่ว่าจะสามารถรองรับการโหลดขนาดใหญ่เหล่านี้ได้ ฉันไม่สนใจเกี่ยวกับแพลตฟอร์มที่รันอยู่

ขอขอบคุณ.


มันขึ้นอยู่กับ. ตัวอย่างเช่นหากคุณมีสำเนาของ Windows Server 2008 R2 (ฉันลืมว่าคุณต้องการ SKU เฉพาะหรือไม่ขออภัย!) มันมีบางสิ่งที่จัดการไฟล์ที่สามารถสร้างรายงานประเภทนี้ได้อย่างแน่นอน ถ้าฉันต้องตัดเส้นด้วยกันฉันอาจทำอะไรที่แย่กับ Perl และแฮชการเรียงลำดับแฮชเป็นไฟล์ตามโอ้ฉันไม่รู้ตัวอักษรของตัวอักษรหรืออะไรบางอย่าง มันคงจะสนุก
Mark Allen

ฉันมี Windows Server 2008 R2 แต่ฉันไม่ได้ใช้งานมาระยะหนึ่งหลังจากเราเปลี่ยนเป็นเซิร์ฟเวอร์ Linux คุณมีวิธีในการทำเช่นนี้?
เรด

1
โปรแกรมควรทำอะไรกับการทำซ้ำ?
Der Hochstapler

1
ฉันจะบอกว่าให้เริ่มจากการหาพวกมันก่อน หลังจากนั้นฉันจะต้องหาวิธีบางอย่าง (สคริปต์ที่เขียนด้วยตนเอง) เพื่อเปรียบเทียบข้อมูลเมตาทั้งหมดแล้วทำการสำรองข้อมูลไฟล์ไปยัง HD การสำรองข้อมูลบางส่วนแล้วจึงลบออกจากเซิร์ฟเวอร์
เรด

2
คุณลองใช้โปรแกรมอะไรไม่ประสบความสำเร็จ
Scott McClenning

คำตอบ:


2

หากคุณยังไม่ได้ดำเนินการคุณอาจสามารถแก้ไขปัญหาของคุณได้ด้วยการยัด RAM ในเครื่องที่ใช้ตัวตรวจจับที่ซ้ำซ้อน (สมมติว่ามันยังไม่ได้ maxed ออก) คุณยังสามารถแก้ไขปัญหาของคุณโดยแยกไฟล์ที่เหลือออกเป็นชุดย่อยและสแกนคู่ของชุดย่อยเหล่านั้นจนกว่าคุณจะได้ลองทุกชุด อย่างไรก็ตามในระยะยาวสิ่งนี้อาจไม่เป็นปัญหาที่ดีที่สุดเมื่อใช้โปรแกรมตรวจจับที่ซ้ำกันซึ่งคุณต้องเรียกใช้เป็นระยะ

คุณควรมีลักษณะเป็นไฟล์เซิร์ฟเวอร์ที่มีการคัดลอกข้อมูล โดยสรุปแล้วสิ่งนี้จะจัดเก็บฟิสิคัล 1 ไฟล์ของแต่ละไฟล์โดยอัตโนมัติพร้อมกับ "คัดลอก" ฮาร์ดลิงก์ไปยังไฟล์ฟิสิคัลเดียว (บางระบบใช้การคัดลอกข้อมูลในระดับบล็อกมากกว่าการลดระดับไฟล์ซ้ำ แต่แนวคิดจะเหมือนกัน)

ระบบไฟล์ขั้นสูงที่ใหม่กว่าเช่นZFS , BTRFSและlessfsได้รับการสนับสนุนการลดการจัดเก็บข้อมูลเช่นเดียวกับระบบปฏิบัติการเซิร์ฟเวอร์OpenDedup fileserver ระบบไฟล์เหล่านั้นอย่างน้อยหนึ่งระบบอาจมีอยู่ในเซิร์ฟเวอร์ Linux ของคุณแล้ว Windows Storage Serverยังมีการขจัดข้อมูลซ้ำซ้อน หากคุณมีเงินเหลือพอที่จะแก้ไขปัญหาได้โซลูชัน SAN / NAS เชิงพาณิชย์บางตัวก็มีความสามารถในการขจัดข้อมูลซ้ำซ้อน

อย่างไรก็ตามโปรดทราบว่าการกำจัดข้อมูลซ้ำซ้อนนั้นไม่จำเป็นต้องช่วยด้วยไฟล์เล็ก ๆ ที่มีการดัดแปลงเล็กน้อย หากผู้คนทิ้งขยะเซิร์ฟเวอร์ของคุณด้วยไฟล์หลายรุ่นทั่วสถานที่คุณควรพยายามทำให้พวกเขาจัดการไฟล์ได้ดีขึ้นและใช้ระบบควบคุมเวอร์ชัน - ซึ่งบันทึกเฉพาะไฟล์ดั้งเดิมและความแตกต่างที่เพิ่มขึ้นเท่านั้น

ปรับปรุง:

64 GB ควรเพียงพอสำหรับการแคชรายการพา ธ ไฟล์การตรวจสอบอย่างน้อย 1 พันล้านรายการในหน่วยความจำกายภาพสมมติว่าไฟล์ตรวจสอบ 128 บิตและข้อมูลเมตาเฉลี่ย (เส้นทางระบบไฟล์ขนาดไฟล์วันที่และอื่น ๆ ) ไม่เกิน 52 ไบต์ แน่นอนว่าระบบปฏิบัติการจะเริ่มการเพจในบางจุด แต่โปรแกรมไม่ควรผิดพลาดนั่นคือสมมติว่าตัวค้นหาไฟล์ที่ซ้ำกันนั้นเป็นแอปพลิเคชัน 64 บิต

หากโปรแกรมค้นหาไฟล์ที่ซ้ำกันของคุณเป็นเพียงโปรแกรม 32- บิต (หรือถ้ามันเป็นสคริปต์ที่ทำงานบนล่าม 32- บิต) จำนวนไฟล์ที่คุณสามารถประมวลผลอาจน้อยลงอย่างมากหากไม่ได้เปิดใช้งาน PAE: เพิ่มเติมตามลำดับ 63 ล้าน (4 GB / (128 บิต + 52 ไบต์)) ภายใต้สมมติฐานเดียวกันเมื่อก่อน หากคุณมีไฟล์มากกว่า 63 ล้านไฟล์คุณจะใช้ checksum ที่มีขนาดใหญ่กว่าหรือถ้าเมตาดาต้าเฉลี่ยที่แคชไว้โดยโปรแกรมนั้นมีขนาดใหญ่กว่า 52 ไบต์คุณอาจต้องค้นหาตัวค้นหาไฟล์ซ้ำแบบ 64 บิต นอกจากโปรแกรม mgorven ที่แนะนำ (ซึ่งฉันคิดว่ามีให้ใช้แบบ 64 บิตหรืออย่างน้อยก็สามารถคอมไพล์ใหม่ได้ง่าย) มีDupFilesรุ่น 64 บิตสำหรับ Windows


ฉันคิดว่า 64GB DDR3 นั้นดีพอ ... เรามีเซิร์ฟเวอร์สตอเรจของเราทำมิเรอร์ไซต์อื่นโดยใช้ RSync ปัญหาของฉันส่วนใหญ่กับคนอื่น ๆ ที่ทำสำเนาของงานนำเสนอขนาดใหญ่หรือไฟล์อื่น ๆ เพื่อสำรองหรืออย่างอื่น หลังจากที่อวกาศเริ่มมีข้อ จำกัด เราได้ฝึกอบรมพนักงานของเราให้ "ทำความสะอาดได้ดีขึ้น" แต่ในเวลานั้นความเสียหายได้เกิดขึ้นแล้ว
เรด

ขอบคุณสำหรับข้อมูล. การตั้งค่าเซิร์ฟเวอร์ไฟล์ด้วยการสนับสนุนการลดความซ้ำซ้อนและเพียงโอนไฟล์ไปยังที่จะรวมการทำซ้ำทั้งหมดได้อย่างมีประสิทธิภาพและจะระบุกรณีและปัญหาที่ผู้ใช้ทำสำเนาไฟล์โดยอัตโนมัติ สิ่งนี้อาจไม่สามารถใช้งานได้ในตอนนี้ แต่คุณควรพิจารณาในครั้งต่อไปที่คุณขยายพื้นที่เก็บข้อมูล ฉันคิดว่ามีปัญหาอื่นที่อาจเกี่ยวข้องหรือไม่เกี่ยวข้องกับตัวค้นหาไฟล์ที่ซ้ำกันหยุดทำงานและเพิ่มลงในคำตอบของฉัน
ปล้น

2

คุณลองrdfind , fdupesและfindupจากfslint แล้วหรือยัง?


Findup เป็นรายการเดียวในรายการของคุณที่ฉันได้ลอง แต่ฉันจะลองด้วยการติดตั้ง linux ที่มีน้ำหนักเบาบนคลัสเตอร์เสมือน ขอขอบคุณ.
เรด

นี่คือโพสต์โบราณ แต่โปรดพิจารณาขยายคำตอบ การชี้ไปที่ผลิตภัณฑ์ไม่ถือว่าเป็นคำตอบตามมาตรฐานปัจจุบันเพราะไม่ได้ระบุอะไรเลยว่าทำไมจึงเป็นทางออกที่ดีหรือวิธีการแก้ปัญหาให้สำเร็จ คำแนะนำที่ดีในการแนะนำซอฟต์แวร์ที่นี่ ขอบคุณ
fixer1234
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.