5
การซิงโครไนซ์โครงสร้างโฟลเดอร์ที่มีขนาดใหญ่มาก
เรามีโครงสร้างโฟลเดอร์บนอินทราเน็ตของเราซึ่งมีไฟล์ประมาณ 800,000 ไฟล์แบ่งออกเป็นประมาณ 4,000 โฟลเดอร์ เราจำเป็นต้องซิงโครไนซ์สิ่งนี้กับกลุ่มเครื่องขนาดเล็กใน DMZ ของเรา ความลึกของโครงสร้างตื้นมาก (ไม่ลึกเกินสองระดับ) ไฟล์ส่วนใหญ่ไม่เคยเปลี่ยนแปลงในแต่ละวันมีไฟล์ที่อัปเดตไม่กี่พันไฟล์และไฟล์ใหม่สองพันไฟล์ ข้อมูลคือข้อมูลการรายงานเชิงประวัติที่ถูกเก็บรักษาไว้ซึ่งแหล่งข้อมูลได้รับการกำจัดแล้ว (เช่นรายงานเหล่านี้ได้รับการสรุปแล้วว่าข้อมูลต้นฉบับนั้นเพียงพอแล้วที่เราเก็บถาวรและลบทิ้ง) การซิงโครไนซ์หนึ่งครั้งต่อวันนั้นเพียงพอเนื่องจากสามารถเกิดขึ้นได้ในกรอบเวลาที่เหมาะสม มีการสร้างรายงานข้ามคืนและเราทำการซิงค์สิ่งแรกในตอนเช้าตามภารกิจที่กำหนด เห็นได้ชัดว่าเนื่องจากมีไฟล์ไม่กี่ไฟล์ที่เปลี่ยนเป็นประจำเราสามารถได้รับประโยชน์อย่างมากจากการทำสำเนาแบบเพิ่มหน่วย เราได้ลอง Rsync แล้ว แต่อาจใช้เวลานานถึงแปดถึงสิบสองชั่วโมงในการดำเนินการ "สร้างรายการไฟล์" ให้เสร็จสมบูรณ์ เป็นที่ชัดเจนว่าเรากำลังเติบโตอย่างรวดเร็วในสิ่งที่ rsync มีความสามารถ (กรอบเวลา 12 ชั่วโมงยาวเกินไป) เราใช้เครื่องมืออื่นที่เรียกว่า RepliWeb เพื่อซิงโครไนซ์โครงสร้างและสามารถถ่ายโอนส่วนเพิ่มได้ในเวลาประมาณ 45 นาที อย่างไรก็ตามดูเหมือนว่าเราได้เกินขีด จำกัด แล้วก็เริ่มเห็นไฟล์ปรากฏเป็นลบเมื่อไม่ (อาจมีโครงสร้างหน่วยความจำภายในบางส่วนหมดเราไม่แน่ใจ) มีคนอื่นที่ทำงานในโครงการการประสานขนาดใหญ่ของการเรียงลำดับนี้หรือไม่? มีบางสิ่งที่ออกแบบมาเพื่อจัดการโครงสร้างไฟล์ขนาดใหญ่เช่นนี้เพื่อการซิงโครไนซ์หรือไม่?