ฉันมีเว็บไซต์มรดกที่ยิ่งใหญ่ที่มี PDF จำนวนหลายพันตัวซึ่งบางครั้งก็เป็นบัญชีในฐานข้อมูล แต่มักจะเป็นเพียงลิงก์ในหน้าและจะถูกเก็บไว้ในไดเรกทอรีส่วนใหญ่ทุกไซต์
ฉันได้เขียน php crawler เพื่อติดตามลิงก์ทั้งหมดบนเว็บไซต์ของฉันแล้วฉันเปรียบเทียบมันกับการดัมพ์ของโครงสร้างไดเรกทอรี แต่มีอะไรที่ง่ายกว่านี้ไหม