ฉันมักจะใช้httrack
สำหรับการดาวน์โหลด / มิเรอร์เนื้อหาเว็บจากเว็บไซต์
$ httrack http://2011.example.com -K -w -O . -%v --robots=0 -c1 %e0
หลังจากมันทำงานคุณจะเหลือโครงสร้างไดเรกทอรีที่อยู่ในเครื่องและเรียกดูได้ ตัวอย่างเช่น:
$ ls -l
total 304
-rw-r--r-- 1 saml saml 4243 Aug 17 10:20 backblue.gif
-rw-r--r-- 1 saml saml 828 Aug 17 10:20 fade.gif
drwx------ 3 saml saml 4096 Aug 17 10:20 hts-cache
-rw-rw-r-- 1 saml saml 233 Aug 17 10:20 hts-in_progress.lock
-rw-rw-r-- 1 saml saml 1517 Aug 17 10:20 hts-log.txt
-rw------- 1 saml saml 271920 Aug 17 10:22 hts-nohup.out
-rw-r--r-- 1 saml saml 5141 Aug 17 10:20 index.html
drwxr-xr-x 10 saml saml 4096 Aug 17 10:21 2011.example.com
เมื่อดาวน์โหลดคุณจะเห็นผลลัพธ์ประเภทต่อไปนี้:
Bytes saved: 21,89KiB Links scanned: 12/45 (+4)
Time: 2s Files written: 4
Transfer rate: 2,65KiB/s (2,65KiB/s) Files updated: 1
Active connections: 1 Errors: 7
Current job: parsing HTML file (57%)
request - 2011.example.com/cgi-bin/hostnames.pl 0B / 8,00KiB
มันสามารถเป็นพื้นหลังและ / หรือยกเลิกและต่อในภายหลัง นี่เป็นเพียงส่วนเล็ก ๆ ของภูเขาน้ำแข็งในแง่ของคุณสมบัติ นอกจากนี้ยังมี GUI สำหรับการตั้งค่าการดาวน์โหลดและการตรวจสอบตามที่มันดำเนินการอยู่
มีเอกสารมากมายบนhttrack
เว็บไซต์และโดย googling