โดยพื้นฐานแล้วฉันต้องการรวบรวมข้อมูลทั้งไซต์ด้วย Wget แต่ฉันไม่ต้องการดาวน์โหลดเนื้อหาอื่น ๆ (เช่นภาพ, CSS, JS และอื่น ๆ ) ฉันต้องการไฟล์ HTML เท่านั้น
การค้นหาของ Googleนั้นไร้ประโยชน์อย่างสมบูรณ์
นี่คือคำสั่งที่ฉันได้ลอง:
wget --limit-rate=200k --no-clobber --convert-links --random-wait -r -E -e robots=off -U "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.102 Safari/537.36" -A html --domain=www.example.com http://www.example.com
เว็บไซต์ของเราคือไฮบริดแบน PHP และ CMS ดังนั้น HTML "ไฟล์" อาจจะ/path/to/page
, /path/to/page/
, หรือ/path/to/page.php
/path/to/page.html
ฉันได้รวมไว้ด้วย-R js,css
แต่มันยังคงดาวน์โหลดไฟล์จากนั้นก็ปฏิเสธ (เสียแบนด์วิดท์ CPU และโหลดเซิร์ฟเวอร์!)
Length: 558 [text/css]
ไฟล์ที่ฉันไม่ต้องการ ถ้าฉันสามารถหยุดการร้องขอถ้าส่วนหัวไม่กลับtext/html
ฉันจะร่าเริง