วิธีใช้wget
และรับไฟล์ทั้งหมดจากเว็บไซต์?
ฉันต้องการไฟล์ทั้งหมดยกเว้นไฟล์หน้าเว็บเช่น HTML, PHP, ASP เป็นต้น
wget --spider
คนแรกเสมอและเพิ่ม-w 1
(หรือมากกว่า-w 5
) เพื่อที่คุณจะไม่ทำให้เซิร์ฟเวอร์ของบุคคลอื่นท่วม
วิธีใช้wget
และรับไฟล์ทั้งหมดจากเว็บไซต์?
ฉันต้องการไฟล์ทั้งหมดยกเว้นไฟล์หน้าเว็บเช่น HTML, PHP, ASP เป็นต้น
wget --spider
คนแรกเสมอและเพิ่ม-w 1
(หรือมากกว่า-w 5
) เพื่อที่คุณจะไม่ทำให้เซิร์ฟเวอร์ของบุคคลอื่นท่วม
คำตอบ:
หากต้องการกรองไฟล์นามสกุลเฉพาะ:
wget -A pdf,jpg -m -p -E -k -K -np http://site/path/
หรือหากคุณต้องการชื่อตัวเลือกแบบยาว:
wget --accept pdf,jpg --mirror --page-requisites --adjust-extension --convert-links --backup-converted --no-parent http://site/path/
นี่จะทำมิเรอร์ไซต์ แต่ไฟล์ที่ไม่มี jpg
หรือpdf
นามสกุลจะถูกลบโดยอัตโนมัติ
--accept
พิมพ์ใหญ่ - เล็กดังนั้นคุณต้องทำ--accept pdf,jpg,PDF,JPG
wget
แต่คุณต้องระบุ--progress
ประเภทเช่น--progress=dot
--ignore-case
ตั้งค่าสถานะเพื่อทำให้--accept
กรณีตาย
นี่เป็นการดาวน์โหลดเว็บไซต์ทั้งหมดสำหรับฉัน:
wget --no-clobber --convert-links --random-wait -r -p -E -e robots=off -U mozilla http://site/path/
-e robots=off
! ในที่สุดนี้ก็แก้ไขปัญหาของฉัน! :) ขอบคุณ
--random-wait
ตัวเลือกที่เป็นอัจฉริยะ;)
wget -m -p -E -k -K -np http://site/path/
หน้าคนจะบอกคุณว่าตัวเลือกเหล่านั้นทำ
wget
จะติดตามเฉพาะลิงก์หากไม่มีลิงก์ไปยังไฟล์จากหน้าดัชนีจากนั้นwget
จะไม่ทราบเกี่ยวกับการมีอยู่ของไฟล์และจะไม่ดาวน์โหลด กล่าวคือ ช่วยหากไฟล์ทั้งหมดเชื่อมโยงกับในหน้าเว็บหรือในดัชนีไดเรกทอรี
ฉันพยายามดาวน์โหลดไฟล์ zip ที่ลิงก์จากหน้าธีมของ Omeka ซึ่งเป็นงานที่ค่อนข้างคล้ายกัน สิ่งนี้ใช้ได้กับฉัน:
wget -A zip -r -l 1 -nd http://omeka.org/add-ons/themes/
-A
: ยอมรับไฟล์ zip เท่านั้น-r
: รับเงินคืน-l 1
: หนึ่งระดับลึก (เช่นไฟล์ที่เชื่อมโยงโดยตรงจากหน้านี้)-nd
: อย่าสร้างโครงสร้างไดเรกทอรีเพียงดาวน์โหลดไฟล์ทั้งหมดลงในไดเรกทอรีนี้ทุกคำตอบด้วย-k
, -K
, -E
ตัวเลือกอื่น ๆ อาจไม่เข้าใจจริงๆคำถามที่เป็นผู้เขียนใหม่สำหรับหน้าเว็บ HTML เพื่อให้โครงสร้างท้องถิ่นเปลี่ยนชื่อ.php
ไฟล์และอื่น ๆ ไม่เกี่ยวข้อง
วิธีรับไฟล์ทั้งหมดยกเว้น แท้จริง.html
:
wget -R html,htm,php,asp,jsp,js,py,css -r -l 1 -nd http://yoursite.com
-A
ฉันคิดว่าตรงตามตัวพิมพ์ใหญ่ - เล็กดังนั้นคุณต้องทำ-A zip,ZIP
คุณอาจลอง:
wget --user-agent=Mozilla --content-disposition --mirror --convert-links -E -K -p http://example.com/
นอกจากนี้คุณสามารถเพิ่ม:
-A pdf,ps,djvu,tex,doc,docx,xls,xlsx,gz,ppt,mp4,avi,zip,rar
เพื่อยอมรับส่วนขยายที่เฉพาะเจาะจงหรือเพื่อปฏิเสธเฉพาะส่วนขยายที่เฉพาะเจาะจง:
-R html,htm,asp,php
หรือเพื่อยกเว้นพื้นที่เฉพาะ:
-X "search*,forum*"
หากไฟล์ถูกละเว้นสำหรับหุ่นยนต์ (เช่นเครื่องมือค้นหา) คุณต้องเพิ่มด้วย: -e robots=off
ลองสิ่งนี้ มันได้ผลสำหรับฉันเสมอ
wget --mirror -p --convert-links -P ./LOCAL-DIR WEBSITE-URL
wget -m -A * -pk -e robots=off www.mysite.com/
การดำเนินการนี้จะดาวน์โหลดไฟล์ทุกประเภทในเครื่องและชี้ไปที่ไฟล์ html และจะไม่สนใจไฟล์ robots