ดาวน์โหลด ALL Folders, SubFolders และ Files โดยใช้ Wget


21

ฉันใช้ Wget อยู่และฉันเจอปัญหาแล้ว ฉันมีไซต์ที่มีหลายโฟลเดอร์และโฟลเดอร์ย่อยภายในไซต์ ฉันต้องดาวน์โหลดเนื้อหาทั้งหมดในแต่ละโฟลเดอร์และโฟลเดอร์ย่อย ฉันลองใช้หลายวิธีโดยใช้ Wget และเมื่อฉันตรวจสอบความสมบูรณ์ทั้งหมดที่ฉันเห็นในโฟลเดอร์คือไฟล์ "ดัชนี" ฉันสามารถคลิกที่ไฟล์ดัชนีและมันจะพาฉันไปยังไฟล์ต่าง ๆ แต่ฉันต้องการไฟล์จริง

ไม่มีใครมีคำสั่งสำหรับ Wget ที่ฉันมองข้ามหรือมีโปรแกรมอื่นที่ฉันสามารถใช้เพื่อรับข้อมูลทั้งหมดนี้ได้หรือไม่

ตัวอย่างไซต์:

www.mysite.com/Pictures/ ภายใน Pictures DIr มีหลายโฟลเดอร์ .....

www.mysite.com/Pictures/Accounting/

www.mysite.com/Pictures/Managers/North America / California / JoeUser.jpg

ฉันต้องการไฟล์โฟลเดอร์ ฯลฯ ทั้งหมด


1
คุณอ่านเอกสารสำหรับwgetโดยเฉพาะสำหรับการใช้ซ้ำ ?
โมเสส

นอกจากนี้ยังมีบทความในเอกสารประกอบที่นี่ซึ่งมีความเกี่ยวข้อง
โมเสส

คำตอบ:


38

ฉันต้องการสมมติว่าคุณไม่ได้ลอง:

wget -r - no-parent http://www.mysite.com/Pictures/

หรือเพื่อดึงเนื้อหาโดยไม่ต้องดาวน์โหลดไฟล์ "index.html":

wget -r - no-parent --reject "index.html *" http://www.mysite.com/Pictures/

การอ้างอิง: การใช้ wget เพื่อเรียกไดเรกทอรีซ้ำด้วยไฟล์ที่กำหนดเอง


1
ขอบคุณฉันใช้คำสั่งนั้นหลายครั้ง แต่ฉันไม่ได้ให้คำสั่งจนจบ ฉันได้รับการติดตามด้านข้างและปล่อยให้คำสั่งเสร็จสิ้นจริงและคัดลอก ALL Folders ก่อนจากนั้นกลับไปและคัดลอกไฟล์ทั้งหมดลงในโฟลเดอร์
Horrid Henry

เพิ่งจะแสดงให้คุณเห็นถ้าฉันมีความอดทนฉันจะทำสิ่งนี้เมื่อ 2 สัปดาห์ก่อน .... ฮ่า ๆ :) ขอบคุณอีกครั้ง.
Horrid Henry

@ Henry Henry ยินดีด้วย!
Felix Imafidon

ฉันใช้คำสั่งที่คล้ายกัน แต่รับเฉพาะไฟล์ index.html!
shenkwen

20

ฉันใช้ wget -rkpN -e robots=off http://www.example.com/

-r หมายถึงการเรียกซ้ำ

-kหมายถึงแปลงลิงค์ ดังนั้นลิงก์บนหน้าเว็บจะเป็น localhost แทนที่จะเป็น example.com/bla

-p หมายถึงรับทรัพยากรของหน้าเว็บทั้งหมดเพื่อให้ได้ภาพและไฟล์จาวาสคริปต์เพื่อให้เว็บไซต์ทำงานได้อย่างถูกต้อง

-N คือการเรียกใช้การประทับเวลาดังนั้นหากไฟล์ในเครื่องใหม่กว่าไฟล์ในเว็บไซต์ระยะไกลให้ข้ามไป

-eเป็นตัวเลือกการตั้งค่าสถานะที่จะต้องมีสำหรับการrobots=offทำงาน

robots=off หมายถึงละเว้นไฟล์หุ่นยนต์

ฉันยังมี-cในคำสั่งนี้ดังนั้นหากการเชื่อมต่อของพวกเขาลดลงหากจะดำเนินการต่อที่มันออกจากเมื่อฉันเรียกใช้คำสั่งอีกครั้ง ฉันคิดว่า-Nจะไปด้วยดี-c


คุณสามารถเพิ่มประโยคสองสามคำลงในคำตอบของคุณเพื่ออธิบายการตั้งค่าพารามิเตอร์เหล่านี้ได้อย่างไร
fixer1234

ขอโทษ ไม่แน่ใจเพิ่มตอนนี้
ทิมโจนัส

ฉันได้อัปเดตคำตอบแล้ว
ทิมโจนัส

ขอบคุณ ดังนั้นควร -c เป็นส่วนหนึ่งของตัวอย่างคำสั่งของคุณหรือเพิ่มทางเลือกหลังจากดาวน์โหลดไม่สมบูรณ์? นอกจากนี้ -e ยังเป็นเช่นนั้นเพื่อให้คำสั่งมีความสำคัญมากกว่าสิ่งใดที่อาจอยู่ใน. wgetrc? และนั่นเป็นตัวพิมพ์ใหญ่สำหรับ -r (recursive vs. สันโดษ)?
fixer1234

ใช่ว่าถูกต้อง ใช่-eจะรันคำสั่งราวกับว่ามันเป็นส่วนหนึ่งของ. เจตจำนงฉันเพิ่มมันที่นั่นเพราะrobots=offดูเหมือนจะไม่ทำงานโดยที่ไม่มีมัน
ทิมโจนัส

1

wget -m -A * -pk -e robots = off www.mysite.com/ การดำเนินการนี้จะดาวน์โหลดไฟล์ทุกประเภทในเครื่องและชี้ไปที่ไฟล์จากไฟล์ html
และจะไม่สนใจไฟล์ robots

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.