ดาวน์โหลดซ้ำด้วย wget


32

ฉันมีปัญหากับคำสั่ง wget ต่อไปนี้:

wget -nd -r -l 10 http://web.archive.org/web/20110726051510/http://feedparser.org/docs/

ควรดาวน์โหลดเอกสารที่เชื่อมโยงซ้ำทั้งหมดบนเว็บดั้งเดิม แต่ดาวน์โหลดได้เพียงสองไฟล์ ( index.htmlและrobots.txt)

ฉันจะดาวน์โหลดแบบเรียกซ้ำของเว็บนี้ได้อย่างไร

คำตอบ:


40

wgetโดยค่าเริ่มต้นจะให้เกียรติมาตรฐาน robots.txtสำหรับการรวบรวมข้อมูลหน้าเว็บเช่นเดียวกับที่เครื่องมือค้นหาทำและสำหรับ archive.org จะไม่อนุญาตให้ใช้ทั้งไดเรกทอรีย่อย / web / เพื่อแทนที่การใช้งาน-e robots=off,

wget -nd -r -l 10 -e robots=off http://web.archive.org/web/20110726051510/http://feedparser.org/docs/

ขอขอบคุณ. มีตัวเลือกในการจัดเก็บทุกลิงก์เพียงครั้งเดียวหรือไม่? บางทีฉันควรลด10จำนวนลง แต่ก็เดายาก ขณะนี้มีไฟล์introduction.html, introduction.html.1, introduction.html.2และผมค่อนข้างสิ้นสุดกระบวนการ
xralf

และลิงก์กำลังนำไปยังเว็บ เป็น--mirrorตัวเลือกสำหรับการเชื่อมโยงไปยังตรงไปยังระบบแฟ้ม?
xralf

1
@xralf: เอาละคุณกำลังใช้-ndงานอยู่ดังนั้นindex.htmlมี s ที่แตกต่างกันอยู่ในไดเรกทอรีเดียวกันและหากไม่มี-kคุณจะไม่ได้รับการเขียนลิงก์ใหม่
Ulrich Schwarz

12
$ wget --random-wait -r -p -e robots=off -U Mozilla \
    http://web.archive.org/web/20110726051510/http://feedparser.org/docs/

ดาวน์โหลดซ้ำเนื้อหาของ url

--random-wait - wait between 0.5 to 1.5 seconds between requests.
-r - turn on recursive retrieving.
-e robots=off - ignore robots.txt.
-U Mozilla - set the "User-Agent" header to "Mozilla". Though a better choice is a real User-Agent like "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729)".

ตัวเลือกที่มีประโยชน์อื่น ๆ ได้แก่ :

--limit-rate=20k - limits download speed to 20kbps.
-o logfile.txt - log the downloads.
-l 0 - remove recursion depth (which is 5 by default).
--wait=1h - be sneaky, download one file every hour.

-l 0 - remove recursion depth (which is 5 by default)+1
Dani
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.