ทางเลือกในการ wget


13

ฉันมีเว็บไซต์บนเซิร์ฟเวอร์ที่โดยทั่วไปเป็นหน้า HTML รูปภาพและเสียง

ฉันลืมรหัสผ่านของฉันไปที่เซิร์ฟเวอร์นั้นและฉันต้องคว้าทุกสิ่งที่เก็บไว้ที่นั่น ฉันสามารถไปทีละหน้าและบันทึกทุกอย่าง แต่เว็บไซต์มีมากกว่า 100 หน้า

ฉันใช้ OSX ฉันได้ลองใช้wgetแต่ฉันคิดว่าเซิร์ฟเวอร์กำลังบล็อกอยู่

มีทางเลือกอื่นที่ฉันสามารถใช้เพื่อจับเนื้อหานั้นหรือไม่?


หากคุณมีการเข้าถึงเซิร์ฟเวอร์ให้บูตเข้าสู่โหมดผู้ใช้คนเดียวและกู้คืนรหัสผ่านของคุณ debuntu.org/…
spuder

คำตอบ:


15

หากเซิร์ฟเวอร์กำลังบล็อก wget เป็นไปได้มากที่สุดว่าจะทำบนพื้นฐานของฟิลด์ "User-agent:" ของส่วนหัว http เนื่องจากเป็นวิธีเดียวที่จะทำให้ทราบได้ตั้งแต่แรก นอกจากนี้ยังอาจบล็อก IP ของคุณซึ่งในกรณีนี้การใช้ซอฟต์แวร์ที่แตกต่างกันจะไม่ช่วยหรือรูปแบบที่ระบุการทำงานอัตโนมัติบนพื้นฐานของชุดคำขอที่รวดเร็ว (เนื่องจากคนจริงไม่เรียกดู 100 หน้าภายใน 3.2 วินาที) . ฉันไม่เคยได้ยินใครทำ แต่เป็นไปได้

ฉันยังไม่เคยได้ยินวิธีที่จะทำให้ช้าลง wget แต่มีวิธีที่จะหลอกฟิลด์ตัวแทนผู้ใช้:

wget --user-agent=""

จะเป็นไปตามหน้าคนวาง "ตัวแทนผู้ใช้:" อย่างสมบูรณ์เพราะมันไม่ได้บังคับ หากเซิร์ฟเวอร์ไม่ชอบให้ลองใช้วิธี--user-agent="Mozilla/5.0"ใดดีพอ

แน่นอนว่ามันจะช่วยถ้าคุณอธิบายได้ดีกว่าว่าทำไมคุณ "คิดว่าเซิร์ฟเวอร์กำลังบล็อกสิ่งนั้น" wget พูดอะไรออกมาหรือหมดเวลาหรือเปล่า?


ใช่เลย! ขอบคุณ ฉันพลาดที่ช่วย wget ตอนนี้มันทำงานได้แล้ว !!!!!!!!!!!!!!!!!!!!!!!!
SpaceDog

5
wgetมีตัวเลือกจำนวนหนึ่งเพื่อรอระหว่างคิวรี จำกัด อัตราหรือจำนวนที่ดาวน์โหลด ตรวจสอบinfoหน้าสำหรับรายละเอียด
Stéphane Chazelas

6

ฉันมักจะใช้httrackสำหรับการดาวน์โหลด / มิเรอร์เนื้อหาเว็บจากเว็บไซต์

$ httrack http://2011.example.com -K -w -O . -%v --robots=0 -c1 %e0

หลังจากมันทำงานคุณจะเหลือโครงสร้างไดเรกทอรีที่อยู่ในเครื่องและเรียกดูได้ ตัวอย่างเช่น:

$ ls -l
total 304
-rw-r--r--  1 saml saml   4243 Aug 17 10:20 backblue.gif
-rw-r--r--  1 saml saml    828 Aug 17 10:20 fade.gif
drwx------  3 saml saml   4096 Aug 17 10:20 hts-cache
-rw-rw-r--  1 saml saml    233 Aug 17 10:20 hts-in_progress.lock
-rw-rw-r--  1 saml saml   1517 Aug 17 10:20 hts-log.txt
-rw-------  1 saml saml 271920 Aug 17 10:22 hts-nohup.out
-rw-r--r--  1 saml saml   5141 Aug 17 10:20 index.html
drwxr-xr-x 10 saml saml   4096 Aug 17 10:21 2011.example.com

เมื่อดาวน์โหลดคุณจะเห็นผลลัพธ์ประเภทต่อไปนี้:

Bytes saved:    21,89KiB           Links scanned:   12/45 (+4)
Time:   2s                         Files written:   4
Transfer rate:  2,65KiB/s (2,65KiB/s)  Files updated:   1
Active connections:     1          Errors:  7

Current job: parsing HTML file (57%)
 request -  2011.example.com/cgi-bin/hostnames.pl   0B /    8,00KiB

มันสามารถเป็นพื้นหลังและ / หรือยกเลิกและต่อในภายหลัง นี่เป็นเพียงส่วนเล็ก ๆ ของภูเขาน้ำแข็งในแง่ของคุณสมบัติ นอกจากนี้ยังมี GUI สำหรับการตั้งค่าการดาวน์โหลดและการตรวจสอบตามที่มันดำเนินการอยู่

มีเอกสารมากมายบนhttrackเว็บไซต์และโดย googling

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.