ฉันต้องการฉีกเว็บไซต์ผ่าน HTTP ฉันจำเป็นต้องดาวน์โหลดรูปภาพ, HTML, CSS และ JavaScript รวมถึงจัดระเบียบในระบบไฟล์
ไม่มีใครรู้วิธีการทำเช่นนี้?
ฉันต้องการฉีกเว็บไซต์ผ่าน HTTP ฉันจำเป็นต้องดาวน์โหลดรูปภาพ, HTML, CSS และ JavaScript รวมถึงจัดระเบียบในระบบไฟล์
ไม่มีใครรู้วิธีการทำเช่นนี้?
คำตอบ:
wget -erobots=off --no-parent --wait=3 --limit-rate=20K -r -p -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" -A htm,html,css,js,json,gif,jpeg,jpg,bmp http://example.com
สิ่งนี้จะทำงานในคอนโซล
สิ่งนี้จะดึงดูดไซต์รอ 3 วินาทีระหว่างคำขอ จำกัด ความเร็วในการดาวน์โหลดดังนั้นจึงไม่ฆ่าไซต์และปิดบังตัวเองในลักษณะที่ทำให้ดูเหมือนเป็นเพียงเบราว์เซอร์ดังนั้นไซต์จะไม่ตัดคุณออก ใช้กลไกต่อต้านปลิง
สังเกต-A
พารามิเตอร์ที่ระบุรายการประเภทไฟล์ที่คุณต้องการดาวน์โหลด
คุณยังสามารถใช้แท็กอื่น-D domain1.com,domain2.com
เพื่อระบุชุดของโดเมนที่คุณต้องการดาวน์โหลดหากมีเซิร์ฟเวอร์อื่นหรือสิ่งอื่นใดสำหรับการโฮสต์ไฟล์ประเภทต่าง ๆ ไม่มีวิธีที่ปลอดภัยในการทำให้เป็นอัตโนมัติสำหรับทุกกรณีหากคุณไม่ได้รับไฟล์
wget
โดยทั่วไปจะติดตั้งล่วงหน้าบน Linux แต่สามารถรวบรวมได้เล็กน้อยสำหรับระบบ Unix อื่น ๆ หรือดาวน์โหลดได้ง่ายสำหรับ Windows: GNUwin32 WGET
ใช้สิ่งนี้เพื่อความดีและไม่ใช่ความชั่วร้าย
ดีทางออกฟรี: HTTrack
HTTrack เป็นโปรแกรมอรรถประโยชน์เบราว์เซอร์ออฟไลน์ที่ใช้งานง่าย (GPL, libre / ฟรี)
ช่วยให้คุณสามารถดาวน์โหลดเว็บไซต์ World Wide จากอินเทอร์เน็ตไปยังไดเรกทอรีท้องถิ่นสร้างไดเรกทอรีทั้งหมดซ้ำรับ HTML, ภาพและไฟล์อื่น ๆ จากเซิร์ฟเวอร์ไปยังคอมพิวเตอร์ของคุณ HTTrack จัดเรียงโครงสร้างลิงก์ที่สัมพันธ์กันของเว็บไซต์เดิม เพียงเปิดหน้าเว็บไซต์ "mirrored" ในเบราว์เซอร์ของคุณและคุณสามารถเรียกดูเว็บไซต์จากลิงก์ไปยังลิงก์ได้ราวกับว่าคุณกำลังดูอยู่ออนไลน์ HTTrack ยังสามารถอัพเดตไซต์ที่ทำมิเรอร์ที่มีอยู่และทำการดาวน์โหลดต่อให้ขัดจังหวะ HTTrack สามารถกำหนดค่าได้อย่างสมบูรณ์และมีระบบช่วยเหลือแบบบูรณาการ
สำหรับระบบ Linux นั้น 'wget' ทำสิ่งนี้ค่อนข้างมาก
มันยังได้รับการรังเพลิงไปยังแพลตฟอร์มอื่น ๆ อีกหลายแห่ง
เห็นได้ชัดว่า WGet ได้รับการกล่าวถึงสองสามครั้ง UI ที่ดีที่สุดที่ฉันเคยพบ
มี UIs อื่น ๆ สำหรับ WGet รอบนอกซึ่งบางส่วนเป็นผู้สมัครสำหรับคำถามUI ที่เลวร้ายที่สุด
ดูส่วนขยาย Scrapbook สำหรับ firefox มันทำงานได้อย่างน่าอัศจรรย์และยังรวมเข้ากับ firebug และช่วยให้คุณสามารถลบองค์ประกอบออกจาก DOM ก่อนที่คุณจะบันทึกหากคุณต้องการ
คุณต้องใช้ wget - ซึ่งมีอยู่ในแพลตฟอร์มส่วนใหญ่ curl จะไม่ขอเอกสารซ้ำซึ่งเป็นหนึ่งในจุดแข็งที่สำคัญของ wget
Linux: (มักรวมอยู่ใน distro) http://www.gnu.org/software/wget/
Windows: http://gnuwin32.sourceforge.net/packages/wget.htm
Mac: http: //www.geekology co.za/blog/2009/02/macports-compile-and-install-open-source-software-on-mac-os-x/
โปรดตรวจสอบให้แน่ใจว่าคุณไม่ได้ทำการตอกเว็บไซต์ - ตั้งค่าความล่าช้าที่เหมาะสมระหว่างคำขอและตรวจสอบให้แน่ใจว่าเป็นไปตามข้อกำหนดในการให้บริการของเว็บไซต์
อดัม
ที่จริงแล้วการติดตามความคิดเห็นของฉันในโพสต์ของ GWLlosa ฉันเพิ่งจำได้ว่าฉันติดตั้ง GnuWin32 และแน่นอนว่ามันมีพอร์ต Windows ของ wget
http://sourceforge.net/projects/gnuwin32/
GnuWin32 provides Win32-versions of GNU tools,
or tools with a similar open source licence.
The ports are native ports, that is they rely
only on libraries provided with any 32-bits
MS-Windows operating system, such as
MS-Windows 95 / 98 / 2000 / NT / XP
ฉันใช้มันเมื่อหลายปีก่อนและใช้งานได้ดี Windows เท่านั้น เคยเป็นแอดแวร์ แต่ไม่ชัดเจน:
wget --random-wait -r -p -e robots=off -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" --limit-rate=20k -b http://www.example.com
-p
: พารามิเตอร์บอกให้ wget รวมไฟล์ทั้งหมดรวมถึงรูปภาพด้วย-e robots=off
: ละเว้นกฎเว็บไซต์ robots.txt-U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)"
: สตริงตัวแทนผู้ใช้--random-wait
: หลีกเลี่ยงการขึ้นบัญชีดำ--limit-rate=20k
: จำกัด อัตราการดาวน์โหลดไฟล์-b
: ยังคงดำเนินต่อไปหลังจากออกจากระบบ
-c
(หรือ--continue
) เมื่อสิ่งผิดปกติและฉันต้องรีสตาร์ทกระบวนการ
ฉันคิดว่าGrabber ไซต์ IDMเป็นทางออกที่ดีที่สุดนอกจากนี้ยังมี Teleport pro
ตัวจัดการดาวน์โหลดฟรีสามารถดาวน์โหลดเว็บไซต์ที่สมบูรณ์ได้เช่นกัน
ฉันคิดว่า Windows เท่านั้น