วิธีการดาวน์โหลดเว็บไซต์จาก archive.org Wayback Machine


84

ฉันต้องการรับไฟล์ทั้งหมดสำหรับเว็บไซต์หนึ่ง ๆ ที่ archive.org เหตุผลอาจรวมถึง:

  • ผู้เขียนต้นฉบับไม่ได้เก็บถาวรเว็บไซต์ของตัวเองและตอนนี้ออฟไลน์ฉันต้องการสร้างแคชสาธารณะจากมัน
  • ฉันเป็นผู้แต่งดั้งเดิมของบางเว็บไซต์และสูญเสียเนื้อหาบางส่วน ฉันต้องการกู้คืน
  • ...

ฉันจะทำอย่างไร

คำนึงถึงว่าเครื่องอาร์แบคอาร์แบคเป็นพิเศษมาก: ลิงค์ของหน้าเว็บไม่ได้ชี้ไปที่ไฟล์เก็บถาวร แต่ไปที่หน้าเว็บที่อาจไม่มีอยู่อีกต่อไป JavaScript ใช้ฝั่งไคลเอ็นต์เพื่ออัปเดตลิงก์ แต่เคล็ดลับเช่น wget แบบเรียกซ้ำไม่ทำงาน


14
ฉันเจอปัญหาเดียวกันแล้วและฉันได้รหัสอัญมณี วิธีติดตั้ง: gem install wayback_machine_downloader. เรียกใช้ wayback_machine_downloader ด้วย URL พื้นฐานของเว็บไซต์ที่คุณต้องการดึงข้อมูลเป็นพารามิเตอร์: wayback_machine_downloader http://example.comข้อมูลเพิ่มเติม: github.com/hartator/wayback_machine_downloader
Hartator

3
การช่วยเหลือทีละขั้นตอนสำหรับผู้ใช้ windows (win8.1 64 บิตสำหรับฉัน) ใหม่สำหรับ Ruby นี่คือสิ่งที่ฉันทำเพื่อให้ใช้งานได้: 1) ฉันติดตั้งrubyinstaller.org/downloadsจากนั้นเรียกใช้ "rubyinstaller-2.2.3-x64 .exe "2) ดาวน์โหลดไฟล์ zip github.com/hartator/wayback-machine-downloader/archive/… 3) เปิดเครื่องรูด zip ในคอมพิวเตอร์ของฉัน 4) ค้นหาในเมนูเริ่มของ windows สำหรับ" Start command prompt with Ruby "(เพื่อเป็น ต่อ)
Erb

3
5) ทำตามคำแนะนำของgithub.com/hartator/wayback_machine_downloader (e; .g: คัดลอกวาง "gem install wayback_machine_downloader" นี้ลงในพร้อมท์กด Enter แล้วมันจะติดตั้งโปรแกรม ... จากนั้นทำตามแนวทาง "การใช้งาน" 6) เมื่อเว็บไซต์ของคุณถูกจับคุณจะพบไฟล์ใน C: \ Users \ ชื่อผู้ใช้ของคุณ \ เว็บไซต์
Erb

คำตอบ:


64

ฉันลองใช้วิธีการต่าง ๆ ในการดาวน์โหลดเว็บไซต์และในที่สุดฉันก็พบตัวดาวน์โหลดเครื่องเวย์แบ็ค - ซึ่งฮาร์ ธ อร์ได้กล่าวถึงมาก่อน (เครดิตทั้งหมดไปถึงเขาได้โปรด) แต่ฉันก็ไม่ได้สังเกตเห็นความคิดเห็นของเขากับคำถาม เพื่อประหยัดเวลาฉันตัดสินใจเพิ่ม wayback_machine_downloader gem เป็นคำตอบแยกที่นี่

เว็บไซต์ที่http://www.archiveteam.org/index.php?title=Restoringแสดงวิธีการเหล่านี้เพื่อดาวน์โหลดจาก archive.org:

  • Wayback Machine Downloaderเครื่องมือขนาดเล็กใน Ruby เพื่อดาวน์โหลดเว็บไซต์ใด ๆ จาก Wayback Machine ฟรีและโอเพ่นซอร์ส ตัวเลือกของฉัน!
  • Warrick - เว็บไซต์หลักดูเหมือนจะไม่ทำงาน
  • Wayback downloaderบริการที่จะดาวน์โหลดเว็บไซต์ของคุณจากเครื่อง Wayback และเพิ่มปลั๊กอินสำหรับ Wordpress ไม่ฟรี.

ฉันยังเขียน "wayback downloader" เป็น php ดาวน์โหลดทรัพยากรปรับลิงก์ ฯลฯ : gist.github.com/divinity76/85c01de416c541578342580997fa6acf
hanshenrik

@ComicSans บนหน้าเว็บที่คุณเชื่อมโยงทีมเก็บถาวรคืออะไร??
Pacerier

1
ตุลาคม 2018 เครื่องมือดาวน์โหลด Wayback Machine ยังคงใช้งานได้
Guy บราซิลนั่น

@Perier มันหมายถึง (ชุด) ไฟล์ WARC ที่สร้างโดยทีมเก็บถาวร (และมักจะป้อนเข้าสู่เครื่องทางกลับของ Internet Archive) ดูarchive.org/details/archiveteam
Nemo

13

ซึ่งสามารถทำได้โดยใช้สคริปต์เปลือกทุบตีรวมกับwget

แนวคิดคือการใช้คุณสมบัติ URLบางอย่างของเครื่อง wayback:

  • http://web.archive.org/web/*/http://domain/*จะแสดงรายการหน้าที่บันทึกไว้ทั้งหมดจากการhttp://domain/เรียกซ้ำ มันสามารถใช้ในการสร้างดัชนีของหน้าเพื่อดาวน์โหลดและหลีกเลี่ยงการวิเคราะห์พฤติกรรมเพื่อตรวจสอบลิงค์ในหน้าเว็บ สำหรับแต่ละลิงก์ยังมีวันที่ของเวอร์ชันแรกและเวอร์ชันสุดท้าย
  • http://web.archive.org/web/YYYYMMDDhhmmss*/http://domain/pageจะแสดงรายการทุกรุ่นhttp://domain/pageสำหรับปีปปปป ภายในหน้านั้นจะพบลิงก์ไปยังเวอร์ชันที่ระบุ (ด้วยการประทับเวลาที่แน่นอน)
  • http://web.archive.org/web/YYYYMMDDhhmmssid_/http://domain/pageจะส่งคืนหน้าเว็บhttp://domain/pageที่ไม่ได้แก้ไขในเวลาที่กำหนด สังเกตเห็นโทเค็นid_

สิ่งเหล่านี้เป็นพื้นฐานในการสร้างสคริปต์เพื่อดาวน์โหลดทุกสิ่งจากโดเมนที่กำหนด


7
คุณควรใช้ API แทนarchive.org/help/wayback_api.phpหน้าวิธีใช้ Wikipedia สำหรับผู้แก้ไขไม่ใช่เพื่อสาธารณชนทั่วไป ดังนั้นหน้านั้นจึงมุ่งเน้นไปที่ส่วนต่อประสานกราฟิกซึ่งทั้งถูกแทนที่และไม่เพียงพอสำหรับงานนี้
Nemo

มันอาจจะง่ายกว่าถ้าจะบอกว่าใช้ URL (เช่นhttp://web.archive.org/web/19981202230410/http://www.google.com/) แล้วเพิ่มid_ที่ส่วนท้ายของ "หมายเลขวันที่" http://web.archive.org/web/19981202230410id_/http://www.google.com/จากนั้นคุณจะได้รับสิ่งที่ต้องการ
haykam

1
สคริปต์ python สามารถพบได้ที่นี่: gist.github.com/ingamedeo/ …
Amedeo Baragiola

4

มีเครื่องมือที่ออกแบบมาเพื่อการนี้โดยเฉพาะ Warrick: https://code.google.com/p/warrick/

มันขึ้นอยู่กับโปรโตคอลของที่ระลึก


3
เท่าที่ฉันสามารถใช้สิ่งนี้ได้ (ในเดือนพฤษภาคม 2017) มันแค่กู้คืนไฟล์เก็บถาวรที่เก็บไว้และไม่สนใจสิ่งที่เก็บถาวร มันยังพยายามรับเอกสารและรูปภาพจากแคชของ Google / Yahoo แต่ล้มเหลวอย่างสิ้นเชิง Warrick ถูกโคลนหลายครั้งใน GitHub ตั้งแต่ Google Code ปิดตัวลงอาจมีบางรุ่นที่ดีกว่า
Gwyneth Llewelyn

0

wgetคุณสามารถทำเช่นนี้ได้อย่างง่ายดายด้วย

wget -rc --accept-regex '.*ROOT.*' START

ROOTURL รากของเว็บไซต์อยู่ที่ไหนและSTARTเป็น URL เริ่มต้น ตัวอย่างเช่น:

wget -rc --accept-regex '.*http://www.math.niu.edu/~rusin/known-math/.*' http://web.archive.org/web/20150415082949fw_/http://www.math.niu.edu/~rusin/known-math/

โปรดทราบว่าคุณควรหลีกเลี่ยงกรอบการตัดคำของเว็บเก็บถาวรสำหรับSTARTURL ในเบราว์เซอร์ส่วนใหญ่คุณสามารถคลิกขวาที่หน้าและเลือก "แสดงเฉพาะเฟรมนี้"

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.