วิธีการดาวน์โหลดเว็บไซต์จาก archive.org Wayback Machine

84

ฉันต้องการรับไฟล์ทั้งหมดสำหรับเว็บไซต์หนึ่ง ๆ ที่ archive.org เหตุผลอาจรวมถึง:

ผู้เขียนต้นฉบับไม่ได้เก็บถาวรเว็บไซต์ของตัวเองและตอนนี้ออฟไลน์ฉันต้องการสร้างแคชสาธารณะจากมัน
ฉันเป็นผู้แต่งดั้งเดิมของบางเว็บไซต์และสูญเสียเนื้อหาบางส่วน ฉันต้องการกู้คืน
...

ฉันจะทำอย่างไร

คำนึงถึงว่าเครื่องอาร์แบคอาร์แบคเป็นพิเศษมาก: ลิงค์ของหน้าเว็บไม่ได้ชี้ไปที่ไฟล์เก็บถาวร แต่ไปที่หน้าเว็บที่อาจไม่มีอยู่อีกต่อไป JavaScript ใช้ฝั่งไคลเอ็นต์เพื่ออัปเดตลิงก์ แต่เคล็ดลับเช่น wget แบบเรียกซ้ำไม่ทำงาน

archiving web

— user36520
แหล่งที่มา

14

ฉันเจอปัญหาเดียวกันแล้วและฉันได้รหัสอัญมณี วิธีติดตั้ง: gem install wayback_machine_downloader. เรียกใช้ wayback_machine_downloader ด้วย URL พื้นฐานของเว็บไซต์ที่คุณต้องการดึงข้อมูลเป็นพารามิเตอร์: wayback_machine_downloader http://example.comข้อมูลเพิ่มเติม: github.com/hartator/wayback_machine_downloader

— Hartator

3

การช่วยเหลือทีละขั้นตอนสำหรับผู้ใช้ windows (win8.1 64 บิตสำหรับฉัน) ใหม่สำหรับ Ruby นี่คือสิ่งที่ฉันทำเพื่อให้ใช้งานได้: 1) ฉันติดตั้งrubyinstaller.org/downloadsจากนั้นเรียกใช้ "rubyinstaller-2.2.3-x64 .exe "2) ดาวน์โหลดไฟล์ zip github.com/hartator/wayback-machine-downloader/archive/… 3) เปิดเครื่องรูด zip ในคอมพิวเตอร์ของฉัน 4) ค้นหาในเมนูเริ่มของ windows สำหรับ" Start command prompt with Ruby "(เพื่อเป็น ต่อ)

— Erb

3

5) ทำตามคำแนะนำของgithub.com/hartator/wayback_machine_downloader (e; .g: คัดลอกวาง "gem install wayback_machine_downloader" นี้ลงในพร้อมท์กด Enter แล้วมันจะติดตั้งโปรแกรม ... จากนั้นทำตามแนวทาง "การใช้งาน" 6) เมื่อเว็บไซต์ของคุณถูกจับคุณจะพบไฟล์ใน C: \ Users \ ชื่อผู้ใช้ของคุณ \ เว็บไซต์

— Erb

64

ฉันลองใช้วิธีการต่าง ๆ ในการดาวน์โหลดเว็บไซต์และในที่สุดฉันก็พบตัวดาวน์โหลดเครื่องเวย์แบ็ค - ซึ่งฮาร์ ธ อร์ได้กล่าวถึงมาก่อน (เครดิตทั้งหมดไปถึงเขาได้โปรด) แต่ฉันก็ไม่ได้สังเกตเห็นความคิดเห็นของเขากับคำถาม เพื่อประหยัดเวลาฉันตัดสินใจเพิ่ม wayback_machine_downloader gem เป็นคำตอบแยกที่นี่

เว็บไซต์ที่http://www.archiveteam.org/index.php?title=Restoringแสดงวิธีการเหล่านี้เพื่อดาวน์โหลดจาก archive.org:

Wayback Machine Downloaderเครื่องมือขนาดเล็กใน Ruby เพื่อดาวน์โหลดเว็บไซต์ใด ๆ จาก Wayback Machine ฟรีและโอเพ่นซอร์ส ตัวเลือกของฉัน!
Warrick - เว็บไซต์หลักดูเหมือนจะไม่ทำงาน
Wayback downloaderบริการที่จะดาวน์โหลดเว็บไซต์ของคุณจากเครื่อง Wayback และเพิ่มปลั๊กอินสำหรับ Wordpress ไม่ฟรี.

— Comic Sans
แหล่งที่มา

ฉันยังเขียน "wayback downloader" เป็น php ดาวน์โหลดทรัพยากรปรับลิงก์ ฯลฯ : gist.github.com/divinity76/85c01de416c541578342580997fa6acf

— hanshenrik

@ComicSans บนหน้าเว็บที่คุณเชื่อมโยงทีมเก็บถาวรคืออะไร??

— Pacerier

1

ตุลาคม 2018 เครื่องมือดาวน์โหลด Wayback Machine ยังคงใช้งานได้

— Guy บราซิลนั่น

@Perier มันหมายถึง (ชุด) ไฟล์ WARC ที่สร้างโดยทีมเก็บถาวร (และมักจะป้อนเข้าสู่เครื่องทางกลับของ Internet Archive) ดูarchive.org/details/archiveteam

— Nemo

13

ซึ่งสามารถทำได้โดยใช้สคริปต์เปลือกทุบตีรวมกับwget

แนวคิดคือการใช้คุณสมบัติ URLบางอย่างของเครื่อง wayback:

http://web.archive.org/web/*/http://domain/*จะแสดงรายการหน้าที่บันทึกไว้ทั้งหมดจากการhttp://domain/เรียกซ้ำ มันสามารถใช้ในการสร้างดัชนีของหน้าเพื่อดาวน์โหลดและหลีกเลี่ยงการวิเคราะห์พฤติกรรมเพื่อตรวจสอบลิงค์ในหน้าเว็บ สำหรับแต่ละลิงก์ยังมีวันที่ของเวอร์ชันแรกและเวอร์ชันสุดท้าย
http://web.archive.org/web/YYYYMMDDhhmmss*/http://domain/pageจะแสดงรายการทุกรุ่นhttp://domain/pageสำหรับปีปปปป ภายในหน้านั้นจะพบลิงก์ไปยังเวอร์ชันที่ระบุ (ด้วยการประทับเวลาที่แน่นอน)
http://web.archive.org/web/YYYYMMDDhhmmssid_/http://domain/pageจะส่งคืนหน้าเว็บhttp://domain/pageที่ไม่ได้แก้ไขในเวลาที่กำหนด สังเกตเห็นโทเค็นid_

สิ่งเหล่านี้เป็นพื้นฐานในการสร้างสคริปต์เพื่อดาวน์โหลดทุกสิ่งจากโดเมนที่กำหนด

— user36520
แหล่งที่มา

7

คุณควรใช้ API แทนarchive.org/help/wayback_api.phpหน้าวิธีใช้ Wikipedia สำหรับผู้แก้ไขไม่ใช่เพื่อสาธารณชนทั่วไป ดังนั้นหน้านั้นจึงมุ่งเน้นไปที่ส่วนต่อประสานกราฟิกซึ่งทั้งถูกแทนที่และไม่เพียงพอสำหรับงานนี้

— Nemo

มันอาจจะง่ายกว่าถ้าจะบอกว่าใช้ URL (เช่นhttp://web.archive.org/web/19981202230410/http://www.google.com/) แล้วเพิ่มid_ที่ส่วนท้ายของ "หมายเลขวันที่" http://web.archive.org/web/19981202230410id_/http://www.google.com/จากนั้นคุณจะได้รับสิ่งที่ต้องการ

— haykam

1

สคริปต์ python สามารถพบได้ที่นี่: gist.github.com/ingamedeo/ …

— Amedeo Baragiola

4

มีเครื่องมือที่ออกแบบมาเพื่อการนี้โดยเฉพาะ Warrick: https://code.google.com/p/warrick/

มันขึ้นอยู่กับโปรโตคอลของที่ระลึก

— Nemo
แหล่งที่มา

3

เท่าที่ฉันสามารถใช้สิ่งนี้ได้ (ในเดือนพฤษภาคม 2017) มันแค่กู้คืนไฟล์เก็บถาวรที่เก็บไว้และไม่สนใจสิ่งที่เก็บถาวร มันยังพยายามรับเอกสารและรูปภาพจากแคชของ Google / Yahoo แต่ล้มเหลวอย่างสิ้นเชิง Warrick ถูกโคลนหลายครั้งใน GitHub ตั้งแต่ Google Code ปิดตัวลงอาจมีบางรุ่นที่ดีกว่า

— Gwyneth Llewelyn

0

wgetคุณสามารถทำเช่นนี้ได้อย่างง่ายดายด้วย

wget -rc --accept-regex '.*ROOT.*' START

ROOTURL รากของเว็บไซต์อยู่ที่ไหนและSTARTเป็น URL เริ่มต้น ตัวอย่างเช่น:

wget -rc --accept-regex '.*http://www.math.niu.edu/~rusin/known-math/.*' http://web.archive.org/web/20150415082949fw_/http://www.math.niu.edu/~rusin/known-math/

โปรดทราบว่าคุณควรหลีกเลี่ยงกรอบการตัดคำของเว็บเก็บถาวรสำหรับSTARTURL ในเบราว์เซอร์ส่วนใหญ่คุณสามารถคลิกขวาที่หน้าและเลือก "แสดงเฉพาะเฟรมนี้"

— jcoffland
แหล่งที่มา