วิธีเก็บถาวรทั้งเว็บไซต์?


15

หากต้องการบันทึกหน้าเดียวผ่านเครื่อง Waybackฉันสามารถไปที่:

ฉันจะเก็บถาวรเว็บไซต์ซ้ำด้วยเครื่อง Wayback ได้อย่างไร


มีบางโครงการเช่นwayback-machine-downloaderแต่ฉันกำลังมองหาคุณสมบัติที่ช่วยให้ฉันอัปโหลดเว็บไซต์ซ้ำ

คำตอบ:


12

เนื่องจากWayback Machineไม่มีคุณสมบัติดังกล่าวฉันจึงพบวิธีแก้ปัญหาบางอย่าง

  1. ขั้นแรกให้สะท้อนถึงเว็บไซต์ที่ใช้wgetเช่น

    wget -m https://example.com/
    
  2. จากนั้นใช้curlเพื่อเก็บถาวรทุกหน้าทีละอย่างที่คุณดาวน์โหลด

    find . -name "*.html" -exec curl -v "https://web.archive.org/save/https://{}" ';'
    

    หมายเหตุ: คุณสามารถเปลี่ยน.htmlไป.phpหรือรวมบางประเภทของไฟล์


หากไซต์ไม่ได้ใช้ส่วนขยาย (เช่นการตั้งค่า html หรือ php - like SE) คุณจะปรับคำสั่งของคุณอย่างไร
db

2
คุณสามารถเปลี่ยน-name "*.html"เพื่อ-type fที่จะรวมไฟล์ทั้งหมด
kenorb

สิ่งนี้ทำงานกับพารามิเตอร์การสืบค้นได้อย่างไร
Mithical

6

หากคุณต้องการเก็บเว็บไซต์ขนาดเล็กที่ทีม ArchiveรักษาArchiveBot , บอท IRC ที่คุณสามารถขอไปยังเว็บไซต์ที่รวบรวมข้อมูล ทีมเก็บถาวรจะส่งหน้าที่รวบรวมข้อมูลไปยังเครื่อง Wayback ของ Internet Archive


สิ่งนี้มีประโยชน์อย่างเหลือเชื่อ
Guy

1

เครื่อง Wayback ไม่ได้เสนอวิธีการส่งทั้งเว็บไซต์เพียงหน้าเดียวเท่านั้นที่คุณได้พบแล้ว นี่คือสิ่งที่สัมผัสในจุดสองสามของเครื่อง Wayback ของพวกเขาคำถามที่พบบ่อย :

ฉันสามารถเพิ่มหน้าไปยังเครื่อง Wayback ได้หรือไม่?

ในhttps://archive.org/webคุณสามารถใช้คุณสมบัติ "บันทึกหน้าได้ทันที" เพื่อบันทึกหน้าเฉพาะหนึ่งครั้ง สิ่งนี้ไม่ได้เพิ่ม URL ให้กับการรวบรวมข้อมูลในอนาคตและจะไม่บันทึกมากกว่าหนึ่งหน้า มันไม่ได้บันทึกหน้าหลายไดเรกทอรีหรือเว็บไซต์ทั้งหมด

และ

ฉันจะทำให้เว็บไซต์ของฉันรวมอยู่ในเครื่อง Wayback ได้อย่างไร

ข้อมูลเว็บที่เก็บถาวรของเราส่วนใหญ่มาจากการรวบรวมข้อมูลของเราเองหรือจากการรวบรวมข้อมูลของ Alexa Internet ทั้งสององค์กรไม่มี "รวบรวมข้อมูลเว็บไซต์ของฉันตอนนี้!" ขั้นตอนการส่ง การรวบรวมข้อมูลของ Internet Archive มีแนวโน้มที่จะค้นหาเว็บไซต์ที่เชื่อมโยงจากเว็บไซต์อื่นเป็นอย่างดี วิธีที่ดีที่สุดเพื่อให้แน่ใจว่าเราพบเว็บไซต์ของคุณคือตรวจสอบให้แน่ใจว่ามันรวมอยู่ในไดเรกทอรีออนไลน์และลิงค์ที่คล้ายกัน / เว็บไซต์ที่เกี่ยวข้องกับคุณ


1
นี่ไม่ใช่คำตอบสำหรับคำถาม เพียงเพราะไม่มีวิธีที่เป็นทางการที่จะทำมันเป็นไปไม่ได้ที่จะปฏิบัติ อันที่จริงแล้วมันควรจะง่ายที่จะทำสคริปต์ที่เพิ่มลิงค์ซ้ำ ๆ
db

@db คำตอบของ kenorbดูเหมือนจะเป็นสิ่งที่คุณต้องการ อนึ่งคำตอบนี้มีประโยชน์สำหรับฉันมากกว่านี้ในขณะที่ฉันแค่ต้องการให้ The WaybackMachine จับภาพหนึ่งหน้าให้กับฉันตอนนี้
cp.engr

1

นี้บทความใน archive.org ยังแสดงให้เห็นเป็นบริการชำระเงินซึ่งจะทำการรวบรวมข้อมูลสำหรับคุณได้บ่อยเท่าที่คุณต้องการ:

  1. ลงทะเบียนสำหรับบัญชี Archive-It

เก็บถาวร -เป็นบริการสมัครสมาชิกที่จัดทำโดย Internet Archive ที่ให้คุณเรียกใช้โครงการรวบรวมข้อมูลของคุณเองโดยไม่มีความเชี่ยวชาญด้านเทคนิคใด ๆ บอกเราว่าจะรวบรวมข้อมูลและความถี่ในการรวบรวมข้อมูลและเราดำเนินการรวบรวมข้อมูลและวางผลลัพธ์ในเครื่อง Wayback

นี่อาจไม่ใช่สิ่งที่คุณต้องการ แต่สำหรับบางธุรกิจบริการนี้อาจมีประโยชน์ ฉันคิดว่ามันจะช่วยให้กองทุน archive.org ซึ่งฟรี

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.