ควบคุม Internet Archive นอกเหนือจาก“ ไม่อนุญาต /”?


13

มีกลไกใดบ้างในการควบคุมสิ่งที่เก็บถาวรข้อมูลอินเทอร์เน็ตบนเว็บไซต์หรือไม่ ฉันรู้ว่าไม่อนุญาตให้เพิ่มหน้าทั้งหมด:

User-agent: ia_archiver
Disallow: /
  1. ฉันบอกบอตว่าฉันต้องการให้พวกเขารวบรวมข้อมูลเว็บไซต์ของฉันเดือนละครั้งหรือปีละครั้งได้หรือไม่

  2. ฉันมีเว็บไซต์ / หน้าเว็บที่ไม่ได้ / ไม่ได้รับการเก็บถาวรอย่างถูกต้องเนื่องจากสินทรัพย์ไม่มารับ มีวิธีบอกบอตของ Internet Archive หรือไม่ว่าจะต้องใช้สินทรัพย์อะไรถ้ามันกำลังจะคว้าไซต์?


ฉันสนใจมากในคำตอบนี้ +1 :)
Tim Post

คำตอบ:


8

หมายเหตุ : คำตอบนี้ล้าสมัยมากขึ้น

ผู้สนับสนุนที่ใหญ่ที่สุดในคอลเลกชันเว็บของ Internet Archive คือ Alexa Internet เนื้อหาที่ Alexa รวบรวมข้อมูลตามวัตถุประสงค์ได้ถูกบริจาคให้กับ IA ในไม่กี่เดือนต่อมา การเพิ่มกฎการไม่อนุญาตที่กล่าวถึงในคำถามไม่ได้ส่งผลกระทบต่อการรวบรวมข้อมูล แต่ Wayback จะให้เกียรติย้อนหลัง (ปฏิเสธการเข้าถึงเนื้อหาจะยังคงอยู่ในที่เก็บถาวร - คุณควรแยกหุ่นยนต์ของ Alexa ถ้าคุณต้องการเก็บเนื้อหาของคุณจริงๆ ของ Internet Archive)

อาจมีวิธีที่จะส่งผลกระทบต่อการรวบรวมข้อมูลของ Alexa แต่ฉันไม่คุ้นเคยกับสิ่งนั้น

เนื่องจาก IA ได้พัฒนาซอฟต์แวร์รวบรวมข้อมูลของตัวเอง (Heritrix) พวกเขาเริ่มทำการรวบรวมข้อมูลด้วยตนเอง แต่สิ่งเหล่านี้มีแนวโน้มที่จะเป็นเป้าหมายของการรวบรวมข้อมูล (พวกเขาทำการรวบรวมข้อมูลการเลือกตั้งสำหรับ Library of Congress และรวบรวมข้อมูลระดับประเทศสำหรับฝรั่งเศสและออสเตรเลีย พวกเขาไม่ได้มีส่วนร่วมในการรวบรวมข้อมูลระดับโลกอย่างยั่งยืนที่ Google และ Alexa ดำเนินการ การรวบรวมข้อมูลที่ใหญ่ที่สุดของ IA เป็นโครงการพิเศษในการรวบรวมข้อมูล 2 พันล้านหน้า

เนื่องจากการรวบรวมข้อมูลเหล่านี้ทำงานตามกำหนดเวลาที่มาจากปัจจัยเฉพาะของโครงการคุณจึงไม่สามารถส่งผลกระทบต่อความถี่ที่พวกเขาเข้าชมเว็บไซต์ของคุณหรือหากเข้าชมเว็บไซต์ของคุณ

วิธีเดียวที่จะส่งผลโดยตรงต่อวิธีการและเมื่อ IA รวบรวมข้อมูลเว็บไซต์ของคุณคือการใช้ของพวกเขาArchive-Itบริการ บริการดังกล่าวอนุญาตให้คุณระบุการรวบรวมข้อมูลที่กำหนดเอง ข้อมูลผลลัพธ์จะถูกรวมเข้ากับการรวบรวมเว็บของ IA ในที่สุด อย่างไรก็ตามนี่คือบริการสมัครสมาชิกแบบชำระเงิน


3
ความคิดเห็นของคุณเกี่ยวกับ IA ที่ทำในการรวบรวมข้อมูลนั้นเป็นจริงในปี 2011 และไม่เป็นความจริงอีกต่อไปในปี 2559: เราทำการรวบรวมข้อมูลด้วยตัวเองเป็นจำนวนมากในขณะนี้
Greg Lindahl

@GregLindahl คุณสามารถเพิ่มคำตอบที่อัปเดตสำหรับคำถามนี้ได้
Stephen Ostermiller

2

เครื่องมือค้นหาส่วนใหญ่รองรับคำสั่ง "ล่าช้าในการรวบรวมข้อมูล" แต่ฉันไม่ทราบว่า IA เป็นเช่นนั้นหรือไม่ คุณสามารถลองได้ว่า:

User-agent: ia_archiver
Crawl-delay: 3600

สิ่งนี้จะ จำกัด การหน่วงเวลาระหว่างการร้องขอถึง 3600 วินาที (เช่น 1 ชั่วโมง) หรือ ~ 700 คำขอต่อเดือน

ฉันไม่คิดว่าเป็นไปได้ # 2 - บอท IA คว้าสินทรัพย์เป็นและเมื่อเห็นว่าเหมาะสม อาจมีการ จำกัด ขนาดไฟล์เพื่อหลีกเลี่ยงการใช้ที่เก็บข้อมูลมากเกินไป


@Kris: การตั้งค่าการรวบรวมข้อมูลล่าช้าควรทำโดย proxy หากคุณมี 30 หน้าและคุณบอกให้โปรแกรมรวบรวมข้อมูลตีเพียงครั้งเดียวต่อวันแต่ละหน้ามีแนวโน้มที่จะรีเฟรชทุก ๆ 30 วัน (ไม่ใช่การรับประกันแน่นอน)
DisgruntledGoat

อย่างไรก็ตามในทางทฤษฎีแล้วหากคุณกำลังรวบรวมข้อมูลที่เก็บถาวรคุณจะไม่เชื่อฟังกฎดังกล่าว การรวบรวมข้อมูลไซต์หนึ่งครั้งต่อวันหมายความว่าคุณไม่สามารถรวบรวมเว็บไซต์ได้ในเวลาที่กำหนด หากเคารพแอตทริบิวต์นี้จะมีขีด จำกัด สูงสุด 1-5 นาทีในการรวบรวมข้อมูลใด ๆ
กริช

อ่าฉันเห็นประเด็นของคุณแล้ว
DisgruntledGoat

ฉันเพิ่งดู Heritrix 3 ที่เพิ่งเปิดตัวและฉันเห็นว่าพวกเขาได้เพิ่มการจัดการคำสั่งการรวบรวมข้อมูลล่าช้า แต่จะมีค่าเริ่มต้นเฉพาะการเคารพสูงสุด 300 วินาที (5 นาที)
กริช
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.