คำถามติดแท็ก internet-archive

2
ควบคุม Internet Archive นอกเหนือจาก“ ไม่อนุญาต /”?
มีกลไกใดบ้างในการควบคุมสิ่งที่เก็บถาวรข้อมูลอินเทอร์เน็ตบนเว็บไซต์หรือไม่ ฉันรู้ว่าไม่อนุญาตให้เพิ่มหน้าทั้งหมด: User-agent: ia_archiver Disallow: / ฉันบอกบอตว่าฉันต้องการให้พวกเขารวบรวมข้อมูลเว็บไซต์ของฉันเดือนละครั้งหรือปีละครั้งได้หรือไม่ ฉันมีเว็บไซต์ / หน้าเว็บที่ไม่ได้ / ไม่ได้รับการเก็บถาวรอย่างถูกต้องเนื่องจากสินทรัพย์ไม่มารับ มีวิธีบอกบอตของ Internet Archive หรือไม่ว่าจะต้องใช้สินทรัพย์อะไรถ้ามันกำลังจะคว้าไซต์?

6
วิธีการอย่างถูกต้อง (dis) อนุญาตบอท archive.org หรือไม่ ทุกสิ่งเปลี่ยนไปถ้าเป็นเช่นนั้นเมื่อไหร่?
ฉันมีเว็บไซต์ที่ส่วนใหญ่ฉันไม่ต้องการให้จัดทำดัชนีโดยเครื่องมือค้นหา แต่ฉันต้องการเก็บไว้เป็นนิรันดร์ใน archive.org ดังนั้นการrobots.txtเริ่มต้นของฉันกับสิ่งนี้: User-agent: * Disallow: / วันนี้ตามที่เก็บถาวร.orgฉันต้องเพิ่มสิ่งต่อไปนี้ในของฉันrobots.txtเพื่ออนุญาตบอท: User-agent: ia_archiver Disallow: แต่ฉันได้ทำสิ่งที่พวกเขาระบุเมื่อสองสามปีที่แล้วอย่างน้อยฉันก็เพิ่มสิ่งต่อไปนี้: User-agent: archive.org_bot Disallow: จากนั้นมีแหล่งข้อมูลอื่นที่อ้างว่าคุณต้องเพิ่มสองรายการข้างต้นDisallowรวมถึงอีกหนึ่งรายการ: User-agent: ia_archiver-web.archive.org Disallow: โปรดทราบว่าคุณต้องใส่Disallow: /ถ้าคุณไม่ต้องการให้บอทเก็บเว็บไซต์ของคุณ บอทของ IA มีการเปลี่ยนแปลงหรือไม่? ถ้าเป็นเช่นนั้นเมื่อไหร่? วิธีที่แนะนำคืออะไร? ฉันควรจะอนุญาตทั้งสามตอนนี้และหวังว่า IA จะไม่เปลี่ยนชื่อบอทของพวกเขาอีกในอนาคต?
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.