วิธีการอย่างถูกต้อง (dis) อนุญาตบอท archive.org หรือไม่ ทุกสิ่งเปลี่ยนไปถ้าเป็นเช่นนั้นเมื่อไหร่?

10

ฉันมีเว็บไซต์ที่ส่วนใหญ่ฉันไม่ต้องการให้จัดทำดัชนีโดยเครื่องมือค้นหา แต่ฉันต้องการเก็บไว้เป็นนิรันดร์ใน archive.org ดังนั้นการrobots.txtเริ่มต้นของฉันกับสิ่งนี้:

User-agent: *
Disallow: /

วันนี้ตามที่เก็บถาวร.orgฉันต้องเพิ่มสิ่งต่อไปนี้ในของฉันrobots.txtเพื่ออนุญาตบอท:

User-agent: ia_archiver
Disallow:

แต่ฉันได้ทำสิ่งที่พวกเขาระบุเมื่อสองสามปีที่แล้วอย่างน้อยฉันก็เพิ่มสิ่งต่อไปนี้:

User-agent: archive.org_bot
Disallow:

จากนั้นมีแหล่งข้อมูลอื่นที่อ้างว่าคุณต้องเพิ่มสองรายการข้างต้นDisallowรวมถึงอีกหนึ่งรายการ:

User-agent: ia_archiver-web.archive.org 
Disallow:

โปรดทราบว่าคุณต้องใส่Disallow: /ถ้าคุณไม่ต้องการให้บอทเก็บเว็บไซต์ของคุณ

บอทของ IA มีการเปลี่ยนแปลงหรือไม่? ถ้าเป็นเช่นนั้นเมื่อไหร่?

วิธีที่แนะนำคืออะไร? ฉันควรจะอนุญาตทั้งสามตอนนี้และหวังว่า IA จะไม่เปลี่ยนชื่อบอทของพวกเขาอีกในอนาคต?

web-crawlers robots.txt internet-archive

— kqw
แหล่งที่มา

ฉันรู้แค่ ia_archiver เท่านั้น คนอื่นแปลกใจสำหรับฉัน คุณมีลิงค์สำหรับสิ่งนี้หรือไม่? เหตุผลที่ฉันถามคือ archive.org เข้าเยี่ยมชมเว็บไซต์ของฉันและฉันต้องปิดกั้นพวกเขาด้วยที่อยู่ IP นอกจากนี้คุณยังพูดถึงว่าคุณไม่ต้องการให้ archive.org แต่แล้วพูดคุยเกี่ยวกับการปิดกั้นมัน ฉันแค่ต้องการให้ชัดเจนเกี่ยวกับเรื่องนี้และลิงก์สามารถช่วยพวกเราทุกคน ขอบคุณล่วงหน้า!

— Closnoc

อัปเดตคำถาม หวังว่าจะชัดเจนขึ้นในขณะนี้ รุ่นเล็ก: ฉันไม่ต้องการบ็อตของเครื่องมือค้นหาในเว็บไซต์นี้ฉันต้องการบอทของ archive.org แต่บางทีฉันควรกลับคำถามเพราะนั่นคือสิ่งที่คนส่วนใหญ่มองหา?

— kqw

จริงๆแล้วถ้าคุณไม่ได้ใช้สิ่งเหล่านี้ในคุณจะอนุญาตให้เก็บถาวร.orgโดยที่คุณไม่ได้บล็อกด้วยคำสั่งแบบครอบคลุม

— Closnoc

การใช้ "ia_archiver" เพียงอย่างเดียวควรบล็อก "ia_archiver-web.archive.org" ดังนั้นจึงดูเหมือนว่าในภายหลังจะไม่จำเป็น (ให้บอทนี้เป็นไปตามมาตรฐาน)

— MrWhite

คุณเห็นบอต ia-archiver (หรือ archive.org_bot) ในบันทึกการเข้าถึงของคุณหรือไม่

— MrWhite

9

อัปเดต : เนื่องจาก @KevinFegan บันทึกไว้ในความคิดเห็นเอกสารของพวกเขาเปลี่ยนไป ส่วนด้านล่างนี้อธิบายถึงวิธีการที่ Internet Archive จัดการในอดีต (อย่างน้อยในปี 2014)

คำถามที่พบบ่อยของพวกเขาฉันจะแยกหน้าเว็บไซต์ของฉันออกจากเครื่อง Wayback ได้อย่างไร หมายถึงการถอดเอกสารจากเครื่อง Waybackia_archiverซึ่งเอกสารที่บอทของพวกเขาเรียกว่า

ดังนั้นบันทึกนี้ควรอนุญาตให้บอทของพวกเขารวบรวมข้อมูลทั้งไซต์ของคุณ:

User-agent: ia_archiver
Disallow:

— UNOR
แหล่งที่มา

คำสั่งของกลุ่มไม่ควรสำคัญ เฉพาะเจาะจงมากที่สุด (เช่น. ยาวที่สุด) ตัวแทนผู้ว่าการแข่งขันเป็นสิ่งหนึ่งที่ชนะ *กลุ่มเดียวตรงกับเมื่อไม่มีกลุ่มอื่น ๆ ได้จับคู่

— MrWhite

@ w3d: ถูกต้องฉันถอดส่วนนี้ออก ขอบคุณสำหรับข้อมูล :)

— unor

1

เห็นได้ชัดว่าสิ่งนี้มีการเปลี่ยนแปลงเมื่อเวลาผ่านไป ฉันไม่พบ "ia_archiver" ในหน้าคำถามที่พบบ่อยที่คุณระบุและในหน้าบล็อก Archive.orgตั้งแต่วันที่ 25 เมษายน 2017 Mark Graham พูดว่า: ตัวแทนผู้ใช้“ ia_archiver” นั้น Alexa Internet ไม่ใช่ Internet Archive

— Kevin Fegan

@KevinFegan: ขอบคุณสำหรับการแจ้งเตือนของคุณ! ฉันอัพเดตคำตอบของฉันเพื่อลิงก์ไปยังเอกสารที่เก็บถาวรในเวอร์ชันที่มีชื่อ

— UNOR

ฉันชอบที่พวกเขาจงใจทำสิ่งที่ซับซ้อนเพื่อให้พวกเขาสามารถหนีไปได้!

— Ultralisk

5

มี 2 ประเด็นจริงๆที่นี่:

จะเป็นrobots.txtในเว็บไซต์ของคุณไม่อนุญาต (บล็อก) Wayback จากการรวบรวมข้อมูลเว็บไซต์ของคุณ
Wayback จะรวบรวมข้อมูลเว็บไซต์ของคุณหรือไม่

สำหรับจุดที่ 1:
ตามที่คนอื่น ๆ พูดไว้รายการที่ถูกต้องสำหรับ robots.txt คือ:

User-agent: ia_archiver
Disallow:

โปรดทราบว่าอาจใช้เวลาสักครู่ (อาจใช้เวลานาน) เพื่อให้ Wayback สังเกตเห็นการเปลี่ยนแปลงใด ๆ ที่คุณทำกับ robots.txt

วิธีตรวจสอบว่าrobots.txtในไซต์ของคุณจะอนุญาตให้ Wayback รวบรวมข้อมูลเว็บไซต์ของคุณหรือไม่:

ไปที่ URL นี้: https://archive.org/web/
ในช่องที่ด้านบนของหน้าให้ป้อน URL ของหน้าในเว็บไซต์ของคุณแล้วคลิก"Browse History"ปุ่ม
หรือในช่องใต้ "บันทึกหน้าทันที" (ปัจจุบันใกล้ด้านล่างทางด้านขวา) และป้อน URL ของหน้าในเว็บไซต์ของคุณแล้วคลิก"Save Page"ปุ่ม

ณ จุดนี้คุณจะเห็น 1 ใน 3 สิ่ง:

คุณจะเห็นข้อความแสดงข้อผิดพลาดที่ระบุว่า Wayback ไม่สามารถเข้าถึงหน้าต่างๆในเว็บไซต์นั้นได้เนื่องจาก "robots.txt"
คุณจะเห็น "ปฏิทิน" ของจุดบันทึกที่ผ่านมาสำหรับหน้าบนไซต์ของคุณ ในกรณีนี้คุณรู้ว่า Wayback ไม่ได้ถูกบล็อกจากการรวบรวมข้อมูลเว็บไซต์ของคุณ
หรือคุณจะเห็นข้อความที่ระบุว่า Wayback ไม่มีไฟล์เก็บถาวรของหน้านั้นและข้อเสนอให้คลิกลิงก์เพื่อเพิ่มหน้าลงใน Wayback ในกรณีนี้คุณรู้ว่า Wayback นั้นไม่ได้ถูกบล็อกจากการรวบรวมข้อมูลเว็บไซต์ของคุณ

ตอนนี้สำหรับจุด # 2:

Waybackจะรวบรวมข้อมูลเว็บไซต์ของคุณหรือไม่

เพียงเพราะคุณอนุญาตให้ Wayback รวบรวมข้อมูลเว็บไซต์ของคุณไม่ได้หมายความว่าพวกเขา (เคย) จะรวบรวมข้อมูลเว็บไซต์ของคุณ

ตามคำถามที่พบบ่อย Wayback (เน้นเพิ่ม):

ฉันจะทำให้เว็บไซต์ของฉันรวมอยู่ในเครื่อง Wayback ได้อย่างไร

ข้อมูลเว็บที่เก็บถาวรส่วนใหญ่ของเรามาจากการรวบรวมข้อมูลของเราเองหรือจากการรวบรวมข้อมูลของ Alexa Internet ทั้งสององค์กรไม่มี "รวบรวมข้อมูลเว็บไซต์ของฉันตอนนี้!" กระบวนการส่ง การรวบรวมข้อมูลของ Internet Archive มีแนวโน้มที่จะค้นหาเว็บไซต์ที่เชื่อมโยงจากเว็บไซต์อื่นอย่างดี วิธีที่ดีที่สุดเพื่อให้แน่ใจว่าเราพบเว็บไซต์ของคุณเพื่อให้แน่ใจว่ามีอยู่ในไดเรกทอรีออนไลน์และเว็บไซต์ที่เกี่ยวข้อง / ที่เกี่ยวข้องเชื่อมโยงกับคุณ

Alexa Internet ใช้วิธีการของตัวเองในการค้นหาเว็บไซต์ที่จะรวบรวมข้อมูล อาจเป็นประโยชน์ในการติดตั้งแถบเครื่องมือ Alexa ฟรีและเยี่ยมชมไซต์ที่คุณต้องการรวบรวมข้อมูลเพื่อให้แน่ใจว่าพวกเขารู้เกี่ยวกับมัน

ไม่ว่าใครกำลังรวบรวมข้อมูลเว็บไซต์คุณควรตรวจสอบให้แน่ใจว่ากฎ 'robots.txt' ในเว็บไซต์ของคุณและคำสั่งของโรบอต META ในหน้าไม่ได้แจ้งให้โปรแกรมรวบรวมข้อมูลทราบเพื่อหลีกเลี่ยงไซต์ของคุณ

อัปเดต: 09 พฤษภาคม 2017

คนอื่น ๆ ได้ทิ้งความคิดเห็น / คำตอบที่ระบุว่า Archive.org ไม่ให้เกียรติ robots.txt อีกต่อไป บางทีนี่อาจเป็น "งานระหว่างทำ" และในที่สุดก็จะเป็นกรณีนี้ แต่ฉันยังไม่เห็นพฤติกรรมใหม่นี้

สำหรับกรณีนี้น่าจะมาจากบทความนี้: Robots.txt: robots.txt เป็นฆ่าตัวตายหมายเหตุarchiveteam.orgโดย ในขณะที่หน้านั้นมีน้อยถ้ามีอะไรดีที่จะพูดเกี่ยวกับ "Robots.txt" แต่ก็ไม่ได้กล่าวถึงที่ใดว่าArchive.orgจะไม่ให้เกียรติ robots.txt อีกต่อไป

นอกจากนี้ในบันทึก: ที่เกี่ยวข้องในบทความโฮสต์บนarchiveteam.orgซึ่งเป็นส่วนใหญ่แน่นอนไม่ได้archive.orgและผมไม่แน่ใจว่ามีใด ๆ (อย่างเป็นทางการ) ความสัมพันธ์ระหว่างและarchive.orgarchiveteam.org

ในความเป็นจริงหน้านี้เกี่ยวกับทีมเก็บถาวรดูเหมือนจะประกาศความแตกต่างระหว่างและ(เน้นเพิ่ม):archive.org archive.orgarchiveteam.org

ก่อตั้งขึ้นในปี 2009 ทีมเก็บถาวร ( เพื่อไม่ให้สับสนกับ Archive.org - เก็บถาวรมันทีม) เป็นนักเก็บเอกสารโกงที่อุทิศตนเพื่อบันทึกสำเนาของเว็บไซต์ที่กำลังจะตายหรือถูกลบอย่างรวดเร็วเพื่อประโยชน์ของประวัติศาสตร์และมรดกดิจิตอล ...

ไม่ว่าในกรณีใดฉันตัดสินใจที่จะลองและฉันพบว่าอย่างน้อยในเวลานี้Archive.org STILL ก็ให้เกียรติ robots.txt:

ฉันพบรายการสุ่มบน eBay: รายการ #: 131795294232
คลิกเพื่อดูรายการที่ขาย:

หน้า "รายการที่ขาย" จะเปิดขึ้น: http://offer.ebay.com/ws/eBayISAPI.dll?ViewBidsLogin&item=131795294232คัดลอกลิงก์ไปยังคลิปบอร์ด
ไปที่web.archive.orgแล้ววางลิงก์จาก eBay
คุณจะเห็นว่าarchive.orgระบุว่า "หน้าไม่สามารถแสดงได้เนื่องจาก robots.txt"

ดังนั้นในเวลานี้ฉันยังคงไม่มั่นใจ แต่ฉันชอบที่จะพิสูจน์ว่าผิด ... มันจะดีถ้ามันเป็นจริง

— Kevin Fegan
แหล่งที่มา

การล็อก

— ไฟล์เก็บถาวร

@wortwart - คงจะดีถ้าเป็นเช่นนั้น (ดูการอัปเดตที่ฉันเพิ่มในคำตอบของฉัน) คุณมีลิงค์ไปยังข้อมูลเกี่ยวกับเรื่องนี้หรือไม่?

— Kevin Fegan

แน่นอน: blog.archive.org/2017/04/17/ … "ไม่กี่เดือนที่ผ่านมาเราหยุดการอ้างถึงไฟล์ robots.txt ในเว็บไซต์รัฐบาลและเว็บไซต์ทางการทหารของสหรัฐฯ (... ) ตอนนี้เรากำลังพยายามทำสิ่งนี้ในวงกว้างมากขึ้น "

— wortwart

4

อัปเดต 2017

บอทเก็บถาวรไม่สนใจ robots.txt ของคุณ

หากคุณต้องการปิดกั้นจริงๆให้ส่งอีเมลตามหน้านี้หรือบล็อกที่อยู่ IP ของพวกเขาผ่านทาง htaccess

— Goyllo
แหล่งที่มา

2

ดูการปรับปรุงพฤษภาคม 2017 เพื่อให้คำตอบของฉัน: วิธีการอย่างถูกต้อง (DIS) อนุญาตให้ ธ ปท archive.org ส ... บอทเก็บถาวรยังคงสนใจเกี่ยวกับไฟล์ robots.txt ยกเว้นเว็บไซต์ของรัฐบาล สังเกตว่าบทความที่คุณพูดถึงนั้นมาจาก www.archiveteam.org ซึ่งไม่เกี่ยวข้องกับ Archive.org --->

— Kevin Fegan

---> ในขณะที่หน้านั้นมีน้อยถ้ามีอะไรดีที่จะพูดเกี่ยวกับ "Robots.txt" แต่ก็ไม่ได้กล่าวถึงที่ใดว่า Archive.org จะไม่ให้เกียรติ robots.txt อีกต่อไป บทความ Archive.org เกี่ยวข้อง: Robots.txt หมายสำหรับเครื่องมือค้นหาไม่ทำงานได้ดีสำหรับคลังข้อมูลเว็บ "ไม่กี่เดือนที่ผ่านมาเราหยุดอ้างถึงไฟล์ robots.txt ในเว็บไซต์รัฐบาลและเว็บไซต์ทางการทหารของสหรัฐฯ (... ) ตอนนี้เรากำลังมองหาสิ่งนี้ในวงกว้างมากขึ้น"

— Kevin Fegan

ใช่. ตอนนี้ที่เก็บถาวรทั้งหมดละเว้นคำขอลบ

— Ultralisk

3

robots.txt ia_archiver Disallow entry (ด้วย "/") ควรใช้ได้สำหรับความต้องการที่คุณอธิบาย (เพื่อ "สงวนไว้สำหรับชั่วนิรันดร์" แต่ยังไม่เปิดเผยต่อสาธารณะ)

ฉันเพิ่งทำการทดสอบอย่างรวดเร็วแสดงความคิดเห็นในรายการ ia_archiver Disallow สำหรับไซต์ที่มีอย่างน้อย 10 ปีที่ผ่านมา จากนั้นฉันก็ค้นหาไซต์นี้บน archive.org/web และมันแสดงให้เห็นว่ามันรวบรวมได้ในปี 2007, 2008, 2009, 2011, 2012, 2013, 2014, 2015, 2016 และ 2017! ซึ่งหมายความว่า Archive.org ไม่เคยเคารพในสิ่งที่คนอื่นคิดว่าเป็นคำสั่ง "อย่าเก็บถาวร" ในช่วงหลายปีที่ผ่านมา แต่ก็ไม่ได้เปิดเผยสำเนาที่เก็บถาวรเท่านั้น

— ไมค์
แหล่งที่มา

2

"ia_archiver" คือตอนนี้ (AB) ใช้โดย Alexa บางแหล่งข่าวบอกว่า: 1 , 2
Archive.org ตอนนี้ (2018) ไม่เคารพ "robots.txt" อีกต่อไป 3ไม่เพียง แต่สำหรับหน้า mil / gov แต่สำหรับทุกหน้า ตามที่เคยมีประสบการณ์กับเว็บไซต์ส่วนตัวของฉันเองซึ่งมีและมี ia- ยกเว้น robots.txt ตั้งแต่ปี 2012 และตอนนี้ฉันก็ค้นพบว่ามันถูกรวบรวมและบันทึกโดยพวกเขาตลอดหลายปีที่ผ่านมา มันเป็นความรู้สึกที่ถูกหักหลัง > :-(

— คาร์ล
แหล่งที่มา

1

ฉันลองใช้robots.txtวิธีนี้ แต่ใช้ไม่ได้ ดังนั้นฉันจึงติดต่อเว็บไซต์ทางอีเมล info@archive.org:

สวัสดี,

คุณช่วยกรุณาลบเว็บไซต์ส่วนบุคคลของฉัน dimitarnestorov.com จากที่เก็บถาวรของคุณได้ไหม?

ขอบคุณ!

ดิมิทาร์

และฉันได้รับคำตอบต่อไปนี้:

สวัสดี,

Internet Archive สามารถแยกเว็บไซต์ออกจากเครื่อง Wayback (web.archive.org) แต่ก่อนอื่นเราขอให้คุณช่วยเราตรวจสอบว่าคุณเป็นเจ้าของเว็บไซต์หรือผู้เขียนเนื้อหาของ dimitarnestorov.com โดยทำอย่างใดอย่างหนึ่งต่อไปนี้:

(หมายเหตุ: ตัวเลือกเหล่านี้บางตัวสามารถอ้างอิงกับเนื้อหาที่อยู่ในเครื่อง Wayback ก่อนหน้าและ / หรือเอกสารที่คุณอาจเกี่ยวข้องกับช่วงเวลาที่ระบุ)

โพสต์คำขอของคุณบนเว็บไซต์เวอร์ชั่นปัจจุบัน (และส่งลิงค์ถึงเรา)

ส่งคำขอของคุณจากผู้ติดต่อหลักทางอีเมลที่ระบุไว้บนเว็บไซต์และแสดงให้เราเห็นว่ามันอยู่ที่ไหน (ถ้ามี)

ส่งคำขอจากอีเมลของผู้ลงทะเบียน (หากสาธารณชนสามารถดูได้ในการค้นหา WHOIS คุณสามารถเชื่อมโยงเราไปยัง) หรืออีเมลของผู้ดูแลเว็บที่มีรายชื่ออยู่ในเว็บไซต์

ชี้ให้เราเห็นว่าข้อมูลส่วนบุคคลของคุณ (ชื่อ, จุดติดต่อ, ภาพของตัวเอง) ปรากฏในเว็บไซต์ในลักษณะที่ระบุว่าคุณเป็นเจ้าของเว็บไซต์หรือผู้เขียนเนื้อหาที่คุณต้องการยกเว้น - ในกรณีนี้เราถาม เพื่อยืนยันตัวตนของคุณผ่านการสแกนภาพถ่าย ID ที่ถูกต้อง (ข้อมูลที่ละเอียดอ่อนเช่นวันเกิดที่อยู่หรือหมายเลขโทรศัพท์สามารถถูก redacted)

ส่งต่อเราการสื่อสารจาก บริษัท โฮสติ้งหรือผู้รับจดทะเบียนที่ส่งถึงคุณในฐานะเจ้าของโดเมน

(หมายเหตุ: โดยทั่วไปการกล่าวถึงชื่อ / ชื่อผู้ใช้และ / หรือไฮเปอร์ลิงก์ / การเปลี่ยนเส้นทางระหว่างไซต์ / หน้า / บัญชีในตัวเองนั้นไม่เพียงพอที่จะยกเว้นการเก็บถาวร)

หากคุณไม่มีตัวเลือกเหล่านี้โปรดแจ้งให้เราทราบในการตอบกลับอีเมลนี้

เราจะขอบคุณถ้าคุณจะช่วยเรารักษาที่เก็บถาวรให้มากที่สุด ดังนั้นโปรดแจ้งให้เราทราบหากมีเฉพาะ URL หรือไดเรกทอรีที่คุณมีความกังวลเพื่อให้เราสามารถจัดเก็บส่วนที่เหลือไว้

ดังที่คุณอาจทราบแล้วว่า Internet Archive เป็นห้องสมุดดิจิตอลที่ไม่แสวงหาผลกำไรแสวงหาการบำรุงรักษาผ่านทาง Wayback Machine ซึ่งเป็นบันทึกทางประวัติศาสตร์ที่สามารถเข้าถึงอินเทอร์เน็ตได้อย่างอิสระ เนื้อหาในคลังข้อมูลไม่ได้ถูกใช้ประโยชน์โดย Internet Archive เพื่อผลประโยชน์ทางการค้า

ทีมคลังอินเทอร์เน็ต

ฉันสร้างwayback-removal-request.htmlด้วยเนื้อหาต่อไปนี้ (ไม่ใช่ HTML ที่ถูกต้อง):

<p>Hello,</p>

<p>Can you remove my website from the Wayback Machine?</p>

<p>Thanks!</p>
<p>Dimitar</p>

อัปโหลดและตอบกลับอีเมลของพวกเขาพร้อมด้วย URL ซึ่งมีหน้าเว็บให้ใช้งานและหลังจากนั้นฉันได้รับคำตอบต่อไปนี้

สวัสดี,

ตอนนี้ไซต์ / URL ที่อ้างอิงในอีเมลของคุณด้านล่างนี้ถูกส่งเพื่อยกเว้นจากเครื่อง Wayback ที่http://www.archive.org (ในส่วนที่เกี่ยวข้องกับการดักจับในอดีตทั้งหมด):

dimitarnestorov.com

โปรดรอประมาณหนึ่งวันเพื่อให้ส่วนอัตโนมัติของกระบวนการเรียกใช้หลักสูตรและเพื่อให้การเปลี่ยนแปลงมีผล

ทีมคลังอินเทอร์เน็ต

เมื่อฉันตรวจสอบสองสามชั่วโมงต่อมาเว็บไซต์ของฉันถูกลบ

— Dimitar Nestorov
แหล่งที่มา