มี 2 ประเด็นจริงๆที่นี่:
- จะเป็น
robots.txt
ในเว็บไซต์ของคุณไม่อนุญาต (บล็อก) Wayback จากการรวบรวมข้อมูลเว็บไซต์ของคุณ
- Wayback จะรวบรวมข้อมูลเว็บไซต์ของคุณหรือไม่
สำหรับจุดที่ 1:
ตามที่คนอื่น ๆ พูดไว้รายการที่ถูกต้องสำหรับ robots.txt คือ:
User-agent: ia_archiver
Disallow:
โปรดทราบว่าอาจใช้เวลาสักครู่ (อาจใช้เวลานาน) เพื่อให้ Wayback สังเกตเห็นการเปลี่ยนแปลงใด ๆ ที่คุณทำกับ robots.txt
วิธีตรวจสอบว่าrobots.txt
ในไซต์ของคุณจะอนุญาตให้ Wayback รวบรวมข้อมูลเว็บไซต์ของคุณหรือไม่:
- ไปที่ URL นี้: https://archive.org/web/
- ในช่องที่ด้านบนของหน้าให้ป้อน URL ของหน้าในเว็บไซต์ของคุณแล้วคลิก
"Browse History"
ปุ่ม
- หรือในช่องใต้ "บันทึกหน้าทันที" (ปัจจุบันใกล้ด้านล่างทางด้านขวา) และป้อน URL ของหน้าในเว็บไซต์ของคุณแล้วคลิก
"Save Page"
ปุ่ม
ณ จุดนี้คุณจะเห็น 1 ใน 3 สิ่ง:
- คุณจะเห็นข้อความแสดงข้อผิดพลาดที่ระบุว่า Wayback ไม่สามารถเข้าถึงหน้าต่างๆในเว็บไซต์นั้นได้เนื่องจาก "robots.txt"
- คุณจะเห็น "ปฏิทิน" ของจุดบันทึกที่ผ่านมาสำหรับหน้าบนไซต์ของคุณ ในกรณีนี้คุณรู้ว่า Wayback ไม่ได้ถูกบล็อกจากการรวบรวมข้อมูลเว็บไซต์ของคุณ
- หรือคุณจะเห็นข้อความที่ระบุว่า Wayback ไม่มีไฟล์เก็บถาวรของหน้านั้นและข้อเสนอให้คลิกลิงก์เพื่อเพิ่มหน้าลงใน Wayback ในกรณีนี้คุณรู้ว่า Wayback นั้นไม่ได้ถูกบล็อกจากการรวบรวมข้อมูลเว็บไซต์ของคุณ
ตอนนี้สำหรับจุด # 2:
Waybackจะรวบรวมข้อมูลเว็บไซต์ของคุณหรือไม่
เพียงเพราะคุณอนุญาตให้ Wayback รวบรวมข้อมูลเว็บไซต์ของคุณไม่ได้หมายความว่าพวกเขา (เคย) จะรวบรวมข้อมูลเว็บไซต์ของคุณ
ตามคำถามที่พบบ่อย Wayback (เน้นเพิ่ม):
ข้อมูลเว็บที่เก็บถาวรส่วนใหญ่ของเรามาจากการรวบรวมข้อมูลของเราเองหรือจากการรวบรวมข้อมูลของ Alexa Internet ทั้งสององค์กรไม่มี "รวบรวมข้อมูลเว็บไซต์ของฉันตอนนี้!" กระบวนการส่ง การรวบรวมข้อมูลของ Internet Archive มีแนวโน้มที่จะค้นหาเว็บไซต์ที่เชื่อมโยงจากเว็บไซต์อื่นอย่างดี วิธีที่ดีที่สุดเพื่อให้แน่ใจว่าเราพบเว็บไซต์ของคุณเพื่อให้แน่ใจว่ามีอยู่ในไดเรกทอรีออนไลน์และเว็บไซต์ที่เกี่ยวข้อง / ที่เกี่ยวข้องเชื่อมโยงกับคุณ
Alexa Internet ใช้วิธีการของตัวเองในการค้นหาเว็บไซต์ที่จะรวบรวมข้อมูล อาจเป็นประโยชน์ในการติดตั้งแถบเครื่องมือ Alexa ฟรีและเยี่ยมชมไซต์ที่คุณต้องการรวบรวมข้อมูลเพื่อให้แน่ใจว่าพวกเขารู้เกี่ยวกับมัน
ไม่ว่าใครกำลังรวบรวมข้อมูลเว็บไซต์คุณควรตรวจสอบให้แน่ใจว่ากฎ 'robots.txt' ในเว็บไซต์ของคุณและคำสั่งของโรบอต META ในหน้าไม่ได้แจ้งให้โปรแกรมรวบรวมข้อมูลทราบเพื่อหลีกเลี่ยงไซต์ของคุณ
อัปเดต: 09 พฤษภาคม 2017
คนอื่น ๆ ได้ทิ้งความคิดเห็น / คำตอบที่ระบุว่า Archive.org ไม่ให้เกียรติ robots.txt อีกต่อไป บางทีนี่อาจเป็น "งานระหว่างทำ" และในที่สุดก็จะเป็นกรณีนี้ แต่ฉันยังไม่เห็นพฤติกรรมใหม่นี้
สำหรับกรณีนี้น่าจะมาจากบทความนี้: Robots.txt: robots.txt เป็นฆ่าตัวตายหมายเหตุarchiveteam.org
โดย ในขณะที่หน้านั้นมีน้อยถ้ามีอะไรดีที่จะพูดเกี่ยวกับ "Robots.txt" แต่ก็ไม่ได้กล่าวถึงที่ใดว่าArchive.orgจะไม่ให้เกียรติ robots.txt อีกต่อไป
นอกจากนี้ในบันทึก: ที่เกี่ยวข้องในบทความโฮสต์บนarchiveteam.org
ซึ่งเป็นส่วนใหญ่แน่นอนไม่ได้archive.org
และผมไม่แน่ใจว่ามีใด ๆ (อย่างเป็นทางการ) ความสัมพันธ์ระหว่างและarchive.org
archiveteam.org
ในความเป็นจริงหน้านี้เกี่ยวกับทีมเก็บถาวรดูเหมือนจะประกาศความแตกต่างระหว่างและ(เน้นเพิ่ม):archive.org
archive.org
archiveteam.org
ก่อตั้งขึ้นในปี 2009 ทีมเก็บถาวร ( เพื่อไม่ให้สับสนกับ Archive.org - เก็บถาวรมันทีม) เป็นนักเก็บเอกสารโกงที่อุทิศตนเพื่อบันทึกสำเนาของเว็บไซต์ที่กำลังจะตายหรือถูกลบอย่างรวดเร็วเพื่อประโยชน์ของประวัติศาสตร์และมรดกดิจิตอล ...
ไม่ว่าในกรณีใดฉันตัดสินใจที่จะลองและฉันพบว่าอย่างน้อยในเวลานี้Archive.org STILL ก็ให้เกียรติ robots.txt:
- ฉันพบรายการสุ่มบน eBay: รายการ #: 131795294232
- คลิกเพื่อดูรายการที่ขาย:
- หน้า "รายการที่ขาย" จะเปิดขึ้น: http://offer.ebay.com/ws/eBayISAPI.dll?ViewBidsLogin&item=131795294232คัดลอกลิงก์ไปยังคลิปบอร์ด
- ไปที่web.archive.orgแล้ววางลิงก์จาก eBay
- คุณจะเห็นว่า
archive.org
ระบุว่า "หน้าไม่สามารถแสดงได้เนื่องจาก robots.txt"
ดังนั้นในเวลานี้ฉันยังคงไม่มั่นใจ แต่ฉันชอบที่จะพิสูจน์ว่าผิด ... มันจะดีถ้ามันเป็นจริง