จะกำหนดค่า robots.txt ให้อนุญาตทุกอย่างได้อย่างไร

116

robots.txtเครื่องมือของผู้ดูแลเว็บของฉันใน Google แสดงค่าต่อไปนี้:

User-agent: *
Allow: /

หมายความว่าอย่างไร? ฉันไม่มีความรู้เพียงพอจึงขอความช่วยเหลือจากคุณ ฉันต้องการอนุญาตให้โรบ็อตทั้งหมดรวบรวมข้อมูลเว็บไซต์ของฉันการกำหนดค่านี้ถูกต้องหรือไม่

robots.txt

— Raajpoot
แหล่งที่มา

โปรแกรมรวบรวมข้อมูลเว็บทั้งหมดไม่เข้าใจการอนุญาตให้ใช้การปฏิเสธ: (กล่าวคือโดยไม่มี url หลัง :) แทน ปลอดภัยกว่า (ดู: youtu.be/G29Zt-UH_Ko )

— Jérôme Verstrynge

153

ไฟล์นั้นจะอนุญาตให้โปรแกรมรวบรวมข้อมูลทั้งหมดเข้าถึงได้

User-agent: *
Allow: /

โดยพื้นฐานแล้วสิ่งนี้จะช่วยให้ตัวแทนผู้ใช้ทั้งหมด (*) ไปยังทุกส่วนของไซต์ (the /)

— จิม
แหล่งที่มา

11

ถูกต้องเว้นแต่คุณจะต้องปฏิเสธส่วนที่อนุญาต ไม่มี "อนุญาต" ดังนั้นให้ทำเช่นนั้น: "User-agent: * Disallow:" เหมือนที่แสดงที่นี่: robotstxt.org/robotstxt.html

— vsdev

มีส่วนที่อนุญาต ตรวจสอบ Google docs developers.google.com/search/reference/robots_txt#allow

— Hasan Sefa Ozalp

60

หากคุณต้องการอนุญาตให้บอททุกตัวรวบรวมข้อมูลทุกอย่างนี่เป็นวิธีที่ดีที่สุดในการระบุใน robots.txt ของคุณ:

User-agent: *
Disallow:

โปรดทราบว่าDisallowฟิลด์มีค่าว่างซึ่งหมายถึงตามข้อกำหนด :

ค่าว่างใด ๆ แสดงว่าสามารถเรียก URL ทั้งหมดได้

วิธีการของคุณ ( Allow: /แทนที่จะเป็นDisallow:) ก็ใช้ได้เช่นกัน แต่Allowไม่ได้เป็นส่วนหนึ่งของข้อกำหนดเดิมของ robots.txtดังนั้นจึงไม่รองรับบอททั้งหมด (บอทยอดนิยมหลายตัวรองรับเช่น Googlebot ) ที่กล่าวว่าต้องละเว้นช่องที่ไม่รู้จักและสำหรับบอทที่ไม่รู้จักAllowผลลัพธ์ก็จะเหมือนกันในกรณีนี้อยู่ดี: หากไม่มีสิ่งใดถูกห้ามไม่ให้รวบรวมข้อมูล (ด้วยDisallow) ทุกอย่างจะได้รับอนุญาตให้รวบรวมข้อมูล
อย่างไรก็ตามอย่างเป็นทางการ (ตามข้อมูลจำเพาะดั้งเดิม) เป็นระเบียนที่ไม่ถูกต้องเนื่องจากDisallowต้องมีฟิลด์อย่างน้อยหนึ่งฟิลด์:

ต้องมีฟิลด์ Disallow อย่างน้อยหนึ่งช่องในระเบียน

— UNOR
แหล่งที่มา

17

ฉันเข้าใจว่านี่เป็นคำถามที่ค่อนข้างเก่าและมีคำตอบที่ค่อนข้างดี แต่นี่คือสองเซ็นต์ของฉันเพื่อความสมบูรณ์

ตามเอกสารอย่างเป็นทางการมีสี่วิธีคุณสามารถอนุญาตให้โรบ็อตเข้าถึงไซต์ของคุณได้โดยสมบูรณ์

สะอาด

ระบุตัวจับคู่ส่วนกลางที่มีเซ็กเมนต์ disallow ตามที่ @unor กล่าวถึง /robots.txtหน้าตาของคุณเป็นแบบนี้

User-agent: *
Disallow:

แฮ็ค:

สร้าง/robots.txtไฟล์ที่ไม่มีเนื้อหาอยู่ในนั้น ซึ่งจะเป็นค่าเริ่มต้นเพื่ออนุญาตทั้งหมดสำหรับทุกประเภทBotsซึ่งจะเริ่มต้นให้ทุกทุกประเภท

ฉันไม่สนใจวิธี:

อย่าสร้างไฟล์ /robots.txtทั้งหมด ซึ่งควรให้ผลลัพธ์เดียวกันกับสองข้อข้างต้น

น่าเกลียด:

จากเอกสารโรบ็อตสำหรับเมตาแท็กคุณสามารถใช้เมตาแท็กต่อไปนี้ในทุกหน้าบนไซต์ของคุณเพื่อแจ้งให้Botsทราบว่าไม่ควรจัดทำดัชนีหน้าเหล่านี้

<META NAME="ROBOTS" CONTENT="NOINDEX">

เพื่อให้สิ่งนี้ถูกนำไปใช้กับทั้งไซต์ของคุณคุณจะต้องเพิ่มเมตาแท็กนี้สำหรับทุกหน้าของคุณ และควรวางแท็กนี้ไว้ใต้HEADแท็กของเพจอย่างเคร่งครัด เพิ่มเติมเกี่ยวกับเมตาแท็กนี้ที่นี่

— ราชาอันบาชากัน
แหล่งที่มา

ไม่มี robots.txt และ Wordpress เป็นคำสั่งผสมที่ไม่ดีเนื่องจาก WordPress สร้าง robots.txt เสมือน เว้นแต่คุณจะพอใจกับ WordPress ที่สร้างขึ้น

— Jesper

8

หมายความว่าคุณอนุญาตให้ทุก ( *) user-agent / crawler เข้าถึง root ( /) ของไซต์ของคุณ ไม่เป็นไร

— จอร์ดี้
แหล่งที่มา

5

ไม่มีช่อง "อนุญาต" ตามข้อมูลของrobotstxt.org/robotstxt.htmlดังนั้นฉันจึงควรใช้อย่างระมัดระวัง Wikipedia กล่าวถึง "โปรแกรมรวบรวมข้อมูลหลักบางตัวรองรับคำสั่ง Allow ซึ่งสามารถต่อต้านคำสั่ง Disallow ต่อไปนี้ได้": en.wikipedia.org/wiki/Robots_exclusion_standard#Allow_directive

— Mackaaij