robots.txt
เครื่องมือของผู้ดูแลเว็บของฉันใน Google แสดงค่าต่อไปนี้:
User-agent: *
Allow: /
หมายความว่าอย่างไร? ฉันไม่มีความรู้เพียงพอจึงขอความช่วยเหลือจากคุณ ฉันต้องการอนุญาตให้โรบ็อตทั้งหมดรวบรวมข้อมูลเว็บไซต์ของฉันการกำหนดค่านี้ถูกต้องหรือไม่
robots.txt
เครื่องมือของผู้ดูแลเว็บของฉันใน Google แสดงค่าต่อไปนี้:
User-agent: *
Allow: /
หมายความว่าอย่างไร? ฉันไม่มีความรู้เพียงพอจึงขอความช่วยเหลือจากคุณ ฉันต้องการอนุญาตให้โรบ็อตทั้งหมดรวบรวมข้อมูลเว็บไซต์ของฉันการกำหนดค่านี้ถูกต้องหรือไม่
คำตอบ:
ไฟล์นั้นจะอนุญาตให้โปรแกรมรวบรวมข้อมูลทั้งหมดเข้าถึงได้
User-agent: *
Allow: /
โดยพื้นฐานแล้วสิ่งนี้จะช่วยให้ตัวแทนผู้ใช้ทั้งหมด (*) ไปยังทุกส่วนของไซต์ (the /)
หากคุณต้องการอนุญาตให้บอททุกตัวรวบรวมข้อมูลทุกอย่างนี่เป็นวิธีที่ดีที่สุดในการระบุใน robots.txt ของคุณ:
User-agent: *
Disallow:
โปรดทราบว่าDisallow
ฟิลด์มีค่าว่างซึ่งหมายถึงตามข้อกำหนด :
ค่าว่างใด ๆ แสดงว่าสามารถเรียก URL ทั้งหมดได้
วิธีการของคุณ ( Allow: /
แทนที่จะเป็นDisallow:
) ก็ใช้ได้เช่นกัน แต่Allow
ไม่ได้เป็นส่วนหนึ่งของข้อกำหนดเดิมของ robots.txtดังนั้นจึงไม่รองรับบอททั้งหมด (บอทยอดนิยมหลายตัวรองรับเช่น Googlebot ) ที่กล่าวว่าต้องละเว้นช่องที่ไม่รู้จักและสำหรับบอทที่ไม่รู้จักAllow
ผลลัพธ์ก็จะเหมือนกันในกรณีนี้อยู่ดี: หากไม่มีสิ่งใดถูกห้ามไม่ให้รวบรวมข้อมูล (ด้วยDisallow
) ทุกอย่างจะได้รับอนุญาตให้รวบรวมข้อมูล
อย่างไรก็ตามอย่างเป็นทางการ (ตามข้อมูลจำเพาะดั้งเดิม) เป็นระเบียนที่ไม่ถูกต้องเนื่องจากDisallow
ต้องมีฟิลด์อย่างน้อยหนึ่งฟิลด์:
ต้องมีฟิลด์ Disallow อย่างน้อยหนึ่งช่องในระเบียน
ฉันเข้าใจว่านี่เป็นคำถามที่ค่อนข้างเก่าและมีคำตอบที่ค่อนข้างดี แต่นี่คือสองเซ็นต์ของฉันเพื่อความสมบูรณ์
ตามเอกสารอย่างเป็นทางการมีสี่วิธีคุณสามารถอนุญาตให้โรบ็อตเข้าถึงไซต์ของคุณได้โดยสมบูรณ์
ระบุตัวจับคู่ส่วนกลางที่มีเซ็กเมนต์ disallow ตามที่ @unor กล่าวถึง /robots.txt
หน้าตาของคุณเป็นแบบนี้
User-agent: *
Disallow:
สร้าง/robots.txt
ไฟล์ที่ไม่มีเนื้อหาอยู่ในนั้น ซึ่งจะเป็นค่าเริ่มต้นเพื่ออนุญาตทั้งหมดสำหรับทุกประเภทBots
ซึ่งจะเริ่มต้นให้ทุกทุกประเภท
อย่าสร้างไฟล์ /robots.txt
ทั้งหมด ซึ่งควรให้ผลลัพธ์เดียวกันกับสองข้อข้างต้น
จากเอกสารโรบ็อตสำหรับเมตาแท็กคุณสามารถใช้เมตาแท็กต่อไปนี้ในทุกหน้าบนไซต์ของคุณเพื่อแจ้งให้Bots
ทราบว่าไม่ควรจัดทำดัชนีหน้าเหล่านี้
<META NAME="ROBOTS" CONTENT="NOINDEX">
เพื่อให้สิ่งนี้ถูกนำไปใช้กับทั้งไซต์ของคุณคุณจะต้องเพิ่มเมตาแท็กนี้สำหรับทุกหน้าของคุณ และควรวางแท็กนี้ไว้ใต้HEAD
แท็กของเพจอย่างเคร่งครัด เพิ่มเติมเกี่ยวกับเมตาแท็กนี้ที่นี่
หมายความว่าคุณอนุญาตให้ทุก ( *
) user-agent / crawler เข้าถึง root ( /
) ของไซต์ของคุณ ไม่เป็นไร