อนุญาตเฉพาะ Google และ Bing บอทเพื่อรวบรวมข้อมูลเว็บไซต์


10

ฉันใช้ไฟล์ robots.txt ต่อไปนี้สำหรับเว็บไซต์: เป้าหมายคืออนุญาตให้ Googlebot และ bingbot เข้าถึงเว็บไซต์ยกเว้นหน้าเว็บ/bedven/bedrijf/*และบล็อกบอทอื่น ๆ จากการรวบรวมข้อมูลเว็บไซต์

User-agent: googlebot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: google
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: bingbot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: bing
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: *
Disallow: /

กฎข้อสุดท้ายUser-agent: * Disallow: /ไม่อนุญาตให้บอททั้งหมดรวบรวมข้อมูลทุกหน้าในไซต์หรือไม่


11
งานทั้งหมดนี้เกี่ยวข้องกับฉัน มีเครื่องมือค้นหาอื่น ๆ และทุกคนที่ใช้พวกเขาจะไม่เห็นเว็บไซต์ของคุณ theeword.co.uk/info/search_engine_marketบอกว่า 4.99% ของอินเทอร์เน็ตไม่ได้อยู่ในเครื่องมือค้นหาของคุณ นั่นเป็นจำนวนมากของผู้คน วิธีที่ดีกว่าคือการตรวจสอบปริมาณการใช้งานของคุณและดูว่าบอทใดเป็นสาเหตุของปัญหาหรือไม่
GKFX

8
บอททำงานไม่สามารถเพียงโดยสิ้นเชิงไม่สนใจคุณrobots.txtนะ
นิค T

8
บอทที่ไม่ดีจริงๆไม่สนใจ robots.txt
Osvaldo

4
@NickT ในโลกแห่งความเป็นจริงไม่มีการขาดแคลนบอทที่มีพฤติกรรมไม่ดีตามrobots.txtมาหรืออย่างน้อยก็Disallow: /กฎ หากเว็บไซต์ส่วนบุคคลของคุณกำลังถูกกระแทกเนื่องจากโปรแกรมเมอร์ bot ไม่เคยคิดว่าเซิร์ฟเวอร์อาจเป็น Raspberry Pi ที่ปลายผิดของการเชื่อมต่อ 256 kbit การยกเว้นแบบนี้มีประโยชน์
ทำเครื่องหมาย

2
@ พื้นรองเท้าทำไม?
o0 '

คำตอบ:


24

ระเบียนสุดท้าย (เริ่มต้นด้วยUser-agent: *) จะตามด้วยบอตสุภาพทั้งหมดที่ไม่ระบุตัวตนว่าเป็น "googlebot", "google", "bingbot" หรือ "bing"
และใช่หมายความว่าพวกเขาไม่ได้รับอนุญาตให้รวบรวมข้อมูลอะไรเลย

คุณอาจต้องการที่จะละเว้นใน* ในข้อกำหนดดั้งเดิมของ robots.txt ไม่มีความหมายพิเศษมันเป็นเพียงตัวละครที่เหมือนกัน ดังนั้นจะไม่อนุญาตให้รวบรวมข้อมูลหน้าเว็บที่มีตัวอักษรใน URL เท่านั้น แม้ว่า Google จะไม่ปฏิบัติตามข้อกำหนดของ robots.txt เนื่องจากพวกเขาใช้เป็นอักขระตัวแทนสำหรับ "ลำดับของอักขระใด ๆ " แต่ก็ไม่จำเป็นสำหรับพวกเขาในกรณีนี้: และจะหมายถึงสิ่งเดียวกัน: บล็อก URL ทั้งหมดที่มีเส้นทางเริ่มต้นด้วย/bedven/bedrijf/*
**
*/bedven/bedrijf/*/bedven/bedrijf//bedven/bedrijf/

และในที่สุดคุณสามารถลด robots.txt ของคุณเป็นสองระเบียนเนื่องจากระเบียนสามารถมีได้หลายUser-agentบรรทัด :

User-agent: googlebot
User-agent: google
User-agent: bingbot
User-agent: bing
Disallow: /bedven/bedrijf/
Crawl-delay: 10

User-agent: *
Disallow: /

5
โปรดทราบว่าGoogle จะละเว้นคำสั่งการรวบรวมข้อมูลล่าช้าใน robots.txt คุณต้องตั้งค่าใน Google Webmaster Tools แทน
DisgruntledGoat

-2

บอตโดยเฉพาะคนที่ไม่ดีอาจมองข้ามไฟล์ robots.txt ดังนั้นไม่ว่าจะมีอะไรเขียนไว้บ้างบอทบางตัวอาจรวบรวมข้อมูลเว็บไซต์ของคุณ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.