ฉันควรบล็อกบอทและสไปเดอร์ใดใน robots.txt


14

เพื่อที่จะ:

  1. เพิ่มความปลอดภัยของเว็บไซต์ของฉัน
  2. ลดความต้องการแบนด์วิดท์
  3. ป้องกันการเก็บเกี่ยวที่อยู่อีเมล

คำตอบ:


17

บอทที่ไม่มีการเก็บเกี่ยวอีเมลหรือทดสอบไซต์ของคุณเพื่อหาช่องโหว่จะไม่เคารพ robots.txt ของคุณ ในความเป็นจริงบอทที่เป็นอันตรายเหล่านี้ดู robots.txt เพื่อทำแผนที่ไซต์ของคุณให้ดีขึ้น หากจุดใดที่คุณมีสิ่งDisallow:นี้จะถูกใช้เพื่อโจมตีเว็บไซต์ของคุณได้ดียิ่งขึ้น แฮกเกอร์ที่ดูเว็บไซต์ของคุณด้วยตนเองควรใช้เวลาตรวจสอบไฟล์ / ไดเรกทอรีใด ๆ ที่คุณพยายามไม่อนุญาต


3
จุดที่น่าสนใจ ฉันสงสัยว่าการเพิ่มหน้าปลอมเข้าไปในรายการไม่อนุญาตซึ่งมีวัตถุประสงค์เพียงอย่างเดียวคือการตรวจจับบ็อตดังกล่าวเพื่อให้สามารถบล็อกได้โดยอัตโนมัติ
Steven Sudit

5
@ Steven Sudit ที่ไม่ได้เป็นความคิดที่ดี นี่เรียกว่าหม้อน้ำผึ้ง
โกง

ใช่ถูกต้องแล้วถึงแม้ว่าฉันจะคิดถึงเคล็ดลับมาตรฐานของตัวรวบรวมไดเรกทอรี (สมุดโทรศัพท์ ฯลฯ ) ของการเพิ่มรายการปลอมจำนวนเล็กน้อยเพื่อตรวจจับการโจรกรรมขายส่ง
Steven Sudit

หากคุณใช้ honeypot นั้นเป็นผ้าใบกันน้ำก็จะทำให้ดัชนีผิดกฎหมายผิดเช่นกัน นี่เป็นเรื่องธรรมดาที่จะทำกับผู้ส่งอีเมลขยะ - ทิ้งที่อยู่อีเมลที่สามารถจัดทำดัชนี honeypot ซึ่งนำไปสู่เซิร์ฟเวอร์อีเมล
Mark Henderson

@ Farseeker ฉันไม่เห็นปัญหากับการลงโทษคนที่ฝ่าฝืนกฎ แม้ว่าการหลอกลวงผู้ส่งอีเมลขยะด้วยข้อมูลที่ไม่ถูกต้องเป็นสิ่งที่น่าสนใจ
โกง

4

robots.txt จะไม่เพิ่มความปลอดภัยให้กับเว็บไซต์ของคุณหรือป้องกันการเก็บอีเมล robots.txt เป็นคู่มือสำหรับเครื่องมือค้นหาเพื่อข้ามส่วนต่างๆของเว็บไซต์ของคุณ สิ่งเหล่านี้จะไม่ถูกจัดทำดัชนีและควรใช้สำหรับส่วนใด ๆ ที่คุณไม่ต้องการให้แสดงในเครื่องมือค้นหาสาธารณะ

อย่างไรก็ตามวิธีนี้จะป้องกันไม่ให้บ็อตอื่น ๆ ดาวน์โหลดทั้งไซต์ของคุณเพื่อเพิ่มความปลอดภัยหรือป้องกันการเก็บเกี่ยวอีเมล เพื่อเพิ่มความปลอดภัยคุณต้องเพิ่มการรับรองความถูกต้องและอนุญาตเฉพาะผู้ใช้ที่ผ่านการรับรองความถูกต้องนอกเหนือจากส่วนที่ปลอดภัย เพื่อป้องกันการเก็บอีเมลแอดเดรสอย่าใส่อีเมลเป็นข้อความธรรมดา (หรือข้อความที่ถอดรหัสได้ง่าย) บนเว็บไซต์


1

robots.txt จะไม่ช่วยคุณในเรื่องความปลอดภัย บอทที่ต้องการทำสิ่งที่ร่มรื่นจะไม่สนใจมัน


0

ไฟล์ robots.txt ทำหน้าที่เป็นคำขอที่บอทและสไปเดอร์ออกจากเนื้อหาบางส่วนเท่านั้น มันไม่สามารถป้องกันการเข้าถึงของพวกเขาได้ บ็อต "ดี" จะเคารพ แต่บอทที่ "ไม่ดี" (น่าจะเป็นบล็อกที่คุณต้องการบล็อก) จะไม่สนใจมันและดำเนินการตามขั้นตอนต่อไป


-1

แทนที่จะเป็น robots.txt คุณอาจต้องใช้รหัส CAPTCHA


รหัส CAPTCHA ไม่มีส่วนเกี่ยวข้องกับโปรแกรมรวบรวมข้อมูลเว็บ (ซึ่งเป็นที่อยู่ของ robots.txt)
48838

นั่นคือ downvote ที่ผิดพลาด ประเด็นทั้งหมดคือโปรแกรมรวบรวมข้อมูลสามารถละเว้น robots.txt ได้ แต่รหัส CAPTCHA จะช้าลงอย่างน้อยหากไม่ได้ปิดกั้นทันที ขอบคุณที่ทำผิด
Steven Sudit
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.