robots.txt สามารถอยู่ในไดเรกทอรีย่อยของเซิร์ฟเวอร์ได้หรือไม่


16

ฉันมีไดเรกทอรีย่อยที่ฉันต้องการซ่อนจากซอฟต์แวร์รวบรวมข้อมูลเว็บของเครื่องมือค้นหา

วิธีหนึ่งในการทำเช่นนี้คือการใช้robots.txtในไดเรกทอรีรากของเซิร์ฟเวอร์ (วิธีมาตรฐาน) อย่างไรก็ตามทุกคนที่รู้จัก URL ของเว็บไซต์และมีความรู้พื้นฐานเกี่ยวกับเว็บสามารถเข้าถึงเนื้อหา robots.txt และสามารถสังเกตเห็นไดเรกทอรีที่ไม่อนุญาต

ฉันคิดวิธีที่จะหลีกเลี่ยงปัญหานี้ แต่ฉันไม่แน่ใจว่าจะทำงานได้หรือไม่

อนุญาตXเป็นชื่อของไดเรกทอรีย่อยที่ฉันต้องการแยกออก วิธีหนึ่งในการหยุดการทำดัชนีเว็บโปรแกรมรวบรวมข้อมูลXไดเรกทอรีและในเวลาเดียวกันเพื่อให้ใครบางคนระบุXไดเรกทอรีจากรูตได้ยากขึ้นrobots.txtคือการเพิ่มลงrobots.txtในXไดเรกทอรีแทนที่จะเป็นไดเรกทอรีหลัก

ถ้าฉันทำตามวิธีนี้ฉันมีคำถามต่อไปนี้:

  1. โปรแกรมรวบรวมข้อมูลเว็บจะค้นหาrobots.txtในไดเรกทอรีย่อยหรือไม่ (เนื่องจากมีrobots.txtอยู่แล้วและอยู่ในไดเรกทอรีรากด้วย)
  2. ถ้าrobots.txtอยู่ในXไดเร็กทอรีย่อยฉันควรใช้พา ธ สัมพัทธ์หรือพา ธ สัมบูรณ์หรือไม่:

    User-agent: *
    Disallow: /X/
    

    หรือ

    User-agent: *
    Disallow: /
    

2
ฉันไม่แน่ใจว่าทำไมคุณต้องการหลีกเลี่ยงคนที่อ่านไดเรกทอรีที่ไม่อนุญาต แต่ถ้ามีข้อมูลที่ละเอียดอ่อนมันไม่ควรถูกบล็อกจากหุ่นยนต์ แต่ยังถูก จำกัด ด้วยการเข้าสู่ระบบหรือความปลอดภัยอื่น ๆ
Andrew Lott

ไม่ใช่กรณีนี้ฉันต้องการให้ผู้ใช้รายหนึ่งสามารถเข้าถึงได้ (ไม่มีอะไรละเอียดอ่อนในแง่ของข้อมูลเพียงเพื่อความเป็นส่วนตัว) และฉันไม่ต้องการล็อคไดเรกทอรี
Rafael

5
หากคุณมีข้อกังวลด้านความเป็นส่วนตัวคุณควรรักษาความปลอดภัยของข้อมูลด้วยวิธีอื่น นั่นไม่ใช่สิ่งที่ robots.txt ใช้
Andrew Lott

คำตอบ:


18

ไม่โปรแกรมรวบรวมข้อมูลเว็บจะไม่อ่านหรือเชื่อฟังไฟล์ robots.txt ในไดเรกทอรีย่อย ตามที่อธิบายไว้ในเว็บไซต์robotstxt.orgกึ่งทางการ:

จะวางตรงไหน

คำตอบสั้น ๆ : ในไดเรกทอรีระดับบนสุดของเว็บเซิร์ฟเวอร์ของคุณ

หรือบนหน้าความช่วยเหลือของ Google ( เน้นที่เหมือง):

robots.txtไฟล์ไฟล์ที่รากของเว็บไซต์ของคุณที่บ่งชี้ว่าชิ้นส่วนเหล่านั้นของเว็บไซต์ของคุณคุณไม่ต้องการเข้าถึงได้โดยโปรแกรมรวบรวมข้อมูลเครื่องมือค้นหา

ไม่ว่าในกรณีใดการใช้ robots.txt เพื่อซ่อนหน้าเว็บที่ละเอียดอ่อนจากผลการค้นหาเป็นความคิดที่ไม่ดีเนื่องจากเครื่องมือค้นหาสามารถจัดทำดัชนีหน้าเว็บที่ไม่อนุญาตใน robots.txtหากหน้าอื่น ๆ เชื่อมโยงไปถึงพวกเขา หรือตามที่อธิบายไว้ในหน้าความช่วยเหลือของ Google ที่ลิงก์ด้านบน:

คุณไม่ควรใช้ robots.txt เป็นวิธีการซ่อนหน้าเว็บของคุณจากผลการค้นหาของ Google เนื่องจากหน้าอื่นอาจชี้ไปที่หน้าของคุณและหน้าของคุณอาจได้รับการจัดทำดัชนีด้วยวิธีนี้โดยหลีกเลี่ยงไฟล์ robots.txt

ดังนั้นคุณควรทำอะไรแทน

  • คุณสามารถให้เครื่องมือค้นหารวบรวมข้อมูลหน้า (ถ้าพวกเขาพบว่าพวกเขา) แต่รวมถึงหุ่นยนต์เมตาแท็กnoindex,nofollowกับเนื้อหา สิ่งนี้จะบอกเครื่องมือค้นหาไม่ให้จัดทำดัชนีหน้าเว็บเหล่านั้นแม้ว่าพวกเขาจะพบลิงก์ไปยังพวกเขาและจะไม่ติดตามลิงก์ใด ๆ เพิ่มเติมจากหน้าเว็บเหล่านั้น (แน่นอนว่าจะใช้ได้กับเว็บเพจ HTML เท่านั้น)

  • สำหรับทรัพยากรที่ไม่ใช่ HTML คุณสามารถกำหนดค่าเว็บเซิร์ฟเวอร์ของคุณ (เช่นใช้.htaccessไฟล์) เพื่อส่งส่วนหัว X-Robots-Tag HTTP ที่มีเนื้อหาเดียวกัน

  • คุณสามารถตั้งค่าการตรวจสอบรหัสผ่านเพื่อป้องกันหน้าเว็บที่ละเอียดอ่อนได้ นอกเหนือจากการปกป้องหน้าเว็บจากผู้เยี่ยมชมที่ไม่ได้รับอนุญาตของมนุษย์มันยังช่วยให้เว็บซอฟต์แวร์รวบรวมข้อมูลไม่ทำงานได้อย่างมีประสิทธิภาพ


Fantastic เป็นหน้า HTML แบบคงที่ซึ่งการเพิ่มเมตาแท็กจะเป็นการหลอกลวง ขอขอบคุณ.
Rafael

5

คุณrobots.txtควรอยู่ในไดเรกทอรีรากและไม่ควรมีชื่ออื่น ตามข้อกำหนดมาตรฐาน :

ไฟล์นี้จะต้องสามารถเข้าถึงได้ผ่าน HTTP ใน URL ท้องถิ่น "/robots.txt"


ที่กล่าวว่าโปรแกรมรวบรวมข้อมูลเว็บจะไม่ค้นหาไดเรกทอรีอื่น ๆ สำหรับ robots.txt หรือไม่
Rafael

1
ไม่ใช่ว่าฉันเคยเห็น /robots.txtเป็นมาตรฐานดังนั้นเครื่องมือค้นหาจะรู้ได้อย่างไรว่าจะดูเป็นอย่างอื่นอย่างไร
Andrew Lott

0

คุณสามารถใช้ robots.txt ในไดเรกทอรีย่อยได้ นี่คือวิธีที่เราปฏิบัติกับโดเมนย่อยภาษาของเรา เราใช้รูปแบบการเปลี่ยนเส้นทาง 301 /robots.txt ไปยัง /lang/robots.txt (ต่อโดเมนย่อย) และจะถูกหยิบขึ้นมาอย่างถูกต้อง

นอกจากนี้ยังรับโครงสร้างโฟลเดอร์เป็นรูทที่ถูกต้องเมื่อใช้สแลชแบบง่าย เช่น. ไม่อนุญาต: /

ถือเป็นการไม่อนุญาตให้ทุกอย่างและไม่ใช่แค่ไดเรกทอรีย่อยปัจจุบันไฟล์ {เปลี่ยนเส้นทาง} robots.txt อยู่

แต่อีกครั้งเราเปลี่ยนเส้นทางด้วย 301 และอยู่ในสถานที่ดังนั้นหากไม่มี 301 ฉันสงสัยว่าจะพบ ...

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.