robots.txt สามารถอยู่ในไดเรกทอรีย่อยของเซิร์ฟเวอร์ได้หรือไม่

16

ฉันมีไดเรกทอรีย่อยที่ฉันต้องการซ่อนจากซอฟต์แวร์รวบรวมข้อมูลเว็บของเครื่องมือค้นหา

วิธีหนึ่งในการทำเช่นนี้คือการใช้robots.txtในไดเรกทอรีรากของเซิร์ฟเวอร์ (วิธีมาตรฐาน) อย่างไรก็ตามทุกคนที่รู้จัก URL ของเว็บไซต์และมีความรู้พื้นฐานเกี่ยวกับเว็บสามารถเข้าถึงเนื้อหา robots.txt และสามารถสังเกตเห็นไดเรกทอรีที่ไม่อนุญาต

ฉันคิดวิธีที่จะหลีกเลี่ยงปัญหานี้ แต่ฉันไม่แน่ใจว่าจะทำงานได้หรือไม่

อนุญาตXเป็นชื่อของไดเรกทอรีย่อยที่ฉันต้องการแยกออก วิธีหนึ่งในการหยุดการทำดัชนีเว็บโปรแกรมรวบรวมข้อมูลXไดเรกทอรีและในเวลาเดียวกันเพื่อให้ใครบางคนระบุXไดเรกทอรีจากรูตได้ยากขึ้นrobots.txtคือการเพิ่มลงrobots.txtในXไดเรกทอรีแทนที่จะเป็นไดเรกทอรีหลัก

ถ้าฉันทำตามวิธีนี้ฉันมีคำถามต่อไปนี้:

โปรแกรมรวบรวมข้อมูลเว็บจะค้นหาrobots.txtในไดเรกทอรีย่อยหรือไม่ (เนื่องจากมีrobots.txtอยู่แล้วและอยู่ในไดเรกทอรีรากด้วย)
ถ้าrobots.txtอยู่ในXไดเร็กทอรีย่อยฉันควรใช้พา ธ สัมพัทธ์หรือพา ธ สัมบูรณ์หรือไม่:
```
User-agent: *
Disallow: /X/
```
หรือ
```
User-agent: *
Disallow: /
```

web-crawlers robots.txt

— ราฟาเอล
แหล่งที่มา

2

ฉันไม่แน่ใจว่าทำไมคุณต้องการหลีกเลี่ยงคนที่อ่านไดเรกทอรีที่ไม่อนุญาต แต่ถ้ามีข้อมูลที่ละเอียดอ่อนมันไม่ควรถูกบล็อกจากหุ่นยนต์ แต่ยังถูก จำกัด ด้วยการเข้าสู่ระบบหรือความปลอดภัยอื่น ๆ

— Andrew Lott

ไม่ใช่กรณีนี้ฉันต้องการให้ผู้ใช้รายหนึ่งสามารถเข้าถึงได้ (ไม่มีอะไรละเอียดอ่อนในแง่ของข้อมูลเพียงเพื่อความเป็นส่วนตัว) และฉันไม่ต้องการล็อคไดเรกทอรี

— Rafael

5

หากคุณมีข้อกังวลด้านความเป็นส่วนตัวคุณควรรักษาความปลอดภัยของข้อมูลด้วยวิธีอื่น นั่นไม่ใช่สิ่งที่ robots.txt ใช้

— Andrew Lott

18

ไม่โปรแกรมรวบรวมข้อมูลเว็บจะไม่อ่านหรือเชื่อฟังไฟล์ robots.txt ในไดเรกทอรีย่อย ตามที่อธิบายไว้ในเว็บไซต์robotstxt.orgกึ่งทางการ:

จะวางตรงไหน

คำตอบสั้น ๆ : ในไดเรกทอรีระดับบนสุดของเว็บเซิร์ฟเวอร์ของคุณ

หรือบนหน้าความช่วยเหลือของ Google ( เน้นที่เหมือง):

robots.txtไฟล์ไฟล์ที่รากของเว็บไซต์ของคุณที่บ่งชี้ว่าชิ้นส่วนเหล่านั้นของเว็บไซต์ของคุณคุณไม่ต้องการเข้าถึงได้โดยโปรแกรมรวบรวมข้อมูลเครื่องมือค้นหา

ไม่ว่าในกรณีใดการใช้ robots.txt เพื่อซ่อนหน้าเว็บที่ละเอียดอ่อนจากผลการค้นหาเป็นความคิดที่ไม่ดีเนื่องจากเครื่องมือค้นหาสามารถจัดทำดัชนีหน้าเว็บที่ไม่อนุญาตใน robots.txtหากหน้าอื่น ๆ เชื่อมโยงไปถึงพวกเขา หรือตามที่อธิบายไว้ในหน้าความช่วยเหลือของ Google ที่ลิงก์ด้านบน:

คุณไม่ควรใช้ robots.txt เป็นวิธีการซ่อนหน้าเว็บของคุณจากผลการค้นหาของ Google เนื่องจากหน้าอื่นอาจชี้ไปที่หน้าของคุณและหน้าของคุณอาจได้รับการจัดทำดัชนีด้วยวิธีนี้โดยหลีกเลี่ยงไฟล์ robots.txt

ดังนั้นคุณควรทำอะไรแทน

คุณสามารถให้เครื่องมือค้นหารวบรวมข้อมูลหน้า (ถ้าพวกเขาพบว่าพวกเขา) แต่รวมถึงหุ่นยนต์เมตาแท็กnoindex,nofollowกับเนื้อหา สิ่งนี้จะบอกเครื่องมือค้นหาไม่ให้จัดทำดัชนีหน้าเว็บเหล่านั้นแม้ว่าพวกเขาจะพบลิงก์ไปยังพวกเขาและจะไม่ติดตามลิงก์ใด ๆ เพิ่มเติมจากหน้าเว็บเหล่านั้น (แน่นอนว่าจะใช้ได้กับเว็บเพจ HTML เท่านั้น)
สำหรับทรัพยากรที่ไม่ใช่ HTML คุณสามารถกำหนดค่าเว็บเซิร์ฟเวอร์ของคุณ (เช่นใช้.htaccessไฟล์) เพื่อส่งส่วนหัว X-Robots-Tag HTTP ที่มีเนื้อหาเดียวกัน
คุณสามารถตั้งค่าการตรวจสอบรหัสผ่านเพื่อป้องกันหน้าเว็บที่ละเอียดอ่อนได้ นอกเหนือจากการปกป้องหน้าเว็บจากผู้เยี่ยมชมที่ไม่ได้รับอนุญาตของมนุษย์มันยังช่วยให้เว็บซอฟต์แวร์รวบรวมข้อมูลไม่ทำงานได้อย่างมีประสิทธิภาพ

— Ilmari Karonen
แหล่งที่มา

Fantastic เป็นหน้า HTML แบบคงที่ซึ่งการเพิ่มเมตาแท็กจะเป็นการหลอกลวง ขอขอบคุณ.

— Rafael

5

คุณrobots.txtควรอยู่ในไดเรกทอรีรากและไม่ควรมีชื่ออื่น ตามข้อกำหนดมาตรฐาน :

ไฟล์นี้จะต้องสามารถเข้าถึงได้ผ่าน HTTP ใน URL ท้องถิ่น "/robots.txt"

— Andrew Lott
แหล่งที่มา

ที่กล่าวว่าโปรแกรมรวบรวมข้อมูลเว็บจะไม่ค้นหาไดเรกทอรีอื่น ๆ สำหรับ robots.txt หรือไม่

— Rafael

1

ไม่ใช่ว่าฉันเคยเห็น /robots.txtเป็นมาตรฐานดังนั้นเครื่องมือค้นหาจะรู้ได้อย่างไรว่าจะดูเป็นอย่างอื่นอย่างไร

— Andrew Lott

0

คุณสามารถใช้ robots.txt ในไดเรกทอรีย่อยได้ นี่คือวิธีที่เราปฏิบัติกับโดเมนย่อยภาษาของเรา เราใช้รูปแบบการเปลี่ยนเส้นทาง 301 /robots.txt ไปยัง /lang/robots.txt (ต่อโดเมนย่อย) และจะถูกหยิบขึ้นมาอย่างถูกต้อง

นอกจากนี้ยังรับโครงสร้างโฟลเดอร์เป็นรูทที่ถูกต้องเมื่อใช้สแลชแบบง่าย เช่น. ไม่อนุญาต: /

ถือเป็นการไม่อนุญาตให้ทุกอย่างและไม่ใช่แค่ไดเรกทอรีย่อยปัจจุบันไฟล์ {เปลี่ยนเส้นทาง} robots.txt อยู่

แต่อีกครั้งเราเปลี่ยนเส้นทางด้วย 301 และอยู่ในสถานที่ดังนั้นหากไม่มี 301 ฉันสงสัยว่าจะพบ ...

— แบรด
แหล่งที่มา