ฉันมีบางหน้าในเว็บไซต์ของฉันที่ฉันต้องการไม่ให้เสิร์ชเอ็นจิ้นออกไปดังนั้นฉันจึงไม่อนุญาตพวกเขาในrobots.txt
ไฟล์ของฉันเช่นนี้:
User-Agent: *
Disallow: /email
แต่เมื่อเร็ว ๆ นี้ฉันสังเกตเห็นว่า Google ยังคงส่งคืนลิงก์ไปยังหน้าเหล่านั้นในผลการค้นหา ทำไมสิ่งนี้ถึงเกิดขึ้นและฉันจะหยุดมันได้อย่างไร
พื้นหลัง:
หลายปีที่ผ่านมาฉันสร้างเว็บไซต์ง่าย ๆ สำหรับสโมสรที่เกี่ยวข้องกับฉันพวกเขาต้องการมีลิงก์อีเมลในหน้าของพวกเขาดังนั้นเพื่อพยายามป้องกันไม่ให้ที่อยู่อีเมลเหล่านั้นมีจำนวนมากเกินไป รายการสแปมแทนที่จะใช้การmailto:
เชื่อมโยงโดยตรงฉันทำให้การเชื่อมโยงเหล่านั้นชี้ไปที่สคริปต์ตัวเปลี่ยนเส้นทาง / ที่อยู่ผู้ดักจับที่ทำงานบนไซต์ของฉันเอง สคริปต์นี้จะส่งคืนการเปลี่ยนเส้นทาง 301 ไปยังmailto:
URL จริงหรือหากตรวจพบรูปแบบการเข้าถึงที่น่าสงสัยหน้าเว็บที่มีที่อยู่อีเมลสุ่มและลิงก์ไปยังหน้าดังกล่าวจำนวนมากขึ้น เพื่อป้องกันบอทการค้นหาที่ถูกกฎหมายให้พ้นจากกับดักฉันตั้งค่าrobots.txt
กฎที่แสดงไว้ด้านบนโดยไม่อนุญาตพื้นที่ทั้งหมดของลิงก์ตัวเปลี่ยนเส้นทางที่ถูกต้องตามกฎหมายและหน้ากับดัก
อย่างไรก็ตามเมื่อเร็ว ๆ นี้หนึ่งในคนในคลับค้นหาชื่อของ Google และรู้สึกประหลาดใจมากเมื่อผลลัพธ์หนึ่งในหน้าแรกเป็นลิงค์ไปยังสคริปต์ตัวเปลี่ยนเส้นทางโดยมีชื่อเรื่องประกอบด้วยที่อยู่อีเมลของพวกเขาตาม ด้วยชื่อของฉัน แน่นอนพวกเขาส่งอีเมลถึงฉันทันทีและต้องการทราบวิธีรับที่อยู่จากดัชนีของ Google ฉันรู้สึกประหลาดใจค่อนข้างมากเกินไปเนื่องจากผมมีความคิดที่ว่าดัชนีของ Google หากว่า URL ที่เช่นที่ทุกคนดูเหมือนจะอยู่ในการละเมิดของฉันrobots.txt
กฎ
ฉันจัดการเพื่อส่งคำขอลบไปยัง Google และดูเหมือนว่าจะได้ผล แต่ฉันต้องการทราบสาเหตุและวิธีที่ Google หลีกเลี่ยงrobots.txt
เช่นนั้นและวิธีตรวจสอบให้แน่ใจว่าไม่มีหน้าใด ๆ ที่ไม่ได้รับอนุญาตปรากฏใน ผลการค้นหา.
ps ฉันพบคำอธิบายและวิธีแก้ปัญหาที่เป็นไปได้จริงซึ่งฉันจะโพสต์ด้านล่างขณะเตรียมคำถามนี้ แต่ฉันคิดว่าฉันจะถามมันต่อไปในกรณีที่คนอื่นอาจมีปัญหาเดียวกัน โปรดโพสต์คำตอบของคุณเอง ฉันยังสนใจที่จะรู้ว่าเสิร์ชเอ็นจิ้นอื่น ๆ ทำเช่นนี้หรือไม่
robots.txt
ไฟล์ดังกล่าวเป็นสัญลักษณ์ "ไม่บุกรุก" เล็ก ๆ ข้างถนนรถแล่นของใครบางคน ไม่ใช่เรื่องมหัศจรรย์และ (เว้นแต่ผู้เข้าชมกำลังมองหาอย่างชัดเจน) พวกเขาสามารถเดินเข้าไปในสถานที่ของคุณโดยไม่ได้รับผลกระทบจากการมีอยู่ของมันเพียงเล็กน้อย มีอินเทอร์เน็ตที่เทียบเท่ากับไฟสปอตไลต์และรั้วลวดหนาม แต่ถ้าrobots.txt
นั่นคือสิ่งที่คุณต้องการ