เหตุใดผลการค้นหาของ Google จึงมีหน้าเว็บที่ไม่ได้รับอนุญาตใน robots.txt

18

ฉันมีบางหน้าในเว็บไซต์ของฉันที่ฉันต้องการไม่ให้เสิร์ชเอ็นจิ้นออกไปดังนั้นฉันจึงไม่อนุญาตพวกเขาในrobots.txtไฟล์ของฉันเช่นนี้:

User-Agent: *
Disallow: /email

แต่เมื่อเร็ว ๆ นี้ฉันสังเกตเห็นว่า Google ยังคงส่งคืนลิงก์ไปยังหน้าเหล่านั้นในผลการค้นหา ทำไมสิ่งนี้ถึงเกิดขึ้นและฉันจะหยุดมันได้อย่างไร

พื้นหลัง:

หลายปีที่ผ่านมาฉันสร้างเว็บไซต์ง่าย ๆ สำหรับสโมสรที่เกี่ยวข้องกับฉันพวกเขาต้องการมีลิงก์อีเมลในหน้าของพวกเขาดังนั้นเพื่อพยายามป้องกันไม่ให้ที่อยู่อีเมลเหล่านั้นมีจำนวนมากเกินไป รายการสแปมแทนที่จะใช้การmailto:เชื่อมโยงโดยตรงฉันทำให้การเชื่อมโยงเหล่านั้นชี้ไปที่สคริปต์ตัวเปลี่ยนเส้นทาง / ที่อยู่ผู้ดักจับที่ทำงานบนไซต์ของฉันเอง สคริปต์นี้จะส่งคืนการเปลี่ยนเส้นทาง 301 ไปยังmailto:URL จริงหรือหากตรวจพบรูปแบบการเข้าถึงที่น่าสงสัยหน้าเว็บที่มีที่อยู่อีเมลสุ่มและลิงก์ไปยังหน้าดังกล่าวจำนวนมากขึ้น เพื่อป้องกันบอทการค้นหาที่ถูกกฎหมายให้พ้นจากกับดักฉันตั้งค่าrobots.txtกฎที่แสดงไว้ด้านบนโดยไม่อนุญาตพื้นที่ทั้งหมดของลิงก์ตัวเปลี่ยนเส้นทางที่ถูกต้องตามกฎหมายและหน้ากับดัก

อย่างไรก็ตามเมื่อเร็ว ๆ นี้หนึ่งในคนในคลับค้นหาชื่อของ Google และรู้สึกประหลาดใจมากเมื่อผลลัพธ์หนึ่งในหน้าแรกเป็นลิงค์ไปยังสคริปต์ตัวเปลี่ยนเส้นทางโดยมีชื่อเรื่องประกอบด้วยที่อยู่อีเมลของพวกเขาตาม ด้วยชื่อของฉัน แน่นอนพวกเขาส่งอีเมลถึงฉันทันทีและต้องการทราบวิธีรับที่อยู่จากดัชนีของ Google ฉันรู้สึกประหลาดใจค่อนข้างมากเกินไปเนื่องจากผมมีความคิดที่ว่าดัชนีของ Google หากว่า URL ที่เช่นที่ทุกคนดูเหมือนจะอยู่ในการละเมิดของฉันrobots.txtกฎ

ฉันจัดการเพื่อส่งคำขอลบไปยัง Google และดูเหมือนว่าจะได้ผล แต่ฉันต้องการทราบสาเหตุและวิธีที่ Google หลีกเลี่ยงrobots.txtเช่นนั้นและวิธีตรวจสอบให้แน่ใจว่าไม่มีหน้าใด ๆ ที่ไม่ได้รับอนุญาตปรากฏใน ผลการค้นหา.

ps ฉันพบคำอธิบายและวิธีแก้ปัญหาที่เป็นไปได้จริงซึ่งฉันจะโพสต์ด้านล่างขณะเตรียมคำถามนี้ แต่ฉันคิดว่าฉันจะถามมันต่อไปในกรณีที่คนอื่นอาจมีปัญหาเดียวกัน โปรดโพสต์คำตอบของคุณเอง ฉันยังสนใจที่จะรู้ว่าเสิร์ชเอ็นจิ้นอื่น ๆ ทำเช่นนี้หรือไม่

google-search robots.txt

— Ilmari Karonen
แหล่งที่มา

1

"และวิธีที่ Google หลีกเลี่ยง robots.txt ของฉัน" ฉันเดาว่าคุณรู้เรื่องนี้อยู่แล้ว (หรือคุณจะตั้งค่าเว็บไซต์ได้อย่างไรในตอนแรก) แต่ในกรณีที่คนโง่บางคนเดินผ่าน ... robots.txtไฟล์ดังกล่าวเป็นสัญลักษณ์ "ไม่บุกรุก" เล็ก ๆ ข้างถนนรถแล่นของใครบางคน ไม่ใช่เรื่องมหัศจรรย์และ (เว้นแต่ผู้เข้าชมกำลังมองหาอย่างชัดเจน) พวกเขาสามารถเดินเข้าไปในสถานที่ของคุณโดยไม่ได้รับผลกระทบจากการมีอยู่ของมันเพียงเล็กน้อย มีอินเทอร์เน็ตที่เทียบเท่ากับไฟสปอตไลต์และรั้วลวดหนาม แต่ถ้าrobots.txtนั่นคือสิ่งที่คุณต้องการ

— คู่ปรับ Shot

25

ดูเหมือนว่า Google จงใจรวม URL ที่ไม่อนุญาตในrobots.txtดัชนีของพวกเขาหากมีลิงค์ไปยัง URL เหล่านั้นจากหน้าอื่น ๆ ที่พวกเขาได้รวบรวมข้อมูล หากต้องการอ้างถึงหน้าช่วยเหลือของเครื่องมือของผู้ดูแลเว็บ :

"แม้ว่า Google จะไม่รวบรวมข้อมูลหรือจัดทำดัชนีเนื้อหาของหน้าเว็บที่ถูกปิดกั้นโดย robots.txt แต่เรายังคงสามารถจัดทำดัชนี URL หากเราพบพวกเขาในหน้าอื่น ๆ บนเว็บด้วยเหตุนี้ URL ของหน้าเว็บและอื่น ๆ ข้อมูลที่เปิดเผยต่อสาธารณะเช่นจุดยึดข้อความในลิงก์ไปยังเว็บไซต์หรือชื่อจาก Open Directory Project (www.dmoz.org) สามารถปรากฏในผลการค้นหาของ Google "

เห็นได้ชัดว่า Google แปลDisallowสั่งในrobots.txtเป็นข้อห้ามกับการรวบรวมข้อมูลหน้าไม่ได้กับการจัดทำดัชนีมัน ฉันคิดว่านั่นเป็นการตีความทางเทคนิคที่ถูกต้องแม้ว่ามันจะตีกฏให้ฉันก็ตาม

ในบทความสัมภาษณ์นี้ Matt Cutts จาก Google ให้ข้อมูลเพิ่มเติมเล็กน้อยและให้คำอธิบายที่ฟังดูสมเหตุสมผลว่าทำไมพวกเขาถึงทำสิ่งนี้:

"ในช่วงแรก ๆ เว็บไซต์ยอดนิยมจำนวนมากไม่ต้องการถูกรวบรวมข้อมูลเลยตัวอย่างเช่น eBay และ New York Times ไม่อนุญาตให้ใช้เครื่องมือค้นหาใด ๆ หรืออย่างน้อย Google ก็ไม่ได้รวบรวมข้อมูลจากหน้าใด ๆ Library of Congress มีส่วนต่าง ๆ ที่กล่าวว่าคุณไม่ได้รับอนุญาตให้รวบรวมข้อมูลด้วยเครื่องมือค้นหาดังนั้นเมื่อมีคนมาที่ Google และพวกเขาพิมพ์ใน eBay และเราไม่ได้รวบรวมข้อมูล eBay และเราไม่สามารถคืน eBay ได้เรา ดูไม่ดีเลยดังนั้นการประนีประนอมที่เราตัดสินใจที่จะเกิดขึ้นก็คือเราจะไม่รวบรวมข้อมูลคุณจาก robots.txt แต่เราสามารถส่งคืนการอ้างอิง URL ที่เราเห็น "

วิธีแก้ปัญหาที่แนะนำบนหน้าทั้งสองนั้นคือการเพิ่มnoindexเมตาแท็กในหน้าเว็บที่คุณไม่ต้องการให้จัดทำดัชนี ( X-Robots-Tagส่วนหัว HTTP นั้นควรใช้กับหน้าเว็บที่ไม่ใช่ HTML ด้วย แต่ฉันไม่แน่ใจว่าจะทำงานในการเปลี่ยนเส้นทางหรือไม่) ซึ่งขัดแย้งกันหมายความว่าคุณต้องอนุญาตให้ Googlebot รวบรวมข้อมูลหน้าเว็บเหล่านั้น (โดยลบออกrobots.txtทั้งหมดหรือ โดยการเพิ่มชุดกฎที่อนุญาตสำหรับ Googlebot แยกต่างหาก) เนื่องจากไม่เช่นนั้นจะไม่เห็นเมตาแท็กตั้งแต่แรก

ฉันได้แก้ไขสคริปต์ดักเปลี่ยนเส้นทาง / แมงมุมของฉันไปส่งทั้งเมตาแท็กและX-Robots-Tagส่วนหัวที่มีค่าnoindex,nofollowและได้รับอนุญาตให้ Googlebot รวบรวมข้อมูล URL robots.txtสคริปต์ในของฉัน เราจะดูว่ามันใช้งานได้เมื่อ Google จัดทำดัชนีไซต์ของฉันอีกครั้ง

— Ilmari Karonen
แหล่งที่มา

5

เป็นความจริงที่ว่าแม้ว่าสิ่งนี้จะป้องกันไม่ให้ Google (และบ็อตที่ดี) จากการรวบรวมข้อมูลหน้าเว็บเหล่านี้และอ่านเนื้อหาของพวกเขาพวกเขายังสามารถแสดงลิงค์ URL เท่านั้นใน SERPs หากพวกเขาเชื่อมโยงกับรูปแบบ:

ลิงก์ URL ใน Google SERPs เท่านั้น

อย่างที่คุณเห็นไม่มีชื่อหรือคำอธิบายมันเป็นเพียงแค่ URL โดยปกติผลลัพธ์ประเภทนี้จะถูกตัดออกจาก SERP ยกเว้นว่าคุณค้นหาอย่างชัดเจน

และเมื่อคุณพูดถึงคำตอบของคุณหากคุณไม่ต้องการให้ URL ปรากฏใน SERPs คุณต้องอนุญาตหุ่นยนต์ แต่รวมเมตาแท็ก noindex

— MrWhite
แหล่งที่มา