ป้องกันแผนผังไซต์ XML ไม่ให้แสดงในผลการค้นหาของ Google


23

ฉันจะป้องกันไม่ให้ไฟล์แผนผังไซต์ XML ของฉันแสดงในผลการค้นหาของ Google เช่นผลลัพธ์ของการsite:ค้นหา:

แผนผังเว็บไซต์ในผลการค้นหา

ฉันไม่เข้าใจว่าทำไม Google เลือกที่จะแสดงไฟล์แผนผังเว็บไซต์ในผลการค้นหาเพื่อเริ่มต้น ไฟล์เหล่านี้ไม่ได้มีไว้สำหรับการบริโภคของมนุษย์

Google จะต้องสามารถที่จะรวบรวมข้อมูลเพื่อให้สามารถดำเนินการได้ดังนั้นผมจึงไม่สามารถอนุญาตให้ไว้ในrobots.txt ฉันไม่ต้องการให้พวกเขาใส่มันลงในผลการค้นหาหลังจากทำการประมวลผล


1
ฮะ. น่าสนใจ ความคิดเดียวที่ฉันมีคือถ้าคุณมีลิงค์ไปยังเว็บไซต์ของคุณหรือปรากฏในไฟล์แผนผังไซต์ของคุณ เช่นกันฉันไม่แน่ใจว่าคุณอ้างถึงมันในไฟล์ robots.txt ของคุณหรือไม่หากนั่นอาจเป็นปัจจัย ฉันจะไม่คิดอย่างนั้นเพียงบางสิ่งที่ต้องพิจารณา ฉันส่งแผนผังไซต์ของฉันผ่าน Google WMT เท่านั้นและไม่เห็นปัญหานี้ - อย่างน้อยยังไม่ ฉันเข้าใจได้ว่าไม่ต้องการให้คุณทำแผนผังไซต์สาธารณะ ฉันไม่ต้องการให้สาธารณะของฉัน มีแฮ็กเกอร์ / ตัวขูดจำนวนมากเกินไป
Closnoc

3
ในเว็บไซต์นี้โดยเฉพาะอย่างยิ่งผมได้/sitemap.xmlระบุไว้ในrobots.txtแล้วว่าการเชื่อมโยงไปยังชุดที่แตกต่างกันของแผนผังเว็บไซต์อื่น ๆ ที่ชอบและ/sitemap-123.xml /sitemap-124.xmlฉันสร้างแผนผังไซต์ใหม่ทุกวันและจำนวนเปลี่ยนทุกวัน สิ่งที่ถูกจัดทำดัชนีนั้นค่อนข้างเก่า ฉันไม่ได้ลิงก์ไปที่ใดก็ได้ในเว็บไซต์ของฉัน แต่เป็นไปได้ว่าบางเว็บไซต์มีลิงค์ไปยังที่อื่น
Stephen Ostermiller

1
หากไม่ได้ใช้ตรวจสอบให้แน่ใจว่าถูกลบแล้วแยกออกในไฟล์ robots.txt ของคุณและจะลดลงจาก SERP อย่างรวดเร็ว สิ่งที่ลบ URL ใน Google WMT นั้นใช้เวลาตลอดไป (เดือนสำหรับฉัน) ในขณะที่ robots.txt นั้นค่อนข้างรวดเร็ว
Closnoc

1
คุณส่งแผนผังเว็บไซต์ XMLไปยังบัญชี GWMT ของคุณหรือไม่
Oleg

3
ไฟล์แผนผังเว็บไซต์ยังคงมีอยู่จนถึงปัจจุบัน ฉันลบมันและตอนนี้มันเปลี่ยนเส้นทางไปยัง/sitemap.xml ฉันคิดว่าแผนผังไซต์เฉพาะนี้จะหลุดออกจากดัชนี ฉันต้องการป้องกันไม่ให้ Google แสดงพวกเขาเพื่อค้นหาผู้ใช้ในอนาคตด้วย
Stephen Ostermiller

คำตอบ:


18

Google ทำดัชนีแผนผังเว็บไซต์ XML (เช่นไฟล์ XML ใด ๆ ) หาก Google รับรู้ URL และส่งคืนการตอบสนองที่ถูกต้องก็จะต้องผ่านกฎการรวมของ Google และอาจได้รับการจัดทำดัชนี โดยส่วนตัวแล้วฉันส่งแผนผังไซต์ผ่าน GWT เท่านั้นและรวมการSitemap:อ้างอิงใน robots.txt และนี่ก็เพียงพอแล้วที่จะได้รับการจัดทำดัชนี

วิธีที่แนะนำเพื่อป้องกันไม่ให้ไฟล์เหล่านี้ถูกทำดัชนีโดย Google คือการรวมX-Robots-Tagส่วนหัวการตอบสนอง HTTP เมื่อแสดงแผนผังเว็บไซต์ XML ตัวอย่างเช่น:

X-Robots-Tag: noindex

เช่นเดียวกับการรวมแท็ก robots META ในไฟล์ HTML X-Robots-Tagส่วนหัวสามารถใช้กับไฟล์ประเภทใดก็ได้

การอ้างอิง:เอกสารนี้ (ตั้งแต่ พ.ย. 2551!) ดูเหมือนจะอ้างถึงJohn Mueller (Google) ของเราเองเกี่ยวกับการใช้X-Robots-Tagคำตอบเมื่อจัดการกับ XML sitemaps
ใช่ Google จะจัดทำดัชนีและจัดอันดับไฟล์แผนผังไซต์ XML ของคุณ

สำหรับข้อมูลเพิ่มเติมโปรดดูคู่มือนักพัฒนาซอฟต์แวร์ของ Google:
ข้อมูลจำเพาะของแท็ก Robots และ X-Robots-Tag HTTP


ฉันจะเขียนX-Robots-Tag: noindexรหัสส่วนหัวได้ที่ไหน ภายในsitemap.xmlหรือrobots.txt?
xameeramir

1
@ นักเรียนเป็นส่วนหัวการตอบสนอง HTTPดังนั้นจึงต้องตั้งค่าก่อนที่จะให้บริการไฟล์เหล่านั้น (เป็นส่วนหนึ่งของส่วนหัวการตอบสนอง HTTP) - มันไม่สามารถตั้งค่า "ภายใน" พวกเขา ขึ้นอยู่กับว่าคุณให้บริการไฟล์เหล่านี้อย่างไรคุณสามารถตั้งค่านี้ในรหัสฝั่งเซิร์ฟเวอร์ของคุณ (เช่นใน PHP header('X-Robots-Tag: noindex',true)) หรือหากคุณใช้ Apache ในไฟล์. htaccess หรือเซิร์ฟเวอร์ของคุณ ดูคำตอบของ Stephenสำหรับโค้ดตัวอย่าง ดูคู่มือนักพัฒนาซอฟต์แวร์ของ Google ที่เชื่อมโยงกับด้านบน
MrWhite

8

คำตอบของ MrWhite เกี่ยวกับการใช้ X-Robots-Tag นั้นเป็นวิธีที่ถูกต้องในการทำสิ่งนี้

นี่คือรหัสที่สามารถใช้ใน. htaccessหรือไฟล์การกำหนดค่าApacheให้ทำ (ข้อมูลอ้างอิง: WebmasterWorld - แผนผังไซต์แสดงใน SERP - จะป้องกันได้อย่างไร )

<Files ~ "sitemap.*\.xml(\.gz)?$">
  Header append X-Robots-Tag "noindex"
</Files>

ภายใต้nginxการกำหนดค่าจะเป็นดังนี้ (ข้อมูลอ้างอิง: ตัวอย่างYo-X-Robots-Tag )

location ~* sitemap.*\.xml(\.gz)?$ {
    add_header X-Robots-Tag "noindex";
}

2

ทำไมมันถึงสำคัญ?

หากคุณสามารถค้นหาแผนผังเว็บไซต์ของคุณได้ใน SERP คุณจะมีปัญหาใหญ่กว่าเดิม

ฉันจะมุ่งเน้นที่การเพิ่มหน้าเว็บด้วยเนื้อหาที่มีประโยชน์แทน ด้วยวิธีนี้คุณจะมีช่วงเวลาที่ยากลำบากมากแม้จะพบว่าคุณ sitemap ไม่ว่าคุณจะสนใจจุดนั้นอยู่ดี

PS

ค่อนข้างทุกคนเก็บแผนผังเว็บไซต์ไว้ในที่เดียวกัน ดังนั้นหากมีคนต้องการค้นหาที่ที่คุณเก็บไว้พวกเขาจะ :)


4
ฉันใช้ Google เพื่อการค้นหาเว็บไซต์และฉันเจอแผนผังไซต์เมื่อใช้งาน มันจะสร้างความสับสนให้กับผู้ใช้ของฉันมากหากพวกเขาคลิกมัน
Stephen Ostermiller

คุณคิดว่าผู้ใช้ของคุณมีกี่คนที่ใช้ Google ในการค้นหาไซต์
dasickle

3
ผู้ใช้ทั้งหมดที่พิมพ์ข้อความค้นหาลงในช่องค้นหาที่ด้านบนของหน้าของฉัน
Stephen Ostermiller

ในกรณีนั้น. คุณเคยพิจารณาใช้swiftype.comในการค้นหาเว็บไซต์ของคุณหรือไม่? มีส่วนอื่น ๆ ที่คุณสามารถใช้ได้ คุณสามารถสั่งซื้อใหม่ลบและเพิ่มผลลัพธ์ได้ คุณยังได้รับสถิติที่ยอดเยี่ยมและอื่น ๆ อีกมากมาย
dasickle

-6

ใส่สิ่งต่อไปนี้ลงใน robots.txt

User-agent: *
Disallow: /sitemap.xml

ส่งแผนผังไซต์ของคุณผ่านเครื่องมือเว็บมาสเตอร์ของ Google แทน


1
คุณช่วยอธิบายเหตุผลของคุณให้ชัดเจนได้ไหม - ประโยคแรกของคุณดูเหมือนจะขัดแย้งกับครั้งสุดท้าย
MrWhite

5
Google จะยังคงรวบรวมข้อมูลแผนผังไซต์ที่ถูกบล็อกใน robots.txt หรือไม่ คุณมีการอ้างอิงเพื่อสนับสนุนการยืนยันหรือไม่?
Stephen Ostermiller

4
หากคุณไม่อนุญาตให้ใช้ sitemap.xml ฉันค่อนข้างแน่ใจว่าจะไม่มีการรวบรวมข้อมูลอีกต่อไป ไม่ใช่สิ่งที่คุณต้องการจะเกิดขึ้น!
สูงสุด

2
Google จะไม่รวบรวมข้อมูลเอกสารใด ๆ ที่ไม่อนุญาตให้ robots.txt ไม่ปกติแล้ว ... รวมถึงแผนที่เว็บไซต์
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.