Google Webmaster Tools บอกฉันว่าโรบอตกำลังปิดกั้นการเข้าถึงแผนผังไซต์


11

นี่คือrobots.txtของฉัน:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Sitemap: http://www.example.org/sitemap.xml.gz

แต่ Google Webmaster Tools บอกฉันว่าโรบอตกำลังปิดกั้นการเข้าถึงแผนผังไซต์:

เราพบข้อผิดพลาดขณะพยายามเข้าถึง Sitemap ของคุณ โปรดตรวจสอบแผนผังไซต์ของคุณปฏิบัติตามแนวทางของเราและสามารถเข้าถึงได้ในสถานที่ที่คุณให้แล้วส่งอีกครั้ง: URL ที่ จำกัด โดย robots.txt

ฉันอ่านว่า Google เครื่องมือของผู้ดูแลเว็บแคชrobots.txtแต่ไฟล์ได้รับการอัปเดตมากกว่า 36 ชั่วโมงที่แล้ว

ปรับปรุง:

การกดปุ่ม TEST Sitemap จะไม่ทำให้ Google ดึงแผนผังไซต์ใหม่ แผนผังไซต์ SUBMIT เท่านั้นที่สามารถทำได้ (BTW ฉันไม่เห็นสิ่งที่เป็นจุดใน 'ทดสอบ sitemap' ยกเว้นว่าคุณวาง sitemap ปัจจุบันของคุณในนั้น - ไม่ดึงสำเนา sitemap ใหม่จากที่อยู่ที่ขอให้คุณป้อนก่อนการทดสอบ - แต่นั่นคือ คำถามอีกวัน)

หลังจากส่ง (แทนการทดสอบ) แผนผังเว็บไซต์ใหม่สถานการณ์เปลี่ยนไป ตอนนี้ฉันได้รับ "URL ที่ถูกบล็อกโดยrobots.txtแผนผังไซต์มี URL ที่ถูกปิดกั้นโดยrobots.txt " สำหรับ 44 URL มี URL ทั้งหมด 44 รายการในแผนผังไซต์ ซึ่งหมายความว่า Google ใช้แผนผังไซต์ใหม่ แต่ยังคงเป็นไปตามกฎของโรบอตเก่า (ซึ่งเก็บทุกอย่างไม่ จำกัด )ไม่มี URL 44 รายการที่อยู่ใน/wp-admin/หรือ/wp-includes/(ซึ่งเป็นไปไม่ได้เลยเพราะrobots.txtสร้างขึ้นบน บินโดยปลั๊กอินเดียวกันที่สร้างแผนผังเว็บไซต์)

อัปเดต 2:

มันแย่ลง: ในหน้าผลการค้นหาของ Google คำอธิบายสำหรับหน้าแรกจะอ่าน: "คำอธิบายสำหรับผลลัพธ์นี้ไม่สามารถใช้งานได้เนื่องจากrobots.txtของเว็บไซต์นี้- เรียนรู้เพิ่มเติม" หน้าอื่น ๆ ทั้งหมดมีคำอธิบายที่ดี ไม่มีrobots.txtหรือ meta robots ที่ปิดกั้นการทำดัชนีของหน้าแรก

ผมติดอยู่.


ในเครื่องมือผู้ดูแลเว็บของ Google> สุขภาพ> URL ที่ถูกบล็อกคุณสามารถทดสอบได้ทันทีว่า robots.txt ของคุณจะบล็อก URL แผนผังเว็บไซต์ของคุณ (หรือ URL อื่นใดที่คุณต้องการทดสอบ) ดูเหมือนว่าrobots.txt ปัจจุบันของคุณควรบล็อกแผนผังเว็บไซต์ของคุณ แต่คุณบอกว่าสิ่งนี้ได้รับการปรับปรุงแล้ว ได้ก่อนหน้ารุ่นของไฟล์ robots.txt บล็อกนี้หรือไม่?
MrWhite

1
ใช่รุ่นก่อนหน้านี้ปิดกั้น ฉันเดาว่า google ไม่ได้อัปเดตแคช ...
Gaia

ฉันมีปัญหาเดียวกัน แคช robots.txt ของฉันมาจาก 23 เมษายนปีนี้วันนี้คือ 25 เมษายนและแคชเก่า ฉันไม่มีเวลารอฉันต้อง googleboot จัดทำดัชนีเว็บไซต์ของฉันตอนนี้ (เป็นเว็บไซต์ธุรกิจ) แต่ดูเหมือนว่าฉันไม่สามารถทำอะไรได้เลยเพียงแค่รอไม่ทราบว่าจะต้องใช้เวลานานเท่าใด มันน่าผิดหวังมาก!

คำตอบ:


8

ดูเหมือนว่า Google อาจยังไม่ได้อัปเดตแคชของไฟล์ robots.txt ของคุณ ไฟล์ robots.txt ปัจจุบันของคุณ (ด้านบน) ไม่ได้ดูว่าควรบล็อก URL แผนผังเว็บไซต์ของคุณหรือไม่

ฉันเดาว่า google ไม่ได้อัปเดตแคช

ไม่จำเป็นต้องเดา ใน Google Webmaster Tools (GWT) ภายใต้ "Health"> "URL ที่ถูกบล็อก" คุณจะเห็นว่าเมื่อใดที่ robots.txt ของคุณถูกดาวน์โหลดครั้งล่าสุดและไม่ว่าจะสำเร็จหรือไม่ นอกจากนี้ยังจะแจ้งให้คุณทราบว่าไฟล์ robots.txt ถูกบล็อก URL จำนวนเท่าใด

การอ้างอิง robots.txt ใน Google Webmaster Tools

ดังที่ได้กล่าวไว้ในความคิดเห็นของฉัน GWT มีเครื่องมือตรวจสอบ robots.txt ("สุขภาพ"> "URL ที่ถูกบล็อก") ดังนั้นคุณสามารถทดสอบการเปลี่ยนแปลงของ robots.txt ได้ทันที (โดยไม่ต้องเปลี่ยนไฟล์จริง) ระบุไฟล์ robots.txt ใน textarea ตอนบนและ URL ที่คุณต้องการทดสอบใน textarea ที่ต่ำกว่าและมันจะบอกคุณว่าพวกเขาจะถูกบล็อกหรือไม่


การแคช robots.txt

โดยทั่วไปคำขอ robots.txt จะถูกแคชนานถึงหนึ่งวัน แต่อาจถูกแคชนานกว่าในสถานการณ์ที่ไม่สามารถรีเฟรชเวอร์ชันแคชได้ (ตัวอย่างเช่นเนื่องจากหมดเวลาหรือข้อผิดพลาด 5xx) การตอบสนองที่แคชอาจใช้ร่วมกันโดยซอฟต์แวร์รวบรวมข้อมูลที่แตกต่างกัน Google อาจเพิ่มหรือลดอายุการใช้งานแคชตามส่วนหัว Cache-Control HTTP สูงสุด

ที่มา: นักพัฒนาของ Google - ข้อมูลจำเพาะของ Robots.txt


เป็นไปได้ไหมที่ 24 ชั่วโมงต่อมา
Gaia

วันที่ "ดาวน์โหลด" ตามที่รายงานในเครื่องมือของผู้ดูแลเว็บคืออะไร ที่จะบอกคุณว่ามันเป็นยังคงเป็นกรณี ดังที่แสดงในภาพหน้าจอด้านบน (จากหนึ่งในเว็บไซต์ของฉัน) ไฟล์ robots.txt ถูกดาวน์โหลดครั้งสุดท้ายเมื่อ "3 ก.ย. 2012" (3 วันที่ผ่านมา) แต่ในกรณีของฉันไม่จำเป็นต้องดาวน์โหลดไฟล์อีกครั้งเนื่องจากไม่มีการเปลี่ยนแปลงใด ๆ (ส่วนหัวที่แก้ไขล่าสุดควรเหมือนกัน) ความถี่ที่ Google ดึงไฟล์ robots.txt ของคุณจะขึ้นอยู่กับส่วนหัว Expires และ Last-Modified ที่เซิร์ฟเวอร์ของคุณตั้งค่าไว้
MrWhite

ดาวน์โหลดเมื่อ 22 ชั่วโมงที่แล้วส่วนหัวหมดอายุบอกว่า +24 ชม. ฉันจะลองอีกครั้งในสองสามชั่วโมงมันควรจะแก้ไข!
Gaia

นั่นไม่ได้ทำมัน google ใช้ sitemap ใหม่ แต่ยังคงเป็นไปตามกฎ robots.txt เก่า (ซึ่งเก็บทุกอย่างไม่ จำกัด )
Gaia

"นั่นไม่ได้ทำ" - Google ยังไม่ได้อัปเดตแคชของไฟล์ robots.txt ของคุณหรือไม่ แม้ว่าคุณจะบอกว่าคุณได้เปลี่ยนไฟล์ 36+ ชั่วโมงที่ผ่านมาและมีการรายงานว่ามีการดาวน์โหลดเมื่อ 22 ชั่วโมงที่แล้ว! คุณเห็นอะไรเมื่อคุณคลิกลิงก์ไปยังไฟล์ robots.txt ของคุณ
MrWhite

2

ฉันมีปัญหาเดียวกันกับเว็บไซต์ของฉันเพราะในระหว่างการติดตั้ง WP ฉันเลือกไม่ติดตามด้วยเครื่องมือค้นหาหรือตัวเลือกเดียวกัน

เมื่อต้องการแก้ไขปัญหานี้:

  1. ไปที่เครื่องมือของผู้ดูแลเว็บรวบรวมข้อมูลลบ URL แล้วส่งwww.example.com/robots.txtตัวเลือกนี้ -> ลบออกจาก cach เพื่อเปลี่ยนเนื้อหาหรือ ...
  2. รอนาที
  3. ส่ง URL แผนผังไซต์ของคุณอีกครั้ง
  4. เสร็จสิ้น
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.