แคชของ Google robots.txt หรือไม่


17

ฉันเพิ่มไฟล์robots.txtลงในหนึ่งในเว็บไซต์ของฉันเมื่อสัปดาห์ที่แล้วซึ่งควรป้องกันไม่ให้ Googlebot พยายามดึง URL บางอย่าง อย่างไรก็ตามในสุดสัปดาห์นี้ฉันสามารถเห็น Googlebot โหลด URL ที่แน่นอนเหล่านั้น

Google cache robots.txtและถ้าเป็นเช่นนั้นควรหรือไม่

คำตอบ:


13

ฉันจะขอแนะนำการลงทะเบียนเว็บไซต์ของคุณด้วยGoogle Search Console (ก่อนหน้านี้ Google Webmaster Tools) มีส่วนการเข้าถึงของตัวรวบรวมข้อมูลภายใต้การกำหนดค่าไซต์ที่จะแจ้งให้คุณทราบเมื่อดาวน์โหลดrobots.txtครั้งล่าสุด เครื่องมือนี้ยังให้รายละเอียดมากมายเกี่ยวกับวิธีที่โปรแกรมรวบรวมข้อมูลเห็นไซต์ของคุณสิ่งที่ถูกบล็อกหรือไม่ทำงานและตำแหน่งที่คุณปรากฏในข้อความค้นหาใน Google

จากสิ่งที่ฉันบอกได้ Google จะดาวน์โหลดrobots.txtบ่อยๆ ไซต์ Google Search Console จะให้คุณลบ URL ออกจากดัชนีโดยเฉพาะดังนั้นคุณสามารถลบ URL ที่คุณกำลังบล็อกอยู่ได้


2
ฉันตรวจสอบเครื่องมือของผู้ดูแลเว็บ: ไฟล์ robots.txt นั้นถูกต้องและถูกเรียกล่าสุดเป็นเวลา 17 ชั่วโมงก่อนที่ Googlebot จะเข้าชมหน้าเหล่านั้นครั้งล่าสุด ฉันสงสัยว่ามันเป็นคำถามของการเผยแพร่ผ่านเครือข่ายของ Google - ในที่สุดเซิร์ฟเวอร์ googlebot ทั้งหมดจะติดตามคำแนะนำ robots.txt
Quog

บอทของ Google ไม่ได้ใช้ robots.txt บ่อยเท่าที่มีการรายงานการปรับปรุงใน Search Console เป็นเวลาสี่สัปดาห์แล้วตั้งแต่ฉันอัปเดตและบอทของ Google ยังคงใช้ robots.txt ที่ไม่ดี - และมันทำลายการรับส่งข้อมูลและอันดับของเรา
Corporate Geek

3

อดทน ฉันเปลี่ยนจาก robots.txt ไปเป็น meta noindex แล้วไม่มีผู้ติดตาม ในการทำให้เมตาทำงานได้ที่อยู่ที่ถูกบล็อกใน robots.txt ต้องถูกปลดล็อคก่อน

ฉันทำสิ่งนี้อย่างไร้ความปราณีโดยการลบ robots.txt ทั้งหมด (และลบทิ้งในเว็บมาสเตอร์ของ Google)

กระบวนการลบ robots.txt ดังที่เห็นในเครื่องมือเว็บมาสเตอร์ (จำนวนหน้าถูกบล็อก) ใช้เวลาดำเนินการ 10 สัปดาห์ซึ่ง Google จะลบออกจำนวนมากในช่วง 2 สัปดาห์ที่ผ่านมา


ฉันมักจะเห็นด้วยกับคุณ เราได้ทำผิดพลาดและอัปเดตไฟล์ robots.txt อย่างไม่ถูกต้อง Google แคชและใช้งานได้สี่สัปดาห์หลังจากที่เราแก้ไขข้อผิดพลาดและแทนที่ด้วย robots.txt ใหม่ ฉันส่งคำขอรีเฟรชด้วยตนเองใน Google Webmaster Tools และ ... ไม่มีอะไรเลย นี่แย่มากเพราะส่งผลให้ปริมาณการเข้าชมและการจัดอันดับสูญหาย :(
Corporate Geek

2

ใช่ Google จะแคชrobots.txtอย่างชัดเจน- จะไม่ดาวน์โหลดทุกครั้งที่ต้องการดูหน้าเว็บ นานแค่ไหนที่แคชสำหรับฉันไม่รู้ อย่างไรก็ตามหากคุณมีชุดส่วนหัวที่หมดอายุยาว Googlebot อาจปล่อยให้มันยาวกว่านั้นเพื่อตรวจสอบไฟล์

ปัญหาอื่นอาจเป็นไฟล์ที่กำหนดค่าผิดพลาด ในเครื่องมือของผู้ดูแลเว็บที่ danivovich แนะนำมีตัวตรวจสอบrobots.txt มันจะบอกคุณว่าหน้าเว็บประเภทไหนถูกบล็อกและหน้าไหนดี


ดูความคิดเห็นต่อคำตอบนี้ได้ที่webmasters.stackexchange.com/questions/2272/…
Quog

2
@Quog: ดูวิดีโอล่าสุดนี้: youtube.com/watch?v=I2giR-WKUfY Matt Cutts แนะนำให้ดาวน์โหลด robots.txt วันละครั้งหรือประมาณ 100 คำขอ
DisgruntledGoat

2

เอกสารของ Google ระบุว่าโดยปกติแล้วพวกเขาจะแคชrobots.txtเป็นเวลาหนึ่งวัน แต่อาจใช้งานได้นานขึ้นหากพวกเขาได้รับข้อผิดพลาดเมื่อพยายามรีเฟรช

โดยทั่วไปคำขอ robots.txt จะถูกแคชนานถึงหนึ่งวัน แต่อาจถูกแคชนานกว่าในกรณีที่ไม่สามารถรีเฟรชเวอร์ชันแคชได้ (ตัวอย่างเช่นเนื่องจากหมดเวลาหรือข้อผิดพลาด 5xx) การตอบสนองที่แคชอาจใช้ร่วมกันโดยซอฟต์แวร์รวบรวมข้อมูลที่แตกต่างกัน Google อาจเพิ่มหรือลดอายุการใช้งานแคชตามส่วนหัว Cache-Control HTTP สูงสุด


1

ใช่. พวกเขาบอกว่าพวกเขามักจะอัพเดทวันละครั้ง แต่บางคนก็แนะนำว่าพวกเขาอาจตรวจสอบหลังจากจำนวนหน้าฮิต (100?) เพื่อให้เว็บไซต์ยุ่งกว่ามีการตรวจสอบบ่อยขึ้น

ดู/webmasters//a/29946และวิดีโอที่ @DisgruntedGoat ร่วมกันดังกล่าวข้างต้นhttp://youtube.com/watch?v=I2giR-WKUfY


1

จากสิ่งที่ฉันเห็นบนแคชที่ผู้ใช้เข้าถึงได้สิ่งที่คุณต้องทำคือพิมพ์ URL ของไฟล์robots.txtของคุณลงในการค้นหาโดย Google จากนั้นคลิกลูกศรดร็อปดาวน์สีเขียวเล็กน้อยแล้วคลิก 'แคช' (ดูภาพด้านล่าง) สิ่งนี้จะให้เวอร์ชั่นล่าสุดของหน้านั้นจากเซิร์ฟเวอร์ Googles

ป้อนคำอธิบายรูปภาพที่นี่


-2

คุณสามารถขอให้ลบของการใช้เครื่องมือกำจัดของ Google URL


นี่ไม่ได้ตอบคำถาม
MrWhite

ทำไมคำตอบไม่ได้?
KOZASHI SOUZA

เนื่องจากคำถามนี้เกี่ยวกับ robots.txt โดยเฉพาะการแคชและการรวบรวมข้อมูล URL หนึ่งในผลลัพธ์ของสิ่งนี้อาจเป็นได้ว่า URL นั้นไม่ได้จัดทำดัชนี แต่นั่นไม่ใช่คำถาม (เครื่องมือลบ URL ของ Google เป็นเพียงการแก้ไข "tempoary" มีขั้นตอนอื่น ๆ ที่คุณต้องทำเพื่อให้ถาวร)
MrWhite
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.