หากคุณรู้สึกว่าพวกเขากำลังรวบรวมข้อมูลเว็บไซต์ของคุณมากเกินไป (อาจหายไปจากเนื้อหาที่ลึกกว่า) คุณควรตรวจสอบให้แน่ใจว่าส่วนหัว HTTP ของคุณคืนค่าที่ดีให้กับสิ่งต่าง ๆ เช่นเวลา 'แก้ไขล่าสุด' เป็นต้น Googlebot อาจประเมินว่า . เป็นโบนัสเว็บไซต์ของคุณจะทำงานได้ดีขึ้นเกี่ยวกับแคช (ไม่ว่าจะเป็นพร็อกซีหรือเบราว์เซอร์) และทำให้รู้สึกเร็วขึ้นเล็กน้อย
คุณควรศึกษาว่า URL ใดที่กำลังถูกรวบรวมข้อมูล (โดยการตรวจสอบบันทึกเซิร์ฟเวอร์ของคุณ) หากพวกเขากำลังรวบรวมซ้ำ URL เดิมซ้ำแล้วซ้ำอีกแสดงว่าคุณมีปัญหาอย่างแน่นอน ตัวแปรทั่วไปของเรื่องนี้คือถ้าคุณมีหน้าเว็บที่สามารถแสดงได้หลายวิธีโดยใช้ตัวแปรคำขอ Googlbot อาจพยายามรวบรวมข้อมูลทุกอย่างที่เป็นไปได้ของตัวแปรเหล่านั้น
ตัวอย่างที่ฉันพบในฐานะผู้ดำเนินการรวบรวมข้อมูลคือหน้าเว็บที่มีรายการหัวเรื่อง 20 หัวข้อชุดค่าผสมใดก็ได้ที่สามารถขยายได้ โดยทั่วไปหน้านั้นมี 2 ^ 20 URL ที่แตกต่างกัน!
ตรวจสอบให้แน่ใจว่า Googlebot ไม่ได้ติดอยู่กับการรวบรวมข้อมูลโดยทั่วไปหน้าเดียวกันซ้ำแล้วซ้ำอีกโดยใช้พารามิเตอร์ที่แตกต่างกันเล็กน้อย (ฉันเห็นว่าติดไปแล้ว)