ทำความเข้าใจกับสถิติการรวบรวมข้อมูลของ Google


11

ฉันเปิดตัวเว็บไซต์ของฉันในเดือนมกราคม '11 และมีการจัดทำดัชนีใน Google ซึ่งยอดเยี่ยม - มีเนื้อหาประมาณ 300 หน้า ฉันพยายามที่จะเข้าใจว่าเกิดอะไรขึ้นสถิติการรวบรวมข้อมูลประมาณปลายเดือนมิถุนายนและต้นเดือนกรกฎาคม อะไรทำให้เกิดการปีนขนาดใหญ่ การก้าวไปข้างหน้าหมายถึงอะไร มีอะไรอีกบ้างที่ฉันควรทำ?


ป้อนคำอธิบายรูปภาพที่นี่

คำตอบ:


2

หากคุณรู้สึกว่าพวกเขากำลังรวบรวมข้อมูลเว็บไซต์ของคุณมากเกินไป (อาจหายไปจากเนื้อหาที่ลึกกว่า) คุณควรตรวจสอบให้แน่ใจว่าส่วนหัว HTTP ของคุณคืนค่าที่ดีให้กับสิ่งต่าง ๆ เช่นเวลา 'แก้ไขล่าสุด' เป็นต้น Googlebot อาจประเมินว่า . เป็นโบนัสเว็บไซต์ของคุณจะทำงานได้ดีขึ้นเกี่ยวกับแคช (ไม่ว่าจะเป็นพร็อกซีหรือเบราว์เซอร์) และทำให้รู้สึกเร็วขึ้นเล็กน้อย

คุณควรศึกษาว่า URL ใดที่กำลังถูกรวบรวมข้อมูล (โดยการตรวจสอบบันทึกเซิร์ฟเวอร์ของคุณ) หากพวกเขากำลังรวบรวมซ้ำ URL เดิมซ้ำแล้วซ้ำอีกแสดงว่าคุณมีปัญหาอย่างแน่นอน ตัวแปรทั่วไปของเรื่องนี้คือถ้าคุณมีหน้าเว็บที่สามารถแสดงได้หลายวิธีโดยใช้ตัวแปรคำขอ Googlbot อาจพยายามรวบรวมข้อมูลทุกอย่างที่เป็นไปได้ของตัวแปรเหล่านั้น

ตัวอย่างที่ฉันพบในฐานะผู้ดำเนินการรวบรวมข้อมูลคือหน้าเว็บที่มีรายการหัวเรื่อง 20 หัวข้อชุดค่าผสมใดก็ได้ที่สามารถขยายได้ โดยทั่วไปหน้านั้นมี 2 ^ 20 URL ที่แตกต่างกัน!

ตรวจสอบให้แน่ใจว่า Googlebot ไม่ได้ติดอยู่กับการรวบรวมข้อมูลโดยทั่วไปหน้าเดียวกันซ้ำแล้วซ้ำอีกโดยใช้พารามิเตอร์ที่แตกต่างกันเล็กน้อย (ฉันเห็นว่าติดไปแล้ว)


ขอบคุณสำหรับสิ่งนี้ฉันสังเกตเห็นว่าในวันนี้มีอีกกิจกรรม 'ขัดขวาง' ดังนั้นฉันจึงกังวลมากขึ้นเนื่องจากสถิติการรวบรวมข้อมูลของ Google รวบรวมข้อมูลเนื้อหา 1,000 หน้า - ฉันมีเพียง 300 หน้า! ฉันจะตรวจสอบเพื่อดูว่าหน้าใดที่ Google รวบรวมข้อมูลซ้ำแล้วซ้ำอีก และฉันจะตรวจสอบว่าส่วนหัว HTTP ของฉันคืนค่าที่ดีได้อย่างไร - มีแอปทดสอบหรือไม่
Ubique

บันทึกเซิร์ฟเวอร์ของคุณควรบอกคุณว่าหน้าเว็บใดที่ Google กำลังรวบรวมข้อมูล สำหรับส่วนหัว HTTP นั้นมีปลั๊กอิน Firefox จำนวนหนึ่ง ส่วนตัวฉันใช้ Firebug
กริช

1

ฉันเดาว่า Google จะเปลี่ยนอัตราการรวบรวมข้อมูลตามอายุของไซต์ความนิยม (ลิงก์ไปยังเว็บไซต์ของคุณ) มาร์กอัปและส่วนหัวแผนที่ไซต์ที่เหมาะสม ฯลฯ พวกเขายังเปลี่ยนโปรแกรมรวบรวมข้อมูลเป็นระยะเวลาหนึ่งแล้วเพื่อให้เนื้อหาสามารถปรากฏในผลการค้นหาได้เร็วกว่า (อย่างน้อย 2 สัปดาห์ก่อนการเปลี่ยนแปลง)

ดังนั้นเมื่อฉันเปิดตัวบล็อกของฉันเมื่อ 2 ปีก่อนมันใช้เวลาหลายเดือนของ Google ในการจัดทำดัชนีเนื้อหาและสัปดาห์ทั้งหมดเพื่อจัดทำดัชนีโพสต์ใหม่ ตอนนี้ฉันเห็นโพสต์ในผลการค้นหาในวันเดียวกับที่ฉันประกาศ

ง่ายๆนั่นคือ google ไม่ชอบไซต์ใหม่ แต่เคารพผู้อาวุโส

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.